正規表現で日本語を扱う場合

正規表現で日本語を扱う場合

 Perl5.8の正規表現で日本語を扱う場合、euc-jpとutf8のどちらがパフォーマンスが良いかちょっと試したところ、やっぱりutf8のほうが良かった。

 utf8→euc-jpの変換を加えてもutf8のほうが速い。入力から出力までeuc-jpのまま処理する場合なら、euc-jp→utf8→euc-jpという変換があるとさすがにeuc-jpのまま処理したほうが速かったけど。

 というわけで、encodingの変換がある(可能性がある)場合は、基本的にはutf8で処理したほうが効率がいいという、当たり前の結論になりましたとさ。つまらない……。

 とりあえずPOPFileの日本語パッチをutf8で書き直す理由にはなりそうなので*1、ぼちぼちといじってみますかね。

*1:ちなみに、現状のような形でkakasiを使うのが一番パフォーマンス悪いです。