正規表現で日本語を扱う場合
正規表現で日本語を扱う場合
Perl5.8の正規表現で日本語を扱う場合、euc-jpとutf8のどちらがパフォーマンスが良いかちょっと試したところ、やっぱりutf8のほうが良かった。
utf8→euc-jpの変換を加えてもutf8のほうが速い。入力から出力までeuc-jpのまま処理する場合なら、euc-jp→utf8→euc-jpという変換があるとさすがにeuc-jpのまま処理したほうが速かったけど。
というわけで、encodingの変換がある(可能性がある)場合は、基本的にはutf8で処理したほうが効率がいいという、当たり前の結論になりましたとさ。つまらない……。
とりあえずPOPFileの日本語パッチをutf8で書き直す理由にはなりそうなので*1、ぼちぼちといじってみますかね。