apacheとanalogのログ解析を強化し、検索エンジンを経由してきた場合の検索語統計を取ることに。まさに、今さらなんですが。
で、この時日本語等の2バイトコードはURLエンコードされていて理解不能なので、元の2バイトコードにデコードするperlスクリプトを探してcronの起動スクリプトに追加。
perl -e 'while (<>){ s/%([a-fA-F0-9][a-fA-F0-9])/pack("C", hex($1))/eg; print;}' /var/log/httpd/referer_log | nkf -e
しかし、いくつかうまくいかないものがあるようなので調べてたらUTF-8にエンコードされてるのが×な事に気付く。
で、ごそごそ調べてたらRei FURUKAWAさんがnkfのUTF-8対応版を公開されていたので、ありがたく頂いて万全。ついでに何気なく本家を見たら8日リリースの2.0βにもこのパッチが採用されてるようなので、本流でも正式にUTF-8対応になるみたいだ。すばらしい。
参照
●nkf のページ (本家)
●UTF-8対応 nkf