YANO's digital garage

Copyright ©YANO All rights reserved. https://www.bravotouring.com/~yano/

Last-modified: 2024-04-17 (水)


[一語一絵/IT系]

nkf UTF-8対応 / 2002-09-12 (木)

apacheとanalogのログ解析を強化し、検索エンジンを経由してきた場合の検索語統計を取ることに。まさに、今さらなんですが。

で、この時日本語等の2バイトコードはURLエンコードされていて理解不能なので、元の2バイトコードにデコードするperlスクリプトを探してcronの起動スクリプトに追加。

perl -e 'while (<>){ s/%([a-fA-F0-9][a-fA-F0-9])/pack("C", hex($1))/eg; print;}' /var/log/httpd/referer_log | nkf -e

しかし、いくつかうまくいかないものがあるようなので調べてたらUTF-8にエンコードされてるのが×な事に気付く。

で、ごそごそ調べてたらRei FURUKAWAさんがnkfのUTF-8対応版を公開されていたので、ありがたく頂いて万全。ついでに何気なく本家を見たら8日リリースの2.0βにもこのパッチが採用されてるようなので、本流でも正式にUTF-8対応になるみたいだ。すばらしい。

参照
nkf のページ (本家)
UTF-8対応 nkf