YANO's digital garage

Copyright ©YANO All rights reserved. https://www.bravotouring.com/~yano/

Last-modified: 2024-05-07 (火)


[一語一絵/IT系]

検索市場はどこへ向かう / 2007-01-22 (月)

昨夜オンエアされた[External]『グーグル革命の衝撃 ~あなたの人生を“検索”が変える~』。業界人的には特に目新しいモノもなくちょっと期待しすぎたかな。でも検索結果がビジネスに直結してお金になるという事を知らない多くの人には驚くべき事実の連続だったかもしれない。見逃した人は1/23(火)深夜の再放送をチェキ。

例え[External]Googleが良心的であったとしても「人の集まるところ」には多様な思惑が渦巻く事は避けられないわけで、[External]Googleのみならず検索サイトを過信するのは考えものだ。

さて、無節操なクローラー行動から13日以降[External]百度アクセス規制を開始したものの、apacheで弾くと言うことはGETリクエスト自体は飛んで来てしまうわけで、邪魔なトラヒックでリソースを浪費されている事には変わりない。

というわけでブロードバンドルーターでフィルタリングしようと思ったが、それでもルーターやADSLの帯域を浪費されてしまう事は避けられない事になる。まがりなりにもサービスを提供している者としてはこれもまた望ましい解決策とは言えないわけであり、とどのつまりBaiduspiderが来ないようにして貰うしかないわけである。

断りもなく勝手に検索するロボットに対して、サイトが意識的に規制を行う為の仕組みとして[External]Robots Exclusionという決め事がある。簡単に言うとrobots.txt

User-agent: Baiduspider
Disallow: /
と書いて、サーバーのrootに置けば「Baiduspiderは不許可」というお達しになるというわけだ。しかし[External]Robots Exclusionは「業界ルール」や「紳士協定」の類であり実装状況に関してはバラツキがあり、残念ながらrobots.txtが期待通りに効かなかった。

という経緯から、やむなくapacheで弾く事を余儀なくされたわけだが、[External]Baiduspider Q&Aをよく読んだら、

百度スパイダーがrobots.txtでの名前は何ですか。
全部アルファベット小文字の “baiduspider” です。
と書いてある事に気付いた。

なんでUser-Agentの"Baiduspider+"と違うんだよ!と怒ったところで空しいばかりなので、潔くrobots.txt

User-agent: baiduspider
Disallow: /

User-agent: yodaobot
Disallow: /

User-agent: YodaoBot
Disallow: /
と書き直した。

ちなみにYodaoBotというのは[External]有道という検索サイトのロボット。[External]百度の後を追うようにアクセス急増中。ドメインこそ.comだがこいつも中国なので、まとめて規制することにした。小文字でも書いているのは念の為。

取り敢えず引き続きapacheで403を返し続けているので毎日2000~4000あったリクエスト数は10程度にまで減ってきているのだが、YodaoBotは2~3日で速攻効いたのにBaiduspiderは一週間経ってもrobots.txtを読みに来ないのはどういう事よ!?

折しも昨日は[External]『報道特集』でも「中国人の公衆マナー」を取り上げていたが、この勢いだとオンラインでも注目を集めるのは時間の問題だろうなぁ。

【参照】
●百度(Baidu) http://www.baidu.com/
BaiduspiderQ&A
●有道(yodao) http://www.yodao.com/
●ITmedia http://www.itmedia.co.jp/
Google、中国の検索大手Baiduに出資 2004年6月16日
中国の検索市場、Googleはシェア3位 2006年6月23日
検索サイト「百度」がえらいことになっている 2006年9月25日
中国の検索エンジンBaidu、日本進出へ 2006年12月4日
MS、中国でBaiduと戦略的提携 2006年12月15日
●NHKスペシャル http://www.nhk.or.jp/special/
グーグル革命の衝撃 ~あなたの人生を“検索”が変える~ 2007年1月21日 ■再放送■ 1/23(火)深夜 0時~0時49分