今日、気になったのがグーグルが「N-gramデータ」を公開したという記事。
グーグルでは、200億文に上る日本語データを解析したという。含まれている単語は、約2550億個。1~7gramのデータを公開しており、例えば7-gramのデータは11億種類以上にも上る。という事だ。
ここで言う「N-gram言語モデル」というのは「N-1」個の言葉の流れから「N」番目目にくるであろう言葉を予測する手法で、漢字変換等でも最近お馴染みのAI予測方面でよく使われている技術。Googleの「もしかして」機能の副産物かと思ったら、それとは無関係にWebから抽出した2550億単語、200億文を解析した結果だという。
そもそも「N-gram言語モデル」を空白区切りの無い日本語に適用するには単語分割という大きな障害があるわけだが、MeCabを開発したNAIST(奈良先端科学技術大学院大学)松本研究室の工藤拓氏がGoogleのエンジニアとして絡んでいたと知って、どうりで納得。
資金も頭脳も集まるとこには自然と集まるんだなぁ…
【参照】
●日経ITPro http://itpro.nikkeibp.co.jp/
┣作って理解するAjax --- No.1古くて新しいアーキテクチャ 2005年11月4日
┗グーグルが大規模な日本語の解析データを公開、「20%ルール」の成果 2007年11月1日
●技術評論社 https://gihyo.jp/
┣検索エンジンを作る:連載
┣第1回 こんな検索エンジンが欲しい!:検索エンジンを作る 2007年4月27日
┗第5回 N-gramのしくみ:検索エンジンを作る 2007年7月18日
●Google Japan Blog http://googlejapan.blogspot.com/
┗大規模日本語 n-gram データの公開 2007年11月1日
●言語資源協会(GSK) http://www.gsk.or.jp/
┗GSK2007-C Web日本語Nグラム第1版
●@IT自分戦略研究所 http://jibun.atmarkit.co.jp/
┗「ググる」の精度を高めるために必要なもの 2006年3月15日
●NAIST Computational Linguistics https://www.naist.jp/
┗松本研究室
●Wikipedia https://ja.wikipedia.org/wiki/
┣奈良先端科学技術大学院大学
┣形態素解析
┣MeCab
┣Namazu
┗ChaSen