ツイートの自然言語処理などの分析をしたいと思っていたところに「まさに」という本と出会った。
しかし、なんとイントロダクションのp.8でつまずいてしまった。
本書は、英語の分析を主眼に書かれているため、語と語がスペースで区切られていない日本語の処理の方法が書かれていないのだ。
これは致命的な欠陥に感じるが、類書の『入門 自然言語処理』の中で日本語の扱い方が書かれており、Web上でも、
http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html
で公開されている。
しかし、これを解読して本書の内容にアプローチするのに2,3日要した。
その過程を、こちら
http://d.hatena.ne.jp/r_onodr/20120103/1325607565
にまとめたので参考にしていただけたら幸いだ。
ここの部分さえ補完されれば、大変よい本である。