タイトル通りの本なのだが、予想より幅広い内容の本だった。URLの基礎知識や各種のスクレーピングの方法はもちろんある。XPathとCSSセレクター、lxmlによるスクレーピング、BeautifulSoupの利用、Javascriptを使ったページに対するスクレーピングといったような盛沢山の方法が実際のコードのサンプルとともに紹介されている。特に、フレームワークであるScrapyの利用方法についてはSpiderの作成方法から詳しく書かれている。
しかし、この本はそれだけではない。MySQLへのデータ保存法、NoSQLであるMongoDBへのデータ保存、GoogleのBigQueryの利用、地図データの可視化、メッセージキューであるRQでの利用、asyncioでの非同期IO、Flickerからの画像収集、OpenCVによる顔画像の抽出、AWSでの利用と、とにかくクローリングとスクレーピングに関連する処理の説明がいろいろ盛り込まれているのが素晴らしい。
著作権上の注意、robots.txtによるクローラーへの指示、クローリングとスクレーピングは処理を分けるべき、というような説明もある。また、FREST APIについても載っている。Vagrantの導入と基本操作についても紹介されている。掲載されているサンプルプログラムは記載されたWebサイトからダウンロードできる。
すべて白黒印刷だし、実際はWindowsのPython環境でもそのまま動くコードも多いとはいえUbuntuでの利用が前提になっている。まったくの初心者にはとっつきにくいかもしれないが、中身はかなり良い。とても勉強になる。
Kindle 端末は必要ありません。無料 Kindle アプリのいずれかをダウンロードすると、スマートフォン、タブレットPCで Kindle 本をお読みいただけます。
無料アプリを入手するには、Eメールアドレスを入力してください。
