自身のような「(情報システムのプログラミング経験は豊富だが)分析のための前処理はうとい」人には非常に参考になると思います。
エッセンスを吸収したらすぐに手放すつもりでしたが手元においておくことにしました。(笑)
ただ、以下の様な点が気になったので次回作の期待を込めて☆1つ減らしました。
(1)レビューされていない
以下の様な単純なミスがあります。おそらく第三者のレビューはなかったのかと思います。そのせいか全体を通して表現の揺れやいいまわしが洗練されていない印象を受けました。(内容がよいだけに勿体無いなと)
『本書では次の4種類の補完方法について解説します。』→ 実際には6種類
『カテゴリ化に対応していないので、★カテゴリ化★の方法をしっかり身につけましょう』 ★部分は「ダミー変数化」 が正しい
(2)厳密でない
例えば「pythonでは、ブール型はbool、カテゴリ型はcategory型が提供されている」という記載がありますがpythonにはcategory型は存在せずライブラリ(pandas)が提供する型です。こういった混乱を招く雑な表現が少なくありません。
(3)コードの良し悪しの基準が恣意的
全体を通して「これは非AWESOME(もしくはAWESOME)なコード」という説明がなされていますが、判断基準が恣意的というか一貫性がないと感じました。
「計算量は多いけど簡潔で可読性が高いのでAWESOME」「簡潔でないが計算量が少ないのでAWESOME」という感じ。どっちやねん!と。笑
(4)Awesomeが微妙な場合がある
「改変が容易なのでAWESOME」と主張しているコードで何度も同じ列名をタイプしてたりします。この場合は、コードを関数化して列名を引数にして使い回すかつ汎用的(同じ処理を違う列でも適用できるようにする)にするのがAWESOMEですね。
(5)冗長
箇条書きや表形式にしたほうが簡潔に表現できることも文章で記述されているので無駄に長い。
本書の内容とは関係ありませんが、上述したような指摘はプログラマの世界では「曖昧・冗長・一貫性がない」と批判されても仕方がない恥ずかしい事ですが、データサイエンティストという職業では重視されない(=扱っているのが確率の世界なので厳密さを求められない=>曖昧さがむしろ「柔軟」として評価される)のかな?なんて思いました。
次回作に期待します。個人的には「外れ値の扱い方」が薄かったのでそのあたりの考え方や方法論・ノウハウを学びたいと思いました。
Kindle 端末は必要ありません。無料 Kindle アプリのいずれかをダウンロードすると、スマートフォン、タブレットPCで Kindle 本をお読みいただけます。
無料アプリを入手するには、Eメールアドレスを入力してください。
