あまりちゃんと読んでいませんが、colabのアニメーション非対応のコードだったので、macでminiconda等の環境構築を試みましたが、動かず3日無駄にしました。
自前でGPU積んだPCを用意するかAWSで有料の環境構築が必要です。
後で買った他の書籍だとcolabやtry jupyterでできるように書かれていました(後半は少し改変する必要がありましたが)。導入のところは簡単にできる様にして欲しかったです。
また改訂版で誤植を無くしてるはずなのに誤植が多いです。P.7ですでにtensorflowのバージョンが0.12->0.14へあげたと書かれていますが1.12->1.14かなと思うし、なんか誤植が多いイメージでした。
自分にはコードも分かりづらかったです。
説明はそこそこ丁寧かも、でもそれはwebの情報でまかなえる。
コードを簡単に動かしたかったのですがその需要は満たされなかったです。
機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [改訂第2版] 入門から実践まで (KS情報科学専門書) (日本語) 単行本 – 2019/9/22
久保 隆宏
(著)
-
本の長さ304ページ
-
言語日本語
-
出版社講談社
-
発売日2019/9/22
-
寸法15 x 2 x 21 cm
-
ISBN-104065172519
-
ISBN-13978-4065172513
よく一緒に購入されている商品
この商品をチェックした人はこんな商品もチェックしています
ページ: 1 / 1 最初に戻るページ: 1 / 1
Kindle 端末は必要ありません。無料 Kindle アプリのいずれかをダウンロードすると、スマートフォン、タブレットPCで Kindle 本をお読みいただけます。
1分以内にKindleで 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [改訂第2版] 入門から実践まで (KS情報科学専門書) をお読みいただけます。
Kindle をお持ちでない場合、こちらから購入いただけます。 Kindle 無料アプリのダウンロードはこちら。
Kindle をお持ちでない場合、こちらから購入いただけます。 Kindle 無料アプリのダウンロードはこちら。
商品の説明
内容(「BOOK」データベースより)
Pythonプログラミングとともに、ゼロからていねいに解説。コードが公開されているから、すぐ実践できる。実用でのネックとなる強化学習の弱点と、その克服方法まで紹介。
著者について
久保 隆宏
TIS株式会社戦略技術センター所属。Twitter:@icoxfog417。
現在は、「人のための要約」を目指し、少ない学習データによる要約の作成・図表化に取り組む。また、論文のまとめを共有するarXivTimesの運営、『直感 Deep Learning』オライリージャパン(2018)の翻訳など、技術の普及を積極的に行っている。
TIS株式会社戦略技術センター所属。Twitter:@icoxfog417。
現在は、「人のための要約」を目指し、少ない学習データによる要約の作成・図表化に取り組む。また、論文のまとめを共有するarXivTimesの運営、『直感 Deep Learning』オライリージャパン(2018)の翻訳など、技術の普及を積極的に行っている。
登録情報
- 出版社 : 講談社; 改訂第2版 (2019/9/22)
- 発売日 : 2019/9/22
- 言語 : 日本語
- 単行本 : 304ページ
- ISBN-10 : 4065172519
- ISBN-13 : 978-4065172513
- 寸法 : 15 x 2 x 21 cm
-
Amazon 売れ筋ランキング:
- 162,576位本 (の売れ筋ランキングを見る本)
- - 1,130位コンピュータ・IT関連の一般・入門書
- カスタマーレビュー:
この商品を買った人はこんな商品も買っています
ページ: 1 / 1 最初に戻るページ: 1 / 1
カスタマーレビュー
5つ星のうち3.8
星5つ中の3.8
17 件のグローバル評価
評価はどのように計算されますか?
全体的な星の評価と星ごとの割合の内訳を計算するために、単純な平均は使用されません。その代わり、レビューの日時がどれだけ新しいかや、レビューアーがAmazonで商品を購入したかどうかなどが考慮されます。また、レビューを分析して信頼性が検証されます。
トップレビュー
上位レビュー、対象国: 日本
レビューのフィルタリング中に問題が発生しました。後でもう一度試してください。
2019年12月2日に日本でレビュー済み
違反を報告
Amazonで購入
8人のお客様がこれが役に立ったと考えています
役に立った
2020年6月22日に日本でレビュー済み
Amazonで購入
この方は、現時点で日本でトップレベルにAIの先端を知ってる人と言っていいと思う。
読んだ後から知ったのだけど、著者はarXivTimesなどを運営している人で、後日アイコンを見た時「あぁ、この人だったのか!」と分かった。AIを調べてたら定期的に必ずと言っていい程出てくる人で、いわゆる超人的に勉強してる人なんだと思う。この人が本を書いてるって知らなかった。その時、この本の熱量に納得がいった。
だからなのか、類書にありがちなPRML的な難解・無味乾燥な数式展開(ごめんなさい)ではなく、その先にある定性的理解を教えてくれた。
そして読み進めていくと分かるけど、実は深層強化学習に重きを置いている。
自分が知りたかったのはそこだったので、助かった。
このような本が先端ディープラーニングでも出てほしい。
読んだ後から知ったのだけど、著者はarXivTimesなどを運営している人で、後日アイコンを見た時「あぁ、この人だったのか!」と分かった。AIを調べてたら定期的に必ずと言っていい程出てくる人で、いわゆる超人的に勉強してる人なんだと思う。この人が本を書いてるって知らなかった。その時、この本の熱量に納得がいった。
だからなのか、類書にありがちなPRML的な難解・無味乾燥な数式展開(ごめんなさい)ではなく、その先にある定性的理解を教えてくれた。
そして読み進めていくと分かるけど、実は深層強化学習に重きを置いている。
自分が知りたかったのはそこだったので、助かった。
このような本が先端ディープラーニングでも出てほしい。
2020年8月26日に日本でレビュー済み
Amazonで購入
個人の結論としては、
自分で実装するのではなく、知識を得るためには素晴らしい本だと思います。
強化学習の入門用としてこちらを購入しました。
強化学習の概要は、わかりやすく説明されており、初心者でも知ることができました。
そのため、強化学習についての話を聞いて、言っていることが分かると思います。
(数式が苦手な私も大丈夫でした)
実装の部分においては、numpy や tensorflow などのライブラリをよく知らないため、
ライブラリを多用するニュートラルネットワークの部分からわかりにくいと感じました。
github にサンプルコードがあるため、Python を触ったことがある方は、見てみると良いと思います。
ですが、強化学習について書いた日本語の本が少ないため、こういった本は非常にありがたいです。
自分で実装するのではなく、知識を得るためには素晴らしい本だと思います。
強化学習の入門用としてこちらを購入しました。
強化学習の概要は、わかりやすく説明されており、初心者でも知ることができました。
そのため、強化学習についての話を聞いて、言っていることが分かると思います。
(数式が苦手な私も大丈夫でした)
実装の部分においては、numpy や tensorflow などのライブラリをよく知らないため、
ライブラリを多用するニュートラルネットワークの部分からわかりにくいと感じました。
github にサンプルコードがあるため、Python を触ったことがある方は、見てみると良いと思います。
ですが、強化学習について書いた日本語の本が少ないため、こういった本は非常にありがたいです。
2020年4月5日に日本でレビュー済み
Amazonで購入
こちらの書籍で強化学習を勉強中ですが、図やソースコードがたくさんあり、数式が少なめでわかりやすいと思いました。普段からPython・機械学習に親しんでいる方は、よりすんなり入ってくると思います。
機械学習とは? 強化学習とは? ディープラーニングとは? といった基礎から、深層強化学習である A2C まで丁寧に書かれていて、初心者にもおすすめです!
本では Open AI Gym のゲームを例に実装が進められていますが、私は Kaggle の Connect X コンペで本に載っているいくつかの手法を試してみました。理論から実践まで記載されているので、いろんなゲームに応用することが可能だと思いました。
機械学習とは? 強化学習とは? ディープラーニングとは? といった基礎から、深層強化学習である A2C まで丁寧に書かれていて、初心者にもおすすめです!
本では Open AI Gym のゲームを例に実装が進められていますが、私は Kaggle の Connect X コンペで本に載っているいくつかの手法を試してみました。理論から実践まで記載されているので、いろんなゲームに応用することが可能だと思いました。
2020年1月30日に日本でレビュー済み
Amazonで購入
強化学習の何らかに行き詰まったときに解決の糸口を探すのによい本です。うまく整理されているので、すでに学んだつもりの概念の見直しにも有用です。
私はDDPGの学習が進まなくて途方に暮れてたのですが、この本の説明をもとにTD学習の実装を見直したところうまくいきました!
数式の導出や実装を勉強するのは他を当たるのがいいです。本書のDDPGの実装はkeras-rlからですし、本文にも『Policyベースの手法は学習が安定しないことが多いため、勉強以外の場合はこうしたすでにテストされた実装の使用をおすすめします』とあります。
私はDDPGの学習が進まなくて途方に暮れてたのですが、この本の説明をもとにTD学習の実装を見直したところうまくいきました!
数式の導出や実装を勉強するのは他を当たるのがいいです。本書のDDPGの実装はkeras-rlからですし、本文にも『Policyベースの手法は学習が安定しないことが多いため、勉強以外の場合はこうしたすでにテストされた実装の使用をおすすめします』とあります。
2019年12月24日に日本でレビュー済み
私は、機械学習はそこそこ知っているけれど強化学習についてはAlpha Zero や 将棋のAIが話題になっていることを知っている程度の人間です。そんな私にとって、この本はとても理解しづらいです。
例えば動的計画法という言葉が序盤でよく使われますが、動的計画法が何なのか、という説明がありません。
そのため、『以降の解説は狭義の動的計画法についてである、ということを頭の片隅に置いていただければと思います』と書かれていますが、頭に残るのは「結局、動的計画法とは何なのか」ということばかりです。
A2Cの解説も、すでに理解してる人が読めば分かるけれど、そうでない人が読んでもさっぱり分からない構成になっています。著者が知っていることをただ羅列しているだけであって、初心者に理解してもらおうという工夫が感じられません。いわゆる「上空飛行的な専門書」です。初心者のところまで降りてきて説明してはくれません。ネットや他の本で調べて理解する必要があります。(あれ、この本の存在価値って…
読み進めていっても終始そのような感じで引っかかる点が多数あり、そのつど検索する羽目になります。
また、全体的に文章がこなれておらず、読みにくさに拍車が掛かっています。
英語も文法が雑でプログラムの内容が頭に入ってきません
("Planner have to implements plan method" って…)。
改定第二版だから内容的には充実している本だろうと思い購入しましたが、非常に残念な思いです。
例えば動的計画法という言葉が序盤でよく使われますが、動的計画法が何なのか、という説明がありません。
そのため、『以降の解説は狭義の動的計画法についてである、ということを頭の片隅に置いていただければと思います』と書かれていますが、頭に残るのは「結局、動的計画法とは何なのか」ということばかりです。
A2Cの解説も、すでに理解してる人が読めば分かるけれど、そうでない人が読んでもさっぱり分からない構成になっています。著者が知っていることをただ羅列しているだけであって、初心者に理解してもらおうという工夫が感じられません。いわゆる「上空飛行的な専門書」です。初心者のところまで降りてきて説明してはくれません。ネットや他の本で調べて理解する必要があります。(あれ、この本の存在価値って…
読み進めていっても終始そのような感じで引っかかる点が多数あり、そのつど検索する羽目になります。
また、全体的に文章がこなれておらず、読みにくさに拍車が掛かっています。
英語も文法が雑でプログラムの内容が頭に入ってきません
("Planner have to implements plan method" って…)。
改定第二版だから内容的には充実している本だろうと思い購入しましたが、非常に残念な思いです。
2019年12月5日に日本でレビュー済み
私にとって、強化学習に関する書籍としては最高にわかりやすい本書が、初版からわずか8ヶ月後に、「Policy Gradient(方策勾配法)」と「A2C」の内容を見直した改訂第2版を出すということで、その内容に期待していたが、その改定範囲は、思っていたよりかなり限定されたものでした。
特に、「A2C」に関しては、以下に関して、もう少し知見を得られることを期待していたのだが、言及されていませんでした。
1)もともとDQNに代表されるValueベースのアルゴリズムでは、基本的に状態価値または行動価値が最大になるように行動するので、過学習に陥りやすく、それを軽減するためにε-greedy法などがとられているが、本質的な解決策になっていないと考えられます。これに対して、「A2C」やその派生アルゴリズムは、「Policy Gradient」の手法を用いて、行動(方策)と状態価値を同時に求めるため、より最適な解を1ステップごとに得られることが期待できると思っていました。しかし、このトピックに関する十分な言及はありませんでした。
2)A2Cでは、Actor Advantageにもとづいた評価関数、行動のランダム性を評価するEntropy、状態価値の評価誤差(Critic)の負値の和が最小になるように、ネットワークのパラメータを求めているが、その詳細な手順(シーケンス)が知りたかったのですが、第2版でも詳細な説明はなく、今のところ、プログラムを綿密に追っていくしかありません。
特に、「A2C」に関しては、以下に関して、もう少し知見を得られることを期待していたのだが、言及されていませんでした。
1)もともとDQNに代表されるValueベースのアルゴリズムでは、基本的に状態価値または行動価値が最大になるように行動するので、過学習に陥りやすく、それを軽減するためにε-greedy法などがとられているが、本質的な解決策になっていないと考えられます。これに対して、「A2C」やその派生アルゴリズムは、「Policy Gradient」の手法を用いて、行動(方策)と状態価値を同時に求めるため、より最適な解を1ステップごとに得られることが期待できると思っていました。しかし、このトピックに関する十分な言及はありませんでした。
2)A2Cでは、Actor Advantageにもとづいた評価関数、行動のランダム性を評価するEntropy、状態価値の評価誤差(Critic)の負値の和が最小になるように、ネットワークのパラメータを求めているが、その詳細な手順(シーケンス)が知りたかったのですが、第2版でも詳細な説明はなく、今のところ、プログラムを綿密に追っていくしかありません。