読み始めたところ(50ページ位)ですが、気になる点。
ほぼ数学式の証明問題となっているので仕方ないのかもしれませんが、文章が、まどろっこしい。一通り読破してみて、考えが変わったら評価を上げて再レビューします。
強化学習 (機械学習プロフェッショナルシリーズ) (日本語) 単行本 – 2019/5/23
森村 哲郎
(著)
著者の作品一覧、著者略歴や口コミなどをご覧いただけます
この著者の 検索結果 を表示
あなたは著者ですか?
著者セントラルはこちら
|
購入を強化する
-
本の長さ320ページ
-
言語日本語
-
出版社講談社
-
発売日2019/5/23
-
寸法14.9 x 2 x 21 cm
-
ISBN-104065155916
-
ISBN-13978-4065155912
よく一緒に購入されている商品
この商品をチェックした人はこんな商品もチェックしています
ページ: 1 / 1 最初に戻るページ: 1 / 1
- ゼロから作るDeep Learning ❸ ―フレームワーク編単行本(ソフトカバー)
- AlphaZero 深層学習・強化学習・探索 人工知能プログラミング実践入門布留川 英一単行本
- ガウス過程と機械学習 (機械学習プロフェッショナルシリーズ)単行本
- 機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)単行本
- ベイズ深層学習 (機械学習プロフェッショナルシリーズ)単行本
- つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~株式会社電通国際情報サービス 小川雄太郎単行本(ソフトカバー)
Kindle 端末は必要ありません。無料 Kindle アプリのいずれかをダウンロードすると、スマートフォン、タブレットPCで Kindle 本をお読みいただけます。
1分以内にKindleで 強化学習 (機械学習プロフェッショナルシリーズ) をお読みいただけます。
Kindle をお持ちでない場合、Get your Kindle here Kindle 無料アプリのダウンロードはこちら。
Kindle をお持ちでない場合、Get your Kindle here Kindle 無料アプリのダウンロードはこちら。
商品の説明
著者について
森村 哲郎
日本アイ・ビー・エム 東京基礎研究所 研究員
日本アイ・ビー・エム 東京基礎研究所 研究員
登録情報
- 出版社 : 講談社 (2019/5/23)
- 発売日 : 2019/5/23
- 言語 : 日本語
- 単行本 : 320ページ
- ISBN-10 : 4065155916
- ISBN-13 : 978-4065155912
- 寸法 : 14.9 x 2 x 21 cm
-
Amazon 売れ筋ランキング:
- 36,181位本 (の売れ筋ランキングを見る本)
- - 111位人工知能
- カスタマーレビュー:
この商品を買った人はこんな商品も買っています
ページ: 1 / 1 最初に戻るページ: 1 / 1
カスタマーレビュー
5つ星のうち4.1
星5つ中の4.1
18 件のグローバル評価
評価はどのように計算されますか?
全体的な星の評価と星ごとの割合の内訳を計算するために、単純な平均は使用されません。その代わり、レビューの日時がどれだけ新しいかや、レビューアーがAmazonで商品を購入したかどうかなどが考慮されます。また、レビューを分析して信頼性が検証されます。
トップレビュー
上位レビュー、対象国: 日本
レビューのフィルタリング中に問題が発生しました。後でもう一度試してください。
2019年6月20日に日本でレビュー済み
違反を報告
Amazonで購入
14人のお客様がこれが役に立ったと考えています
役に立った
2020年5月19日に日本でレビュー済み
まず初めに.本書のまえがきに「強化学習アルゴリズムを幅広く紹介するのではなく,"数理的な事項の紹介"を主にして,強化学習を研究もしくは応用するための基礎作りに貢献することを目指す」とはっきり書いてあります.したがって批評はこの観点からなされるべきで,実際の応用例がない,数学的すぎるといった評価は好ましくないと考えます.
以下,私の批評です.完全には読み込んでいません(特に5〜8章)ので,不完全であることをご了承ください.
・全体として.辞書的な設計になっており,2周目に入らないと,なぜここでそのような概念を導入する必要があるのかがわからなくなっています.一つ一つのトピックの扱い方は丁寧にあるでもかかわらず,本全体を貫くストーリーがぼやけていて,非常に読みにくいです.「後ほど出てきますが,今紹介しておくと」といった内容が多すぎると思います(特に第1章).
・このことで,特に顕著なのは1章での目的関数の紹介です.どの章でどういった目的関数を使うか,なぜそれでいいかをきちっと整理しておくべきだと思います.例えば多くのページを割いている f0, f∞をあらわに目的関数にするのは6章です.第2章でこれを目的関数にするのかと思いきや,そうではなく価値関数の最大化に話が移ってしまい,f0, f∞との関連が気になったまま話が進んでしまいます(p56に載っていますが,遅すぎると思います).4章でも行動価値関数の最大化が主目的となり,1章の枠組みで捉えた時になぜこれを最大化する必要があるのかが不透明です.
・報酬関数の概念がやや説明不足と感じました.これは報酬の次状態に関する期待値と考えるのが適切で,(簡単さを犠牲にしても)報酬とはやや異なっていることを述べるべきだったと思います.特に,p35, 36 の例7で登場するモデルは報酬が次状態に依存しており,不適切です.
・一つ一つのトピックの取り扱いは丁寧で,きちんと読み込めばだいたいは理解できるように記述されていると感じました.しかしながら以上に述べた点で,第2章まででかなり苦しい思いをするので,読み込もうという気持ちにはなりづらいと思います.
私個人としては,どこからこのアルゴリズムが出てくるのか,という点に関心があってこの本を手に取りましたが,その点では満足しています.
以下,気がついた誤植,不明点等を並べておきます.
p16 和が1になる条件はどこで使われているのでしょうか.
p26 ブラックボックモデル
p30 初期状態として任意の状態があり得るというのはかなり強い仮定だと感じます.そうでない場合はどうなるのかが気になりました.
p33 (1.31) Πはボールド体ではない方が自然
p54 代入してみましたが,等価にはならないと思います.不動点が同一となる別の作用素が得られるという感じでしょうか.
p40 (2.3) 条件付き確率の条件 S0=s -> S0=s0
p63 方策反復法は,価値反復法と異なり根拠なく登場してあとから正当化するという流れになっている.価値反復法と同じ流れで揃えた方がわかりやすい.
p89 (4.5) ハットg0 -> ハットg
4.3節 ここも最初に動機だけ簡単に喋ったのち,2章の流れを踏襲して環境が既知の場合で定義,ベルマン方程式,プランニング問題としてから標本近似の流れにした方がわかりやすい.さらにプランニングの説明ではハットVやハットQではなくて,v, q を使うべき.
p104 (4.37) 期待値のπが消えているが,これは正しい.式中で方策に影響を与えるのは 報酬関数内の At のみだが,行動空間へ拡張されたことで条件に行動の値まで追加されたため.注釈等入れた方が良い.
4章 批評とは関係ないですが,例えばゲームなど時系列的なものはエルゴード性,累積学習率の仮定をどう担保しているのだろうと思いました.
p123 (4.61) αt A + Xt -> αt (A + Xt)
p156 ニュラールネットワーク
p232 適応 → 適用
以下,私の批評です.完全には読み込んでいません(特に5〜8章)ので,不完全であることをご了承ください.
・全体として.辞書的な設計になっており,2周目に入らないと,なぜここでそのような概念を導入する必要があるのかがわからなくなっています.一つ一つのトピックの扱い方は丁寧にあるでもかかわらず,本全体を貫くストーリーがぼやけていて,非常に読みにくいです.「後ほど出てきますが,今紹介しておくと」といった内容が多すぎると思います(特に第1章).
・このことで,特に顕著なのは1章での目的関数の紹介です.どの章でどういった目的関数を使うか,なぜそれでいいかをきちっと整理しておくべきだと思います.例えば多くのページを割いている f0, f∞をあらわに目的関数にするのは6章です.第2章でこれを目的関数にするのかと思いきや,そうではなく価値関数の最大化に話が移ってしまい,f0, f∞との関連が気になったまま話が進んでしまいます(p56に載っていますが,遅すぎると思います).4章でも行動価値関数の最大化が主目的となり,1章の枠組みで捉えた時になぜこれを最大化する必要があるのかが不透明です.
・報酬関数の概念がやや説明不足と感じました.これは報酬の次状態に関する期待値と考えるのが適切で,(簡単さを犠牲にしても)報酬とはやや異なっていることを述べるべきだったと思います.特に,p35, 36 の例7で登場するモデルは報酬が次状態に依存しており,不適切です.
・一つ一つのトピックの取り扱いは丁寧で,きちんと読み込めばだいたいは理解できるように記述されていると感じました.しかしながら以上に述べた点で,第2章まででかなり苦しい思いをするので,読み込もうという気持ちにはなりづらいと思います.
私個人としては,どこからこのアルゴリズムが出てくるのか,という点に関心があってこの本を手に取りましたが,その点では満足しています.
以下,気がついた誤植,不明点等を並べておきます.
p16 和が1になる条件はどこで使われているのでしょうか.
p26 ブラックボックモデル
p30 初期状態として任意の状態があり得るというのはかなり強い仮定だと感じます.そうでない場合はどうなるのかが気になりました.
p33 (1.31) Πはボールド体ではない方が自然
p54 代入してみましたが,等価にはならないと思います.不動点が同一となる別の作用素が得られるという感じでしょうか.
p40 (2.3) 条件付き確率の条件 S0=s -> S0=s0
p63 方策反復法は,価値反復法と異なり根拠なく登場してあとから正当化するという流れになっている.価値反復法と同じ流れで揃えた方がわかりやすい.
p89 (4.5) ハットg0 -> ハットg
4.3節 ここも最初に動機だけ簡単に喋ったのち,2章の流れを踏襲して環境が既知の場合で定義,ベルマン方程式,プランニング問題としてから標本近似の流れにした方がわかりやすい.さらにプランニングの説明ではハットVやハットQではなくて,v, q を使うべき.
p104 (4.37) 期待値のπが消えているが,これは正しい.式中で方策に影響を与えるのは 報酬関数内の At のみだが,行動空間へ拡張されたことで条件に行動の値まで追加されたため.注釈等入れた方が良い.
4章 批評とは関係ないですが,例えばゲームなど時系列的なものはエルゴード性,累積学習率の仮定をどう担保しているのだろうと思いました.
p123 (4.61) αt A + Xt -> αt (A + Xt)
p156 ニュラールネットワーク
p232 適応 → 適用
2020年4月3日に日本でレビュー済み
他のレヴューにあるように、数学的な記述が多いため入門書としては非常に難解です。
しかし、理論から証明まで体系的に記載されていて、かつ論文で用いられているような表記法が分かり易く説明されているため、初学者は必ず読むべき1冊です。
将来、強化学習や機械学習を用いた研究をしたいが、何をすべきか分からない非情報系学部生におすすめです。
しかし、理論から証明まで体系的に記載されていて、かつ論文で用いられているような表記法が分かり易く説明されているため、初学者は必ず読むべき1冊です。
将来、強化学習や機械学習を用いた研究をしたいが、何をすべきか分からない非情報系学部生におすすめです。