修論研究(武藤)
1. はじめに
1.1 背景
1.2 目的
1.3 本論文の概要
2. 意思決定モデルにおける予測
2.2 意思決定によるデータ遷移の例
2.2 時系列データの予測
2.3 強化学習
3. 時系列遷移と逆強化学習
3.1 オプショングラフ理論
オプション評価関数
標準相補性問題(LCP)
オプション評価導出アルゴリズム
シミュレーション結果
3.2 逆強化学習による評価関数の推定
NGnetを用いたActor-critic法
追加予定
- 確率微分方程式(オイラー・丸山法による数値解法)
- 確率微分に従わない実データを使うときにどう説明するか?
3.3 評価関数の応用
4. 提案手法
4.1 提案手法概要(フレームワークの説明)
4.2 オプショングラフ理論とガウシアンミックスの組み込み
数式的説明
4.3
5. 実験結果並びに考察
5.1 数値実験の概要
5.2 実験結果と考察
6. おわりに