修論研究(武藤)

1. はじめに 

1.1 背景 

1.2 目的 

1.3 本論文の概要 

2. 意思決定モデルにおける予測 

2.2 意思決定によるデータ遷移の例 

2.2 時系列データの予測 

2.3 強化学習 

3. 時系列遷移と逆強化学習 

3.1 オプショングラフ理論 

オプション評価関数 

標準相補性問題(LCP) 

オプション評価導出アルゴリズム 

シミュレーション結果 

3.2 逆強化学習による評価関数の推定 

NGnetを用いたActor-critic法 

追加予定 

3.3 評価関数の応用 

4. 提案手法 

4.1 提案手法概要(フレームワークの説明) 

4.2 オプショングラフ理論とガウシアンミックスの組み込み 

数式的説明 

4.3 

5. 実験結果並びに考察 

5.1 数値実験の概要 

5.2 実験結果と考察 

6. おわりに 


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS