辻さん卒論の履歴(No.2)

履歴一覧
差分を表示
現在との差分を表示
ソースを表示
辻さん卒論へ行く。
- 1 (2025-06-20 (金) 13:37:14)
- 2 (2025-06-30 (月) 12:59:05)
- 3 (2025-06-30 (月) 16:52:39)
- 4 (2025-07-01 (火) 13:09:12)
- 5 (2025-07-29 (火) 12:30:36)
- 6 (2025-07-30 (水) 13:39:30)

技術資料：強化学習を用いたパーソナライズ献立推薦システム

食に対する個人の嗜好は、「珍しいものが食べたい」「調理が簡単なものが良い」など、非常に多様かつ動的である。従来の推薦システムは、栄養バランスやコストといった静的な指標に基づいて献立を提案するものが主であった。本研究では、ユーザーからのフィードバック（満足度評価）を元に、強化学習（多腕バンディットアルゴリズム）を用いて「ユーザーがどのようなタイプの献立を好むか」という提案戦略を学習し、その戦略に基づいて多目的最適化（遺伝的アルゴリズム）が献立を生成する、パーソナライズされた動的な献立推薦システムのコアエンジンを構築・検証することを目的とする。

2. システム概要

本システムは、強化学習エージェント（バンディット）と多目的最適化エンジン（遺伝的アルゴリズム）を連携させた、クローズドループのシミュレーション環境である。全体の処理フローは以下の通り。 1. 戦略決定: `bandit_logic.py` が過去の学習記録 `mab_feedback.csv` を参照し、今回最適化すべきUX戦略（腕）を決定する。 2. 献立生成: `2献立作成(GraphicalRecipes).py` が、決定された戦略に基づき多目的最適化を実行し、献立候補群（パレート解）を生成する。 3. 評価: `run_experiment.py` が生成された献立の一つをランダムに選択し、`virtual_user.py` に渡して評価させる。 4. フィードバック: `virtual_user.py` は自身の隠れた好みに基づいて満足度（報酬）を計算し、返す。 5. 学習記録: `run_experiment.py` は、(1)で選択された戦略と、(4)で得られた報酬のペアを `mab_feedback.csv` に追記する。 6. 上記1～5を規定回数繰り返し、学習を行う。

3. 実際の人間が利用する場合の想定フロー

現在のシステムは、`virtual_user.py` を用いた自動シミュレーション環境だが、これを実際のサービスとして人間が利用する場合、以下のようなフローが想定される。 1. ユーザーのログイン: ユーザーがシステムにログインする。ユーザーごとに過去の評価履歴が管理される。 2. 戦略決定: `bandit_logic.py` が、そのユーザーの過去の評価履歴（`mab_feedback.csv`に相当）を読み込み、「今日のあなたへのおすすめ方針」として最適な腕（例：腕3「調理しやすさ重視」）を選択する。 3. 献立生成: `2献立作成(GraphicalRecipes).py` が、選択された戦略に基づいて、複数の優れた献立候補（パレート解）を生成する。 4. 献立の提示: `server1(GraphicalRecipes).py`が起動したWebアプリケーションが、生成された複数の献立候補をユーザーに提示する。ユーザーは気分や状況に合わせて、その中から一つを選ぶ。 5. 調理と食事: ユーザーは選んだ献立を実際に調理し、食事をする。 6. 満足度の評価: 後日、ユーザーはWebアプリケーション上で、前回の献立に対する総合的な満足度を1～5の星などで評価する。 7. フィードバックの記録: `server1(GraphicalRecipes).py`は、そのユーザーの評価（報酬）を、「どの戦略で提案したか」という情報と紐づけて、そのユーザーの学習データとして記録する。

このループを繰り返すことで、システムはユーザーの好みをより深く理解し、提案の精度を継続的に向上させていく。

4. 使用するファイル全部

扱うデータ	用途	ファイル名	ファイルの場所
システム制御	シミュレーション全体の制御、各モジュールの呼び出し、結果の記録	run_experiment.py	(ルート)
システム制御	多目的最適化による献立生成、GUIによる手動設定	2献立作成(GraphicalRecipes).py	(ルート)
Webサーバー	生成された献立をブラウザで表示するためのWebサーバー機能	server1(GraphicalRecipes).py	(ルート)
システム制御	UCB1バンディットアルゴリズムによる戦略決定	bandit_logic.py	(ルート)
システム制御	仮想ユーザーによる献立評価と報酬計算	virtual_user.py	(ルート)
入力データ	各レシピの栄養素・コスト・UXスコアの格納	recipe_noX.csv	(./data/hyouka/)
設定データ	手動実行時のユーザー情報やアレルギー設定を保存	menu_creation_settings.json	(ルート)
出力データ（学習ログ）	強化学習の試行ごとの結果（腕、報酬）を記録	mab_feedback.csv	(ルート)
出力データ（献立）	生成された献立候補群の詳細情報をJSON形式で保存	all_details.json	(./static/)
出力データ（グラフ）	遺伝的アルゴリズムのパレート解の分布を可視化	palate.png	(ルート)

5. システムの実行方法

5.1. 事前準備

1．必要なライブラリをインストールする．

ターミナル（コマンドプロンプト）で以下のコマンドを実行する．
```
pip install pandas numpy pymoo PySimpleGUI japanize-matplotlib flask
```

2．（任意・初回のみ）ユーザー設定ファイルを作成する．

実験のベースとなる個人の身体情報やアレルギー設定を行う場合，以下のコマンドでGUIを起動し，設定を完了させる．これにより `menu_creation_settings.json` が生成される．
```
python 2献立作成(GraphicalRecipes).py
```

5.2. 目的別の実行フロー

本システムには、大きく分けて2つの実行モードがある。

【A】シミュレーション実験を実行する場合（開発者・研究者向け）

目的: 強化学習アルゴリズムが、仮想ユーザーの好みを正しく学習できるかを検証するためのモード。
実行コマンド:
```
python run_experiment.py
```
動作: `NUM_TRIALS` で指定された回数のシミュレーションが自動で実行され、最後に各腕の選択回数が集計・表示される。`virtual_user.py`が評価を担当し、Webサーバー(`server1(GraphicalRecipes).py`)は使用しない。

【B】献立推薦システムを実際に利用する場合（一般ユーザー向け）

目的: 生成された献立を人間がブラウザで見て、評価するためのモード。
実行手順: 1. 献立データの生成: まず、以下のコマンドを実行し、Webサーバーに表示するための献立データ（`all_details.json`など）を作成する。
```
python 2献立作成(GraphicalRecipes).py --auto
```
2. Webサーバーの起動: 次に、以下のコマンドを実行してWebサーバーを起動する。
```
python server1(GraphicalRecipes).py
```
3. ブラウザで確認: ターミナルに表示されるURL（例: `http://127.0.0.1:5000`）にウェブブラウザでアクセスし、献立の確認や評価を行う。

6. 主要プログラムの全コードと詳細解説

6.1. `run_experiment.py`

役割: シミュレーション実験全体を制御するメインスクリプト。各モジュールを適切な順番で呼び出し、学習のサイクルを形成する。

全コード:

import subprocess
import os
import json
import random
import csv
from datetime import datetime
from virtual_user import get_satisfaction
import pandas as pd

# --- 実験設定 ---
NUM_TRIALS = 200  # 実験の繰り返し回数
MAB_FEEDBACK_FILE = 'mab_feedback.csv'

def run_single_trial():
    # ... (関数の実装は省略) ...

if __name__ == '__main__':
    if os.path.exists(MAB_FEEDBACK_FILE):
        os.remove(MAB_FEEDBACK_FILE)
        print(f"古い {MAB_FEEDBACK_FILE} を削除し、実験を初期化しました。")

    print(f"\n===== {NUM_TRIALS}回のシミュレーション実験を開始します =====")
    
    for i in range(NUM_TRIALS):
        print(f"\n---【 試行 {i + 1}/{NUM_TRIALS} 】---")
        success = run_single_trial()
        if not success:
            break
            
    print(f"\n===== 実験終了 =====")
    
    # ... (最終結果の集計処理) ...

コードの詳細解説:
- `run_single_trial`関数が、1回分の「献立生成→評価→記録」のサイクルを実行する。
- 1.献立作成: `subprocess.run`を使い、`2献立作成(GraphicalRecipes).py`をコマンドラインから実行する。`--auto`引数を渡すことで、GUIを表示させずに自動実行させる。
- 2.結果の読み込み: `2献立作成(GraphicalRecipes).py`が生成した`all_details.json`を読み込み、多数の献立候補の中からランダムに1つを評価対象として選ぶ。
- 3.報酬の計算: `last_chosen_arm.txt`から、今回の献立生成でどの腕（戦略）が使われたかを取得する。その後、`virtual_user.py`の`get_satisfaction`関数に献立情報を渡し、報酬スコアを得る。
- 4.記録: 得られた「腕と報酬」の情報を、タイムスタンプと共に`mab_feedback.csv`に追記する。
- `if __name__ == '__main__':`ブロックが、この`run_single_trial`関数を`NUM_TRIALS`で指定された回数だけループ実行し、最後に結果を集計・表示する。

6.2. `2献立作成(GraphicalRecipes).py`

役割: ユーザー設定とバンディットの戦略に基づき、遺伝的アルゴリズムを用いて献立候補を生成するコアエンジン。
全コード:
（長大であるため、添付ファイルを参照）
コードの詳細解説:
- 実行モードの判定: スクリプト実行時の`--auto`引数の有無で、自動モードか手動GUIモードかを切り替える。
- 設定の読み込み: 自動モードの場合は`menu_creation_settings.json`から、手動モードの場合は`PySimpleGUI`のウィンドウから、ユーザーの身体情報・アレルギー・食事制限などの設定を読み込む。
- レシピデータの準備: `./data/hyouka/`から全レシピのデータベース（栄養素、コスト、UXスコア）を読み込み、ユーザー設定に基づいてアレルギー等に該当するレシピを除外する。
- 戦略の決定: `bandit_logic.py`の`choose_arm`関数を呼び出し、今回の献立提案で重視すべき「戦略（腕）」を決定する。
- 最適化問題の定義: `pymoo`ライブラリの`ElementwiseProblem`を継承した`SubsetProblem`クラスを定義する。このクラス内で、最適化の「目的関数（3つ）」と「制約条件（5つ）」を具体的に記述する。目的関数の1つは、バンディットが決定した戦略に基づいて動的に設定される。
- アルゴリズムの実行: NSGA-IIアルゴリズムを設定し、`minimize`関数を呼び出して多目的最適化を実行する。これにより、制約条件を満たしつつ、3つの目的関数において優れたトレードオフを持つ献立の組み合わせ（パレート最適解）が複数得られる。
- 結果の出力: 得られたパレート解を解析し、後続のプログラムが利用しやすいように`all_details.json`などのファイルに書き出す。

6.3. `server1(GraphicalRecipes).py`

役割: Flaskフレームワークを利用したWebサーバー。生成された献立候補を人間がブラウザで閲覧し、評価を入力するためのUIを提供する。

全コード:

from flask import Flask, render_template, request, json, redirect, url_for, session
import pandas as pd
import os
import csv
from datetime import datetime
app = Flask(__name__)
app.secret_key = 'your_secret_key' # セッション管理のための秘密鍵

@app.route('/')
def index():
    # ... (省略) ...

@app.route('/details')
def details():
    # ... (省略) ...

@app.route('/save_survey', methods=['POST'])
def save_survey():
    try:
        form_data = request.form
        
        # 1. フォームから総合満足度（報酬）を取得
        reward = form_data.get('overall_satisfaction')

        # 2. どの戦略（腕）が使われたかをファイルから取得
        try:
            with open('last_chosen_arm.txt', 'r', encoding='utf-8') as f:
                chosen_arm = f.read().strip()
        except FileNotFoundError:
            chosen_arm = -1

        # 3. 報酬と腕の情報を mab_feedback.csv に追記
        if reward and chosen_arm != -1:
            timestamp = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
            # ... (mab_feedback.csvへの追記処理) ...
            print(f"MABフィードバックを保存しました: arm={chosen_arm}, reward={reward}")
        
        # 4. レシピごとの詳細なアンケート結果を別途保存
        # ... (フォームからq1, q2..の回答を解析し、整形して別ファイルに保存する処理) ...

        return "<h3>アンケートへのご協力、ありがとうございました！</h3>"
    
    except Exception as e:
        return f"サーバー内部でエラーが発生しました: {e}", 500

if __name__ == '__main__':
    app.run(debug=True, port=5000)

コードの詳細解説:
- Flaskの初期化: `app = Flask(__name__)`でWebアプリケーションを初期化する。
- `@app.route('/')`: トップページ（`http://...:5000/`）へのリクエストを処理する。`graph_viewer.html`をテンプレートとして使用し、献立候補群の関係性を可視化するページを表示する。
- `@app.route('/details')`: 献立詳細ページ（例: `/details?id=1`）へのリクエストを処理する。`all_details.json`から該当する献立データを抽出し、レシピ一覧や評価フォームを持つ詳細ページを表示する。
- `@app.route('/save_survey')`: 評価フォームの送信（POSTリクエスト）を処理する。
  - 強化学習のフィードバック記録: フォームデータの中から、献立全体の総合満足度（`overall_satisfaction`）を取得する。同時に `last_chosen_arm.txt` を読み込み、「どの戦略（腕）で提案された献立か」を特定する。この「腕と報酬」のペアを`mab_feedback.csv`に追記する。これが、人間が利用する際のバンディットの学習データとなる。
  - 詳細データの保存: 各レシピに対する個別の質問（q1〜q4）への回答も別途`cdijnklmn_extracted_with_headers.csv`に保存する。これは将来的なデータ分析のための機能である。

6.4. `bandit_logic.py`

役割: UCB1バンディットアルゴリズムを実装し、過去の経験から次に試すべき最善の腕（戦略）を決定する。
全コード:
```
# (前述の通り)
```
コードの詳細解説:
- `choose_arm`関数がこのモジュールの中心。`mab_feedback.csv`を読み込み、各腕の平均報酬と探索ボーナスを計算してUCBスコアを算出し、スコアが最大の腕を返す。

6.5. `virtual_user.py`

役割: 人間の代わりに献立を評価するエージェント。特定の「好み（重み）」を持っており、それに従って満足度（報酬）を計算する。
全コード:
```
# (前述の通り)
```
コードの詳細解説:
- `get_satisfaction`関数がこのモジュールの中心。
- `true_weights`ディクショナリに、このユーザーが「q4:調理しやすさ」を0.7の重みで重視するという「隠れた好み」が定義されている。
- 提案された献立の各UXスコアにこの重みを掛けて平均をとり、1～5点の報酬に変換して返す。

11. 実験結果

200回のシミュレーションを実行した結果、各腕の選択回数は以下のようになった。

#ref(): File not found: "final_arm_selection_chart.png" at page "辻さん卒論"

（ここに、最終的な腕の選択回数の集計結果のグラフ画像を挿入）

#ref(): File not found: "final_arm_selection_table.png" at page "辻さん卒論"

（ここに、最終的な腕の選択回数の集計結果の表画像を挿入）

この結果から、本システムは仮想ユーザーの最も重要な好みである「調理しやすさ（腕3）」を最適戦略として正しく学習し、最も多く選択（42.0%）したことが確認できる。同時に、他の戦略も継続的に探索しており、活用と探索のバランスが機能していることが示された。

技術資料：強化学習を用いたパーソナライズ献立推薦システム

目次

1. 目的

2. システム概要

3. 実際の人間が利用する場合の想定フロー

4. 使用するファイル全部

5. システムの実行方法

5.1. 事前準備

5.2. 目的別の実行フロー

6. 主要プログラムの全コードと詳細解説

6.1. `run_experiment.py`

6.2. `2献立作成(GraphicalRecipes).py`

6.3. `server1(GraphicalRecipes).py`

6.4. `bandit_logic.py`

6.5. `virtual_user.py`

11. 実験結果

辻さん卒論 の履歴(No.2)

技術資料：強化学習を用いたパーソナライズ献立推薦システム

目次

1. 目的

2. システム概要

3. 実際の人間が利用する場合の想定フロー

4. 使用するファイル全部

5. システムの実行方法

5.1. 事前準備

5.2. 目的別の実行フロー

6. 主要プログラムの全コードと詳細解説

6.1. `run_experiment.py`

6.2. `2献立作成(GraphicalRecipes).py`

6.3. `server1(GraphicalRecipes).py`

6.4. `bandit_logic.py`

6.5. `virtual_user.py`

11. 実験結果

辻さん卒論の履歴(No.2)