辻さん卒論の履歴(No.4)

履歴一覧
差分を表示
現在との差分を表示
ソースを表示
辻さん卒論へ行く。
- 1 (2025-06-20 (金) 13:37:14)
- 2 (2025-06-30 (月) 12:59:05)
- 3 (2025-06-30 (月) 16:52:39)
- 4 (2025-07-01 (火) 13:09:12)
- 5 (2025-07-29 (火) 12:30:36)
- 6 (2025-07-30 (水) 13:39:30)

技術資料：強化学習を用いたパーソナライズ献立推薦システム

食に対する個人の嗜好は、「珍しいものが食べたい」「調理が簡単なものが良い」など、非常に多様かつ動的である。従来の推薦システムは、栄養バランスやコストといった静的な指標に基づいて献立を提案するものが主であった。本研究では、ユーザーからのフィードバック（満足度評価）を元に、強化学習（多腕バンディットアルゴリズム）を用いて「ユーザーがどのようなタイプの献立を好むか」という提案戦略を学習し、その戦略に基づいて多目的最適化（遺伝的アルゴリズム）が献立を生成する、パーソナライズされた動的な献立推薦システムのコアエンジンを構築・検証することを目的とする。

2. システム概要

本システムは、強化学習エージェント（バンディット）と多目的最適化エンジン（遺伝的アルゴリズム）を連携させた、クローズドループのシミュレーション環境である。全体の処理フローは以下の通り。 1. 戦略決定: `bandit_logic.py` が過去の学習記録 `mab_feedback.csv` を参照し、今回最適化すべきUX戦略（腕）を決定する。 2. 献立生成: `2献立作成(GraphicalRecipes).py` が、決定された戦略に基づき多目的最適化を実行し、献立候補群（パレート解）を生成する。 3. 評価: `run_experiment.py` が生成された献立の一つをランダムに選択し、`virtual_user.py` に渡して評価させる。 4. フィードバック: `virtual_user.py` は自身の隠れた好みに基づいて満足度（報酬）を計算し、返す。 5. 学習記録: `run_experiment.py` は、(1)で選択された戦略と、(4)で得られた報酬のペアを `mab_feedback.csv` に追記する。 6. 上記1～5を規定回数繰り返し、学習を行う。

3. 実際の人間が利用する場合の想定フロー

現在のシステムは、`virtual_user.py` を用いた自動シミュレーション環境だが、これを実際のサービスとして人間が利用する場合、以下のようなフローが想定される。 1. ユーザーのログイン: ユーザーがシステムにログインする。ユーザーごとに過去の評価履歴が管理される。 2. 戦略決定: `bandit_logic.py` が、そのユーザーの過去の評価履歴（`mab_feedback.csv`に相当）を読み込み、「今日のあなたへのおすすめ方針」として最適な腕（例：腕3「調理しやすさ重視」）を選択する。 3. 献立生成: `2献立作成(GraphicalRecipes).py` が、選択された戦略に基づいて、複数の優れた献立候補（パレート解）を生成する。 4. 献立の提示: `server1(GraphicalRecipes).py`が起動したWebアプリケーションが、生成された複数の献立候補をユーザーに提示する。ユーザーは気分や状況に合わせて、その中から一つを選ぶ。 5. 調理と食事: ユーザーは選んだ献立を実際に調理し、食事をする。 6. 満足度の評価: 後日、ユーザーはWebアプリケーション上で、前回の献立に対する総合的な満足度を1～5の星などで評価する。 7. フィードバックの記録: `server1(GraphicalRecipes).py`は、そのユーザーの評価（報酬）を、「どの戦略で提案したか」という情報と紐づけて、そのユーザーの学習データとして記録する。

このループを繰り返すことで、システムはユーザーの好みをより深く理解し、提案の精度を継続的に向上させていく。

4. 使用するファイル全部

扱うデータ	用途	ファイル名	ファイルの場所
システム制御	シミュレーション全体の制御、各モジュールの呼び出し、結果の記録	run_experiment.py	/code
システム制御	多目的最適化による献立生成、GUIによる手動設定	2献立作成(GraphicalRecipes).py	/code
Webサーバー	生成された献立をブラウザで表示するためのWebサーバー機能	server1(GraphicalRecipes).py	/code
システム制御	UCB1バンディットアルゴリズムによる戦略決定	bandit_logic.py	/code
システム制御	仮想ユーザーによる献立評価と報酬計算	virtual_user.py	/code
入力データ	各レシピの栄養素・コスト・UXスコアの格納	recipe_noX.csv	/code/data/hyouka/
設定データ	手動実行時のユーザー情報やアレルギー設定を保存	menu_creation_settings.json	/code
出力データ（中間）	生成した献立の日数をWebサーバーに渡すための中間ファイル	params.json	/code/static/
出力データ（学習ログ）	強化学習の試行ごとの結果（腕、報酬）を記録	mab_feedback.csv	/code
出力データ（献立）	生成された献立候補群の詳細情報をJSON形式で保存	all_details.json	/code/static/
出力データ（グラフ用）	3Dグラフ描画用のノード・リンク情報	graph_data.json	/code/static/
出力データ（グラフ）	遺伝的アルゴリズムのパレート解の分布を可視化	palate.png	/code
Webページ用テンプレート	3Dグラフを表示するメインページのHTML	graph_viewer.html	/code/templates/
Webページ用テンプレート	献立詳細と評価フォームを表示するHTML	details_template.html	/code/templates/

5. システムの実行方法

5.1. 事前準備

1．必要なライブラリをインストールする．

ターミナル（コマンドプロンプト）で以下のコマンドを実行する． pip install pandas numpy pymoo PySimpleGUI japanize-matplotlib flask

2．（任意・初回のみ）ユーザー設定ファイルを作成する．

実験のベースとなる個人の身体情報やアレルギー設定を行う場合，以下のコマンドでGUIを起動し，設定を完了させる．これにより `menu_creation_settings.json` が生成される． python 2献立作成(GraphicalRecipes).py

5.2. 目的別の実行フロー

本システムには、大きく分けて2つの実行モードがある。

【A】シミュレーション実験を実行する場合（開発者・研究者向け）

目的: 強化学習アルゴリズムが、仮想ユーザーの好みを正しく学習できるかを検証するためのモード。
実行コマンド: python run_experiment.py
動作: `NUM_TRIALS` で指定された回数のシミュレーションが自動で実行され、最後に各腕の選択回数が集計・表示される。`virtual_user.py`が評価を担当し、Webサーバー(`server1(GraphicalRecipes).py`)は使用しない。

【B】献立推薦システムを実際に利用する場合（一般ユーザー向け）

目的: 生成された献立を人間がブラウザで見て、評価するためのモード。
実行手順: 1. 献立データの生成: まず、以下のコマンドを実行し、Webサーバーに表示するための献立データ（`all_details.json`など）を作成する。 python 2献立作成(GraphicalRecipes).py --auto 2. Webサーバーの起動: 次に、以下のコマンドを実行してWebサーバーを起動する。 python server1(GraphicalRecipes).py 3. ブラウザで確認: ターミナルに表示されるURL（例: `http://127.0.0.1:5000`）にウェブブラウザでアクセスし、献立の確認や評価を行う。

6. 使用アルゴリズムの理論的背景

本システムは、目的を達成するために、大きく分けて2つのアルゴリズムを中核技術として利用している。

6.1. 強化学習：多腕バンディット問題とUCB1アルゴリズム

- 目的と課題：活用と探索のジレンマ ユーザーの好みを学習する過程は、「多腕バンディット問題」としてモデル化できる。これは、スロットマシン（バンディット）が複数台並んでいる状況で、限られた回数しかレバーを引けない中、どの台をどの順番で引けば最終的な報酬を最大化できるか、という問題である。

この問題の核心には、「活用と探索のジレンマ」が存在する。

活用 (Exploitation): これまでの試行で最も良い平均報酬を得られている腕（スロット台）を、今回も選択する行動。短期的な利益を最大化する。
探索 (Exploration): まだあまり試しておらず、もしかしたら大当たりが出るかもしれない未知の腕を、あえて選択する行動。将来的な利益を最大化する可能性がある。

「活用」ばかりでは、今一番良いと思っている腕が実は最善ではなかった場合に、それ以上の成果は望めない。「探索」ばかりでは、過去の成功体験を活かせず、非効率的になる。このトレードオフを適切に管理することが、優れた学習アルゴリズムの条件となる。

6.2. 多目的最適化：NSGA-IIとパレート最適解

- 目的と課題：トレードオフを持つ複数の目的 献立作成は、単一の目的だけでは評価できない複雑な問題である。本研究では、以下の3つの目的を同時に最適化する必要がある。

目的1: `コスト` をできるだけ安くしたい (最小化)
目的2: `調理時間` をできるだけ短くしたい (最小化)
目的3: `UXスコア` をできるだけ高くしたい (最大化)

これらの目的は互いに「トレードオフ」の関係にある。例えば、コストを極端に下げようとすると、使える食材が限られUXスコアが下がる可能性がある。このような問題では、全ての目的で最良となる「唯一の完璧な解」は通常存在しない。

- 解の概念：パレート最適 このような多目的最適化問題の解として、「パレート最適」という概念を用いる。ある解Aが別の解Bに対して、全ての目的において同等以上、かつ、少なくとも一つの目的で明確に優れている場合、「AはBを支配（dominate）する」と定義される。そして、「どの解にも支配されていない、優秀な解」の集合が**「パレート最適解（またはパレートフロント）」**となる。

これは、「これ以上どれかの目的を改善しようとすると、他の目的が必ず悪化してしまう」という、トレードオフの限界線上にある、甲乙つけがたい優れた解の集まりである。この解集合を求めることが、多目的最適化のゴールとなる。

- 解法：NSGA-II (Non-dominated Sorting Genetic Algorithm II) NSGA-IIは、このパレート最適解を効率的に探索するための、遺伝的アルゴリズムの一種である。生物の進化を模倣したアルゴリズムであり、以下の手順で解を探索する。 1. 初期集団生成: ランダムな解（献立の組み合わせ）を多数生成する。 2. 評価・ソート: 各解を目的関数で評価し、パレート最適の概念に基づいて「支配されていないランク」を決定する。また、解の密集度も計算する。 3. 選択: 評価の高い解（より優れたランクに属し、かつ、周りに他の解が少ない多様な解）が、次の世代に生き残りやすいように選択する。 4. 交叉: 生き残った優秀な解（親）を2つ選び、それらの特徴を組み合わせて新しい解（子）を作る。 5. 突然変異: 新しく作られた解の一部をランダムに変更し、解の多様性を維持する。 6. 上記の2～5を規定の世代数繰り返し、解集団全体を徐々に真のパレートフロントへと進化させていく。

7. 主要プログラムの詳細解説

7.1. `2献立作成(GraphicalRecipes).py`

役割: ユーザー設定とバンディットの戦略に基づき、遺伝的アルゴリズムを用いて献立候補を生成するコアエンジン。手動でのGUI実行と、自動実行の両方に対応している。

ライブラリのインポート

import pandas as pd
import numpy as np
import PySimpleGUI as sg
from pymoo.algorithms.moo.nsga2 import NSGA2
from pymoo.optimize import minimize
from pymoo.core.problem import ElementwiseProblem
from pymoo.core.crossover import Crossover
from pymoo.core.mutation import Mutation
from pymoo.core.sampling import Sampling
from bandit_logic import choose_arm
import json
import sys
import os
# 他、標準ライブラリ

解説:
- `pandas`, `numpy`: データ処理の基本ライブラリ。レシピデータの操作に使用。
- `PySimpleGUI`: 手動実行時のGUI（グラフィカル・ユーザー・インターフェース）を構築するために使用。
- `pymoo`: 多目的最適化（遺伝的アルゴリズム）を実行するための中心的なライブラリ。NSGA-IIアルゴリズムや、最適化問題の定義に必要なクラスをインポートする。
- `bandit_logic.choose_arm`: 作成したバンディットアルゴリズムの関数をインポートする。
- `sys`: `sys.argv`を用いて、スクリプト実行時のコマンドライン引数を読み取るために使用。

設定ファイルの読み書き関数

SETTINGS_FILE = 'menu_creation_settings.json'

def load_settings():
    # ... (実装省略) ...
def save_settings(data):
    # ... (実装省略) ...

解説:
- 手動実行時にGUIで入力されたユーザー情報、アレルギー、日数などの設定を`menu_creation_settings.json`というJSONファイルに保存・読み込みするための関数。これにより、次回の手動実行時に前回の入力内容が復元される。また、自動実行モードではこのファイルを読み込んで設定として利用する。

実行モードの判定
```
is_auto_mode = '--auto' in sys.argv
```

解説:
- コマンドラインからこのスクリプトが実行された際に、`--auto`という引数が含まれているかを判定する。含まれていれば`is_auto_mode`が`True`となり、自動実行モードとして動作する。

手動実行モードの処理 (`if not is_auto_mode: ...`)

else:
    print("--- 手動設定モードで起動しました ---")
    settings = load_settings()
    sg.theme('DarkAmber')
    
    # 人数入力ウィンドウ
    layout1 = [[...]]
    window = sg.Window('入力画面', layout1)
    # ... (window.read()によるイベントループ) ...
    window.close()

    # ユーザーごとの情報入力ループ
    for i in range(ninzu):
        # 個人情報入力ウィンドウ
        layout2 = [[...]]
        window_person = sg.Window(...)
        # ... (イベントループ) ...
        window_person.close()

        # アレルギー入力ウィンドウ
        layout3 = [[...]]
        window_allergy = sg.Window(...)
        # ... (イベントループ) ...
        window_allergy.close()

        # 病気入力ウィンドウ
        layout4 = [[...]]
        window_disease = sg.Window(...)
        # ... (イベントループ) ...
        window_disease.close()

    # 日数入力ウィンドウ
    layout5 = [[...]]
    window = sg.Window(...)
    # ... (イベントループ) ...
    window.close()
    
    save_settings(settings_to_save)

解説:
- `is_auto_mode`が`False`の場合に実行されるブロック。
- `PySimpleGUI`を使い、人数、ユーザーの身体情報、アレルギー、病気の有無、献立の日数、調理時間などを、複数のウィンドウを通じて対話的にユーザーから取得する。
- 入力された設定は、`save_settings`関数によって`menu_creation_settings.json`に保存される。

レシピデータベースの読み込みと整形

print("レシピデータを作成します")
# ... (空のリストを初期化) ...
for j in range(R_orig):
    try:
        df = pd.read_csv(f"./data/hyouka/recipe_no{j+1}.csv", encoding="cp932")
        # ... (dfから必要な情報を抽出し、各リストに格納) ...
        q1_scores[j] = float(df.iloc[1, 14])
        # ... (q2, q3, q4も同様) ...
    except Exception:
        continue

df_recipe = pd.DataFrame(recipe_details_list)
# ... (アレルギー・病気情報に基づき、df_recipeから不要なレシピを削除) ...

解説:
- このブロックは、手動・自動モードの共通処理。
- `./data/hyouka/`フォルダ内の全レシピCSVファイルを一つずつ読み込む。
- 各レシピから、調理時間、コスト、栄養素、そして事前に計算された4つのUXスコアなどのデータを抽出し、リストに格納する。
- 最終的に、これらの情報を`pandas`のDataFrameに変換し、ユーザー設定に基づいてアレルギー等に該当するレシピを`drop`関数で除外する。

バンディットによる戦略決定

print("\n--- 強化学習エージェントによる戦略決定を開始 ---")
chosen_arm = choose_arm()
try:
    with open('last_chosen_arm.txt', 'w', encoding='utf-8') as f:
        f.write(str(chosen_arm))
    print(f"選択した腕の情報 ({chosen_arm}) を last_chosen_arm.txt に保存しました。")
except IOError as e:
    print(f"エラー: last_chosen_arm.txt への書き込みに失敗しました - {e}")

解説:
- `bandit_logic.py`内の`choose_arm`関数を呼び出し、今回の試行で重視すべき戦略（腕の番号）を取得する。
- 取得した腕の番号は、後続のプロセス（`run_experiment.py`での評価）で参照できるよう、`last_chosen_arm.txt`に書き出す。

最適化問題の定義 (`SubsetProblem`クラス)

class SubsetProblem(ElementwiseProblem):
    def __init__(self, cost, time, q1, q2, q3, q4, chosen_arm, n_max, cal, f0, f1, f2, day, eer, tanpakumin, sisitumin, tansuimin, **kwargs):
        super().__init__(n_var=len(cost), n_obj=3, n_constr=5, **kwargs)
        # ...

    def _evaluate(self, x, out, *args, **kwargs):
        # ...

解説:
- 詳細は#details-ga-classセクションで解説済み。遺伝的アルゴリズムが解くべき「問題」そのものを定義するクラス。

遺伝的アルゴリズムの実行と結果の出力

n_max = 7 * day
problem = SubsetProblem(...)
algorithm = NSGA2(...)
res = minimize(problem, algorithm, ('n_gen', 100), seed=1, verbose=False)

# ... (resオブジェクトからパレート解を抽出し、JSONファイルに整形・保存する処理) ...
all_candidates_details = []
for idx, p_indices in enumerate(parate):
    # ...
    meal_recipes.append({
        "original_number": original_idx + 1,
        # ...
        "q1_score": q1_scores[recipe_index],
        "q2_score": q2_scores[recipe_index],
        "q3_score": q3_scores[recipe_index],
        "q4_score": q4_scores[recipe_index],
        # ...
    })
    # ...
with open('static/all_details.json', 'w', encoding='utf-8') as f:
    json.dump(all_candidates_details, f, ensure_ascii=False, indent=4, cls=CustomJSONEncoder)

解説:
- 定義した`problem`と`algorithm`を`minimize`関数に渡し、最適化を実行する。
- `res`に格納された結果から、献立の組み合わせ（パレート解）を取り出す。
- 各献立候補について、レシピの詳細情報（UXスコアを含む）を辞書形式でまとめ、最終的に`all_details.json`というファイルに書き出す。このファイルが、`run_experiment.py`や`web_server.py`によって読み込まれることになる。

7.2. `server1(GraphicalRecipes).py`

役割: Flaskフレームワークを利用したWebサーバー。生成された献立候補を人間がブラウザで閲覧し、評価を入力するためのUIを提供する。

ライブラリのインポートとFlaskの初期化

from flask import Flask, render_template, request, json, session
import pandas as pd
import os
import csv
from datetime import datetime
app = Flask(__name__)
app.secret_key = 'your_secret_key' # セッション管理のための秘密鍵

解説:
- `flask`: Webサーバー機能を提供するための主要ライブラリ。
- `pandas`: CSVファイルの読み書きやデータ整形のために使用。
- `app = Flask(__name__)`: Flaskアプリケーションのインスタンスを生成する。
- `app.secret_key`: ユーザーがどの献立候補を選択したかなどの情報を、ブラウザを閉じても一時的に保持する「セッション管理」のために必要となる秘密鍵。

トップページの表示

@app.route('/')
def index():
    return render_template('graph_viewer.html')

解説:
- ルートURL（例: `http://127.0.0.1:5000/`）にアクセスがあった際に呼び出される関数。
- `graph_viewer.html` をブラウザに表示する。このHTMLファイル内で、献立候補群の関連性を可視化する3Dグラフが描画される。

献立詳細ページの表示

@app.route('/details')
def details():
    candidate_id = request.args.get('id', type=int)
    details_path = os.path.join('static', 'all_details.json')
    try:
        with open(details_path, 'r', encoding='utf-8') as f:
            all_details = json.load(f)
    except FileNotFoundError:
        return "詳細データファイル(all_details.json)が見つかりません。", 404

    candidate = next((item for item in all_details if item["id"] == candidate_id), None)
    
    if candidate:
        meal_names = ['朝食', '昼食1', '昼食2', '昼食3', '夕食1', '夕食2', '夕食3']
        meals = {meal_names[i]: recipe for i, recipe in enumerate(candidate['day_recipes']) if i < len(meal_names)}
        return render_template('details_template.html', candidate=candidate, meals=meals)
    else:
        return "指定されたIDの献立が見つかりません。", 404

解説:
- `/details?id=1`のような、献立詳細ページへのアクセスを処理する。
- URLの`id`パラメータを元に、`all_details.json`の中から該当する献立候補のデータを検索する。
- 見つかった献立データを、詳細ページ用の`details_template.html`に埋め込んで表示する。

評価フォームの送信処理 (`save_survey`)

@app.route('/save_survey', methods=['POST'])
def save_survey():
    try:
        form_data = request.form
        
        # 1. フォームから総合満足度（報酬）を取得
        reward = form_data.get('overall_satisfaction')

        # 2. どの戦略（腕）が使われたかをファイルから取得
        try:
            with open('last_chosen_arm.txt', 'r', encoding='utf-8') as f:
                chosen_arm = f.read().strip()
        except FileNotFoundError:
            chosen_arm = -1
            print("警告: last_chosen_arm.txt が見つかりませんでした。")

        # 3. 報酬と腕の情報を mab_feedback.csv に追記
        if reward and chosen_arm != -1:
            timestamp = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
            mab_feedback_file = 'mab_feedback.csv'
            
            file_exists = os.path.exists(mab_feedback_file)
            with open(mab_feedback_file, 'a', newline='', encoding='utf-8') as f:
                writer = csv.writer(f)
                if not file_exists:
                    writer.writerow(['timestamp', 'chosen_arm', 'reward'])
                writer.writerow([timestamp, chosen_arm, reward])
            
            print(f"MABフィードバックを保存しました: arm={chosen_arm}, reward={reward}")

解説:
- このブロックは、人間のユーザー評価をバンディットアルゴリズムの学習データに変換する、非常に重要な部分。
- 詳細ページのフォームから送信されたデータのうち、まず`overall_satisfaction`（総合満足度）を取得する。
- `last_chosen_arm.txt`を読み込み、この献立がどの戦略（腕）で生成されたかを確認する。
- 「いつ、どの戦略で、何点の評価を得たか」という情報を`mab_feedback.csv`に追記する。これにより、次回以降の`bandit_logic.py`が、より賢い判断を下せるようになる。

        # 4. レシピごとの詳細なアンケート結果を別途保存
        responses = {}
        for key, value in form_data.items():
            if key.startswith('q'):
                # ... (キーを 'qX' と 'レシピ番号' に分割) ...
                responses[recipe_num][q_key] = value
        
        # ... (中略) ...
        
        # 最終的に整形されたデータを別ファイルに保存
        df_final_data.to_csv('cdijnklmn_extracted_with_headers.csv', mode='a', header=False, index=False, encoding='cp932')

        return "<h3>アンケートへのご協力、ありがとうございました！</h3>"
    
    except Exception as e:
        return f"サーバー内部でエラーが発生しました: {e}", 500

解説:
- このブロックは、強化学習の主目的とは別に、より詳細な分析を行うためのデータを保存する機能。
- フォームから送信されたレシピごとのYES/NO評価（q1_...など）をすべて抽出し、元のレシピデータと結合させて、`cdijnklmn_extracted_with_headers.csv`というファイルに保存する。

サーバーの起動

if __name__ == '__main__':
    app.run(debug=True, port=5000)

解説:
- このスクリプトが`python server1(GraphicalRecipes).py`として直接実行された場合に、Flaskの開発用Webサーバーをポート5000で起動する。
- `debug=True`に設定されているため、コードを変更して保存すると、サーバーが自動で再起動する。

7.3. `run_experiment.py`

役割: シミュレーション実験全体を制御するメインスクリプト。各モジュールを適切な順番で呼び出し、学習のサイクルを形成する。

ライブラリのインポートと基本設定

import subprocess
import os
import json
import random
import csv
from datetime import datetime
from virtual_user import get_satisfaction
import pandas as pd

# --- 実験設定 ---
NUM_TRIALS = 200  # 実験の繰り返し回数
MAB_FEEDBACK_FILE = 'mab_feedback.csv'

解説:
- `subprocess`: 外部のPythonスクリプト(`2献立作成.py`)を実行するために使用する。
- `virtual_user`: 献立を評価する`get_satisfaction`関数をインポートする。
- `pandas`: 最終的な結果の集計と分析に用いる。
- `NUM_TRIALS`: 全体の試行回数を定義する。
- `MAB_FEEDBACK_FILE`: 強化学習のフィードバックを記録するCSVファイル名を定義する。

単一試行の実行関数: `run_single_trial()`

def run_single_trial():
    """1回分の実験（献立作成→評価→学習データ追記）を実行する"""
    
    # 1. 献立作成スクリプトを実行
    print("\n--- 献立作成エンジンを実行中... ---")
    try:
        subprocess.run(['python', '2献立作成(GraphicalRecipes).py', '--auto'], check=True)
    except subprocess.CalledProcessError as e:
        print(f"エラー: 2献立作成(GraphicalRecipes).py の実行に失敗しました。 - {e}")
        return False

解説:
- このブロックは、メインの献立生成スクリプトを外部コマンドとして実行する。
- `subprocess.run`: Pythonの別のスクリプトを実行する。
- `--auto`: GUIを表示させずに自動で実行するためのコマンドライン引数。
- `check=True`: もしスクリプトがエラーで終了した場合、例外を発生させる。

    # 2. 生成された献立候補から1つをランダムに選択
    details_path = os.path.join('static', 'all_details.json')
    try:
        with open(details_path, 'r', encoding='utf-8') as f:
            all_candidates = json.load(f)
        
        if not all_candidates:
            print("警告: 献立候補が生成されませんでした。この試行をスキップします。")
            return True
            
        selected_candidate = random.choice(all_candidates)
        
        all_recipes_in_menu = []
        for day in selected_candidate.get('day_recipes', []):
            for meal in day.get('meals', []):
                all_recipes_in_menu.extend(meal.get('recipes', []))

    except (FileNotFoundError, json.JSONDecodeError, IndexError) as e:
        print(f"エラー: 生成された詳細ファイルの読み込みに失敗しました。 - {e}")
        return False

解説:
- このブロックは、献立生成スクリプトが出力した`all_details.json`ファイルを読み込む。
- `all_details.json`にはNSGA-IIによって生成された、複数の優れた献立候補（パレート解）がすべて格納されている。
- `random.choice`: 多数の候補の中から、今回はランダムに1つを評価対象として選ぶ。

    # 3. 仮想ユーザーが評価し、報酬を計算
    try:
        with open('last_chosen_arm.txt', 'r', encoding='utf-8') as f:
            chosen_arm = int(f.read().strip())
    except (FileNotFoundError, ValueError) as e:
        print(f"エラー: last_chosen_arm.txt の読み込みに失敗しました。 - {e}")
        return False
        
    reward = get_satisfaction(chosen_arm, all_recipes_in_menu)

解説:
- `last_chosen_arm.txt`から、今回の献立生成でどの腕（戦略）が使われたかを取得する。
- `virtual_user.py`の`get_satisfaction`関数に献立情報を渡し、報酬スコアを得る。

    # 4. 報酬データをmab_feedback.csvに追記
    timestamp = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
    file_exists = os.path.exists(MAB_FEEDBACK_FILE)

    try:
        with open(MAB_FEEDBACK_FILE, 'a', newline='', encoding='utf-8') as f:
            writer = csv.writer(f)
            if not file_exists:
                writer.writerow(['timestamp', 'chosen_arm', 'reward'])
            writer.writerow([timestamp, chosen_arm, reward])
        print(f"フィードバックを記録しました: arm={chosen_arm}, reward={reward}")
    except IOError as e:
        print(f"エラー: {MAB_FEEDBACK_FILE} への書き込みに失敗しました。 - {e}")
        return False
        
    return True

解説:
- 得られた「腕と報酬」の情報を、タイムスタンプと共に`mab_feedback.csv`に追記する。
- ファイルがなければヘッダーを書き込み、既に存在すればデータ行のみを追記する。

メイン実行ブロック

if __name__ == '__main__':
    if os.path.exists(MAB_FEEDBACK_FILE):
        os.remove(MAB_FEEDBACK_FILE)
        print(f"古い {MAB_FEEDBACK_FILE} を削除し、実験を初期化しました。")

    print(f"\n===== {NUM_TRIALS}回のシミュレーション実験を開始します =====")
    
    for i in range(NUM_TRIALS):
        print(f"\n---【 試行 {i + 1}/{NUM_TRIALS} 】---")
        success = run_single_trial()
        if not success:
            print("\n重大なエラーが発生したため、実験を中止します。")
            break
            
    print(f"\n===== 実験終了 =====")
    
    # (最終結果の集計処理) ...

解説:
- 最初に`mab_feedback.csv`が存在すれば削除し、新しい実験として初期化する。
- `for`ループを用いて`run_single_trial`関数を`NUM_TRIALS`で指定された回数だけ呼び出す。
- 全ての試行が完了した後、`mab_feedback.csv`を読み込み、最終的な分析結果（各腕の選択回数など）を出力する。

7.4. `bandit_logic.py`

役割: UCB1バンディットアルゴリズムを実装し、過去の経験から次に試すべき最善の腕（戦略）を決定する。

ライブラリのインポートと基本設定

import pandas as pd
import numpy as np
import os

MAB_FEEDBACK_FILE = 'mab_feedback.csv'
N_ARMS = 4

解説:
- `pandas`はCSVファイルの読み込みとデータ集計に、`numpy`は数学的な計算（log, sqrt, argmax）に使用する。

`choose_arm`関数

def choose_arm():
    if not os.path.exists(MAB_FEEDBACK_FILE):
        return np.random.randint(N_ARMS)
    df = pd.read_csv(MAB_FEEDBACK_FILE)
    if df.empty:
        return np.random.randint(N_ARMS)

解説:
- `mab_feedback.csv`が存在しない、または空の場合は、まだ学習データがないため0から3までの腕をランダムに一つ選択して返す。

    total_plays = len(df)
    arm_stats = []
    for i in range(N_ARMS):
        arm_df = df[df['chosen_arm'] == i]
        plays = len(arm_df)
        if plays == 0:
            return i
        normalized_rewards = (arm_df['reward'] - 1) / 4.0
        avg_reward = normalized_rewards.mean()
        arm_stats.append({'plays': plays, 'avg_reward': avg_reward})

解説:
- 各腕の成績計算: ループを回し、腕0から3までのそれぞれの成績を計算する。
- `if plays == 0:`: まだ一度も選ばれていない腕があれば、それを最優先で選択（探索）し、関数を終了する。
- `normalized_rewards`: 1～5点の報酬を、アルゴリズムで扱いやすい0.0～1.0の範囲に正規化する。
- `avg_reward`: 正規化された報酬の平均値を計算する。

    ucb_scores = []
    for i in range(N_ARMS):
        exploration_bonus = np.sqrt((2 * np.log(total_plays)) / arm_stats[i]['plays'])
        score = arm_stats[i]['avg_reward'] + exploration_bonus
        ucb_scores.append(score)

    return np.argmax(ucb_scores)

解説:
- UCBスコアの計算: 全ての腕が一度は試された後に、このブロックが実行される。
- `exploration_bonus`: 探索ボーナスを計算する。試行回数が少ない腕ほど、このボーナス値は高くなる。
- `score`: 「平均報酬（活用）」と「探索ボーナス（探索）」を足し合わせ、総合的なUCBスコアを算出する。
- `np.argmax(ucb_scores)`: 最もスコアが高い腕のインデックスを返す。

7.5. `virtual_user.py`

役割: 人間の代わりに献立を評価するエージェント。特定の「好み（重み）」を持っており、それに従って満足度（報酬）を計算する。

`get_satisfaction`関数

def get_satisfaction(chosen_arm, selected_menu_details):
    # この仮想ユーザーの「真の好み」の重み
    true_weights = {
        0: 0.15,  # q1: 入手のしやすさ
        1: 0.05,  # q2: 意外性
        2: 0.10,  # q3: 時間帯
        3: 0.70   # q4: 調理しやすさ
    }

解説:
- `true_weights`ディクショナリが、この仮想ユーザーの隠れた好みを定義している。このユーザーは「q4: 調理しやすさ」を0.7の重みで最も重視する。これがシミュレーションにおける「正解」となる。

    total_score = 0
    num_recipes = len(selected_menu_details)

    if num_recipes == 0:
        return 1 # レシピがなければ最低評価

    # 献立に含まれる全レシピのUXスコアを、真の好みで重み付けして合計
    for recipe in selected_menu_details:
        total_score += true_weights[0] * recipe.get('q1_score', 0)
        total_score += true_weights[1] * recipe.get('q2_score', 0)
        total_score += true_weights[2] * recipe.get('q3_score', 0)
        total_score += true_weights[3] * recipe.get('q4_score', 0)

解説:
- 提案された献立に含まれる各レシピについてループ処理を行う。
- `recipe.get('q1_score', 0)`のように、各レシピの客観的なUXスコアを取得し、`true_weights`の対応する重みを掛けて`total_score`に加算していく。

    avg_score = total_score / num_recipes
    
    reward = round(avg_score * 4) + 1
    reward = max(1, min(5, int(reward)))
    
    print(f"仮想ユーザー評価: 平均スコア={avg_score:.3f} -> 報酬={reward}")
    return reward

解説:
- `avg_score`: 献立全体の加重平均スコア（0.0～1.0）を計算する。
- `reward = round(avg_score * 4) + 1`: 0.0～1.0のスコアを、1～5点の離散的な「報酬」に変換する。
- `max(1, min(5, ...))`: 計算結果が1未満や5より大きくなることを防ぎ、確実に1～5の範囲に収める。この整数値が、バンディットアルゴリズムの学習に使われる最終的な報酬となる。code-bandit-logic]
役割: UCB1バンディットアルゴリズムを実装し、過去の経験から次に試すべき最善の腕（戦略）を決定する。
全コード: import pandas as pd import numpy as np import os

# --- 設定項目 --- MAB_FEEDBACK_FILE = 'mab_feedback.csv' N_ARMS = 4 # 腕の数（UX指標の数 q1, q2, q3, q4）

def choose_arm():

   """
   多腕バンディット問題（UCB1アルゴリズム）に基づき、次に選択すべき腕を決定する関数。
   :return: 選択された腕のインデックス (0, 1, 2, or 3)
   """
   # --- 1. 学習データの読み込み ---
   if not os.path.exists(MAB_FEEDBACK_FILE):
       # まだフィードバックが一件もない場合、ランダムに腕を選択
       print("MABフィードバックファイルが存在しないため、ランダムに腕を選択します。")
       return np.random.randint(N_ARMS)
       
   df = pd.read_csv(MAB_FEEDBACK_FILE)

   if df.empty:
       # ファイルは存在するが中身が空の場合も、ランダムに腕を選択
       print("MABフィードバックが空のため、ランダムに腕を選択します。")
       return np.random.randint(N_ARMS)

   # --- 2. 各腕の成績を計算 ---
   total_plays = len(df)
   arm_stats = []

   for i in range(N_ARMS):
       arm_df = df[df['chosen_arm'] == i]
       plays = len(arm_df)
       
       if plays == 0:
           # まだ一度も選ばれたことがない腕があれば、それを最優先で選択（探索）
           print(f"腕{i}が未選択のため、優先的に選択します。")
           return i
       
       # 報酬を0-1の範囲に正規化 (元の報酬は1-5なので、(x-1)/4で計算)
       normalized_rewards = (arm_df['reward'] - 1) / 4.0
       avg_reward = normalized_rewards.mean()
       
       arm_stats.append({'plays': plays, 'avg_reward': avg_reward})

   # --- 3. UCB1スコアの計算と腕の選択 ---
   ucb_scores = []
   for i in range(N_ARMS):
       # UCB1スコア = 平均報酬 + √(2 * log(全試行回数) / この腕の試行回数)
       exploration_bonus = np.sqrt((2 * np.log(total_plays)) / arm_stats[i]['plays'])
       score = arm_stats[i]['avg_reward'] + exploration_bonus
       ucb_scores.append(score)
       print(f"腕{i}: 平均報酬={arm_stats[i]['avg_reward']:.3f}, UCBスコア={score:.3f}")

   # 最もスコアが高い腕を選択
   chosen_arm = np.argmax(ucb_scores)
   print(f"UCBスコアが最も高い腕 {chosen_arm} を選択しました。")
   
   return chosen_arm

# このファイルが直接実行された場合のテスト用コード if __name__ == '__main__':

   # mab_feedback.csv が存在すれば、それに基づいて腕を選択
   # 存在しなければ、ランダムに選択される
   print("\n--- バンディットアルゴリズムのテスト実行 ---")
   selected_arm = choose_arm()
   print(f"\nテスト結果: 次に選択すべき腕は {selected_arm} です。")

コードの詳細解説:
- `choose_arm`関数がこのモジュールの中心。`mab_feedback.csv`を読み込み、各腕の平均報酬と探索ボーナスを計算してUCBスコアを算出し、スコアが最大の腕を返す。

7.6. ユーザー設定ファイル (`menu_creation_settings.json`)

役割: `2献立作成(GraphicalRecipes).py`を手動（GUI）で実行した際に、ユーザーが入力した情報を保存するためのJSONファイル。自動実行モード（`--auto`）の際には、このファイルが読み込まれ、シミュレーションの基本設定として使用される。

ファイル内容の例:

{
    "ninzu": "1",
    "name_0": "るるる",
    "age_0": "21",
    "height_0": "170.0",
    "weight_0": "60.0",
    "gender_0": "男",
    "actlevel_0": "高い",
    "normal_0": false,
    "egg_0": false,
    "milk_0": true,
    "rakkasei_0": false,
    "ebi_0": false,
    "komugi_0": false,
    "kani_0": false,
    "soba_0": false,
    "syokuzai_0": "",
    "normal2_0": true,
    "tounyou_0": false,
    "jinzou_0": false,
    "sisituijou_0": false,
    "kouketu_0": false,
    "day": "5",
    "timea": "30",
    "timeb": "60",
    "timec": "60"
}

キーの説明:
- `ninzu`: 献立を作成する対象の人数。
- `name_0`, `age_0`, `height_0`など: 1人目（インデックス0）のユーザーの身体情報。人数が2人以上の場合は `name_1`, `age_1`... とキーが追加される。
- `egg_0`, `milk_0`など: 1人目のユーザーのアレルギー情報。`true`はそのアレルギーがあることを示す。
- `tounyou_0`, `jinzou_0`など: 1人目のユーザーの生活習慣病に関する設定。`true`はその病気を考慮する必要があることを示す。
- `day`: 作成する献立の日数。
- `timea`, `timeb`, `timec`: それぞれ朝食・昼食・夕食の調理時間（分）の上限。

7.7. Web UI関連ファイル

役割: Webサーバー (`web_server.py`) がブラウザ上にインタラクティブなUIを構築するために使用する、中核となるデータファイルとHTMLテンプレート。

データソース: `graph_data.json`

役割: 3Dグラフを描画するための元データ。`menu_generator.py` によって生成され、`static`フォルダに配置される。

コード内容(一部抜粋):

{
    "nodes": [
        {
            "id": 0,
            "label": "候補1",
            "recipes": [ "ひまわりご飯", "エビと豆腐の煮物(かんたん)", ... ],
            "values": { "cost": 10933.0, "time": 880.0, "ux_score_q1": 26.0391 }
        },
        {
            "id": 1,
            "label": "候補2",
            "recipes": [ "ひまわりご飯", "かやくそば", ... ],
            "values": { "cost": 9757.0, "time": 765.0, "ux_score_q1": 23.0723 }
        }
    ],
    "links": [
        { "from": 0, "to": 1, "value": 0.2962... },
        { "from": 0, "to": 2, "value": 0.3207... }
    ]
}

解説:
- `nodes`: 3Dグラフ上の各ノード（玉）を表す。各ノードは一つの献立候補に対応する。
  - `id`: ノードの一意なID。
  - `label`: グラフ上に表示される名前（例: "候補1"）。
  - `recipes`: その献立に含まれるレシピ名のリスト。
  - `values`: その献立の目的関数の値（コスト、時間、UXスコア）。
- `links`: ノード間の繋がり（エッジ）を表す。
  - `from`, `to`: どのノードとどのノードを繋ぐかを示すID。
  - `value`: ノード間の類似度。この値が大きいほど、2つの献立が似ている（共通のレシピが多い）ことを示す。

メインページ: `graph_viewer.html`

役割: 3Dグラフを描画し、ユーザー操作を受け付けるメインのWebページ。

コード内容(一部抜粋):

<!DOCTYPE html>
<html lang="ja">
<head>
    <meta charset="UTF-8">
    <title>献立候補 3D関連グラフ</title>
    <style>
        /* ... (CSSによる見た目の定義) ... */
    </style>
</head>
<body>
    <div id="graph-container"></div>
    <div class="info-panel top-left">
        </div>
    <div class="info-panel top-right" id="node-info-panel" style="display: none;">
        </div>

    <script src="//unpkg.com/3d-force-graph"></script>
    <script src="https://d3js.org/d3.v6.min.js"></script>

    <script>
        // ... (JavaScriptによるグラフ描画・操作のロジック) ...
    </script>
</body>
</html>

解説:
- HTML構造: グラフを描画する`div` (`graph-container`)、操作パネル(`info-panel`)など、ページの骨格を定義する。
- 外部ライブラリの読み込み:
  - `3d-force-graph`: 3Dの力学モデルに基づいたグラフを描画するための主要ライブラリ。
  - `d3.js`: データの可視化やDOM操作を補助するための強力なライブラリ。主にデータの正規化（`d3.scaleLinear`）などに使用。
- JavaScriptロジック:
  - `fetch('./static/graph_data.json')`: サーバーから`graph_data.json`を非同期で読み込む。
  - `function main(gData)`: 取得したデータを元に、`3d-force-graph`のインスタンスを生成し、グラフの基本的な設定（ノードの大きさ、色、クリック時の動作など）を行う。
  - `function displayNodeInfo(node)`: ノードがクリックされた際に、画面右上の情報パネルにその献立の詳細（レシピ一覧や各スコア）を表示する。
  - `function handleSliderInput(e)`: 左上のトレードオフ調整スライダーが操作された際に呼び出される。スライダーの値に最も合致するトレードオフを持つノードをハイライト表示する。
  - `function searchNodes()`: レシピ名検索ボックスに入力があった際に、該当するレシピを含む献立候補のみをグラフに表示するフィルタリング機能。

詳細・評価ページ: `details_template.html`

役割: `graph_viewer.html`で選択された特定の献立候補の詳細情報を表示し、ユーザーからの評価を受け付けるためのページ。

コード内容(一部抜粋):

<!DOCTYPE html>
<html lang="ja">
<head>
    </head>
<body>
    <h1>{{ candidate.label }} の詳細</h1>
    <form action="/save_survey" method="post">
        {% for day in candidate.day_recipes %}
            <h2>{{ day.day }}日目</h2>
            {% for meal in day.meals %}
                <h3>{{ meal.type }}</h3>
                {% for recipe in meal.recipes %}
                    <div class="recipe-card">
                        <h4>{{ recipe.title }}</h4>
                        <div class="survey-section">
                            <h5>アンケート</h5>
                            <div class="question">
                                <p>1. 食材は入手しやすいものか</p>
                                <label><input type="radio" name="q1_{{ recipe.original_number }}" value="1" checked> Yes</label>
                                <label><input type="radio" name="q1_{{ recipe.original_number }}" value="0"> No</label>
                            </div>
                            </div>
                    </div>
                {% endfor %}
            {% endfor %}
        {% endfor %}
        <div>
            <h4>この献立セットへの総合満足度 (1〜5)</h4>
            <input type="number" name="overall_satisfaction" min="1" max="5" value="3" required>
        </div>
        <button type="submit">アンケートを保存</button>
    </form>
</body>
</html>

解説:
- Jinja2テンプレートエンジン: `{{ ... }}`や`{% ... %}`といった記法は、Flaskで標準的に使われるJinja2テンプレートエンジンのもの。`web_server.py`から渡された献立データを、HTMLの適切な場所に動的に埋め込む。
- `form`タグ: すべての評価項目は`<form>`タグで囲まれており、送信ボタンが押されると、入力されたデータが`/save_survey`というURLにPOSTメソッドで送信される。
- レシピごとの評価: `{% for recipe in meal.recipes %}`ループの中で、各レシピに対して4つの質問（q1〜q4）がラジオボタンとして生成される。`name="q1_{{ recipe.original_number }}"`のように、どのレシピに対するどの質問かを識別できるように、name属性にレシピの番号が埋め込まれている。
- 総合満足度: 最後に、献立全体に対する総合的な満足度を1～5の数値で入力する欄が設けられており、この値が強化学習の「報酬」として`mab_feedback.csv`に記録される。

8. 実験設定と結果

構築した献立推薦システムの有効性を検証するため、特定の嗜好を持つ仮想ユーザーを対象としたシミュレーション実験を行った。

8.1. 実験設定

本実験の目的は、構築したシステムが、特定の好みを持つ仮想ユーザーの嗜好を正しく学習し、最適な提案戦略に収束するかを検証することである。

- 仮想ユーザーの嗜好設定 評価者として、「調理しやすさ（腕3）」を特に重視する仮想ユーザー（`virtual_user.py`）を設定した。各UX指標に対する内部的な好みの重み付けは、以下の通りである。

腕0 (q1: 入手のしやすさ): 15%
腕1 (q2: 意外性): 5%
腕2 (q3: 時間帯): 10%
腕3 (q4: 調理しやすさ): 70% この設定により、システムが腕3の戦略で献立を提案した際に、最も高い報酬が得られる環境が構築される。

- 学習アルゴリズム 提案戦略を学習するエージェントとして、UCB1バンディットアルゴリズム（`bandit_logic.py`）を用いた。

- 実行環境 シミュレーションは`run_experiment.py`によって制御され、総試行回数は200回および500回でそれぞれ実施した。

8.2. 実験結果 (総試行回数: 500回)

500回のシミュレーションを実行した最終的な各腕の選択回数と割合を以下に示す。

- 集計データ (500回)

腕（戦略）	選択回数	割合
:---	:---	:---
腕0 (q1: 入手のしやすさ)	97回	19.4%
腕1 (q2: 意外性)	74回	14.8%
腕2 (q3: 時間帯)	66回	13.2%
腕3 (q4: 調理しやすさ)	263回	52.6%

8.3. 考察と比較

- 学習の成功 まず、200回のシミュレーション結果を以下に示す。

この時点でも、システムは仮想ユーザーの最も重要な好みである「調理しやすさ（腕3）」を最適戦略として学習し、最も多く選択（42.0%）している。このことから、システムの基本的な学習能力は200回の試行で十分に確認できる。

- 試行回数の増加による学習の収束 次に、試行回数を500回に増やした結果と比較する。

腕（戦略）	200回時点の選択率	500回時点の選択率	変化
:---	:---	:---	:---
腕0 (q1)	22.5%	19.4%	-3.1%
腕1 (q2)	19.0%	14.8%	-4.2%
腕2 (q3)	16.5%	13.2%	-3.3%
腕3 (q4)	42.0%	52.6%	+10.6%

試行回数の増加に伴い、最適でない腕（0, 1, 2）の選択率は満遍なく減少し、最適である腕3の選択率が42.0%から52.6%へと大幅に上昇した。これは、アルゴリズムが学習を重ねることで「腕3が最善である」という確信度を高め、不必要な「探索」の割合を減らして、より効率的に「活用」へとシフトしていることを示している。

- 結論 以上の比較から、構築したシステムは、ユーザーの嗜好を正しく学習する能力を持つだけでなく、**十分な試行回数（フィードバック）を与えることで、最適な戦略へとより強く収束していく**ことが実証された。

9. 質疑応答とデバッグの過程

本システムの開発においては、いくつかの問題の発見と、それに対する修正・分析を経て、最終的な完成に至った。主要な質疑応答の過程を以下に記録する。

Q1. シミュレーションの自動実行が、GUI表示によって停止してしまう。

問題: `run_experiment.py`を実行した際、`2献立作成(GraphicalRecipes).py`がGUIウィンドウを表示し、ユーザーの入力を待つため、自動で処理が進行しない。
原因: `2献立作成(GraphicalRecipes).py`が、元々人間による対話的な操作を前提としていたため。
解決策: `2献立作成(GraphicalRecipes).py`に`--auto`というコマンドライン引数を認識する機能を追加。この引数が指定された場合、GUIを表示せずに`menu_creation_settings.json`から設定を読み込んで自動で実行するように修正した。

Q2. 学習が進まない。平均報酬が常に0.000のまま変動しない。

問題: 何度試行を繰り返しても、バンディットアルゴリズムのログで表示される各腕の「平均報酬」が0.000から更新されなかった。
原因: 以下の連鎖的な不具合によるものだった。
- 1. `2献立作成(GraphicalRecipes).py`が、生成した献立候補の詳細ファイル(`all_details.json`)に、各レシピのUXスコア（q1～q4）を書き込んでいなかった。
- 2. そのため、`virtual_user.py`が献立を評価する際、レシピのUXスコアを取得できず、すべてデフォルト値の0として計算してしまっていた。
- 3. 結果として、仮想ユーザーが計算する`avg_score`が常に0.0になり、報酬`reward`は常に最低点の「1」となっていた。
- 4. `bandit_logic.py`は、報酬「1」を`(1 - 1) / 4.0`という式で正規化するため、計算後の平均報酬`avg_reward`が常に`0.0`となっていた。
解決策: `2献立作成(GraphicalRecipes).py`を修正し、`all_details.json`を生成する際に、各レシピのUXスコア（q1～q4）も正しく含めるようにした。これにより、仮想ユーザーは正しい評価を行えるようになり、意味のある報酬（1～4点）が生成されるようになった。

Q3. 腕が0, 1, 2, 3,...と順番に選ばれているように見えるが、正常か？

問題: 学習の過程で、バンディットが腕をランダムに探索せず、単純な順番で選択しているように見えた。
原因: これはUCB1アルゴリズムの仕様と`numpy.argmax`関数の挙動によるもの。複数の腕のUCBスコアが全く同じ値でトップになった場合、`argmax`は常にインデックス番号が最も若い腕を選択する。成績の悪い腕（0, 1, 2）は同じ報酬（3点）を得続けるため、試行回数が揃うとUCBスコアが同値になりやすく、この現象が発生していた。
回答: バグではなく、アルゴリズムの仕様からくる正常な挙動である。成績が良い腕3を「活用」するフェーズの合間に、成績の悪い腕を順番に「探索」している状態であり、学習は正しく行われている。

Q4. 平均報酬の値が途中で変動しなくなったり、UCBスコアが全体的に下がっていくのはなぜか？

問題: 試行が進むと、各腕の平均報酬が特定の数値に固定化し、UCBスコアの全体的な値が徐々に低下していく現象が観測された。
原因:
- 平均報酬の安定: 各腕が生成する献立の評価（報酬）が安定しているため、試行回数が増えることで平均値が収束し、変動しなくなった。
- UCBスコアの低下: UCBスコアの計算式に含まれる「探索ボーナス」の項は、総試行回数と各腕の試行回数が増えるほど、数学的に0に近づくように設計されているため。
回答: これも正常な挙動である。アルゴリズムが各腕の価値について「確信」を深め、無駄な「探索」の度合いを減らして「活用」にシフトしている健全な学習過程を示している。

Q5. システムは本当にパーソナライズされているのか？UXスコアが事前に入っている前提で良いのか？

問題: 各レシピのUXスコアが事前にCSVファイルに書き込まれているのであれば、それは特定の評価者の価値観が埋め込まれているだけであり、新しいユーザーに対してパーソナライズされているとは言えないのではないか、という疑問。
回答: この疑問を解消するため、システムの構造を「客観的特徴量」と「主観的好み」に分けて説明した。
- 客観的特徴量: 各レシピのCSVに記載されているUXスコア（q1～q4）は、「調理工程の数」や「入手しにくい食材の有無」などから計算された、誰が見てもある程度共通認識が持てる客観的な指標として扱う。このデータベースの作成は、一度だけ行われる事前準備段階である。
- 主観的好みの学習: バンディットアルゴリズムの役割は、この客観的な特徴量（q1～q4）の中から、**今システムを使っているユーザーが「どれを特に重視するのか」という好みの重み付けを、報酬のフィードバックから学習する**ことにある。
結論: この設計により、システムはどのユーザーに対しても、その人固有の好みに合わせて提案戦略を最適化できる。したがって、システムはパーソナライズされていると言える。

技術資料：強化学習を用いたパーソナライズ献立推薦システム

目次

1. 目的

2. システム概要

3. 実際の人間が利用する場合の想定フロー

4. 使用するファイル全部

5. システムの実行方法

5.1. 事前準備

5.2. 目的別の実行フロー

6. 使用アルゴリズムの理論的背景

6.1. 強化学習：多腕バンディット問題とUCB1アルゴリズム

6.2. 多目的最適化：NSGA-IIとパレート最適解

7. 主要プログラムの詳細解説

7.1. `2献立作成(GraphicalRecipes).py`

7.2. `server1(GraphicalRecipes).py`

7.3. `run_experiment.py`

7.4. `bandit_logic.py`

7.5. `virtual_user.py`

7.6. ユーザー設定ファイル (`menu_creation_settings.json`)

7.7. Web UI関連ファイル

8. 実験設定と結果

8.1. 実験設定

8.2. 実験結果 (総試行回数: 500回)

8.3. 考察と比較

9. 質疑応答とデバッグの過程

Q1. シミュレーションの自動実行が、GUI表示によって停止してしまう。

Q2. 学習が進まない。平均報酬が常に0.000のまま変動しない。

Q3. 腕が0, 1, 2, 3,...と順番に選ばれているように見えるが、正常か？

Q4. 平均報酬の値が途中で変動しなくなったり、UCBスコアが全体的に下がっていくのはなぜか？

Q5. システムは本当にパーソナライズされているのか？UXスコアが事前に入っている前提で良いのか？

辻さん卒論 の履歴(No.4)

技術資料：強化学習を用いたパーソナライズ献立推薦システム

目次

1. 目的

2. システム概要

3. 実際の人間が利用する場合の想定フロー

4. 使用するファイル全部

5. システムの実行方法

5.1. 事前準備

5.2. 目的別の実行フロー

6. 使用アルゴリズムの理論的背景

6.1. 強化学習：多腕バンディット問題とUCB1アルゴリズム

6.2. 多目的最適化：NSGA-IIとパレート最適解

7. 主要プログラムの詳細解説

7.1. `2献立作成(GraphicalRecipes).py`

7.2. `server1(GraphicalRecipes).py`

7.3. `run_experiment.py`

7.4. `bandit_logic.py`

7.5. `virtual_user.py`

7.6. ユーザー設定ファイル (`menu_creation_settings.json`)

7.7. Web UI関連ファイル

8. 実験設定と結果

8.1. 実験設定

8.2. 実験結果 (総試行回数: 500回)

8.3. 考察と比較

9. 質疑応答とデバッグの過程

Q1. シミュレーションの自動実行が、GUI表示によって停止してしまう。

Q2. 学習が進まない。平均報酬が常に0.000のまま変動しない。

Q3. 腕が0, 1, 2, 3,...と順番に選ばれているように見えるが、正常か？

Q4. 平均報酬の値が途中で変動しなくなったり、UCBスコアが全体的に下がっていくのはなぜか？

Q5. システムは本当にパーソナライズされているのか？UXスコアが事前に入っている前提で良いのか？

辻さん卒論の履歴(No.4)