堀さん卒論_backup の履歴(No.4)

履歴一覧
差分を表示
現在との差分を表示
ソースを表示
堀さん卒論_backup へ行く。
- 1 (2025-01-30 (木) 11:20:20)
- 2 (2025-01-30 (木) 11:43:18)
- 3 (2025-02-04 (火) 13:26:51)
- 4 (2025-02-13 (木) 12:53:24)
- 5 (2025-02-18 (火) 15:25:16)
- 6 (2025-02-21 (金) 12:01:03)
- 7 (2025-02-21 (金) 17:09:24)

動かし方

1．codeの中の, 献立作成.py, server1.pyを動かす．
2．必要なモジュールをすべて入れる．(pip installなど)
3．最初はPython trial の画面が出てくるので, 30日間の無料trialか, アカウント登録(無料)する.
4. 画面通りに進める.
5. 途中, グラフが表示されるので, 削除すると, 次に進む.
6. スライダーを動かし, 重視する比率を決める.
7. 進んでいくと候補が表示され,選択してから「決定」を押すと, ホームページに飛ぶ.
8. 項目を選択し, データを送信する.
9. cdijnklmn_extracted_with_headers.csvを開き, [Ctrl] + [A] で全選択してから標準→数値にする.
10. rogi.pyを動かし, ロジスティック回帰分析を行う.
11. 2献立作成.pyを動かす.
12. 選択肢メニューが表示されるので, 2つ選び, 画面通りに進む.
13. 4. に戻る.
※4.～11.を繰り返すことで, 自分にあったメニューが表示されるようになる.

献立作成

表示される画面を順番通りに載せておく.

人数を入力する.

各項目を入力する.

アレルギーがあれば入力する.

患っている, または, 予防したい生活習慣病を選択する.

日数を設定する.

グラフが表示されるので, 確認したら消す.

スライダーを動かし, 比率を決める.

候補が表示されるので, OKなら[決定]を押す.

候補1がホームページに表示される. [次へ]を押すと, 候補2, 候補3 と表示される.

10.

ホームページの画面.

11.

料理ごとの項目を選択していき, [送信]を押す. 画像通りになると, 送信できている.

cdijnklmn_extracted_with_headers.csv

12.

cdijnklmn_extracted_with_headers.csv を開き, [Ctrl] + [A] で全選択してから標準→数値にする.
上書き保存も忘れずに.

rogi.py

13.

rogi.py を動かす. ロジスティック回帰分析がうまくいくと, 画面のようになる.

2献立作成.py

14.

2献立作成.py を動かすと, 選択肢メニューが表示されるので, 2つ選択し, [選択]を押す.
その後は, 献立作成.py と同じなので割愛する.
15.

16.

17.

18.

19.

20.

プログラムの説明

NSGA-Ⅱ

1.サンプリング（MySampling）

n_max 個の要素を選択し、それをブール値の配列として表現する。
n_samples 回繰り返して初期個体群を生成。
交叉（BinaryCrossover）

2.交叉（BinaryCrossover）

2つの親（p1 と p2）の情報を組み合わせて子を作成。両方の親が True の要素はそのまま保持。
それ以外の部分はランダムに片方の親から選択。
突然変異（MyMutation）

3.突然変異（MyMutation）

ランダムに True の要素を False にし、False の要素を True に変更。
変異の発生は 1 回のフリップのみ（1要素だけが変化）。

4.最適化問題の設定（SubsetProblem）

n_max（レシピ数）が 7×day なので、1日7品、day 日分の献立を選ぶ。
制約条件 c_max = 300（コスト上限？）を設定。
Ti, Gi, Ci, f0j, f1j, f2j などのパラメータが問題に影響。
eer, rtanpaku, rsisitu, rtansui も栄養関連の制約と推測。

5.NSGA-II アルゴリズムの設定

pop_size=R（集団サイズ R）
sampling=MySampling()（カスタムサンプリング）
crossover=BinaryCrossover()（カスタム交叉）
mutation=MyMutation()（カスタム突然変異）
eliminate_duplicates=True（重複解を排除）

6.最適化実行

minimize() に problem と algorithm を渡して最適化開始。
n_gen=gen（gen 世代進化させる）。
verbose=True で進捗を表示。
最後にユーザに最適化された&color(red)パレート解;.を提示する

サーバー（Flask）

処理の流れ

1.フォームデータの受け取り

mnumber, l1number, l2number, ... などの値をフォームから取得（ユーザが回答したレシピナンバーに対応している）。
ユーザーの回答（q1, q2, q3, q4）も取得。

2.対応するCSVファイルのパスを生成

base_dir にある recipe_noX.csv の形でファイル名を作成。

3.CSVファイルの存在確認と更新

recipe_noX.csv が存在するか確認。
存在すれば読み込み、ユーザーの回答を新しい列として追加（入手しやすいかなど）。
そのまま上書き保存。

4.データの抜き出し

各CSVファイルから1行目（iloc[0:1]）を抜き出し、cdijnklmn_extracted_data.csv とに追記保存。ロジスティック回帰分析のために使用する

ロジスティック回帰分析

1。CSVデータの読み込み

df_train: 学習用データ (cdijnklmn_extracted_with_headers.csv)
df_predict: 予測用データ (combined_second_rows.csv)

2.説明変数リストの設定

食材や栄養素、料理の調理方法など、多数の特徴量が含まれる。

3.process_question() 関数

スケーリング（StandardScaler） → 標準化（平均0, 分散1に変換）を実施
SMOTEによるクラスバランスの調整
→ sampling_strategy=1.0 で少数クラスのサンプルをオーバーサンプリング
ロジスティック回帰の学習と予測
→ sample_weight を使って学習し、予測確率を算出

4.q1〜q4の分析準備

x_train と x_predict を設定
results 辞書を用意（予測結果を格納するため）

5.q1〜q4の予測

process_question() を使って各質問（q1〜q4）の確率を算出し、results に格納する。

6.各レシピファイルに予測結果を書き込む

recipe_no{i + 1}.csv を開き、該当する列（UX項目）がなければ追加する。
2行目から26行目までの範囲で、予測確率を -prob_q1 などの形で代入（負の値ににしているのは、NSGA-Ⅱでは二変数の最小化を行うため）。
cp932（Shift-JIS互換）で上書き保存する。

7.要約結果を作成

results["q1"] >= 0.5 のように0.5を閾値として0/1に変換し、要約データフレームを作成。
summary_results.csv に保存。

データの前処理

#ref(): File not found: "データの前処理.py" at page "堀さん卒論_backup"

recipe_noX.csvに対して以下の処理を行う。

１．予測結果の追加

q1〜q4の予測値を recipe_no{i}.csv に追加

2.作り方データの統合

howto.csv から recipe_no{i}.csv に対応する作り方データを取得し、新しいファイル (output_combined_{i}.csv) を作成

3.作り方の基本動作ワードのカウント

切, 混, 焼, 煮, などの単語が作り方に何回出現するかをカウントし、recipe_no{i}.csv に追加

4.栄養データの処理

recipe_no{i}.csv の6,7列目（栄養素名と栄養量）を抽出し、転置して25行に拡張し recipe_no{i}.csv に追加

5.食材リストのマッチング

　recipe_no{i}.csv の5列目を対象に、指定した食材が含まれているかを判定し ingredient_presence.csv に保存食材データの統合

6.ingredient_presence.csv のデータを recipe_no{i}.csv に結合不要な列の削除

recipe_no{i}.csv の5〜8列目を削除

ロジスティック回帰分析

ロジスティック回帰の概要

ロジスティック回帰は、結果が「成功 or 失敗」「はい or いいえ」などの二値（0 or 1）で表せる場合に使う回帰分析の手法。

数学的には、以下のように**シグモイド関数（ロジスティック関数）**を使って、確率を求める。

#ref(): File not found: "７.png" at page "堀さん卒論_backup"

ロジスティック回帰は、各𝑋の影響を学習し、UX項目が「あるかどうか」の確率を予測するモデルを作ることができる。

SMOTE

SMOTE（Synthetic Minority Over-sampling Technique）は、不均衡データ（クラスの割合が極端に偏っているデータ）を扱うためのオーバーサンプリング手法の一つだよ。特に、少数クラス（minority class）のデータを人工的に生成して、クラスバランスを改善する目的で使われる。

SMOTEの仕組み SMOTEは、単純に少数クラスのデータをコピーして増やすのではなく、既存のデータを基に新しいデータを合成（シンセティック）する。

SMOTEの手順
1.少数クラスのデータをランダムに選択
2.選択したデータの近傍から k 個の最近傍点を見つける（k-NNを利用）
3.最近傍のいずれかの点と選択した点を直線で結ぶ
4.その直線上の適当な点をランダムに選び、新しいデータポイントとして追加
5.このプロセスを繰り返して、少数クラスのデータを増やす

メリット
✅ データのバランスを改善し、学習精度を向上
✅ 単純なコピーではなく、新しいデータを合成するので過学習を防げる
✅ ロジスティック回帰や決定木、ランダムフォレストなど幅広いモデルで使える

デメリット
❌ 合成データが現実的でない可能性がある（特に非線形な分布の場合）
❌ k-NNを使うため、データの分布に影響を受けやすい
❌ データ数が増えるので、計算コストが高くなる

目次

目的

使用するファイル全部

動かし方

献立作成

cdijnklmn_extracted_with_headers.csv

rogi.py

2献立作成.py

プログラムの説明

NSGA-Ⅱ

サーバー（Flask）

ロジスティック回帰分析

データの前処理

ロジスティック回帰分析

SMOTE

用途	ファイル名	ファイルの場所
データ収集	献立作成.py	code
データ収集	server1.py	code
uxを考慮してデータ収集	2献立作成.py	code
ロジスティック回帰分析	rogi.py	code
集めたデータ	cdijnklmn_extracted_with_headers.csv	code