中島_backup の履歴(No.25)

B3 前期授業スケジュール

	月曜日	火曜日	水曜日	木曜日	金曜日
1-2					研究会
3-4		卒論1			研究会
5-6	卒論1	ディジタル信号処理	卒論1	卒論1
7-8					技術者倫理
9-10		研究会		&size(px){Text you want to change};
11-12

&ref(): File not found: "ダッシュストーム.jpg" at page "中島"; &ref(): File not found: "ダッシュストーム.jpg" at page "中島"; &ref(): File not found: "ダッシュストーム.jpg" at page "中島"; &ref(): File not found: "ダッシュストーム.jpg" at page "中島"; &ref(): File not found: "ダッシュストーム.jpg" at page "中島"; &ref(): File not found: "ダッシュストーム.jpg" at page "中島";

&ref(): File not found: "栗松.jpg" at page "中島"; &ref(): File not found: "栗松.jpg" at page "中島"; &ref(): File not found: "栗松.jpg" at page "中島"; &ref(): File not found: "栗松.jpg" at page "中島"; &ref(): File not found: "栗松.jpg" at page "中島"; &ref(): File not found: "栗松.jpg" at page "中島";

メモ

離散選択モデル　支払い意思　どんな条件があれば他の条件よりもお金を払えるか

ヘドニックアプローチ　価格に影響を与える要因を分析する

離散選択モデル　どのような属性の組み合わせが消費者に選ばれやすいのかを分析。　価格だけでなく、消費者選好の観点から選択確率を考慮することが可能

交絡因子の影響を排除することはできない。

→操作変数法を利用することで、未観測の交絡因子が存在しても、対象の要因・効果を推定する方法。

どのような消費者がある属性に対して強い選好を持っているか

→構造推定

3.3限界支払い意思額

変数選択法　種類
全探索法

逐次選択法
（前進選択法
後退選択法
ステップワイズ選択法）

正則化法
（リッジ回帰
ラッソ回帰
Elastic Net）

相関分析
主成分分析
boruta法
AIC/BICの最小化

import pandas as pd

# CSVファイルを読み込む
file_path = r"C:\Users\tn011\Downloads\富山取引のほう　富山市のみ 2\富山取引のほう　富山市のみ\df_housing_toyamacity.csv"
df = pd.read_csv(file_path)

# 元号から西暦への変換関数
def convert_gengo_to_seireki(gengo_year):
    if '令和' in gengo_year:
        year = int(gengo_year.replace('令和', ''))
        return 2018 + year  # 令和は2019年から
    elif '平成' in gengo_year:
        year = int(gengo_year.replace('平成', ''))
        return 1988 + year  # 平成は1989年から
    elif '昭和' in gengo_year:
        year = int(gengo_year.replace('昭和', ''))
        return 1925 + year  # 昭和は1926年から
    elif '大正' in gengo_year:
        year = int(gengo_year.replace('大正', ''))
        return 1911 + year  # 大正は1912年から
    elif '明治' in gengo_year:
        year = int(gengo_year.replace('明治', ''))
        return 1867 + year  # 明治は1868年から
    else:
        return None  # 元号が認識できない場合

# 例: '元号'という列が元号を含むと仮定
if '元号' in df.columns:
    df['西暦'] = df['元号'].apply(convert_gengo_to_seireki)

# 変換結果をCSVとして保存
output_path = r"C:\Users\tn011\Downloads\富山取引のほう　富山市のみ 2\富山取引のほう　富山市のみ\df_housing_toyamacity_with_seireki.csv"
df.to_csv(output_path, index=False)

import numbers
import warnings

import cvxpy
import numpy as np
from asgl import ASGL
from sklearn.base import MultiOutputMixin
from sklearn.base import RegressorMixin
from sklearn.exceptions import ConvergenceWarning
from sklearn.linear_model import ElasticNet
from sklearn.linear_model._coordinate_descent import _alpha_grid
from sklearn.utils import check_X_y
from sklearn.utils.validation import check_is_fitted

class AdaptiveElasticNet(ASGL, ElasticNet, MultiOutputMixin, RegressorMixin):
    """
    Objective function and parameters as described with modifications
    to allow alpha1, alpha2, l1_ratio1, and l1_ratio2 customization.
    """

def __init__(
        self,
        alpha1=0.021544346900318846,   # First-stage ElasticNet alpha
        alpha2=0.0009443498043343188,  # Second-stage ElasticNet alpha
        *,
        l1_ratio1=0.8889,  # First-stage ElasticNet L1 ratio
        l1_ratio2=0.778,  # Second-stage ElasticNet L1 ratio
        gamma=0.5,  # Weight adjustment exponent
        fit_intercept=True,
        precompute=False,
        max_iter=10000,
        copy_X=True,
        solver=None,
        tol=None,
        positive=False,
        positive_tol=1e-3,
        random_state=None,
        eps_coef=1e-6,
        verbose=True
    ):
        params_asgl = dict(model="lm", penalization="asgl")
        if solver is not None:
            params_asgl["solver"] = solver
        if tol is not None:
            params_asgl["tol"] = tol

super().__init__(**params_asgl)

self.alpha1 = alpha1
        self.alpha2 = alpha2
        self.l1_ratio1 = l1_ratio1
        self.l1_ratio2 = l1_ratio2
        self.gamma = gamma
        self.fit_intercept = fit_intercept
        self.max_iter = max_iter
        self.precompute = precompute
        self.copy_X = copy_X
        self.positive = positive
        self.positive_tol = positive_tol
        self.random_state = random_state
        self.eps_coef = eps_coef
        self.verbose = verbose

if not self.fit_intercept:
            raise NotImplementedError

def fit(self, X, y, check_input=True):
        if check_input:
            X_copied = self.copy_X and self.fit_intercept
            X, y = self._validate_data(
                X,
                y,
                accept_sparse="csc",
                order="F",
                dtype=[np.float64, np.float32],
                copy=X_copied,
                multi_output=True,
                y_numeric=True,
            )

# 第一段階の ElasticNet 実行
        enet_model_1 = self.elastic_net(self.l1_ratio1, alpha=self.alpha1)
        enet_model_1.fit(X, y)
        enet_coef = enet_model_1.coef_

# 重みの計算
        weights = 1.0 / (np.maximum(np.abs(enet_coef), self.eps_coef) ** self.gamma)

# 第二段階の最適化
        self.coef_, self.intercept_ = self._optimize_second_stage(X, y, weights)

# モデル属性を格納
        self.enet_coef_ = enet_coef
        self.weights_ = weights

return self

def predict(self, X):
        check_is_fitted(self, ["coef_", "intercept_"])
        return super(ElasticNet, self).predict(X)

def elastic_net(self, l1_ratio, **params):
        """
        Create an ElasticNet model with the specified parameters.
        """
        elastic_net = ElasticNet(l1_ratio=l1_ratio)

for k, v in self.get_params().items():
            try:
                elastic_net = elastic_net.set_params(**{k: v})
            except ValueError:
                pass  # Ignore parameters not supported by ElasticNet

elastic_net = elastic_net.set_params(**params)
        return elastic_net

def _optimize_second_stage(self, X, y, weights):
        """
        Perform second-stage optimization with adaptive weights.

Returns
        -------
        coef : np.array, shape (n_features,)
        intercept : float
        """
        n_samples, n_features = X.shape
        beta_variables = [cvxpy.Variable(n_features)]

model_prediction = 0.0
        if self.fit_intercept:
            beta_variables = [cvxpy.Variable(1)] + beta_variables
            ones = cvxpy.Constant(np.ones((n_samples, 1)))
            model_prediction += ones @ beta_variables[0]

# モデル予測
        model_prediction += X @ beta_variables[1]
        error = cvxpy.sum_squares(y - model_prediction) / (2 * n_samples)
        l1_coefs = self.alpha2 * self.l1_ratio2
        # 第二段階の正則化項
        l1_penalty = cvxpy.Constant(l1_coefs * weights) @ cvxpy.abs(
            beta_variables[1]
        )
        l2_penalty = (
            cvxpy.Constant(self.alpha1 * (1 - self.l1_ratio1))
            * cvxpy.sum_squares(beta_variables[1])
        )

constraints = [b >= 0 for b in beta_variables] if self.positive else []

# 最適化問題の定義
        problem = cvxpy.Problem(
            cvxpy.Minimize(error + l1_penalty + l2_penalty), constraints=constraints

n problem.solve(solver="OSQP", max_iter=self.max_iter)\n\n if problem.status != "optimal":\n raise ConvergenceWarning(\n f"Solver did not reach optimum (Status: {problem.status})"\n )\n\n beta_sol = np.concatenate([b.value for b in beta_variables], axis=0)\n beta_sol[np.abs(beta_sol) < self.tol] = 0\n\n intercept, coef = beta_sol[0], beta_sol[1:]\n coef = np.maximum(coef, 0) if self.positive else coef\n\n return coef, intercept\n\n\nfrom sklearn.linear_model import ElasticNetCV\nfrom sklearn.model_selection import GridSearchCV\nfrom sklearn.datasets import make_regression\nimport numpy as np\nfrom sklearn.model_selection import train_test_split\nimport pandas as pd\nfrom sklearn.preprocessing import StandardScaler\n\n# CSVファイルのパスを指定してください\nfile_path = "C:/Users/nt011/Desktop/研究/富山取引のほう富山市のみ/変数選択/変数作成後新新.csv"\n\n# CSVファイルの読み込み\ndf = pd.read_csv(file_path, encoding='cp932') # 文字コードが異なる場合は、'utf-8' を他のエンコーディングに変更してください\n\n# 特徴量とターゲットの分割\nX = df.drop(columns=['取引価格（㎡単価）']) # 取引価格（㎡単価）をyとして分離\ny = df['取引価格（㎡単価）'] # ターゲット変数\n\n# 🔥 標準化の実施\nscaler_X = StandardScaler()\nscaler_y = StandardScaler()\n\nX_scaled = scaler_X.fit_transform(X) # Xの標準化\ny_scaled = scaler_y.fit_transform(y.values.reshape(-1, 1)).ravel() # yの標準化\n\n\n# データ分割\nX_train, X_test, y_train, y_test = train_test_split(X_scaled, y_scaled, test_size=0.35, random_state=42)\n\n# 訓練データの一部を使用\nX_sample, _, y_sample, _ = train_test_split(X_train, y_train, test_size=0.8, random_state=42)\n\n# 第一段階: ElasticNetCVを使用した最適パラメータの導出\nenet_cv = ElasticNetCV(\n l1_ratio=np.linspace(0.0001, 1, 25), # l1_ratioの候補\n alphas=np.logspace(-5, 0, 25), # alphaの候補\n cv=5, # 交差検証の分割数\n random_state=42,\n n_jobs=-1\n)\nenet_cv.fit(X_train, y_train)\n\n# 第一段階の最適パラメータと係数を取得\nalpha1_opt = enet_cv.alpha_\nl1_ratio1_opt = enet_cv.l1_ratio_\nenet_coef = enet_cv.coef_\n\nprint(f"第一段階の最適パラメータ: alpha1={alpha1_opt}, l1_ratio1={l1_ratio1_opt}"))

やること

from sklearn.linear_model import ElasticNet
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import make_regression
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# CSVファイルのパスを指定してください
file_path = "C:/Users/nt011/Desktop/研究/富山取引のほう富山市のみ/変数選択/変数作成後新.csv"

# CSVファイルの読み込み
df = pd.read_csv(file_path, encoding='cp932')  # 文字コードが異なる場合は、'utf-8' を他のエンコーディングに変更してください

# 特徴量とターゲットの分割
X = df.drop(columns=['取引価格（㎡単価）'])  # 取引価格（㎡単価）をyとして分離
y = df['取引価格（㎡単価）']  # ターゲット変数

# 🔥 標準化の実施
scaler_X = StandardScaler()
scaler_y = StandardScaler()

X_scaled = scaler_X.fit_transform(X)  # Xの標準化
y_scaled = scaler_y.fit_transform(y.values.reshape(-1, 1)).ravel()  # yの標準化

# データ分割
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_scaled, test_size=0.2, random_state=42)

# 訓練データの一部を使用
X_sample, _, y_sample, _ = train_test_split(X_train, y_train, test_size=0.8, random_state=42)

# 2. パラメータグリッドの設定
param_grid = {
    'alpha': np.logspace(-5, 0, 10),  # alpha1の探索範囲 (正則化パラメータ)
    'l1_ratio': np.linspace(0.0001, 1.0, 10)  # l1_ratio1の探索範囲 (L1とL2の比率)
}

# パラメータ名を変更（alpha -> alpha1, l1_ratio -> l1_ratio1）
param_grid = {'alpha1': param_grid['alpha'], 'l1_ratio1': param_grid['l1_ratio']}

# 3. ElasticNetモデルの初期化
elastic_net = ElasticNet(max_iter=10000, random_state=42)

# 4. グリッドサーチCVの設定
grid_search = GridSearchCV(
    estimator=elastic_net,
    param_grid={'alpha': param_grid['alpha1'], 'l1_ratio': param_grid['l1_ratio1']},  # 変更した名前に対応
    cv=5,  # 5分割交差検証
    scoring='neg_mean_squared_error',  # 評価指標: 平均二乗誤差の負値
    verbose=1,
    n_jobs=-1  # 並列実行
)

# 5. グリッドサーチの実行
grid_search.fit(X_sample, y_sample)

# 6. 最適なパラメータとスコアの取得
best_params = grid_search.best_params_
best_params_renamed = {'alpha1': best_params['alpha'], 'l1_ratio1': best_params['l1_ratio']}
best_score = grid_search.best_score_

print("最適なパラメータ:")
print(best_params_renamed)
print("最良のスコア (平均二乗誤差の負値):")
print(best_score)

class TQDMGridSearchCV(GridSearchCV):
    def __init__(self, estimator, param_grid, cv=5, scoring=None, n_jobs=None, verbose=0, 
                 refit=True, return_train_score=True, pre_dispatch='2*n_jobs', error_score='raise', **kwargs):
        # iid引数を削除して、super()に渡さない
        super().__init__(estimator=estimator, param_grid=param_grid, cv=cv, scoring=scoring,
                         n_jobs=n_jobs, verbose=verbose, refit=refit, return_train_score=return_train_score,
                         pre_dispatch=pre_dispatch, error_score=error_score, **kwargs)
        
        # tqdmを使って進捗表示
        self.tqdm = tqdm(total=1, position=0, leave=True)
    
    def fit(self, X, y=None, **fit_params):
        # 進捗バーを更新
        self.tqdm.set_description("Fitting model")
        
        result = super().fit(X, y, **fit_params)
        
        self.tqdm.close()  # 進捗バーを閉じる
        return result

# 第二段階のGridSearchCVで交差検証（進捗表示を追加）
grid_search = TQDMGridSearchCV(
    estimator=model,
    param_grid=param_grid,
    cv=5,  # 交差検証の分割数
    scoring='neg_mean_squared_error',  # 評価指標（MSEの負の値を使用）
    #n_jobs=-1,  # 並列実行
    verbose=1   # 実行状況を表示しない
)

import numba
from numba import jit
import numpy as np
import pandas as pd
from sklearn.linear_model import ElasticNet
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import cross_val_score

# Numbaを使った交差検証の高速化

@jit(nopython=True)
def cross_val_score_numba(X, y, model, cv=5):
    """
    Numbaを使用した交差検証の実装
    """
    n_samples = X.shape[0]
    fold_size = n_samples // cv
    scores = np.zeros(cv)
    
    for i in range(cv):
        # フォールドの分割
        val_idx = list(range(i * fold_size, (i + 1) * fold_size))
        train_idx = list(set(range(n_samples)) - set(val_idx))
        
        X_train, X_val = X[train_idx], X[val_idx]
        y_train, y_val = y[train_idx], y[val_idx]
        
        model.fit(X_train, y_train)
        y_pred = model.predict(X_val)
        
        # MSEスコアの計算
        scores[i] = mean_squared_error(y_val, y_pred)
    
    return scores

# CSVファイルのパスを指定してください
file_path = "C:/Users/tn011/Desktop/変数作成後新新.csv"

# CSVファイルの読み込み
df = pd.read_csv(file_path, encoding='cp932')

# 特徴量とターゲットの分割
X = df.drop(columns=['取引価格（㎡単価）'])
y = df['取引価格（㎡単価）']

# 標準化の実施
scaler_X = StandardScaler()
scaler_y = StandardScaler()

X_scaled = scaler_X.fit_transform(X)
y_scaled = scaler_y.fit_transform(y.values.reshape(-1, 1)).ravel()

# 訓練データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_scaled, test_size=0.35, random_state=42)

# 第一段階のElasticNetのハイパーパラメータチューニング
alpha_values = np.logspace(-5, 0, 25)
l1_ratio_values = np.linspace(0.0001, 1, 25)

best_score = float('inf')
best_alpha = None
best_l1_ratio = None
best_model = None

# numbaを使用した交差検証を実行
for alpha in alpha_values:
    for l1_ratio in l1_ratio_values:
        model = ElasticNet(alpha=alpha, l1_ratio=l1_ratio, max_iter=10000)
        
        scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
        
        mean_score = np.mean(scores)
        
        if mean_score < best_score:
            best_score = mean_score
            best_alpha1 = alpha
            best_l1_ratio1 = l1_ratio
            best_model = model

print(f"最適なalpha: {best_alpha1}, 最適なl1_ratio: {best_l1_ratio1}")

# 最適なモデルのトレーニング
best_model.fit(X_train, y_train)
y_pred = best_model.predict(X_test)

# テストデータでの性能を評価
test_score = mean_squared_error(y_test, y_pred)
print(f"テストデータのMSE: {test_score}")

研究会(中島)

専門ゼミ(中島)

引き継ぎ(中島)

メモ(中島)

中間発表(中島)

中間発表システムまとめ(中島)

本論(中島)

B3 前期授業スケジュール