#author("2024-03-08T00:42:19+00:00","","") #author("2024-03-14T08:51:22+00:00","","") [[由利恵]] *目次 [#yee37361] #CONTENTS * [#j66fc05d] **プログラム [#e11c8f8f] #ref(open-data.zip) **データ収集 [#fdbc290b] #br [[e-stat:https://www.e-stat.go.jp/regional-statistics/ssdsview/muicipality]] #ref(n1.png,,30%) #br 絞り込みで「区」を外し、地域候補は「全て選択」をクリックし確定 #br #ref(n2.png,,30%) #br 項目候補の中から欲しいデータを選択し「項目を選択」をクリックし確定~ (今回は一番上の「婚姻件数」を選択してみる) #br #ref(n3.png,,30%) #br 右上の方にある「ダウンロード」をクリック #br #ref(n4.png,,30%) #br 「ダウンロード」を押すとcsvファイルが保存される #br #ref(n5.png,,40%) #br **データ整理[#m21b353a] #br -''&color(black){data-city_num.csv};''~ 市町村コードが書かれている -''&color(black){open-data_2020.csv};''~ 長瀬さんが集めたデータが11件載っている -''&color(black){FEI_CITY_240305145146.csv};''~ 「事前準備」でダウンロードしたデータ~ ''&color(black){data-city_num.csv};''には全ての地域コードが含まれているわけではないため、ダウンロードしてきた''&color(black){FEI_CITY_240305145146.csv};''の地域コードと合わせる必要がある~ 新しいExcelファイルを立ち上げ、VLOOKUP関数を使用し抜き出した~ -A列 ''&color(black){FEI_CITY_240305145146.csv};''の地域コード -B列 ''&color(black){FEI_CITY_240305145146.csv};''婚姻件数 -D列 ''&color(black){data-city_num.csv};'' -E列 D列を参照にVLOOKUP関数で埋める #br #ref(n6.png,,30%)~ #br 関数で出てきたもの(E列)を''&color(black){open-data_2020.csv};''のL列に貼り付ける~ #br #ref(n7.png,,30%) ダウンロードしたデータすべてに同じことをする~ ''&color(black){open-data_2020.csv};''ファイルをコピーし、コピーしたファイルの1行目を変更する(''&color(black){open-data_2020copy.csv};'')~ ''&color(black){open-data_2020copy.csv};''の1行目を画像のようにx_1からx_○と書き換える(x_1とかの書き方じゃなくてもいい)~ コピーする理由は1行目を変更してしまうと、どのデータが入っていたかが分からなくなるから~ #br #ref(n8.png,,30%) #br **データのグループ分け[#dfba0142] #br [[中島さん:https://www.pu-toyama.ac.jp/IS/IIE/IIE.IS.Wiki.240304/lab_wiki/wiki_lab.php?%E9%95%B7%E7%80%AC%E3%81%95%E3%82%93%E3%81%AE%E5%BC%95%E7%B6%99%E3%81%8E]]~ の中にある~ -RとRstudioの導入~ -潜在クラス分析(LPA)~ -RF6の実装~ を参考にしながら行う~ #br #ref(n17.png,,30%) **データの変換 [#u2648de4] #br データのグループ分けで作成したファイル(今回は''&color(black){open-data_2020_LPA_result_okuhara.csv};'')のC列からF列をコピーし、~ ''&color(black){open-data_2020_okuhara.csv};''のN列からQ列に貼り付ける~ #br #ref(n9.png,,30%) #br ''&color(black){open-data_2020_okuhara.csv};''のExcelをコピーして、コピーしたものを使用していく~ (''&color(black){open-data_2020_okuhara.csv};'')~ A列からQ列をコピーしS列以降に貼り付け、以下の処理を行っていく~ -x_1~x_○ ''&color(black){説明的変数};''(0より大きい 0≦x≦1)~ -x_一番最後の列 ''&color(black){目的変数};''(実数でOK)~ と分けられる~ #br #ref(n10.png,,30%) ''&color(black){説明的変数};''は列の一番大きい数字で割る~ ''&color(black){目的変数};''はZ-Scoreを行う~ +説明的変数 #br 入力されている数値をその列の一番大きい数字で割る~ ①S1を選択し、数式バーに~ =A2/MAX(A$2:A$652) を入力し下までオートフィル~ この時に絶対参照を忘れないようにする~ ②S1のものをx_12までオートフィルを行い、同様にしたまで行う~ #ref(n11.png,,30%) #ref(n12.png,,30%) +目的変数 #br Z-Scoreは(データの値‐平均)/ 標準偏差 で求めることが出来る~ 今回は「STANDARDIZE関数」を使い計算した~ =STANDARDIZE(M2,AVERAGE($M$2:$M$652),STDEV.P($M$2:$M$652)) を入力する~ #ref(n13.png,,30%) #ref(n14.png,,30%) #br S列からAI列をコピーし、AK列に「値の貼り付け」で貼り付けを行う #ref(n15.png,,30%) 貼り付けが終わったら、A列からAJ列を削除 #ref(n16.png,,30%) **プログラムの変更箇所 [#qc0a257a] ①169行目を~ open-data_2020_LPA.csv のある場所に書き替える~ #ref(n18.png,,30%) #br ②175行目を「''&color(black){open-data_2020_LPA_result_okuhara.csv};''」のグループ数に変える #ref(n19.png,,30%) #br ③1092行目から1109行目を書き換える~ /best_theta_{0}.csv".format(i) best_weightnum_{0}.csv".format(i) best_JR_BIC_{0}.csv".format(i) all_BIC_{0}.csv".format(i) best_JR_g0_{0}.csv".format(i) は変えない~ 新しいフォルダを作成し、その中に保存されるようにしていく #ref(n20.png,,30%) **実行 [#db43916e] ''&color(black){RF6_real_experiment100.py};''を実行する フォルダの中に~ -[[]] **結果 [#n6c56f41] 保存期間5年の修論プログラムからRF6….pyダウンロード 170行目書き換える 175行目 1058行目 プログラムが動いているか確認したければ528行目の500を5に変更し617行目のコメントアウトをコメントアウトじゃなくす その際実行後500に戻すのとコメントアウトにすることを忘れないように 19行目インプットapikey keyの番号を変える 26行目 29行目 量的なデータ 市区町村コードが降られている コードと遂になっているもの探す e-stat 1321