#author("2024-03-08T00:42:19+00:00","","")
#author("2024-03-14T08:51:22+00:00","","")
[[由利恵]]

*目次 [#yee37361]
#CONTENTS



* [#j66fc05d]



**プログラム [#e11c8f8f]
#ref(open-data.zip)




**データ収集 [#fdbc290b]
#br
[[e-stat:https://www.e-stat.go.jp/regional-statistics/ssdsview/muicipality]]
#ref(n1.png,,30%)
#br
絞り込みで「区」を外し、地域候補は「全て選択」をクリックし確定
#br
#ref(n2.png,,30%)
#br
項目候補の中から欲しいデータを選択し「項目を選択」をクリックし確定~
(今回は一番上の「婚姻件数」を選択してみる)
#br
#ref(n3.png,,30%)
#br
右上の方にある「ダウンロード」をクリック
#br
#ref(n4.png,,30%)
#br
「ダウンロード」を押すとcsvファイルが保存される
#br
#ref(n5.png,,40%)
#br



**データ整理[#m21b353a]
#br
-''&color(black){data-city_num.csv};''~
 市町村コードが書かれている

-''&color(black){open-data_2020.csv};''~
 長瀬さんが集めたデータが11件載っている

-''&color(black){FEI_CITY_240305145146.csv};''~
 「事前準備」でダウンロードしたデータ~

''&color(black){data-city_num.csv};''には全ての地域コードが含まれているわけではないため、ダウンロードしてきた''&color(black){FEI_CITY_240305145146.csv};''の地域コードと合わせる必要がある~

新しいExcelファイルを立ち上げ、VLOOKUP関数を使用し抜き出した~

-A列  ''&color(black){FEI_CITY_240305145146.csv};''の地域コード
-B列  ''&color(black){FEI_CITY_240305145146.csv};''婚姻件数
-D列  ''&color(black){data-city_num.csv};''
-E列  D列を参照にVLOOKUP関数で埋める
#br
#ref(n6.png,,30%)~
#br
関数で出てきたもの(E列)を''&color(black){open-data_2020.csv};''のL列に貼り付ける~
#br
#ref(n7.png,,30%)

ダウンロードしたデータすべてに同じことをする~

''&color(black){open-data_2020.csv};''ファイルをコピーし、コピーしたファイルの1行目を変更する(''&color(black){open-data_2020copy.csv};'')~

''&color(black){open-data_2020copy.csv};''の1行目を画像のようにx_1からx_○と書き換える(x_1とかの書き方じゃなくてもいい)~

コピーする理由は1行目を変更してしまうと、どのデータが入っていたかが分からなくなるから~
#br
#ref(n8.png,,30%)
#br



**データのグループ分け[#dfba0142]
#br
[[中島さん:https://www.pu-toyama.ac.jp/IS/IIE/IIE.IS.Wiki.240304/lab_wiki/wiki_lab.php?%E9%95%B7%E7%80%AC%E3%81%95%E3%82%93%E3%81%AE%E5%BC%95%E7%B6%99%E3%81%8E]]~

の中にある~

-RとRstudioの導入~
-潜在クラス分析(LPA)~
-RF6の実装~

を参考にしながら行う~
#br
#ref(n17.png,,30%)


**データの変換 [#u2648de4]
#br
データのグループ分けで作成したファイル(今回は''&color(black){open-data_2020_LPA_result_okuhara.csv};'')のC列からF列をコピーし、~

''&color(black){open-data_2020_okuhara.csv};''のN列からQ列に貼り付ける~
#br
#ref(n9.png,,30%)
#br
''&color(black){open-data_2020_okuhara.csv};''のExcelをコピーして、コピーしたものを使用していく~
(''&color(black){open-data_2020_okuhara.csv};'')~

A列からQ列をコピーしS列以降に貼り付け、以下の処理を行っていく~

-x_1~x_○       ''&color(black){説明的変数};''(0より大きい 0≦x≦1)~
-x_一番最後の列     ''&color(black){目的変数};''(実数でOK)~

と分けられる~
#br
#ref(n10.png,,30%)

''&color(black){説明的変数};''は列の一番大きい数字で割る~

''&color(black){目的変数};''はZ-Scoreを行う~

+説明的変数
#br
入力されている数値をその列の一番大きい数字で割る~

①S1を選択し、数式バーに~

 =A2/MAX(A$2:A$652)

を入力し下までオートフィル~

この時に絶対参照を忘れないようにする~

②S1のものをx_12までオートフィルを行い、同様にしたまで行う~

#ref(n11.png,,30%)
#ref(n12.png,,30%)

+目的変数
#br
Z-Scoreは(データの値‐平均)/ 標準偏差 で求めることが出来る~

今回は「STANDARDIZE関数」を使い計算した~

 =STANDARDIZE(M2,AVERAGE($M$2:$M$652),STDEV.P($M$2:$M$652))

を入力する~

#ref(n13.png,,30%)
#ref(n14.png,,30%)
#br

S列からAI列をコピーし、AK列に「値の貼り付け」で貼り付けを行う
#ref(n15.png,,30%)

貼り付けが終わったら、A列からAJ列を削除
#ref(n16.png,,30%)




**プログラムの変更箇所 [#qc0a257a]
①169行目を~
 open-data_2020_LPA.csv
のある場所に書き替える~
#ref(n18.png,,30%)
#br

②175行目を「''&color(black){open-data_2020_LPA_result_okuhara.csv};''」のグループ数に変える
#ref(n19.png,,30%)
#br

③1092行目から1109行目を書き換える~

 /best_theta_{0}.csv".format(i)
 best_weightnum_{0}.csv".format(i)
 best_JR_BIC_{0}.csv".format(i)
 all_BIC_{0}.csv".format(i)
 best_JR_g0_{0}.csv".format(i)

は変えない~

新しいフォルダを作成し、その中に保存されるようにしていく

#ref(n20.png,,30%)





**実行 [#db43916e]

''&color(black){RF6_real_experiment100.py};''を実行する

フォルダの中に~

-[[]]

**結果 [#n6c56f41]


保存期間5年の修論プログラムからRF6….pyダウンロード

170行目書き換える

175行目

1058行目

プログラムが動いているか確認したければ528行目の500を5に変更し617行目のコメントアウトをコメントアウトじゃなくす
その際実行後500に戻すのとコメントアウトにすることを忘れないように

19行目インプットapikey
keyの番号を変える

26行目
29行目

量的なデータ
市区町村コードが降られている コードと遂になっているもの探す
e-stat


1321

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS