Python関連の履歴(No.7)

履歴一覧
差分を表示
現在との差分を表示
ソースを表示
Python関連へ行く。
- 1 (2021-10-08 (金) 20:46:12)
- 2 (2021-10-08 (金) 20:59:04)
- 3 (2021-10-18 (月) 13:07:15)
- 4 (2021-10-18 (月) 17:20:08)
- 5 (2021-12-30 (木) 19:06:34)
- 6 (2021-12-31 (金) 19:14:08)
- 7 (2021-12-31 (金) 20:22:36)
- 8 (2023-02-01 (水) 16:36:37)

データフレーム
- 行番号とカラム名で要素抽出(カラムも番号にしてilocの方が手っ取り早いが，名前で抽出したい場合)
リストに別のリストを追加する
- append()メソッド
- extend()メソッド
内包表記
配列の次元削減(append(内包表記)時によく起こるケースへの対処法)
- 2次元配列から1次元配列に落とす
  - 1要素づつappendすればOK(今回は要素の型が辞書形式)
- 3次元配列から2次元配列に落とす
python処理高速化(for文を使わない書き方集)
- N重ループ短縮

データフレーム

行番号とカラム名で要素抽出(カラムも番号にしてilocの方が手っ取り早いが，名前で抽出したい場合)

参考
https://qiita.com/monokeshi6/items/453d1549db62442a5588

df.at[df.index[行番号],'列名']

リストに別のリストを追加する

append()メソッド

メソッドを実行するインスタンスはリストである必要がある
(失敗例)

slist = ['str1','str2','str3','str4','str5','str6']
adlist = ['details1','details2']
→slist[0].append(adlist)を実行すると
AttributeError: 'str' object has no attribute 'append'が表示

(成功例)

[slist[0]].append(adlist)

extend()メソッド

appendでは入れ子になるのを防げる

In: slist.append(adlist)
Out: ['str1', 'str2', 'str3', 'str4', 'str5', 'str6', ['details1', 'details2']]

In: slist.extend(adlist)
Out: ['str1', 'str2', 'str3', 'str4', 'str5', 'str6', 'details1', 'details2']

内包表記

・インタプリタ型のpythonではforループのi,j,k呼び出しに時間がかかるので，それを短縮したもの・可読性に欠けるので，通常のループを作ってから実装するほうが望ましい

基本形

[[【append()のカッコ内の要素】【内側for文j】【if文】]【外側for文i】]

(配列の次元+1ごとに外に[ 【for文】])を追加する

[[挿入要素 for j in range(len(df)) if(i != j)] for i in range(len(df))]

if分岐を入れるときのルール

if～，else～のときは【if文】【else文】【for文】の並びにする

[[挿入要素 if(i != j) else 0 for j in range(len(df)) ]for i in range(len(df))]

for文のルール

【for文】【for文】と続けるときは【外側for】【内側for】で逆にする

[挿入要素 for i in range(len(df)) for j in range(len(df))]

その他

元のfor文でappend()がないforは，1つ内側のforとつなげて【該当for文】【内側for文】となる

配列の次元削減(append(内包表記)時によく起こるケースへの対処法)

2次元配列から1次元配列に落とす

1要素づつappendすればOK(今回は要素の型が辞書形式)

問題(n×1)型の配列

In: t =[[{'a':1}],[{'a':2}],[{'a':3}],[{'a':4}],[{'a':5}]]
Out: [[{'a': 1}], [{'a': 2}], [{'a': 3}], [{'a': 4}], [{'a': 5}]]
データフレーム時，aで一まとめにしてくれない

appendで新しい1次元配列に入れ直していく(内包表記で表現)

In: c = [t[i][0] for i in range(len(t))]
Out: [{'a': 1}, {'a': 2}, {'a': 3}, {'a': 4}, {'a': 5}]
データフレーム時，Columnsをaとしてまとめてくれる

3次元配列から2次元配列に落とす

データフレームに[]が入り込むときなどの対処

参考:
https://human-blog.com/hairetsu/ 例:i×j×k = 6×1×3 配列(2次元配列が6つ)の場合

trilist = [[['a', 'b', 'c']],
[['d', 'e', 'f']],
[['g', 'h', 'i']],
[['j', 'k', 'l']],
[['m', 'n', 'o']],
[['p', 'q', 'r']]]

参考先を元にした内包表記

dilist = [[trilist[i][j][k] for j in range(len(trilist[i])) for k in range(len(trilist[i][j]))] for i in range(len(trilist))]

外のiを6，中のjを1，内のkを3回まわす
j,kのappendで['a', 'b', 'c'],[・・・],・・・の1次元のリストを作った後，iのappendでリストを1個ずつ入れている
↓に比べて内の[]が外れている

3次元配列作成の際の内包表記

maketrilist = [[[trilist[i][j][k] for k in range(len(trilist[i][j]))] for j in range(len(trilist[i]))] for i in range(len(trilist))]

python処理高速化(for文を使わない書き方集)

pythonのfor文は処理が呼び出し関係で時間がかかるらしい
→なるべくforを使わずに書くことが時間短縮になる

N重ループ短縮

例1. リスト内(1行)にある同じ要素を検索してカウントする処理 [#vcdbd759]

for i in range(len(df12)):
    if(i%200 ==0):
        print(i)
    for j in range(len(df12)):
        if(i != j):
            for k in range(len(df12.iloc[i,:])):
                if(df12.iloc[i,k]==""):
                    break
                for l in range(len(df12.iloc[j,:])):
                    if(df12.iloc[i,k] == df12.iloc[j,l]):
                        admatrix.iloc[i,j]  +=1

16時間(200要素)*40 = 640時間(26.7日:Core i7-9700K)超非効率！！

例2. 2次元配列の要素1つ1つに代入(集合型の演算を使って4重ループ→2重ループに減量) [#b714a5b7]

for i in range(len(df12)):
    if(i%200 ==0):
        print(i)
    for j in range(len(df12)):
        if(i != j):
            #print(len((set(df12.iloc[i,1:])&set(df12.iloc[j,1:])-{""})))
            admatrix.iloc[i,j]  
=len((set(df12.iloc[i,1:])&set(df12.iloc[j,1:])-{""}))

O(n^2)、n=8100で約6.67時間(200要素(10分)*40)かかる

例3. 内包表記(たぶんこれが一番速い)

Python関連 の履歴(No.7)