卒論(戸田)
の履歴(No.5)
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
履歴一覧
差分
を表示
現在との差分
を表示
ソース
を表示
卒論(戸田)
へ行く。
1 (2024-10-11 (金) 11:49:48)
2 (2024-10-11 (金) 12:51:13)
3 (2024-10-28 (月) 09:19:41)
4 (2024-11-01 (金) 10:09:47)
5 (2024-11-06 (水) 18:15:52)
6 (2024-11-11 (月) 10:49:19)
7 (2024-11-11 (月) 18:05:08)
8 (2024-11-12 (火) 15:57:52)
9 (2024-11-12 (火) 16:52:31)
10 (2024-11-15 (金) 12:04:04)
11 (2024-11-15 (金) 16:19:19)
12 (2024-11-18 (月) 10:00:51)
13 (2024-11-20 (水) 11:44:19)
14 (2024-11-20 (水) 15:34:29)
15 (2024-11-21 (木) 10:23:49)
16 (2024-11-25 (月) 12:49:12)
17 (2024-11-26 (火) 14:26:55)
18 (2024-11-27 (水) 13:28:31)
19 (2024-11-28 (木) 15:20:20)
20 (2024-11-29 (金) 10:23:21)
21 (2024-11-29 (金) 13:56:58)
22 (2024-11-29 (金) 17:04:14)
23 (2024-12-03 (火) 13:57:35)
24 (2024-12-05 (木) 12:50:32)
25 (2024-12-10 (火) 11:14:51)
26 (2024-12-10 (火) 13:12:08)
27 (2024-12-11 (水) 18:23:56)
28 (2024-12-12 (木) 14:36:27)
29 (2024-12-13 (金) 16:38:42)
30 (2024-12-16 (月) 14:46:16)
31 (2024-12-17 (火) 17:13:06)
32 (2024-12-24 (火) 10:35:05)
33 (2024-12-24 (火) 11:51:47)
34 (2024-12-25 (水) 11:39:27)
35 (2024-12-25 (水) 16:07:26)
36 (2024-12-27 (金) 16:21:33)
37 (2025-01-07 (火) 14:51:02)
38 (2025-01-08 (水) 12:12:00)
39 (2025-01-10 (金) 11:27:10)
40 (2025-01-14 (火) 15:19:48)
41 (2025-01-20 (月) 10:34:00)
42 (2025-01-20 (月) 11:55:40)
43 (2025-01-20 (月) 17:41:48)
44 (2025-01-28 (火) 14:53:17)
45 (2025-01-31 (金) 11:15:46)
46 (2025-02-04 (火) 11:19:30)
47 (2025-02-04 (火) 17:57:11)
48 (2025-02-05 (水) 11:28:59)
49 (2025-02-06 (木) 14:42:01)
50 (2025-02-07 (金) 15:16:32)
51 (2025-02-28 (金) 09:01:15)
戸田
?
卒論
1028
1101
新規性
IPランドスケープ支援システムをさらに強化するために、以下の簡単な改善案があります: 類似特許の追加取得 Google Patentsからの検索結果に加え、他の無料APIやオープンデータベース(Espacenetなど)からも類似特許を取得することで、分析に含めるデータを増やし、クラスターの精度を高められます。 TF-IDFによるキーワード抽出 クラスターごとのタイトル作成にTF-IDFを使って主要キーワードを抽出し、それらを用いてより直感的なクラスターのタイトルを生成できます。タイトルの精度が上がることで、各クラスターのテーマが把握しやすくなります。 クラスタリング手法の検討 K-meansに加えて、DBSCANや階層的クラスタリングを試すと、クラスター数が多い場合や密度の異なるクラスターがある場合に、より柔軟な分析が可能です。これにより、システムの適応性が向上します。 関連ワードの視覚化 2Dや3Dグラフに、各クラスターの主要なキーワードを表示することで、視覚的にクラスターの内容が理解しやすくなります。 ユーザー指定クラスターの拡張分析 特定のクラスターに対して共起語のSimpson係数だけでなく、他の共起指標(Jaccard係数など)も計算し、より多面的な関連性を分析します。
具体案
実装手順 ユークリッド距離に基づく代表文書の抽出 クラスターの重心に近い文書を代表的なものとし、中心に近い文書から順に数文(例:5文)を抽出します。K-meansの重心情報を使えば、計算は1クラスターあたりのユークリッド距離計算で済むため、効率的です。 クラスタ中心から離れたサンプルも含める 各クラスターを中心から周辺へ階層的に分け、中心だけでなくクラスタの端にも近い文書も少数含めます。これにより、クラスター全体の多様な要素を含んだ代表文書セットができます。例えば、重心に近いものを5文、端に近いものを2-3文とします。 TF-IDFによる重要語抽出 代表文書セット内でTF-IDFを使ってキーワードを抽出し、その中から各クラスターのキーワードを決定します。代表文書数が限られるので、TF-IDF計算のコストも抑えられます。
プログラム
from sklearn.metrics.pairwise import euclidean_distances from sklearn.feature_extraction.text import TfidfVectorizer import numpy as np def extract_representative_texts(cluster_vectors, cluster_center, texts, n_center=5, n_edge=3): # クラスタ中心からのユークリッド距離を計算 distances = euclidean_distances(cluster_vectors, [cluster_center]).flatten() sorted_indices = np.argsort(distances) # 中心に近いテキストを抽出 center_texts = [texts[i] for i in sorted_indices[:n_center]] # クラスタ端のテキストも少数選択 edge_texts = [texts[i] for i in sorted_indices[-n_edge:]] # 代表的なテキスト集合 representative_texts = center_texts + edge_texts return representative_texts def extract_important_keywords(representative_texts, top_n=3): # TF-IDFで重要語を抽出 vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer.fit_transform(representative_texts) scores = np.array(tfidf_matrix.sum(axis=0)).flatten() keywords = np.array(vectorizer.get_feature_names_out()) # 上位の重要語を取得 top_indices = scores.argsort()[-top_n:] return keywords[top_indices] # クラスタごとに代表文書と重要語を抽出 for i, cluster in enumerate(clusters): representative_texts = extract_representative_texts(cluster['vectors'], cluster['center'], cluster['texts']) important_keywords = extract_important_keywords(representative_texts) print(f"Cluster {i} Keywords:", important_keywords)