クラスタリングとはクラスタと呼ばれる似た者同士が集まるグループ分けのことです。グループ分けというと分類分けと同義のように聞こえますが少し違います。機械学習は大きく、教師あり学習と教師なし学習に分けられ分類分けは教師あり学習、グループ分けは教師なし学習になります。
人間がなんらかのデータに対して正解を与え、その正解をもとに観測データを予測するといったものです。(画像の判定とか。画像をデータとして与えて、これは犬、これは犬ではないとか人間が正解を機会に学ばせるやつ)
何らかのデータに対して分析を行う。(大量のデータを与えてどんなグループにわけられるかとか)
クラスタリングは機械学習の中でもこちらの教師なし学習に分類され、クラスター分析とも呼ばれます。
クラスタリングの手法は大きく分けて階層的手法と非階層的手法に分けられます。階層的手法はその中でも凝集型手法と分割型手法に分けられます。
階層的手法はクラスタ分けを行う際に、最も距離が近い(類似度が高い)or遠いものからクラスタ分けをしていきます。最終的にはデンドログラムとして表示されます。
凝集型手法は階層的手法の中でも、距離が近いものから同じクラスタに分類していくやり方になります。
分割型手法は、初めにデータ集合を一つのクラスタとして認識し、その後そのクラスタをどんどん分割していくことでクラスタの階層を生成するものになります。