私たちは日常膨大な情報に接し、その中で何となく似た者同士をグループにする傾向があります。
その方が頭脳にとって負担が軽くなり、何かの選別や決定をするのが楽になるからです。
学問的には、生物学、考古学、博物学などで進化の過程を調べる場合に、類似度を定量的に分析することが行われてきました。

統計学の発達とパソコンが身近になって、この類似度を調べるためにクラスター分析が用いられます。
クラスターとは「花やブドウの房」のことで、産業クラスターやクラスター分析という言葉で耳にすることがあります。 または細かく破裂して殺傷能力を高めたクラスター爆弾が思い浮かびます。
計算方法としては、できるだけ多くの数値パラメータを用いて、各データ間の類似度としてユークリッド距離やマハラノビス距離を計算してグループに分けます。
また計算値そのままではわからないので、近い者同士をまとめるのにデンドログラム(樹形図)が結果の表現に用いられます。
一例として、2016年のプロ野球について、クラスター分析をしてみました。
セパ12球団で、規定打席に達したのは合計55名であり、その打撃成績11項目に関して分析しました。
特徴をより明確にするために四死球と盗塁数を加え、またネガティブ要因である失策や三振などを含めると分析に有効です。
またこの分析手法はゼロを多く含むパラメータを除外するのが好ましいとされます。
次図が、今回の分析に用いた打者データです。
各選手の成績を打率順に並べていますが、第16位から49位までは紙面の都合で非表示としています。
いずれかの項目で首位となった選手を赤枠で囲み、その首位を獲得した項目を黄色を塗って表しました。
上表に基づき、11項目のデータを55名の統計的距離として計算し、類似度の高いものをデンドログラム、別名樹形図として表したものが次図です。
赤枠で括ったように、坂本、糸井、筒香、山田というタイトルを取った選手や、柳田、丸という各項目で好成績を残したプロ野球を代表する強打者が並んでおり、近い関係にあることがわかります。
このクラスター分析はセグメンテーションとしてビジネスに応用できます。
例えばセールスプロモーションでは膨大な顧客情報の中から、年齢層、嗜好性、消費傾向などでグループ化し、特定のセールスのターゲットに合致する顧客に絞って案内することにより経費削減と受注確度を上げられる可能性があります。
人事政策では、社員の専門性、調整能力、粘り、慎重さ、人脈の広さ、リーダーシップなどに関する人事評価の数字を分析することにより、人事配置や緊急プロジェクトの人選などに役立てることができます。
株式会社知財アシスト アドバイザーS

アドバイザーSのプロフィール
学歴: 同志社大学大学院修士課程終了
職歴: ㈱パナソニックにて機器開発と半導体
開発に従事
専門分野:アナログ電子回路開発、データ処理技術、
技術英語
趣 味: 街歩き
本人の希望で匿名の投稿にしています。