「何れ菖蒲か杜若」に決着を付けるマハラノビス距離

杜若(カキツバタ)の花
 クリック/タップで拡大表示されます。

 5月に上賀茂神社に近い大田神社に群生する美しい杜若(カキツバタ)を見てきました。(左写真)

  ところが、アヤメやショウブとの区別が園芸などの趣味のない筆者にはわかりません。

 

 ネットで見るとアヤメとショウブはどちらも漢字で書くと「菖蒲」、しかし漢字は同じでも菖蒲(アヤメ)と菖蒲(ショウブ)は別物。また菖蒲(ショウブ)と花菖蒲(ハナショウブ)も別物とのことで、ますますわかりません。 分類では、アヤメ(菖蒲)、ハナショウブ(花菖蒲)、カキツバタ(杜若)はすべてアヤメ科に属するとのことです。

 区別は咲く場所が乾燥地か、湿地か、または細かく観察して、葉に白い筋があればハナショウブ、筋が無くて葉が幅広であればカキツバタ、細長い葉であればアヤメらしいのですが、わかりにくいですよね!

 類似のデータの群分けには判別分析が一般に用いられます。例えば「フィッシャーのあやめ」という有名なデータで紹介される文献をよく見ます。

 この分析ではあやめの中でもIris setosaversicolorvirginica という3種類のあやめ各50個について、ガクの長さ、ガクの幅、花弁の長さ、花弁の幅から群の分類を試みています。

 この判別分析の計算は複雑で、またサンプル数がそれぞれの群で多くを必要とします。

プラサンタ・チャンドラ・マハラノビス写真

 多変量解析の一つとして、所属不明の標本データが、既知の複数群のどれに属するかを統計学的に調べる有力な手法がマハラノビス距離です。

 プラサンタ・チャンドラ・マハラノビス(写真)はインドの統計学者であり、この手法を1936年に発表しました。

 マハラノビス距離の手法は、ユークリッド距離に分散や共分散の計算を加え、そこから得られる距離を計算することにより、標本がどのグループに属するかを判定するのです。 

 実際の計算ではn次元のパラメータで定義される既知の群(グループ)の重心、つまり平均値μ分散σをそれぞれ求め、標本の各次元についての正規化した距離の二乗を計算し、n次元で合計してから平方根を取ると、その群(グループ)と標本とのマハラノビス距離dが求まります(右式を参照。)。

 同様にして、他の群の重心とのマハラノビス距離dを求めると、標本はもっとも距離の小さいグループに属すると判断できます。

 簡単な例として、大学生の21人のグループで身長と体重をアンケート調査した結果について、1名だけ性別の未記入があったとします。男女の身長と体重の平均値は、それぞれ男子M1~M10が172cm、62kg、女子F1~F10が159cm、50kgとして、その分布図を以下に示します。男女の群の重心(平均値)を マーク、未記入の学生Xの座標は▲マークで示します。

身長と体重分布による男女判別
  クリック/タップで拡大表示されます。

  見かけ上は▲マークの位置は男子より女子のグループに近いように見えます。

性別未記入の学生の164cm、54kgが統計的に男女どちらに近いかをマハラノビス距離で計算すると、男子群との距離は1.83、女子群との距離は2.36と求まります。よって統計確率的にはこの学生Xは男子と判定されます。

 この手法はパターン認識や病理分析など様々な分野に応用されています。

 最近では「マテリアルズ・インフォマティクス」として、材料の構造や物性のデータから数値計算によって新材料を開発する取り組みが産官学の協力で進められていますが、多変量解析の一つとしてもマハラノビス距離の手法も有効と考えられています。

株式会社知財アシスト アドバイザー

アドバイザーSのプロフィール

 学歴:  同志社大学大学院修士課程終了

 職歴: ㈱パナソニックにて機器開発と半導体

開発に従事

専門分野:アナログ電子回路開発、データ処理技術、

 技術英語

趣 味: 街歩き

本人の希望で匿名の投稿にしています。


知財よろず相談 ご案内ページへ
助っ人知財部 ご案内ページへ
パテントわっとへ

知財アシスト

CHIZAI ASSIST Inc. All Rights Reserved