複数種類の値が得られている多変量データ|相関係数が多変量解析のベース【統計学・統計解析講義基礎】
「大量のデータ」という言葉には、ある一つの量(変数)につき、多人数の値をとったのか、あるいは複数種類の量に対して多くの値をとったのかの2つの場合がある。後者の例では、相関係数が多変量解析のベースとなる。どのような母集団を想定し、どのような変数とサンプル対象を選ぶのかの検討が重要
「多変量」とは
しばしば「大量のデータ」ということばを用いますが、それはある一つの量(変数)につき、多人数の値をとったのか(例えば、日本人の年齢)、あるいは複数種類の量に対して多くの値をとったのか(例えば、血液の各重要成分、あるいは人の体格の諸要素、さらには企業の各財務指標など)の2つの場合があります。
ここでは後者の場合を考えてみましょう。
野球データで解説
対象に対して、複数種類の値が得られているデータを「多変量データ」と呼びます。
野球データにおいて、
@勝率を高めるためにはどのような戦術を使えばよいか
A攻撃あるいは守備に関するデータについて、情報を失うことなく少数総合指標(複数の量を用いて、という意味で「合成変数」といいます)にまとめたい、あるいはその背後にある因子(原因や要素)をつきとめたい。
などを目的とするときに用いられる解析手法が多変量解析です。
@は「要因解析型」あるいは「予測型」の分析であり、Aは問題そのものを明らかにするための「問題設定」あるいは「発見型」のもので「内部関連型」の分析です。
変数にまったく関連がないときは、各変数がそれぞれ独立な意味を有し、1つの変数を他の変数で説明することも、合成変数を求めることも意味をなしません。
たとえば、勝率をメジャーリーグの勝率や選手の血圧データから予測するということは、式があっても意味はないでしょう。
分析の前に、変数間の散布図によるグラフ化や、変数の間の因果関係に関する情報収集とその検討がなされなければなりません。
要因解析型の場合、「勝率」のように目的とする変数を「外的基準」あるいは「目的変数」といいます。
一方、安打数、盗塁、与四球などの要因変数を「説明変数」といいます。
説明変数で目的変数を説明します。
「勝率」を目的変数、相関係数の絶対値の一番大きな「犠打」を説明変数として回帰分析を行うと、
勝率=0.0025×犠打+0.250 (R2乗=0.33)
という関係ができます。
これにより勝率のデータの変動の33%が犠打によって説明できます。
R2乗は説明の有効性を表し「寄与率」とよびます。
また、勝率と盗塁の関連をみると、
勝率=0.0018×盗塁+0.355 (R2乗=0.26)
という回帰式ができ、盗塁により勝率データの変動の26%が説明できます。
犠打、ついで盗塁が重要
勝率以外のすべての項目を説明変数として、重回帰分析(ステップワイズ法)とよばれる多変量解析における代表的な手法を適用してみましょう。
すると自動的に、勝率に寄与する(影響する)変数が選択され、はじめに犠打が、次に盗塁が選ばれます。本塁打は選ばれません。
この結果として、
勝率=0.0029×犠打+0.0021×盗塁+0.036 (R2乗=0.69)
という式が求められ、この式により勝率のデータの変動の69%が犠打と盗塁により説明できます。
一方、2002年度のデータでは「本塁打」がはじめに選ばれ、次に与四球が選ばれます。盗塁も犠打も選ばれません。
結果として、
勝率=0.0016×本塁打−0.001×与四球+0.650(R2乗=0.88)
という式が求められ、この式により2002年度では勝率データの変動の88%が本塁打と与四球により説明できます。
与四球の係数はマイナス(−)であるので、与四球は少ないほどよいことになります。
当たり前ですが球界の4番バッターを多数揃える巨人がリーグ優勝した2002年は本塁打と与四球が勝率へ大きな影響をもちますが、星野監督率いる阪神が優勝した2003年は盗塁と犠打が勝利に貢献し、監督采配の重要度が読み取れます。
ここまでの結果は、表に示す2002年と2003年における勝率と各変数との相関係数が大切な役割を果たしています。
勝率を高めるためのデータ戦略
勝率を高めるためには、項目(量)以外に防御率や失策数などの変数も大切です。
もちろん取り込んだ変数以外の情報は得られないので、多変量データの収集にあたって、どのような母集団を想定し、どのような変数とサンプル対象を選ぶのかの検討が重要です。