バイパーパラメータ【多変量解析】

バイパーパラメータ【多変量解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

バイパーパラメータ|【多変量解析・統計学・統計解析】

バイパーパラメータ【多変量解析】


目次  バイパーパラメータ【多変量解析】

 

 

バイパーパラメータ

 

機械学習にも、アルゴリズムの性能を向上させるために人の手でモデルを調整しなくてはならないパラメータがあります。

 

このパラメータを、バイパーパラメータと呼びます。

 

バイパーパラメータを理解するにあたり、ここでは多項式を例に解説します。

 

パラメータが直線の傾きや切片など、モデルの中に設定される具体的な値であるのに対し、バイパーパラメータはモデルを何次式にするのか(直線、二次曲線、三次曲線など)といったモデルの大枠を決める値を意味します。

 

未学習と過学習

 

バイパーパラメータが適切でないと、モデルは性能を十分に発揮できません。

 

そのような、性能が十分でない状態によく見られる特徴として「未学習」と「過学習」があります。

 

未学習とはその名の通り、十分に学習が行われていないことで性能が低い状態を指します。

 

学習データに対する予測や分類の精度が十分に高くない場合、未学習であると言えます。

 

 対して過学習とは、学習データに対する精度の向上を重視し過ぎることで、未知のデータに対する精度が下がってしまっている状態を指します。

 

未学習と過学習についてより具体的に見ていきましょう。

 

例として、アルゴリズムで2次元グラフの形(真のモデル)を推測することを考えます。

 

実際に私たちが取得することができるデータはそこにノイズ(ばらつき)が乗っています。

 

機械学習では、アルゴリズムがデータを学習することで、真のモデルをよく表現できるようなモデルを求めます。

 

使うモデルを多項式(1次→直線、2次→2次関数)とすると、この多項式モデルにおけるバイパーパラメータは、次数であると言えます。

 

次数が1のときには直線となります。

 

しかし真のモデルが曲線であるため、直線では単純過ぎてうまく表現できません。

 

この状態が未学習です。

 

なお、このようにモデルの表現力が足りないことによって、学習データとモデルとの間に生じた誤差のことを、近似誤差と呼びます。

 

さて、次数が1のモデルでは単純過ぎてうまく表現できなかったので、今度は次数を思い切って増やしてみましょう。

 

学習させるのは、次数が9のモデルです。

 

すると学習させたデータにぴったりフィットしたモデルを得ることができます。

 

しかし、データのなかった部分は真のモデルから大きく外れており、これでは真のモデルをよく表現できているとは言えません。

 

このようなモデルでは、学習データに対する精度は高くなりますが、未知のデータに対する精度は悪くなってしまいます。

 

このように、モデルが過学習してしまったことで、未知のデータ(テストデータ)とモデルとの間に生じた誤差のことを推定誤差(Validation Loss)と呼びます。

 

多項式モデルにおける次数について考えましたが、実際には利用するモデルそれぞれで決定しなければならないバイパーパラメータが多数存在します。

 

また、2次元グラフのように可視化して調整することのできない問題も多いため、バイパーパラメータを人がチューニングすることはかなり難しいのです。

 

そこでバイパーパラメータを決定するために、機械学習にはさまざまなオート(自動)チューニングの手法が存在します。

 

一番単純な手法は、すべてのバイパーパラメータ候補の組み合わせを試行し、もっとも性能のよいものを選択するという方法です。

 

この方法はグリッドサーチといい、バイパーパラメータ候補の中でもっともよいバイパーパラメータを必ず選択できます。

 

ただし、候補の数が多くなると指数的に計算量が増大するため、学習データが多がったりモデルが複雑であったりと、一回の学習で必要となる計算量が大きい場合には利用が困難です。

 

こういった場合にはすべてではなくいくつかの組み合わせを試行し、その中でもっともよいバイパーパラメータを採用する手法が採用されます。

 

このようにさまざまな手法が存在しますが、ここではその中でもよく利用されるものは以下です。

 

 

ランダムサーチ

 

ハイパーパラメータの組み合わせをランダムに試行する手法。

 

何パターン試行するかを指定するだけで実行することができるため、かんたんに実装することが可能。

 

焼きなまし(疑似アニーリング、SA)法

 

金属加工における焼きなまし(ある材料を加熱し、その後時間をかけて冷やしていく熱処理のこと)」に似ていることから名付けられた手法。

 

最初はさまざまなパターンを広く試し、徐々に探す範囲を狭くしながらよい組み合わせを探索する。

 

ベイズ最適化

 

ガウス過程という回帰モデルを利用して、よいバイパーパラメータを探索する手法。

 

試しにいくつかのパラメータ候補で精度を計算し、その結果をもとに、さらに「精度が高くなりそう」かつ「まだ探索しきれていなさそう」なパラメータ候補を推定することで、効率的に探索を行う。

 

遺伝的アルゴリズム

 

生物の進化のしくみを模倣した手法。

 

バイパーパラメータの組み合わせを遺伝子とみなし、淘汰・交叉・突然変異などの処理をくり返し行う(世代交代)ことでよい組み合わせを探索する。

 

 

バイパーパラメータ【多変量解析】


セミナー詳細                    解析ご相談                    LINEでお友達

 

バイパーパラメータ【多変量解析】

バイパーパラメータ【多変量解析】