データ、どれだけ増やせばいいの?

From:山極綾子

 

ご覧くださいこちらのデータ。

 

 

どちらも、画像を生成するモデルを学習するために使おうと思ったデータです。

 

左側の画像は、128×128ピクセルのカラー画像。

 

もう一つは32×32ピクセルのカラー画像で、見た目にも荒くなっているのが見て取れると思います。

 

同じモデルに入力して、学習してみる。

 

果たしてどちらの方が良い精度で画像を生成することができたのでしょうか。。。

 

「全然変わらないじゃないか!」

 

はい、結論、精度にほどんど違いがありませんでした。

 

(左が128ピクセル、右が32ピクセルの画像で画像生成しました。)

 

 

(上の段が元の画像、下の段が生成された画像です。)

 

むしろ、32×32の荒いデータの方がうまく学習できていたほどです。

 

綺麗な細かい画像を入れた方が、うまくモデルの学習ができるんじゃないの?

 

だって、細かい情報も入れた方が、なんだかうまくいきそうだし。

 

そう直感的に思われる方も少なくないのだと思います。

 

ですがここには、一つ大きな落とし穴がありました。

 

綺麗な画像を使ったにも関わらず上手く学習できなかった原因。

 

それはデータが少なすぎることでした。

 

 

このデータ、ウェブサイト上からスクレイピングと呼ばれる手法で、

自動的にダウンロードしてきたものなのですが、その枚数は数千枚ほど。

 

一方、きれいな画像を使った場合に学習しなければいけないパラメータ数は、

モデルを比較的シンプルにしたとしても1500万弱。

 

ちなみに、荒い画像の方を同じ形のモデルで学習するのに必要なパラメータは33万ほどでした。

 

確かに、たかだか数千件のデータから、1500万のパラメータを学習するというのは

少しばかり、無理があるような気がしなくもありません。

 

今回のモデルはニューラルネットワークを使っていたので

一概に「このデータ数があればよかった!」ということはできないのですが、

例えばエクセルでも実行可能な重回帰分析。

 

こちらでは、最低限必要なデータ数というのを算出することができます。

 

それは、入力するパラメータの数よりはデータ数が多くなければいけない、

というものです。

 

例えば、年収を予測するモデルに年齢と居住地の情報を使ったとします。

 

年齢は一つの変数として表すことができますが、

居住地については”神奈川・埼玉・千葉・東京...(50音順)”といったように、

それぞれの場所ごとに変数を割り当てる必要があります。

 

それら予測に使う変数の数よりも、データの数が多くなければ、

正しく推定することができなくなってしまいます。

 

学生時代に習った(連立)方程式を思い出してみてください。

 

【問】y=2x+5を満たすxとyの組を求めよ。

 

極端な話、求める変数(パラメータ)がxとyの二つあるにも関わらず、

式が一つしかない場合。

 

この式を満たすxとyの組み合わせは無限にあります。

 

それと同じように、データ分析においても最低限、

変数と同じだけのデータ数が無ければいけない、ということになります。

 

「でもデータはそんなに集められないよ!」

 

そんな時、取れる方法もいくつかあるのですが、

そちらについてはまたいずれお伝えできればと思います。

 

 

山極綾子

 

 

P.S.

データ数が足りない時の工夫①は、そもそも変数を減らしてしまうことです。

 

例えば、都道府県で分けずに、関東地方、などとしてしまうなどが考えられます。

 

そんなことをしたら、情報量が失われてしまうのでは?

 

それはもちろん、その通りです。

 

適切に変数を作るためには、データの概要をしっかりと見ていく必要があります。

 

それもまた、データ分析の面白い所だと思っているので、

ぜひ、またご紹介させていただけましたら嬉しいです。

 

 

P.P.S.

今日も最後まで読んでいただきありがとうございます!

 

メルマガの感想などありましたら、こちらからお聞かせ下さい。

 

現在データ分析コンサルティング受付中です。

 

お問い合わせもこちらからどうぞ。

 

いつも嬉しく拝見しています。いつもありがとうございます!


https://keieijinjipartnersytube.typeform.com/to/B8JjDrk5

 

 

—————————————————————-
【経営人事メールマガジン】
発行責任者: 山極毅(株式会社経営人事パートナーズ)
発行者住所:〒100-0005東京千代田区丸の内1-8-3丸の内トラストタワー本館20F
連絡先:https://keieijinji.co.jp/
メールアドレス: strategic-membership-program■■keieijinji.co.jp(■■を@に置き換えてください)
—————————————————————-

↓バックナンバーはこちら↓
PC: https://04auto.biz/brd/BackNumber.htm?acc=keieijinji&bid=3
スマホ・ガラケー: https://04auto.biz/brd/BNMobi.htm?a=keieijinji&b=3

↓メルマガの新規登録はこちらから↓
PC: https://48auto.biz/keieijinji/touroku/scenario13.htm
スマホ: https://48auto.biz/keieijinji/touroku/sp/scenario13.htm
ガラケー: https://48auto.biz/keieijinji/touroku/sp/scenario13.htm