大事な設定を忘れてしまいました(涙)
From:山極綾子
「こんな感じで分析ができました!
引き続きこの方向性で分析を進めて、共有できればと思います!」
依頼されたデータ分析業務に取り組んでいたある日のこと。
「この機械学習モデルが合うのではないか?」と先方に提案したモデルを実装して、
実際のデータを分析してみて。
さすが私(のモデル選択)!と褒めたくなるくらい、興味深いデータが得られて。
意気揚々と報告資料を作っていたその時。
とても悲しいことに気づいてしまいました。
乱数のseed値を決めるの忘れた…!
それの何がまずいのかと言いますと、全く同じ分析が二度とできないのです。
もちろん、同じモデルを使った分析は何度でもできます。
ですが、そのモデルを学習する際にはパラメータの初期値を設定する必要があり、
それによって得られる結果が少しずつ変化してしまいます。
そしてその初期値を決めるのが、乱数のseed値です。
再現性が無いものを報告資料に書いてしまったとは…私としたことが…。
あんなに一生懸命書いた分析結果も、また書き直さなくてはいけません。
悲しい。。。
そもそもどうしてこんなことが起きたのか。
それは、パソコンに「ランダムな値を出して!」と頼んだ時に出力される乱数は、
本当にランダムなわけではなく、ランダムに見えそうな数列のなかから、
決まった値を抜き出しているだけだからです。
これは擬似乱数と呼ばれています。
エクセルで出力できるランダムな値も、この擬似乱数に基づいて出力されています。
そして、乱数のseed値を固定すれば、いつも数列の同じところから値を取ることができて、
結論、同じ結果が何度でも得られると言うことになります。
機械学習モデルのパラメータ学習で使われる初期値も、
この擬似乱数を活用しているため、何度も同じ分析結果が得られるようになります。
たかだか一行、random_seed = 0 と書き忘れてしまっただけなのに。。
「本当に設定しなくていいですか?」とリマインドしてくれる機能を
付けようかと思うくらい、悲しい出来事でした。
山極綾子
P.S.
今日も最後まで読んでいただきありがとうございます!
メルマガの感想などありましたら、こちらからお聞かせ下さい。
いつも嬉しく拝見しています。いつもありがとうございます!
↓
https://keieijinjipartnersytube.typeform.com/to/B8JjDrk5
—————————————————————-
【経営人事メールマガジン】
発行責任者: 山極毅(株式会社経営人事パートナーズ)
発行者住所:〒100-0005東京千代田区丸の内1-8-3丸の内トラストタワー本館20F
連絡先:https://keieijinji.co.jp/
メールアドレス: strategic-membership-program■■keieijinji.co.jp(■■を@に置き換えてください)
—————————————————————-
↓バックナンバーはこちら↓
PC: https://04auto.biz/brd/BackNumber.htm?acc=keieijinji&bid=3
スマホ・ガラケー: https://04auto.biz/brd/BNMobi.htm?a=keieijinji&b=3
↓メルマガの新規登録はこちらから↓
PC: https://48auto.biz/keieijinji/touroku/scenario13.htm
スマホ: https://48auto.biz/keieijinji/touroku/sp/scenario13.htm
ガラケー: https://48auto.biz/keieijinji/touroku/sp/scenario13.htm