2018-11-21(Wed)
今日は特に成果物があるわけではないですが、進捗報告だけ。
打点と四人麻雀への拡張のために、アガリ時メンツの切り分け関数と手役判定関数をVB.NET仕様からPythonで書き直すのをやってました。
おもったよりたいへんでしたが、無事にお引越しが終わりました。
今後の予定
・四人麻雀で自己対戦できるgym環境作り(牌譜出力機能を含む)
・従前作った教師ありポリシーニューラルネットと自己対戦用環境で牌譜を大量生成
・できた牌譜からバリューネットワーク用データ(仮)を作成し、ニューラルネットで教師あり学習
・教師ありポリシーネットワークを初期値、バリューネット(仮)をベースラインとしたReinforceアルゴリズムで強化学習
・強化学習で得たポリシーネットワークで牌譜を大量生成
・バリューネットワーク(真)を教師あり学習で得る。
という感じでいければ、アルファ碁風麻雀AIの完成なんですが、うまいことできるようにがんばりましょう。
多分一番の壁はいかに高速に自己対戦を回して、多くの牌譜をゲットするまでの時間を短縮できるかだと踏んでいます。
「アルファ碁解体新書」によると、バリューネット用データはデータ間の相関を小さくするために1試合に1サンプルしか取っちゃいけないらしいので、今手持ちの鳳凰卓の牌譜だけではだいぶ心もとないです。
1試合1サンプルの制限はさすがにきついので、1局に1サンプルでお茶を濁してなんとかならないかと考え中です。それなら10倍くらいはかさ上げはできそうなので大きい。
ベースライン用仮データだけなら鳳凰卓データだけでも対応できるかも。
四人麻雀自己対戦gym環境と牌譜出力プログラムをpythonで組む作業がとりあえずの目先の目標です。
打点と四人麻雀への拡張のために、アガリ時メンツの切り分け関数と手役判定関数をVB.NET仕様からPythonで書き直すのをやってました。
おもったよりたいへんでしたが、無事にお引越しが終わりました。
今後の予定
・四人麻雀で自己対戦できるgym環境作り(牌譜出力機能を含む)
・従前作った教師ありポリシーニューラルネットと自己対戦用環境で牌譜を大量生成
・できた牌譜からバリューネットワーク用データ(仮)を作成し、ニューラルネットで教師あり学習
・教師ありポリシーネットワークを初期値、バリューネット(仮)をベースラインとしたReinforceアルゴリズムで強化学習
・強化学習で得たポリシーネットワークで牌譜を大量生成
・バリューネットワーク(真)を教師あり学習で得る。
という感じでいければ、アルファ碁風麻雀AIの完成なんですが、うまいことできるようにがんばりましょう。
多分一番の壁はいかに高速に自己対戦を回して、多くの牌譜をゲットするまでの時間を短縮できるかだと踏んでいます。
「アルファ碁解体新書」によると、バリューネット用データはデータ間の相関を小さくするために1試合に1サンプルしか取っちゃいけないらしいので、今手持ちの鳳凰卓の牌譜だけではだいぶ心もとないです。
1試合1サンプルの制限はさすがにきついので、1局に1サンプルでお茶を濁してなんとかならないかと考え中です。それなら10倍くらいはかさ上げはできそうなので大きい。
ベースライン用仮データだけなら鳳凰卓データだけでも対応できるかも。
四人麻雀自己対戦gym環境と牌譜出力プログラムをpythonで組む作業がとりあえずの目先の目標です。
スポンサーサイト