FC2ブログ

*All archives* |  *Admin*

<<10  2018/11  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30  12>>
はじめてのpython&Tensorflowその12・強化学習の練習
ここ数日はPython・keras-rlを使った、強化学習の練習をしていました。

主に下記のサイトで勉強させていただきました。
https://qiita.com/inoory/items/e63ade6f21766c7c2393
https://qiita.com/namakemono/items/1d4432ed55da2fb4f31a
https://qiita.com/ohtaman/items/edcb3b0a2ff9d48a7def

サンプルコードをコピペして、読み下して、実際に動かしてみて、みたいなのを繰り返してました。
現在、できたのがこんな感じのコード↓。
181107.txt
なんか、_stepと_resetとrenderを実装すればいける、みたいなことを拝見してその通りにやってみたら、not implementedがうんぬんかんぬんとか出て、ちょっと戸惑ったけど、先頭のアンダーバーを消したらなんかよくわからんけど、動くようになった。理由はよくわかんないです。

3つ目のリンクのMAP上を勇者が歩き回る環境(MyEnv2)の強化学習がわりと面白かったです。
最初はスタートの周りをうろちょろしてたのが、だんだんゴールに向かっていく感じが見えたのが面白い。
Q学習ではできたけど、actor-criticだと環境(MAP)が固定なためか、同じ方向にしか勇者が進んでくれなくなってとん挫。

というわけで若干不安要素はあるが、まぁ強化学習はできそうな感じはするので、今はVB.NETのコードをPythonへ翻訳こんにゃくしてます。
移植するのは難易度的には難しくはないけど、分量がやたら多くてめんどくさいです。

今日はシャンテン数計算関数について移植ができました。
最悪、シャンテン数計算と、一人麻雀(他家動きなしに限定した訓練データ)で得られたニューラルネットがあれば、環境を一人麻雀(18巡ツモって切るだけ)として報酬をシャンテン数が小さいほどたくさんもらえるとかに設定して強化学習できそうな気はしないでもないです。

とりあえず(比較的)簡単な一人麻雀で強化学習できるかどうかやってみますか。
スポンサーサイト

コメントの投稿

Secret
(非公開コメント受付中)

コメント

プロフィール

nisi5028

Author:nisi5028
FC2ブログへようこそ!

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
FC2カウンター
フリーエリア
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QRコード