FC2ブログ

*All archives* |  *Admin*

<<04  2020/05  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31  06>>
はじめてのpython&Tensorflowその15・一人麻雀強化学習byDQNパート2
昨日から特段やることが進んだということではないですが、強化学習が一日でちょっとは進んだかなーと思って、再度テストしてみます。
181115-01.png
1局目。
孤立字牌から切ってくれるようになったお。
15巡目に両面対子を対子固定にしてるのはちょっとまだまだですが。
181115-02.png
2局目。
かたくなに孤立の1mを切ろうとしないあたりが何とも言えないが、まぁ大きくは問題はないか。
181115-03.png
3局目。
これは…。手牌のくっつき度合いが強いのと牌種類が少ないのとで、ペナルティの嵐。こりゃあかんわ。

打点を考えるとかの次への展開を考えてたのですが、まずは一人麻雀でもある程度アガリが取れないと話にならん感じな気がします。
少なくともアガリ率1~2割はないと、アガリ時打点で傾斜をつけるとかしても、学習がいっこうに進まないとかいうことも十分想定しうるので。

後は、今の環境(報酬の与え方)だと、アガリが取れなくてもシャンテン維持のプラスポイントで最終的にそこそこの報酬(0.3~0.7点程度)が取れるケースがしばしばあるので、できればもうちょっとアガリの価値を高めたいところ。
頃合いを見て、シャンテン維持プラスポイントを削減するなど、環境をちょっとずつ変えることが必要になるかなーと。
いきなり環境をガラッと変えると、予測のQ値が大きくずれてしまいそうなので、係数をちょっとずつ動かすみたいな対応になるかと思います。

しばらくはパソコンさん側の作業待ちがメインになりそうです。

技術的なメモ。
Kerasで通しで何時間も計算し続けてると、時間がたつにつれて計算速度がどんどん遅くなっていく事案が発生。
計算時間のボトルネックを探っていく中で、おそらく、モデルの複製とかをやってる中で、なんかメモリ上によどみみたいなのがたまって速度が遅くなるのかなーと推察したので、
適度に(1000エピソードごととかに)重みのセーブ後、Keras.backend.clear_sessionで、いったんモデルを破棄してロードしなおすとかをやってみたらよくわからんけど、計算時間の遅延がちょっと改善されたっぽい。
環境の調整とかの件もあるし、てきとうにプログラムを途中終了させつつ、学習をやったほうがいいのかもしれない。
スポンサーサイト



コメントの投稿

Secret
(非公開コメント受付中)

コメント

プロフィール

nisi5028

Author:nisi5028
FC2ブログへようこそ!

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
FC2カウンター
フリーエリア
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QRコード