2018-11-15(Thu)
昨日から特段やることが進んだということではないですが、強化学習が一日でちょっとは進んだかなーと思って、再度テストしてみます。

1局目。
孤立字牌から切ってくれるようになったお。
15巡目に両面対子を対子固定にしてるのはちょっとまだまだですが。

2局目。
かたくなに孤立の1mを切ろうとしないあたりが何とも言えないが、まぁ大きくは問題はないか。

3局目。
これは…。手牌のくっつき度合いが強いのと牌種類が少ないのとで、ペナルティの嵐。こりゃあかんわ。
打点を考えるとかの次への展開を考えてたのですが、まずは一人麻雀でもある程度アガリが取れないと話にならん感じな気がします。
少なくともアガリ率1~2割はないと、アガリ時打点で傾斜をつけるとかしても、学習がいっこうに進まないとかいうことも十分想定しうるので。
後は、今の環境(報酬の与え方)だと、アガリが取れなくてもシャンテン維持のプラスポイントで最終的にそこそこの報酬(0.3~0.7点程度)が取れるケースがしばしばあるので、できればもうちょっとアガリの価値を高めたいところ。
頃合いを見て、シャンテン維持プラスポイントを削減するなど、環境をちょっとずつ変えることが必要になるかなーと。
いきなり環境をガラッと変えると、予測のQ値が大きくずれてしまいそうなので、係数をちょっとずつ動かすみたいな対応になるかと思います。
しばらくはパソコンさん側の作業待ちがメインになりそうです。
技術的なメモ。
Kerasで通しで何時間も計算し続けてると、時間がたつにつれて計算速度がどんどん遅くなっていく事案が発生。
計算時間のボトルネックを探っていく中で、おそらく、モデルの複製とかをやってる中で、なんかメモリ上によどみみたいなのがたまって速度が遅くなるのかなーと推察したので、
適度に(1000エピソードごととかに)重みのセーブ後、Keras.backend.clear_sessionで、いったんモデルを破棄してロードしなおすとかをやってみたらよくわからんけど、計算時間の遅延がちょっと改善されたっぽい。
環境の調整とかの件もあるし、てきとうにプログラムを途中終了させつつ、学習をやったほうがいいのかもしれない。

1局目。
孤立字牌から切ってくれるようになったお。
15巡目に両面対子を対子固定にしてるのはちょっとまだまだですが。

2局目。
かたくなに孤立の1mを切ろうとしないあたりが何とも言えないが、まぁ大きくは問題はないか。

3局目。
これは…。手牌のくっつき度合いが強いのと牌種類が少ないのとで、ペナルティの嵐。こりゃあかんわ。
打点を考えるとかの次への展開を考えてたのですが、まずは一人麻雀でもある程度アガリが取れないと話にならん感じな気がします。
少なくともアガリ率1~2割はないと、アガリ時打点で傾斜をつけるとかしても、学習がいっこうに進まないとかいうことも十分想定しうるので。
後は、今の環境(報酬の与え方)だと、アガリが取れなくてもシャンテン維持のプラスポイントで最終的にそこそこの報酬(0.3~0.7点程度)が取れるケースがしばしばあるので、できればもうちょっとアガリの価値を高めたいところ。
頃合いを見て、シャンテン維持プラスポイントを削減するなど、環境をちょっとずつ変えることが必要になるかなーと。
いきなり環境をガラッと変えると、予測のQ値が大きくずれてしまいそうなので、係数をちょっとずつ動かすみたいな対応になるかと思います。
しばらくはパソコンさん側の作業待ちがメインになりそうです。
技術的なメモ。
Kerasで通しで何時間も計算し続けてると、時間がたつにつれて計算速度がどんどん遅くなっていく事案が発生。
計算時間のボトルネックを探っていく中で、おそらく、モデルの複製とかをやってる中で、なんかメモリ上によどみみたいなのがたまって速度が遅くなるのかなーと推察したので、
適度に(1000エピソードごととかに)重みのセーブ後、Keras.backend.clear_sessionで、いったんモデルを破棄してロードしなおすとかをやってみたらよくわからんけど、計算時間の遅延がちょっと改善されたっぽい。
環境の調整とかの件もあるし、てきとうにプログラムを途中終了させつつ、学習をやったほうがいいのかもしれない。
スポンサーサイト