へえー、なるほど。強化学習とモンテカルロ法

Wikipediaより。

機械学習の分野におけるモンテカルロ法とは強化学習の一種で、行動によって得られた報酬経験だけを頼りに状態価値、行動価値を推定する方法のことを指す。

モンテカルロ法は、強化学習の一種とみなせる。なるほど、言われてみればその通りだ。学習=ランダムサンプル(学習入力)による、状態・行動の推定だから、まさにモンテカルロの枠組みである。

研究開発で行きづまったら、Wikipediaサーフィンをするとヒントが得られることって多くないだろうか?