2009-06-19 へえー、なるほど。強化学習とモンテカルロ法 MachineLearning Wikipediaより。 機械学習の分野におけるモンテカルロ法とは強化学習の一種で、行動によって得られた報酬経験だけを頼りに状態価値、行動価値を推定する方法のことを指す。 モンテカルロ法は、強化学習の一種とみなせる。なるほど、言われてみればその通りだ。学習=ランダムサンプル(学習入力)による、状態・行動の推定だから、まさにモンテカルロの枠組みである。研究開発で行きづまったら、Wikipediaサーフィンをするとヒントが得られることって多くないだろうか?