fig1.12_reinforcement learning structure Published 2020-05-30 at × in Show Case ← Previous Next → 強化学習の中のQ学習の流れ。現在の状態を把握し、状態ごとに最適と予想される行動を選択し、その結果としての報酬をフィードバックとして受け取る。報酬の大小で事前に予測した報酬の値を更新しその後の行動を変化させる。