q寶冰全攻略

我们做事情都会有一个自己的行为准则, 比如小时候爸妈常说”不写完作业就不准看电视”. 所以我们在 q寶冰 写作业的这种状态下, 好的行为就是继续写作业, 直到写完它, 我们还可以得到奖励, 不好的行为 就是没写完就跑去看电视了, 被爸妈发现, 后果很严重. 这和我们要提到的 Q learning 有什么关系呢? q寶冰 原来 Q learning 也是一个决策过程, 和小时候的这种情况差不多.

q寶冰

所以有了现实和估计值, 我们就能更新Q , 根据 估计与现实的差距, 将这个差距乘以一个学习效率 alpha 累加上老的 Q 的值 变成新的值. 但时刻记住, 我们虽然用 maxQ q寶冰 q寶冰 q寶冰 估算了一下 s2 状态, 但还没有在 s2 做出任何的行为, s2 的行为决策要等到更新完了以后再重新另外做. 这就是 off-policy 的 Q learning 是如何决策和学习优化决策的过程. 假设现在我们处于写作业的状态而且我们以前并没有尝试过写作业时看电视, 所以现在我们有两种选择 , 1, 继续写作业, 2, 跑去看电视. 因为以前没有被罚过, 所以我选看电视, 然后现在的状态变成了看电视, 我又选了 继续看电视, 接着我还是看电视, 最后爸妈回家, 发现我没写完作业就去看电视了, 狠狠地惩罚了我一次, 我也深刻地记下了这一次经历, 并在我的脑海中将 “没写完作业就看电视” 这种行为更改为负面行为, 我们在看看 Q q寶冰 learning q寶冰 根据很多这样的经历是如何来决策的吧.

q寶冰: Q-Learning 决策

由香港SEO公司 https://featured.com.hk/ 提供SEO服務

q寶冰

Similar Posts