[人工智能] 虚拟遗憾最小化（CFR）与强化学习(RL) 的异同点

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 虚拟遗憾最小化（CFR）与强化学习(RL) 的异同点 -> 正文阅读

[人工智能]虚拟遗憾最小化（CFR）与强化学习(RL) 的异同点

虚拟遗憾最小化（CFR）是一种在不完全信息博弈中寻找纳什均衡的算法。它主要出现在扩展式博弈的环境里，这是一个不完全信息博弈框架。
强化学习（RL）更倾向于使用马尔科夫决策过程（MDPs）框架，这两种框架比较相似，但信息大都是完全的（然而它有时被扩展到处理部分可观察马尔科夫决策过程（POMDPs））。

CFR与传统的RL算法的不同之处在于，它并不试图使预期收益最大化。而是希望把可利用度最小化。石头剪刀布是一个很好的例子。CFR会学会在各种选项之间随机挑选，因此一般会找到折中的策略。传统的RL算法会试图利用对手行为的弱点，但同时也会让自己有可能被利用或者被欺骗。

内容提要：CFR在不完全信息博弈中起作用，将可利用度降到最低，而不是将奖励最大化。

若有问题，感谢指出

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）