详解矩阵博弈

这篇具有很好参考价值的文章主要介绍了详解矩阵博弈。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

基本概念

  • 通俗来说,矩阵博弈即为可以描述为矩阵的博弈
  • 当在一场博弈中,有两个玩家,每个玩家有两种可能的动作。在两个玩家同时做出动作后,可以获得相应的收益。将所获得的收益记录在回报矩阵中,就得到了矩阵博弈的表格形式。并且将只有两个玩家的矩阵博弈称为双人矩阵博弈
  • 矩阵博弈可用一个元组(n,A1,...,An,R1,...,Rn)描述,n是智能体个数Ai是智能体i有效行为的离散空间(即Ai是智能体i有效行为的集合),Ri是智能体i所获得的回报函数(通常表现为一个表格)。Ri取决于所有玩家在联合行为空间A1*...*An中的联合行为,联合行为获得联合回报。
  • 智能体重复选择动作,获得最优策略,以期获得最大收益。
  • 矩阵博弈中的玩家策略实际上是玩家行为集的概率分布
  • 矩阵博弈能够获得两种策略:
    • 纯策略确定性选择行为的策略。智能体在每次选择动作时,都会选择一个特定的动作,选择该特定动作的概率为1;选择其他行为的概率为0;
    • 混合策略基于智能体所有可能行为的概率分布选择行为的策略。智能体以特定概率选择动作,选择每个动作的概率可能一致,可能不一致,但都在[0,1]范围内,且策略空间中所有策略概率之和为1。

矩阵博弈实例

一、囚徒困境

在囚徒困境博弈中,有两名囚徒被分别关在不同的房间里,同时被警察盘问。两名囚徒之间的博弈有以下几种情况:

  1. 若两名囚徒同时坦白,则双方都被判八年;
  2. 若一名囚徒坦白,另一名囚徒抵赖,坦白方无罪释放,抵赖方被判十年;
  3. 若两名囚徒同时抵赖,则双方都被判一年。

将这两名囚徒之间的博弈用回报矩阵表示出来:

囚徒困境博弈
囚徒A/囚徒B 坦白 抵赖
坦白 -8,-8 0,-10
抵赖 -10,0 -1,-1

正常来说,两个囚徒如果都选择抵赖,那么双方都可以获得较轻的惩罚,被判一年。但在现实情况中,每个囚徒都不知道对方是选择抵赖还是坦白。若囚徒A选择坦白,要么被判8年,要么可以无罪释放;若囚徒A选择抵赖,要么被判10年,要么被判1年。在这样一种情况下,囚徒A为了防止出现被判十年的结果,就会选择相对稳妥的坦白,毕竟选择坦白,最差也就只会被判8年,甚至运气好还有无罪释放的机会。因此在重复选择动作的情况下,囚徒A就会选择能够让自己相对安全的坦白动作。而对于囚徒B也是一样的。因此在囚徒困境博弈中,能让双方都能获得相对较轻惩罚的策略即为(坦白,坦白)。

若一个具有机器学习能力的智能体不断重复玩这个游戏,那么就会学习到在任何情况下,都以1的概率选择坦白,以0的概率选择抵赖,这就是纯策略博弈。纯策略意味着在任何情况下都选择同样的行为。

二、猜硬币博弈

在该游戏中,两名玩家各持一枚硬币,各自选择显示正面还是反面。两名玩家之间的博弈有以下几种情况:

  1. 若两名玩家的硬币同时显示为正,或为反,则玩家1获胜并得到回报1,玩家2输并得到回报-1
  2. 若两名玩家的硬币一正一反,则玩家2获胜并得到回报1,玩家1输并获得回报-1

将这两名玩家之间的博弈用回报矩阵表示出来:

猜硬币回报表
玩家1/玩家2 正面 反面
正面 1,-1 -1,1
反面 -1,1 1,-1

游戏中,每玩一局都有一个玩家会赢,一个玩家会输,这称为零和矩阵博弈。对于零和博弈游戏,意味着赢家的收益与输家的损失相同

若玩家1选择显示正面,有0.5的概率会赢,0.5的概率会输。若玩家1一直选择显示正面,即选择正面的概率为1,很快就会被玩家2发现,那么玩家2就会开始显示反面,玩家1继而也意识到一直在输,从而也会开始显示反面。若用玩家选择显示正面反面的频率来代表概率,则玩家1选择显示正面反面的概率为:(0.5,0.5)。事实上,每个玩家都应该每次以0.5的概率选择显示正面,以0.5的概率选择显示反面,从而使获得的回报最大化。这称为混合策略博弈

纳什均衡

矩阵博弈可以得到纯策略和混合策略,为了评价最终获得的策略,引入了纳什均衡这一概念。

矩阵博弈中的纳什均衡策略是指满足一定条件的所有玩家策略的集合,该条件如下:

矩阵博弈,矩阵,人工智能,机器学习文章来源地址https://www.toymoban.com/news/detail-529097.html

 式中Vi(·)为玩家i的值函数,即给定玩家策略下玩家i的期望回报;为玩家i在策略空间Πi中选择的任意策略。

纳什均衡是指给定其他玩家继续采用纳什均衡策略而该玩家无法通过改变其自身策略获得更大回报的所有玩家策略的集合。更通俗一点,当其他玩家固定其策略时,能让当前玩家获得最大回报的策略,即为当前玩家的纳什均衡策略。以囚徒困境博弈为例,当囚徒2一直选择坦白策略,囚徒1选择坦白获得-8回报,选择抵赖获得-10回报,-8>-10,因此,囚徒1选择抵赖能获得更大收益,此时,囚徒1的纳什均衡策略为坦白。

定义给定玩家联合行为 a1,...,an 下玩家 i 所获得的回报为Qi(a1,...,an),玩家 i 选择行为 ai 的概率为,因此纳什均衡也可以如下表示:

矩阵博弈,矩阵,人工智能,机器学习

 因为 Qi(·) 是联合动作 (a1,...an) 获得的,因此要乘上采取每个动作的概率  才算是获得的回报。

为玩家 i 采用纳什均衡策略  下玩家 选择行为 ai 的概率。

 其他有关矩阵博弈的定义:

  1. 若下式中的大于等于号变为大于号,则纳什均衡为严格纳什均衡。

    矩阵博弈,矩阵,人工智能,机器学习

  2. 行为集所有行为的概率均大于0,则玩家策略称为完全混合策略
  3. 若玩家选择某一行为的概率为1,而其他行为选择概率为0,则玩家策略称为纯策略
  4. 给定其他玩家行为下,若每个玩家的均衡行为优于其他行为,则该纳什均衡称为纯策略中的严格纳什均衡。

到了这里,关于详解矩阵博弈的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【机器学习】人工智能概述

    【机器学习】人工智能概述

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 1.人工智能概述 1.1 机器学习、人工智能与深度学习 1.2 机器学习、深度学习能做些什么

    2024年02月09日
    浏览(14)
  • 机器学习--人工智能概述

    机器学习--人工智能概述

    入门人工智能,了解人工智能是什么。为啥发展起来,用途是什么,是最重要也是最关键的事情。大致有以下思路。 人工智能发展历程 机器学习定义以及应用场景 监督学习,无监督学习 监督学习中的分类、回归特点 知道机器学习的开发流程 人工智能在现实生活中的应用

    2024年01月19日
    浏览(16)
  • 人工智能与机器人|机器学习

    人工智能与机器人|机器学习

    原文链接: https://mp.weixin.qq.com/s/PB_n8woxdsWPtrmL8BbehA 机器学习下包含神经网络、深度学习等,他们之间的关系表示如图2-7所示。 图2-7 关系图 那么什么是机器学习、深度学习、他们的区别又是什么呢? 2.7.1 什么是机器学习? 机器学习是 人工智能 (AI) 和计算机科学的一个分支,

    2024年02月06日
    浏览(17)
  • 人工智能、机器学习、深度学习的区别

    人工智能、机器学习、深度学习的区别

    人工智能涵盖范围最广,它包含了机器学习;而机器学习是人工智能的重要研究内容,它又包含了深度学习。 人工智能是一门以计算机科学为基础,融合了数学、神经学、心理学、控制学等多个科目的交叉学科。 人工智能是一门致力于使计算机能够模拟、模仿人类智能的学

    2024年02月08日
    浏览(16)
  • 人工智能与开源机器学习框架

    链接:华为机考原题 TensorFlow是一个开源的机器学习框架,由Google开发和维护。它提供了一个针对神经网络和深度学习的强大工具集,能够帮助开发人员构建和训练各种机器学习模型。 TensorFlow的基本概念包括: 张量(Tensor):张量是TensorFlow中的核心数据结构,它表示多维数

    2024年02月22日
    浏览(15)
  • 【人工智能技术】机器学习工具总览

    【人工智能技术】机器学习工具总览

    当谈到训练计算机在没有明确编程的情况下采取行动时,存在大量来自机器学习领域的工具。学术界和行业专业人士使用这些工具在MRI扫描中构建从语音识别到癌症检测的多种应用。这些工具可在网上免费获得。如果您感兴趣,我已经编制了这些的排名(请参阅本页底部)以

    2024年02月04日
    浏览(47)
  • 12、人工智能、机器学习、深度学习的关系

    12、人工智能、机器学习、深度学习的关系

    很多年前听一个机器学习的公开课,在QA环节,一个同学问了老师一个问题“ 机器学习和深度学习是什么关系 ”? 老师先没回答,而是反问了在场的同学,结果问了2-3个,没有人可以回答的很到位,我当时也是初学一脸懵,会场准备的小礼品也没有拿到。 后来老师解释“机

    2024年02月05日
    浏览(18)
  • 机器学习、人工智能、深度学习三者的区别

    机器学习、人工智能、深度学习三者的区别

    目录 1、三者的关系 2、能做些什么 3、阶段性目标 机器学习、人工智能(AI)和深度学习之间有密切的关系,它们可以被看作是一种从不同层面理解和实现智能的方法。 人工智能(AI):人工智能是一门研究如何使计算机能够模仿人类智能的学科。它涵盖了各种技术和方法,

    2024年02月14日
    浏览(14)
  • 一探究竟:人工智能、机器学习、深度学习

    一探究竟:人工智能、机器学习、深度学习

    1.1 人工智能是什么?          1956年在美国Dartmounth 大学举办的一场研讨会中提出了人工智能这一概念。人工智能(Artificial Intelligence),简称AI,是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的

    2024年02月17日
    浏览(14)
  • 机器学习、深度学习、人工智能的区别与联系

    大家好,如果没有接触过机器学习,往往对机器学习、深度学习、甚至是人工智能有着模糊的概念。在进行深度的对比人工智能、机器学习和深度学习之后,有助于大家理清概念、选择适当技术,并建立起整个学科的框架,进而可以开展相关目标的学习。 本文将从下面几方面

    2024年01月22日
    浏览(16)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包