最新综述 人机对抗智能:技术、挑战和机遇

  随着以ChatGPT为代表的生成式人工智能的爆火与取得的惊人成功,以语言或多模态大模型为桥梁的人机混合将潜在成为人机对抗发展的新阶段,进行人机对抗中人工智能综述,凝练其技术、挑战与机遇将能更好地站在巨人的肩膀上。

  人机对抗作为人工智能的试金石,研究人员开发了Libratus、OpenAI Five和AlphaStar等代表性人机对抗系统(AIs),并击败了人类职业选手。人机对抗AI的快速发展表明决策智能迈出了一大步,似乎目前的技术能处理很复杂的人机对抗问题。一个疑问自然涌现:当前的技术在人机对抗中可能面临哪些挑战,未来的趋势又是什么?为了回答以上问题,本文综述了最近大获成功的人机对抗AI,包括棋类AI、卡牌类AI、第一人称射击类AI和实时战略类AI。通过该综述,本文:1)比较了不同博弈的主要难点以及对应的实现人类职业水平AI所采用的技术;2)总结了可开发复杂人机对抗AI的主流框架和技术;3)提出了当前技术在人机对抗AI中的挑战与局限;4)试图指出人机对抗AI的未来趋势。最后,希望这篇综述能够为初学者提供入门知识,并为人机对抗AI领域的研究者带来启发。

  人机对抗有着悠久的历史,也一直是验证人工智能关键技术的试金石。1950年提出的图灵测试,可以认为是第一个用于判断机器有没有人类智能的人机对抗。受此启发,研究人员开发了能够挑战人类职业玩家的AI系统(AIs)。一个典型的例子是1989年问世的名为奇努克(Chinook)的跳棋AI,其目标是击败世界冠军,并且在1994年成功击败马里昂-廷斯利,实现了这一目标。之后,来自IBM的深蓝(Deep Blue)在1997年击败了国际象棋大师加里-卡斯帕罗夫,开创了人机对抗的历史新时代。

  近年来,我们见证了人机对抗智能的加快速度进行发展,从DQN智能体、AlphaGo、Libratus、OpenAI Five到AlphaStar。这些人机对抗智能体采用现代技术能在特定游戏中击败人类职业选手,表明了决策智能的重大突破。例如,AlphaGo Zero采用蒙特卡洛树搜索、自博弈和深度学习,击败了数十个职业围棋选手,代表了处理具有巨大状态空间复杂度完美信息博弈的强大技术。OpenAI Five采用自博弈、深度强化学习和“手术式”持续迁移,成为第一个在电竞比赛中击败世界冠军的AI系统,展现了处理高复杂度不完美信息博弈的可用技术。

  AlphaStar和OpenAI Five在《星际争霸》和《Dota2》中成功达到人类职业玩家水平后,似乎目前的技术能解决很复杂的博弈。特别是最近人机对抗AI在《王者荣耀》和《麻将》等游戏中的突破都遵循了类似于AlphaStar和OpenAI Five的技术框架,表明当前的技术具有一定的通用性。我们不禁发出疑问:当前的技术在人机对抗中可能面临的挑战是什么?未来的趋势是什么?本文旨在回顾近期大获成功的人机对抗系统,并试图通过对当前技术的全面分析来回答这个问题。

  基于目前人机对抗AI的突破(大多数成果发表在Science和Nature等杂志上),本文综述了四种典型的博弈,即:围棋为代表的棋类博弈;无限柱德州扑克(HUNL)、斗地主和麻将为代表的牌类博弈;《雷神之锤III竞技场》(Quake III Arena)夺旗(CTF)模式为代表的第一人称射击游戏(FPS);以及《星际争霸》、《Dota2》和《王者荣耀》为代表的实时战略游戏(RTS)。相应的AI系统包括AlphaGo、AlphaGo Zero、AlphaZero、Libratus、DeepStack、DouZero、Suphx、FTW、AlphaStar、OpenAI Five、JueWu和Commander。图1给出了简要介绍。

  本文的其余部分结构如下。第2节描述了本文所涉及的博弈和人机对抗系统。第3-6节分别详细的介绍了棋类、牌类、FPS和RTS博弈中的AI。第7节总结并比较了不同博弈所使用的技术。第8节展示了当前人机对抗AI面临的挑战,也是该领域未来的潜在研究方向。第9节对本文进行了总结。


版权所有 2003-2017 pg电子下载平台-试玩pg游戏平台网站 | 网站地图 | 皖ICP备11019094号