rct AI 发布新型算法 ACAR，提升 AI 在大规模动作空间的学习效率

2024-10-09 12:02:33 40

近日，由 rct AI 完成的基于强化学习在游戏中应用的论文—《Towards Modern Card Games with Large-Scale Action Spaces Through Action Representation》入选人工智能方向游戏领域的国际顶会（IEEE Conference on Games，CoG 2022)，并受邀进行演讲展示。这种基于 RL（Reinforcement Learning）的针对大规模行动空间的 AI 算法 ACAR (Action Clustering using Action Representation)，在大量模拟对战数据中实现了效率和胜率的双提升，将为未来游戏多维的应用、人机对战算力提升、沉浸式虚拟世界构建、用户深层互动提供更多研究可能。

IEEE CoG 已有十多年历史，汇集了全世界游戏领域学术界和工业界的领先研究人员和从业者，共同讨论最新进展并探索未来发展方向，涵盖从游戏设计到游戏智能的科学、技术和工程方面的所有内容。

此次受到全球游戏界顶尖学术会议认可的论文全部由 rct AI 的 Deterrence 团队算法工程师完成，他们日常主要研究将尖端技术如深度学习和强化学习引入到科技、游戏、娱乐等相关产业中，内容包括 AI 对话模型、AI 意图识别和 AI 动作生成、虚拟人创作及灵魂交互等多个领域。

游戏除了作为娱乐活动外，也为人工智能和计算智能的发展提供了通用且具有挑战性的平台。在最近几年中，AlphaGo 和 AlphaGo Zero 的出世使得人们意识到强化学习这一算法在博弈游戏中可以表现出比肩甚至优于人类的可能。rct AI 希望通过此次研究探索“巨大且复杂的动作空间”算力决策，而卡牌类游戏正好满足其特性。在研究中，除了需要克服复杂动作空间的问题外，AI 还需要根据对手的游戏策略和打法来找出当前游戏中最有利的策略。

本次研究选择的 Axie Infinity 游戏不光包含上述所提到的“巨大且复杂的动作空间”（所有卡牌的动作空间组合数量大约 10^23 ）和“游戏中博弈”这两个问题，还具有“卡组众多”这一特点（整个游戏热门的卡组十余种，总共至少数十种卡组，上百张不同效果的卡牌）。由于无法对所有卡组在训练之前加入人类策略的经验或知识，这便造成了在不同的游戏中，对手卡组不固定的现象，这对 DRL（Deep Reinforcement Learning）模型的学习又多了一重挑战。

在不断的实验中，rct AI 提出一种更高效且通用的基于 RL 的 AI 算法 ACAR 来解以上问题。首先，团队引入了预训练 embedding function 来解决这个问题中巨大的动作空间，通过与不同对手的对战，对执行过动作的最终效果来学习不同组合动作的表征从而来达到高效探索动作空间的效果。

在拥有对动作表征的 embedding function 之后，团队在后续的 RL 训练中不光可以用评估网络 Q 去评估 Policy 网络中输出的动作，还可以用 embedding function 对当前网络输出动作进行降维，进而去用 Q 评估被降维后动作的相邻动作，从而选择出当前状态下的最优动作。

在 RL 训练结合了 Embedding function，最终在大量的模拟对战数据中，rct AI 的算法不仅在大部分卡组中的表现优于其余两种 Baseline 算法（平均胜率高出 5% 和 7%），并且在响应效率上也完全优于其余两种算法（平均只是其余两种算法耗时的 43% 和 39%）。

在 ACAR 算法下，AI 在 Axie Infinity 的游戏中对局胜率及综合效率都高出了平均水平，这种算力提升的影响是多方面的，将打开 AI 在互联网 3.0 游戏应用的新蓝海。

rct AI 已携手全球多家游戏公会，围绕多款不同类型的游戏，开展了一系列深度合作，让 AI 虚拟人在游戏中能够平等地与人类玩家共同参与多种玩法，建立真正的可持续性和稳定性，为玩家带来更具个性化的智能交互体验，为游戏方及公会提供更多业务模式，进一步为游戏生态提供丰富的多样性。

从移动市场评估服务提供商 data.ai 发布的《聚焦游戏领域》报告来看，预计 2022 年全球游戏产业规模或达 2220 亿美元；而互联网 3.0 的出现，也推动着游戏行业市场规模的再次扩大，据 SupraOracles 的数据统计，目前互联网 3.0 游戏的总体市值已经超过 400 亿美元；且彭博社曾预计，到 2024 年，元宇宙的市场规模可能将达到 8000 亿美元。

在市场狂热的背景之下，整体的游戏市场、互联网 3.0 的技术与理念也将必然进行不断地迭代与升级。纽约大学计算机科学与工程教授、纽约大学游戏与创新实验室共同创立者—朱利安·图吉利斯曾表示，游戏是 AI 的未来，AI 也是游戏的未来。游戏通过收集玩家数据为 AI 技术提供了最佳的测试基准，AI 技术的算法功能又不断改进游戏设计。基于游戏研究人工智能和基于人工智能开发游戏，都为人类探索未来提供了更广阔的空间。

rct AI 自成立以来一直致力于运用人工智能为游戏行业提供完整的解决方案，并利用人工智能生成内容创造真正的元宇宙。团队将核心技术及创新产品带入各产业中，推出如 Chaos Box 混沌球算法、 Morpheus Cloud 梦境云平台等，让不同类型的多个场景中能实时生成动态且个性化的交互式数字内容，让游戏玩法、情节生成、NPC 个性化、人物对话等环节全面智能化，帮助打造真正动态、智能的游戏生态。

除核心技术外，rct AI 已成功建立了互联网 3.0 生态业务布局，包括基于对虚拟世界、虚拟人的深刻理解而推出的去中心化虚拟人平台 Deterrence；联合艺术家宋婷发布的可以自我繁衍的虚拟人 NFT “Nüwa 女娲”；全球首个可玩的 AAA 级 MMORPG 互联网 3.0 游戏 Delysium 及由互通性与互操作性 SDK 驱动的互联网 3.0 游戏矩阵 Mirror World；与中国虚拟人生态龙头次世文化联合推出的 Soularis 品牌，打造用户与 AI 虚拟人共存、数字身份与资产互通的虚拟社会等，不断挖掘更广阔的市场空间及创新应用方式。

依靠扎实的技术壁垒和前沿生态业务布局，rct AI 在海内外的科技、游戏、娱乐、元宇宙领域已累积大量经验，触达用户超过 2 亿。

本文地址：https://www.tuopo.com/chanye/3329.html

本文来源：rct AI

声明：本网站所有相关资料如有侵权请联系站长删除，资料仅供用户学习及研究之用，不构成任何投资建议！

rct AI 发布新型算法 ACAR，提升 AI 在大规模动作空间的学习效率

VitaDAO 一个去中心化科学（DeSci）社区

Reef Finance 全球性的流动性聚合器和多链智能收益引擎

Nektar Network 一个去中心化的流动性与基础设施市场

Cryowar 基于Solana构建的实时多人PVP竞技场NFT游戏