爆火国产3A大作《黑神话·悟空》,如今也能由AI生成了?
一夜之间,国内首个实时视频游戏生成AI,火遍全网。
几天前,专做推理芯片初创Etched曾推出世界首个实时生成AI游戏Oasis,每一帧都是扩散Transformer预测。
无需游戏引擎,就能实现每秒20帧实时渲染,几乎没有延迟。
没想到,GameGen-X一出,再次颠覆了我们对AI游戏的认知。
来自港科大、中科大、港中文等机构联手,提出开放世界视频游戏生成AI,可以实时交互创建游戏。
这是首个专为生成和交互控制开放世界游戏视频而设计的扩散Transformer模型。
论文地址:https://gamegen-x.github.io/
GameGen-X能够模拟游戏引擎特性,实现高质量开放世界游戏生成。比如,创建新角色、动态环境、复杂动作和各种事件等等。
它还能进行交互式控制,根据当前片段预测或更改未来内容,实现游戏模拟。
有网友表示,一切都结束了,中国再次在AI游戏领域拿下第一。
还有人称,这比Oasis看起来更好。
谈论起游戏AI,网易数智游戏行业部最近发出游戏AI虚拟主播相关技术方案,今天来在这里分享给大家。
在项目开始前,团队对以下问题进行了反复思索:
项目目标&难点
-
如何最大化 LLM 在理解和解说牌局方面的能力?
-
如何学习模仿真人主播的解说行为模式和输出超拟人解说词?
-
如何从算法和工程的角度上提高整个虚拟主播直播场景链路速度,实现低延迟解说?
-
如何在保证解说效果的前提下,实现 Agent 服务的高并发?
-
如何提高模板的可扩展性,为其他类似游戏的 AI 主播赋能?
带着以上问题,游戏行业部技术团队探索出了一条新思路。
在每位玩家的每一次出牌时,前端系统会向掼蛋推理模型请求决策。具体来说,前端会将当前的游戏局面和出牌信息发送给掼蛋AI 主播。在 Agent 中,LLM 工作流会将对这些信息进行深入分析和逻辑推理,输出符合游戏情境、并以第一人称“我”为视角的超拟人化解说词。
最终,通过解说词文本驱动 3D 虚拟人形象,实现实时的 TTS 语音解说和动画动作,为观众带来实时生动的游戏互动体验。
(项目时序图)
通过应用该方案,基于专家经验构建详细的 Agent workflow 和 prompt,确保能够全面覆盖所有解说场景,提供全面且高度可控的解说服务。另外,通过结合传统深度学习模型,我们增强了出牌和组牌方案的推理能力,弥补了 LLM 在数值推理方面的不足,确保了解说内容的准确性和可靠性。此外,利用真实主播的语料数据对模型进行微调,让生成的解说内容在风格上具有高度拟人性,更贴近真实主播的表现。
02.
掼蛋AI主播
以下为掼蛋 AI 主播流程图:
1. 掼蛋局面信息的解析与增强
需要先对前端传入的少量数据进行解析和增强,然后将其映射为相应的局面信息。
前端传入的数据:
经过解析和增强之后的数据:
传递的数据可以解析和增强成自己想要的局面信息,并将局面信息转化为合理规范的自然语言之后输入给 LLM,会让 LLM 更好地理解现在游戏局面和进行推理。
2. 局面精彩程度的判断
如何确保我们的解说既精炼又充满吸引力,还能与真人主播的解说风格保持一致?
在观摩了众多真人掼蛋主播的解说视频后,我们注意到真人主播们更倾向于挑选那些关键、富有意义或激动人心的出牌时刻进行点评解说。为了复刻这种解说风格,AI 虚拟人需要在获取游戏局势信息后,依据这些数据来判断每一步棋是否具有特殊意义或局面是否足够精彩,并根据精彩程度来进行解说。
所以,我们衡量局面精彩程度的标准包括:
通过算法对这些指标进行量化和分析,并根据出手的精彩程度分配不同的解说概率,从而实现对局面的精准解说,模拟真人主播的解说选择,确保我们的 AI 虚拟主播能够像真人主播一样,专注于那些最值得解说的游戏时刻。
3. Workflow 的设计
分支设计:
在深入学习真人掼蛋主播的解说逻辑之后,我们针对不同的游戏局势构建了几十个 LLM Workflow 分支。这种精细化的分支设计显著地提升了 LLM 对游戏局面的理解和分析深度,进而能够生成更精准、更高质量的解说词。通过一系列不同特征的组合来对游戏局面进行细致分类,这些特征包括:
Prompt 设计:
我们针对不同组合的分支设计了符合场景的 LLM Prompt,确保每个提示都能精准匹配其特定的场景需求,这些提示中涵盖了以下要素:
在 Workflow 的设计过程中,引入了一个特别的分支,以第一人称视角“我”来描述游戏开局的情况,在这个分支中,我们会详细分析手牌的优劣,确定本局游戏的定位,并提出相应的打法策略。另外,对于一些分支场景加入了一系列辅助推理决策的算法小模型,以增强 LLM 的解说能力并减少错误判断。这些模型包括算牌、组牌以及推测对手或队友手牌等,它们能够有效辅助 LLM 输出更准确的解说词,从而降低幻觉发生的概率。
4. 解说拟人化处理
在 Workflow 设计中,我们确实遇到了 LLM 输出的解说词虽然符合场景但显得生硬、缺乏真人主播风格的问题。为此,我们尝试了多种方法来优化 Prompt 来提升解说词的自然度和流畅性,如:few-shot,相似场景真人解说词的 RAG,Dialogue Enginerring 和制作角色卡等,但效果都不理想。
如何通过 Prompt 引导 LLM 进行更自然对话的研究,以及如何结合不同的技术来提升解说词的质量?
-
微调的拟人化改写器 Instruct-LLM
针对以上问题,技术团队采用了微调技术来提升解说的自然度,但为了保留原 LLM 的核心分析和推理能力,不直接对 LLM 进行微调,而是再引入一个新型的拟人化修改器 LLM,专门负责对生成的解说词进行人性化调整。
为此,我们准备了一个包含数万条“ AI-真人”解说词对照的数据集用于微调,确保其输出的解说词既保留了精准性,又增添了真人解说的生动感和亲和力。
-
微调数据集制作 Pipeline
用于微调的数据集主要有三个来源,分别是“网上掼蛋真人主播解说视频”、“LCCC-真人社交对话数据集”和“收集的掼蛋规则和玩法文章”。
针对网上掼蛋真人主播解说视频,我们采用了 STT 模型,从视频中提取文本内容,运用 LLM 结合 CoT(Chain of Thought)技术以及一些字符串替换技巧,对 STT 转录的文本进行错误修正和清洗。通过这一流程,我们积累了数万条真人解说语句。在此基础上,我们进一步利用 LLM 为每一条真人解说句生成语义一致的 AI 解说句,从而构建了数万个“AI vs 真人”的数据对。这些数据对将作为我们 LLM 微调的宝贵资源,以提升 AI 解说的自然度和准确性。
对于LCCC-真人社交对话数据集,我们从该数据集中随机抽取数万条真人社交对话句子,并采用相同的方法生成对应的数万个“AI vs 真人”的数据对。加入真人社交对话数据对的目的是防止 LLM 修改器在微调时出现解说拟人性的过拟合现象。
为避免 LLM 修改器在修改过程中因不熟悉规则而产生错误,我们从网络上广泛搜集并整理了大量关于掼蛋游戏规则和玩法的文章,从这些资料中提取了数千个与掼蛋玩法规则相关的问答数据对,将这些数据对加入微调数据集,以增强模型对掼蛋规则的理解。
为了确保数据集的质量,我们特别关注数据对之间的句意一致性。由于创建合成数据时可能会产生句意不一致的数据对,我们也增加了数据检查和筛选逻辑。经过这一严格的筛选过程后,我们最终得到了一个高质量的微调数据集,为 LLM 提供了坚实的知识基础,以确保在解说掼蛋游戏时的准确性和专业性。
-
模型微调
我们结合 LoRA 方法进行多阶段微调,经过微调后,改写器能够对原始解说词进行精准修改,实现了超拟人化的效果,同时还能确保句意保持不变,助力解说语句的口吻、语气和用词更加贴近真人主播的水平,提升了 AI 虚拟人解说的专业性和观赏性。
03.
虚拟数字人框架Rapport
我们携手合作伙伴 Speech Graphics ,采用了其创新的 Rapport 虚拟数字人框架。该框架支持前端 JS 和 iframe 嵌入,并可以通过解说词文本驱动虚拟数字人形象,完美拼成掼蛋 AI 主播的最后一块“拼图”。
此外,该框架具备高度的定制性,支持 3D/2D 数字人形象、声音、动作和表情等个性化定制。通过这一框架,我们能够灵活地驱动虚拟主播,完美契合我们对虚拟主播场景的特定需求,确保了虚拟主播的表现力和互动性,为观众带来更加生动和真实的沉浸式体验。
(内置的 Metahuman 形象示例)
(内置的 WebGL 形象示例)
更多游戏AI相关资料可以✉LTT936
游戏AI竞技机器人 - 网易智企
最后,为你备了几份资料大礼包:
《游戏AI实践指南》
《游戏私域运营指南》
《网易数智年度技术精选合集》
《2023泛娱乐出海白皮书》
《2023年全球即时通讯(IM)PaaS市场洞察白皮书》