
研究团队指出,目前的 AI 模型存在明显的功能鸿沟,以游戏为取向的 AI 能正常游玩但无法理解自己所做的决策,而语言模型虽然可以推理策略,但很难真正执行操作,为此他们研发了全新 TiG 框架,让模型在游戏中同步思考、行动。

团队选择以《王者荣耀》游戏作为训练范本,先使用匿名且标准化的赛事数据定义推上路、击杀暴君、守家等 40 种宏观行动,胜负回数均衡,AI 模型们必须要在每个定义好的场景下选择最佳策略,并解释其战略缘由。

具体来说,训练分为两个阶段,首先是在监督中学习,弄清楚这些策略的基本机制;随后通过奖励机制进行强化学习,如果行动正确能得 1 分,错误行动则得 0 分。

随后团队测试了多种语言模型,涵盖 Qwen2.5(7B、14B、32B)、Qwen3-14B 模型,并使用 DeepSeek-R1 大模型作为对照组;先从 DeepSeek-R1 提炼高质量训练数据,然后使用群体相对策略优化(GRPO)技术,比较不同策略之间的优劣。

最终经过 TiG 框架训练的模型不仅能制定行动计划,还能解释原因,例如 AI 会指出某个防御塔防守薄弱,是理想的进攻目标,但需要注意埋伏的敌人。模型训练后仍保持原有的文本理解、数学推理与问答能力。

最终测试结果如下:
全市场:麦肯尼现在是尤文的重要球员,但续约依旧没有进展
体育播报12月2日宣 据全市场网报道称,麦肯尼的续约依旧没有进展。麦肯尼无疑是斯帕莱蒂治下尤文最重要的球员...
2025-12-02
喀麦隆非洲杯大名单:姆伯莫领衔,巴莱巴、艾永入选,无奥纳纳
体育播报12月2日宣 非洲杯开赛在即,喀麦隆公布了参加本届赛事的大名单,姆伯莫领衔、巴莱巴、艾永入选,无曼联外...
2025-12-02
学习执教!博阿滕社媒:衷心感谢巴萨和弗里克,此行我学到了很多
体育播报12月2日宣 博阿滕社媒发文,感谢巴萨俱乐部和弗里克。博阿滕近期来到巴萨俱乐部,随弗里克的教练团队学...
2025-12-02
博努奇:踢挪威虽有意外,但相信加图索的道路正确且意大利很强大
体育播报12月2日宣 在日前出席意大利足球盛典的活动时,意大利名宿博努奇谈到了球队在明年三月份是否能通过附...
2025-12-02
慢镜头:那不勒斯已经开始与梅努的经纪人接触,曼联愿意外租
体育播报12月2日宣 据《Il Mattino》报道称,那不勒斯在跟梅努的经纪人谈判,希望尽快达成协议。在战胜罗马之后...
2025-12-02