1000+AI智能体复活,OpenAI版元宇宙上线? ChatGPT+VR百分百还原「西部世界」
游戏版的「西部世界」已然成为现实。
YouTube博主Art from the Machine正式发布Mantella,能够让「上古卷轴5」中的NPC们复活的全新AI Mod。
项目一经发布,在Reddit上掀起轩然大波。
通过ChatGPT、以及文本转语音工具xVASynth、语音识别模型Whisper直接让游戏中AI智能体拥有意识,进行自然对话。
值得一提的是,Mantella Mod支持1000多个NPC,以及20 种语言。
网友纷纷表示,绝对要改变游戏规则。
很多玩家在游戏里打怪升级什么的早就玩腻了。
可以想象,在VR模式下安装了这个Mod后,肯定有玩家就在「上古卷轴」里面找NPC聊天,一聊就是一整天。
升级是不可能升级的,这辈子都不会升级了,打怪什么的又难打。只有找NPC聊天才能打发游戏里的时间。
游戏里的老哥们各个都有自己的故事,说话又好听,超喜欢和NPC们在游戏里聊天的了。
有网友甚至觉得,这个Mod不仅仅是游戏,而是开启了一个人类和计算机交互新时代。
1000 NPC注入「灵魂」
过去的几个月里,Mantella一直在进行公开测试,作者在19日终于发布了这个Mod。
简单来说,这个Mod就是把「上古卷轴5:天际」里边所有的NPC都接入了ChatGPT GPT,让AI帮助原本只会来回移动的NPC真的活过来了。
这1000多个NPC全部都直接能语音互动,而且每个人都有自己独特的背景。
NPC能够记住你和他之前对话的内容,也知道他们自己所处的位置,游戏里的时间,以及玩家在游戏中他看到的操作,比如拾取了什么物品。
NPC的对话内容由ChatGPT生成,而在游戏内的语音实现则由一款名为xVASynth的AI工具实现。
一起看看,NPC们如何与人对话交流。
玩家:这些奶酪多少钱?
NPC:这些奶酪是我们这里的精品,需要10金币。你还有其他需要的吗?
玩家:麦当劳。
NPC:对不起,「上古卷轴」里没有麦当劳。
玩家:我抢走了的你的妻子。
NPC:我不信,我没有结婚,更别说有妻子了,你可能搞错了...
更有趣的是,NPC还会幽默回复你的对话。
NPC:如果你是在暗示,你假设是我的妻子或你没有妻子,我很抱歉听到这个消息。
其实,用AI让游戏角色更加鲜活,英伟达也在攻关。
还记得,老黄在今年的COMPUTEX大会上,推出了全新的定制AI模型代工服务 ——Avatar Cloud Engine (ACE) for Game。
在一个充满「赛博朋克」风格的拉面店场景中,玩家按下一个按钮,可以用自己的声音说话,然后店主Jin会进行回答。
Jin是一个NPC角色,但他的回答是由生成式AI根据玩家的语音输入实时生成的。
Jin还有着逼真的面部动画和声音,全部与玩家的语气和背景故事相符。
这个逼真人物角色的生成,使用了一个实时人工智能模型渲染工具Nvidia ACE。
老黄表示,这个游戏中的角色并没有预先设定。他们有一个典型的任务提供者NPC类型。
背后技术介绍
Mod制作者通过ChatGPT—xVASynth—Whisper,构成了一个「群活」NPC的技术框架。
Whisper能够识别玩家通过麦克风输入的语音内容,并且转化成文字,经由API调用ChatGPT对玩家说的话进行文字回复。
然后再通过xVASynth将ChatGPT生成的文字回复生成符合游戏角色特点的游戏内语音,和玩家直接进行语音交流。
而且整个流程的实现几乎没有成本,为一需要服一点点ChatGPT调用API的费用。大概玩一天需要几美分。
xVASynth
https://www.nexusmods.com/skyrimspecialedition/mods/44184
他可以根据游戏中某一个声音,来生成符合这个声音的游戏NPC配音台词。
xVASynth使用神经语音合成(Neural Speech Synthesis)来专门生成游戏中的NPC的语音对话。它是基于一个根据游戏中的角色语音数据单独训练的模型。
支持从文本到语音的转换(TTS)或者音频直接输入进行语音转换(V/C)。
通过这个工具,用户只要提供一小段特定的声音素材作为模板,就能使用文字来直接生成和模板风格一致的语音内容。
Mentella就是采用了ChatGPT生成NPC对话内容 xVASynth转化为游戏内语音的框架完成的。
xVASynth针对文字的语音转换,能让用户可以控制语音的很多细节,例如单个字母的音高和持续时间、能量、情感和风格,来突出角色所要表达的情绪和重点。
神经语音合成技术的使用可以让它产生自然的声音,现有数据串联的传统方法很难做到这一点。这也意味着可以在配音演员已经读出的内容之外生成全新的语音内容。
这样生成的语音就不会是一段「机里机气」的AI转述音频了,能让NPC的真实感和游戏玩家的沉浸感大大加强。
更吊的是它可以支持28种语言,并且可以使用同一文本提示在多种语言之间切换输出。大大方便了游戏制作者进行多语言版本的制作。
为了方便用户处理游戏中成千上万个不同的游戏语音,它还内建了一个3D语音嵌入可视化工具。
这个3D可视化UI也是由AI生成的,用户可以按游戏的NPC的属性对语音进行上色,比如性别,职业等等,让用户摆脱了传统通过时间轴来控制语音的方式。
现在xVASynth也已经上架Steam,可以让游戏开发者和玩家免费使用大部分功能。
Whisper
而为了完成语音交互,NPC除了自己发音,还必须要能识别玩家和他们的语音交流。
Mod开发者使用的是由OpenAI发布的语音转文字AI工具:Whisper。
OpenAI通过网络收集了超过68万小时的多语言和多任务监督数据训练出了Whisper。
使用如此庞大且多样化的数据集使得Whisper对口音、背景噪音和专有名词有非常强的适应能力。此外,还可以进行多种语言的转录和翻译。
Whisper采用的是一种简单的端到端的构架,通过Transformer编码器-Transformer解码器的形式实现语音的识别。
输入音频被分成30秒的块,转换为梅尔频谱图,然后传递到编码器。
解码器经过训练来预测相应的文本内容,并与特殊标记混合在一起,指示单个模型来执行语言识别、多语言语音转录和英语语音翻译等任务。
下载与安装
要求
硬件:目前还没有发现最低要求,但有报告称Mantella在运行2000个Mod的modlist时崩溃了。Mantella需要一定数量的硬件分配才能成功运行,如果这被其他硬件密集型mod占用,它可能会崩溃。
存储:安装所有语音模型时,Mod需要约17GB的空间。解压语音模型总共需要约32GB。
兼容性
- 已经确认,Mantella可与 FUS(将 skyrim_folder 指向 Skyrim)、Librum(将 skyrim_folder 指向 overwrite/root)和 Wildlands(将 skyrim_folder 指向 Wildlander/SKSE)Wabbajack mod 列表一起使用。
- 如果你安装了非官方的Skyrim SE版(USSEP),则需要在此mod之后加载Mantella
注意:由于 Mantella 会访问和写入「上古卷轴」文件夹中的文件,因此如果你将「上古卷轴」存储在「Program Files」(程序文件)中,则 Mantella 可能无法正常工作。请确保将其存储在此文件夹之外(例如 C:\Games\Steam)。
将此Mantella文件夹解压。
MantellaSpell.zip
该压缩文件的安装方式与其他 MOD 相同。如果你以前没有手动安装过模块,在模块管理器2的用户界面左上角有一个光盘图标,你可以指向MantellaSpell.zip压缩文件进行安装。
对于Vortex,你可以将压缩的MOD拖入Vortex面板。
xVASynth
- 通过
Steam(https://store.steampowered.com/app/1765720/xVASynth/)或Nexus(https://www.nexusmods.com/skyrimspecialedition/mods/44184)下载xVASynth。
- 为你可能遇到的所有或任何角色下载经过xVASynth训练的Skyrim语音模型。你必须通过Nexus Mods页面手动下载,或使用Nexus Premium自动下载,xVASynth中包含了Nexus Premium的API。
- 在 https://www.nexusmods.com/skyrimspecialedition/mods/44184?tab=files 的 「可选」选项下,将压缩文件存储到一个文件夹中。
打开xVASynth,将文件夹中所有压缩的声音模型文件拖入声音面板。等待安装完成。
如果这种方法不适合你,你也可以手动将模型解压缩到正确的xVASynth文件夹中(xVASynth\resources\app\models\skyrim)。解压缩完成后,就可以删除压缩的语音模型文件了。
最后,具体操作步骤,可参考视频。
试过之后网友表示非常好,语音恰到好处,一点不违和,沉浸感爆棚。
也许是《上古卷轴》历史上最厉害的Mod!
这个网友跟了这个Mod很长时间,认为这个Mod直接让《上古卷轴:天际》变了一个游戏,未来也许所有游戏的交互方式都会发生改变。
等不及要马上爽一把了!
谷歌即将推出Bard Assistant:调整了“财务观察列表”小部件
虽然谷歌尚未正式宣布与Bard合作的人工智能增强助理的发布日期,但最新的应用程序更新为我们展示了一系列新设计,其中包括令人印象深刻的弹出窗口和趣味十足的标签切换器。此外,谷歌还对其最近推出的股票和金融小部件进行了调整,提升了用户体验。站长网2024-01-03 11:42:490000研究发现,AI生成的推文可能比人工编写的更有说服力
最近,一项在一项将人类创作的内容与OpenAI公司的GPT-3模型生成的内容进行对比的研究中,当推特上发布的内容由AI语言模型编写时,适合更容易获得人们的信任。这项新研究对人们进行了调查,以了解他们是否能够分辨一条推文是由另一个人还是由GPT-3编写的。结果显示,人们实际上无法真正分辨出来。这项调查还要求他们判断每条推文中的信息是真实的还是虚假的。站长网2023-06-29 15:59:440000AI大模型会如何颠覆手机?
将大模型变小,再塞进手机,会给人们的生活带来怎样的影响?最近,荣耀成为了国内率先的破局者。7月12日,荣耀了发布一款“革命性”的大模型手机MagicV2。成为全球首个实现大模型与手机系统融合的厂商。在荣耀的宣传中,更加个性化、更注重隐私,并且具备多模态功能的大模型,将会给用户带来全新的体验。实际上,不只是荣耀,身为手机芯片龙头企业的高通,也在近期发布了自身的大模型。站长网2023-07-24 17:15:270000一加12和一加Ace3将率先支持黑屏指纹解锁功能
一加手机官方宣布,一加12和一加Ace3两款机型将作为首批推送黑屏指纹解锁功能的手机。这一功能允许用户在屏幕处于黑屏状态下,通过触摸指纹区域直接完成解锁,极大地提升了用户的解锁体验。值得注意的是,一加12和一加Ace3成为了OPPO旗下唯二支持该功能的手机,这进一步突显了一加品牌在创新技术方面的领先地位。站长网2024-02-02 16:47:010000联发科发布AI处理器天玑8300 Redmi K70E 将全球首发
联发科在11月21日举行了天玑8300处理器的发布会。天玑8300采用了台积电第二代4nm制程,搭载了4个Cortex-A715性能核心和4个Cortex-A510能效核心的八核CPU,性能提升了20%,峰值功耗降低了30%。在游戏体验方面,天玑8300搭载了6核GPUMali-G615,并配备了新一代的“星速引擎”,能够实时进行资源调度,提供高帧稳帧、低功耗长续航的游戏体验。站长网2023-11-21 15:56:200001