• 黄金指数 $3353.05 1.97%
  • 美元指数 $99.360 0.28%
  • 交易所比特币钱包余额 181.0万 0.06%
  • 全网合约持仓量 $1202.1亿 0.2%
  • 全网24小时合约成交量 $2990.5亿 6.87%
  • 24小时爆仓总量 $3.5亿 40.6%
  • 24小时多空比 50.9700%/49.0300%
60.00% 40.00%
看涨
看跌

这款AI模型竟能发出惊悚的尖叫声

2025-04-24 05:36:07

Nari Labs发布Dia-1.6B:开源文本转语音模型在情感表达上超越主流竞争对手

Nari Labs近日发布了Dia-1.6B,这款开源文本转语音模型声称在生成富有情感表达的语音方面超越了ElevenLabs和Sesame等知名厂商。该模型体积小巧,仅有16亿参数,却能够生成包含笑声、咳嗽和情感起伏的真实对话,甚至能够发出惊恐的尖叫声。

虽然这听起来可能不算什么技术壮举,但即使是OpenAI的ChatGPT也无法做到这一点。当被要求尖叫时,ChatGPT回复道:"我不能尖叫,但我绝对可以提高音量。"现在,虽然有些AI模型在用户要求下可以尖叫,但这并不是自然或有机发生的。而Dia-1.6B的超级能力正是在于它能够理解在某些情况下尖叫是合适的。

Nari的模型可以在单块10GB显存的GPU上实时运行,在Nvidia A4000上每秒处理约40个token。与更大的闭源替代品不同,Dia-1.6B通过Hugging Face和GitHub仓库在Apache 2.0许可下免费提供。

Nari Labs联合创始人Toby Kim在X平台上宣布该模型时写道:"一个看似荒谬的目标:构建一个能与NotebookLM Podcast、ElevenLabs Studio和Sesame CSM相媲美的TTS模型。不知怎么的,我们做到了。"对比测试显示,Dia在处理标准对话和非语言表达方面优于竞争对手,后者往往会使表达变得平淡或完全跳过非语言标签。

情感语音合成的挑战与进展

AI平台越来越注重使其文本转语音模型展现情感,以解决人机交互中缺失的元素。然而,它们并不完美,大多数模型——无论是开源还是闭源的——往往会产生令人不适的"恐怖谷"效应,从而降低用户体验。

我们尝试并比较了几个专注于情感语音这一特定主题的平台,只要用户调整好心态并了解其局限性,大多数平台都相当不错。然而,这项技术仍远未达到令人信服的程度。

为了解决这个问题,研究人员采用了各种技术。有些在带有情感标签的数据集上训练模型,使AI能够学习与不同情感状态相关的声学模式。另一些则使用深度神经网络和大型语言模型来分析上下文线索,以生成适当的情感语调。

市场领导者之一ElevenLabs尝试直接从文本输入中解读情感上下文,通过观察语言线索、句子结构和标点符号来推断适当的情感语调。其旗舰模型Eleven Multilingual v2以在29种语言中的丰富情感表达而闻名。

与此同时,OpenAI最近推出了具有可定制情感表达的"gpt-4o-mini-tts"。在演示中,该公司强调了为客服场景指定"道歉"等情感的能力,将服务定价为每分钟1.5美分,使开发者能够负担得起。其最先进的Advanced Voice模式擅长模仿人类情感,但在我们的测试中,它表现得过于夸张和热情,无法与Hume等其他替代品竞争。

Dia-1.6B的突破性进展

Dia-1.6B的潜在突破在于它如何处理非语言交流。该模型可以在特定文本提示(如"(笑)"或"(咳嗽)")触发时合成笑声、咳嗽和清嗓子的声音,为标准TTS输出中经常缺失的真实感增添了一层。

除了Dia-1.6B,其他值得注意的开源项目包括EmotiVoice(一个支持情感作为可控风格因素的多语音TTS引擎)和Orpheus(以超低延迟和逼真的情感表达而闻名)。

但为什么情感语音如此困难?毕竟,AI模型早已摆脱了机械的声音。似乎自然性和情感性是两个不同的难题。一个模型可以听起来像人类,并具有流畅、令人信服的语调,但在超越简单叙述的情感传递方面却完全失败。

AI视频生成公司RiseAngle的CEO Kaveh Vahdat表示:"在我看来,情感语音合成之所以困难,是因为它所依赖的数据缺乏情感粒度。大多数训练数据集捕捉到的语音都是清晰易懂的,但并不具有深刻的表现力。情感不仅仅是语调或音量;它是上下文、节奏、紧张和犹豫。这些特征通常是隐含的,很少以机器可以学习的方式进行标注。"

Vahdat认为:"即使使用了情感标签,它们也往往将真实人类情感的复杂性简化为'快乐'或'愤怒'等宽泛类别,这与情感在语音中的实际运作方式相去甚远。"

我们尝试了Dia,它确实足够好。它每秒推理生成约一秒的音频,确实传达了语调情感,但过于夸张,感觉不自然。这就是整个问题的关键——模型缺乏足够的上下文意识,很难在没有额外线索的情况下隔离单一情感,并使其连贯到足以让人类相信它是自然互动的一部分。"

"恐怖谷"效应带来了特别的挑战,因为合成语音无法通过采用更情感化的语调来弥补中性的机器人声音。

还有更多的技术障碍。当测试未包含在训练数据中的说话者时,AI系统往往表现不佳,这个问题在说话者无关的实验中被称为低分类准确率。情感语音的实时处理需要大量的计算能力,限制了在消费设备上的部署。

数据质量和偏见也带来了重大障碍。为情感语音训练AI需要捕捉跨人口统计、语言和上下文情感的大型多样化数据集。在特定群体上训练的系统可能在其他群体上表现不佳——例如,主要在白人语音模式上训练的AI可能在其他人口统计上表现不佳。

也许最根本的是,一些研究人员认为,由于缺乏意识,AI无法真正模仿人类情感。虽然AI可以基于模式模拟情感,但它缺乏人类在情感互动中带来的生活经验和同理心。

看来,做人比想象中更难。抱歉了,ChatGPT。

更多新闻