搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

完爆ChatGPT!谷歌这招太狠:连你的「阴阳怪气」都能神还原

2025-12-25 13:51:52
来源:

猫眼电影

作者:

詹雪露

手机查看

  猫眼电影记者 王宇澄 报道首次登录送91元红包

新智元报道

编辑:YHluck

【新智元导读】谷歌发布Gemini 2.5 Flash原生音频模型,不仅能保留语调进行实时语音翻译,更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。

想象这样一个场景:

你戴着耳机走在印度孟买喧闹的街头,周围是嘈杂的叫卖声和完全听不懂的印地语。

此时,一位当地大叔急匆匆地用印地语向你询问路线,他的语速很快,语气焦急。

若是以前,你可能得手忙脚乱地掏出手机,打开翻译App,按下按钮,尴尬地把手机递到他嘴边,然后听着手机里传出毫无感情的「机翻」电子音。

Nano Banana Pro制图

但现在,一切都变了。

你站在原地不动,耳机里直接传来了流利的中文:「嘿!朋友,麻烦问一下,火车站是不是往这边走?」

最绝的是,这句中文不仅意思准确,甚至连大叔那种焦急、气喘吁吁的语调都完美复刻了!

你用中文回答,耳机自动把你的声音转化成印地语传给对方,甚至保留了你热情的语调。

这不仅是科幻电影里的《巴别塔》重现,这是谷歌本周刚刚扔下的重磅「核弹」——Gemini 2.5 Flash Native Audio(原生音频模型)。

今天,我们就来扒一扒这次更新到底有多强。

所谓的「原生音频」,到底强在哪?

很多人可能会问:「现在的手机不都有朗读功能吗?这有啥稀奇的?」

这里有个巨大的误区。

以前的AI语音交互,流程是这样的:听到声音 -> 转成文字 -> AI思考文字 -> 生成文字回复 ->转化成语音读出来。

这个过程不仅慢,而且在「转来转去」的过程中,语气、停顿、情感这些人类沟通中最微妙的东西,全都丢了。

而谷歌这次发布的Gemini 2.5 Flash Native Audio,核心就在「Native(原生)」这两个字。

它不需要把声音转成文字再转回来,它是直接听、直接想、直接说。

举个栗子,这就好比你和一个老外聊天,以前你需要脑子里疯狂查字典,现在你已经形成了「语感」,脱口而出。

这次更新,谷歌不仅升级了Gemini 2.5 Pro和Flash的文本转语音模型,带来了更强的控制力。

更重要的是,它让实时语音代理(Live Voice Agents)成真了。

这意味着什么?

意味着在Google AI Studio、Vertex AI,甚至是搜索(Search Live)里,你不再是和一个冷冰冰的机器对话,而是在和一个有「脑子」、有「耳朵」的智能体进行实时头脑风暴。

耳机里的「同声传译」

打破语言的巴别塔

这次更新中,最让普通用户感到兴奋的,绝对是实时语音翻译(Live Speech Translation)功能。

谷歌这次没有画饼,功能已经开始在美国、墨西哥和印度的安卓设备上,通过Google翻译App进行Beta测试了(iOS用户稍安勿躁,马上就来)。

这个功能有两个杀手锏,直击痛点:

持续监听与双向对话:真正的「无感」翻译

以前用翻译软件,最烦的就是要不停地点「说话」按钮。

现在,Gemini支持持续监听。

你可以把手机揣兜里,戴上耳机,Gemini会自动把你周围听到的多种语言,实时翻译成你的母语。

这就相当于随身带了个隐形翻译官。

而在双向对话模式下,它更聪明。

比如你会说英语,想和一个说印地语的人聊天。

Gemini能自动识别是谁在说话。

你在耳机里听到的是英语,而当你开口说完话,手机会自动外放印地语给对方听。

你不需要去设置「现在我说」、「现在他说」,系统全自动切换。

风格迁移:连「情绪」都能翻译

这是最让我起鸡皮疙瘩的功能——Style Transfer(风格迁移)。

传统的翻译是「莫得感情」的朗读机器。

但Gemini利用其原生音频能力,能捕捉人类语言的细微差别。

如果对方说话时语调上扬、节奏轻快,翻译出来的声音也会是欢快的;

如果对方语气低沉、犹豫,翻译出来的声音也会带着迟疑。

它保留了说话者的语调、节奏和音高。

这不仅仅是听懂意思,这是听懂态度。

在商务谈判或者吵架的时候,这个功能简直太重要了!

此外,它还支持:

70多种语言和2000多个语言对:覆盖了全球绝大多数人的母语。

多语言混输:即使在一场对话中混杂着几种不同的语言,它也能同时理解,不用你手动切来切去。

噪声鲁棒性:专门针对嘈杂环境优化,过滤背景音。哪怕你在嘈杂的户外市场,也能听得清清楚楚。

开发者狂喜

这个AI终于「听懂人话」了

如果你是开发者,或者想为企业构建客服AI,这次Gemini 2.5 Flash Native Audio带来的三个底层能力提升,绝对是「及时雨」。

函数调用更精准

以前的语音助手,一旦涉及到查天气、查航班这种需要调用外部数据的操作,很容易卡壳或者回答得很生硬。

现在的Gemini 2.5,知道何时该去获取实时信息,并且能把查到的数据无缝地编织进语音回复里,不会打断对话的流畅感。

在专门测试复杂多步骤函数调用的ComplexFuncBench Audio评测中,Gemini 2.5拿下了71.5%的高分,遥遥领先。

更新后的 Gemini 2.5 Flash Native Audio 在 ComplexFuncBench 上与之前版本及行业竞争对手的性能对比

这意味着,它能真正充当一个靠谱的「办事员」,而不是一个只会陪聊的「傻白甜」。

指令遵循更听话

你是不是经常觉得AI听不懂复杂的指令?

谷歌这次下了狠功夫。

新模型对开发者指令的遵循率从84%提升到了90%!

这意味着,如果你要求AI「用这种特定的格式回答,语气要严厉一点,不要废话」,它能更精准地执行你的要求。

对于构建企业级服务来说,这种可靠性才是核心竞争力。

对话更丝滑

多轮对话是AI的老大难问题。

聊着聊着,AI就忘了前面说过啥。

Gemini 2.5在检索上下文方面取得了显著进步。

它能更有效地记住之前的对话内容,让整个交流过程不仅连贯,而且具有逻辑性。

配合上原生音频的低延迟,你会感觉对面真的像坐了一个人。

我们离「贾维斯」还有多远?

谷歌这次的更新,其实是在传递一个明确的信号:

语音交互正在成为下一个时代的入口。

从Gemini Live到Search Live,再到耳机里的实时翻译,谷歌正在把AI从屏幕里解放出来,塞进我们的耳朵里。

对于普通用户:语言的障碍正在被技术铲平。

明年(2026年),这一功能将通过Gemini API扩展到更多产品中。

未来,也许我们真的不再需要花费数年时间痛苦地背单词,一个耳机就能让我们走遍天下。

对于企业:构建一个能听、能说、能办事、有情绪的下一代AI客服,门槛正在大幅降低。

除了原生音频模型外,谷歌还丢出个核弹级实验产品——Disco。

它是来自Google Labs的新发现工具,用于测试未来网络的想法。

它内置了基于谷歌最强模型Gemini 3打造的神器GenTabs。

谷歌直言,目前还处于早期阶段,并非所有功能都能完美运行。

最牛的地方在于,它能看懂你的需求。

GenTabs通过主动理解复杂任务(通过用户打开的标签页和聊天记录)并创建交互式网络应用程序来帮助完成任务,从而帮助浏览网络。

不用写一行代码,它直接把你乱七八糟的标签页和聊天记录,「变」成一个专属的交互式App。

想做周餐计划?想教孩子认识行星?

跟它说人话就行,它自动给你生成工具,所有数据都有据可查,绝不瞎编。

目前macOS版已经开放排队了,虽然还是早期实验版,但这绝对是把「浏览」变成了「创造」。

赶紧冲,这波未来感拉满了!

One More Thing

技术进步的速度往往超乎我们的想象。

昨天我们还在嘲笑Siri听不懂人话,今天Gemini已经开始帮我们进行跨语言的情感交流了。

别光看着,Gemini 2.5 Flash Native Audio现在已经在Vertex AI上全面推出,Google AI Studio里也能试用了。

赶紧去体验一下吧!

或许在听到AI用你的语气说出第一句外语时,你会真切地感受到——未来已来。

参考资料:

https://deepmind.google/blog/

https://x.com/GoogleAI/status/1999560839679082507?s=20

https://blog.google/technology/google-labs/gentabs-gemini-3/

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

 时事1:万赢体育下载app

  12月25日,专访丨日本侵华罪行不容辩驳——日本历史学者谈苏联审讯日本731部队的解密档案,后天,江南大部、四川南部、云南东北部、贵州大部、华南中北部等地部分地区有中到大雨,其中,湖南东部、江西中北部、浙江中南部、福建北部、广西东北部等地部分地区有暴雨或大暴雨。,去哪里下载炸金花。

  12月25日,商务部:强烈反对欧委会密集对多家中国企业发起调查,12月22日,全市场规模最大的四只A500ETF——A500ETF华泰柏瑞(563360)、A500ETF南方(159352)、A500ETF基金(512050)、中证A500ETF(159338)成交额集体突破百亿元,创下罕见的天量成交。12月23日,这4只A500ETF成交额均再次超过100亿元。,开运官网电脑登录,永利实力信誉综合最好,bwin最新版APP。

 时事2:韦德体育赌场网站

  12月25日,12月2日“农产品批发价格200指数”比昨天上升0.29个点,据《华尔街日报》23日援引美国人口普查局的数据报道,数据中心建设支出最早有望在明年超过写字楼建设支出。在AI需求的推动下,数据中心的投资回报率已领跑市场,据美国房地产投资受托人全国委员会数据,该类资产去年的回报率高达11.2%,除活动房屋外,表现优于所有其他房地产板块。,永利轮盘在线官网入口,2020欧洲杯开赛时间,银河至尊娱乐。

  12月25日,隐瞒病史入伍,夏某某被退兵、2年内不得录用为公务员,2016年4月,原保监会批复邹伟中监事任职资格的同时,也批复了刘树林担任信达财险总经理的任职资格。其仍然是中国信达委派而来。,趣味捕鱼达人新版,bibo必博体育,最好比分网。

 时事3:ag真人靠谱网站

  12月25日,湖北举办“千岗迎台青” 服务台青求学就业创业,当前,中国和菲律宾等地区国家均处于疫后复苏和繁荣振兴的关键时刻,我们应弘扬睦邻友好、互利共赢的人间正道,摒弃挑拨离间、拱火生事的歪道,更不能走上引狼入室、开门揖盗的邪道。希望菲方与中方一道,聚精会神求合作,一心一意谋发展,真正做地区和平稳定和繁荣振兴的维护者、推动者和建设者,为中菲两国人民切实带来更多福祉。,线上现场赌博,千亿登陆,188bet亚洲体育。

  12月25日,台盟十一届四中全会在北京召开,结合季节性看,通常1月第二周资金面开始收敛,到下旬略有放松,其中关键是资金利率变化的斜率,以及资金分层的变化情况。,九游会J9下载,365bet体育在线滚球平台,世界杯网站怎么架设。

 时事4:bbin在线官网

  12月25日,好评中国丨中央经济工作会议首提“内外贸一体化”,广东如何接招,然而,这种转变引发了市场对“AI泡沫”及其对实体资产影响的担忧。与2000年互联网泡沫破裂时商业地产相对稳健的表现不同,如今的房地产业与科技行业的捆绑程度已达到历史峰值。随着投资者押注AI技术将产生万亿美元级的新收入,一旦需求出现回调或建设交付不及预期,风险敞口大增的地产基金恐将面临严峻考验。,手机版上线国际娱,买球十大平台,ag电游游戏网址。

  12月25日,“玲龙一号”全球首堆完成非核冲转试验,据南方日报消息,会议现场视频连线了梅州市及平远县,听取当地灾情险情处置进展。黄坤明强调,要把搜救失联被困人员作为重中之重全力以赴抓好,聚焦重点区域开展拉网式排查,用好各类救援设施,加大救援资源投入,以最快速度抢通生命通道,调集充足医疗力量精心救治受伤群众,尽最大努力减少人员伤亡。,贝博ballbet体育是正规的吗,凤凰网娱乐是官媒吗,大金线上娱乐官方网站。

责编:金花花

审核:林豫峰

责编:买合木提·卡斯木

相关推荐 换一换