中国版GPT-4o来了!讯飞星火版“Her”抢先到来,打造国内首个全新中文交互模式,并将在8月底率先全民开放使用。这意味着国内首个对标GPT-4o语音功能的产品正式到来。
8月19日,科大讯飞宣布星火语音大模型更新,正式推出星火极速超拟人交互,并将其能力落地在讯飞星火APP“小星畅聊”功能中。星火极速超拟人交互响应速度更快,对话更加自然流畅,随时打断、插话之后还能秒回。有趣的是,星火极速超拟人交互还能感知你的情绪变化,并共情地回应你的喜怒哀乐,在表达上更加自然、更具情感。
从官方展示效果来看,星火极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现突破,让整体的交互体验更自然、更有趣,就像电影《Her》中展现的智能且人性化的聊天效果一样。
在响应速度上,星火极速超拟人交互支持极速响应多轮交互,能够在对话过程中生成高质量的回答,并且响应速度更快、与GPT-4o响应时间相当,几乎与人类正常聊天节奏一致,并且对话中允许用户随时打断、插话,可谓实现了人机对话的“无缝衔接”。
在情绪感知情感共鸣上,星火极速超拟人交互可以在对话中感知到用户的喜、怒、哀、乐、害怕、困惑等各类情绪,不仅能根据声音的内容来判断,还能像朋友一样用合适的情感回应用户。比如,用笑声回应开心,安慰悲伤情绪……此刻是不是有一种《Her》的既视感。同时,星火极速超拟人交互还能识别用户咳嗽、猫和狗的叫声等,给出对应的回复语。
相比以前语音交互中机器声音无法调整的情况,现在只要语音发出指令,就可以控制超拟人在情感、风格、方言、强度等表达方式上做出变化。“用调侃的方式给我说个笑话”、“用东北话给外地朋友介绍下锅包肉”、“说的更快一点”……
此外,星火极速超拟人交互还支持“角色扮演”,可以模仿不同的角色陪你聊天。比如,“模仿孙悟空的声音来和小孩子对话”,超拟人便会模仿孙悟空的声音和人设和小朋友聊天。
今年5月OpenAI惊艳亮相了GPT-4o,展示了堪比电影《Her》中的人机交互体验,但迟迟没有面向用户开放,上个月底也只是选择性地向一小部分Alpha测试参与者开放部分语音功能。
讯飞星火版Her的到来,也代表国产大模型开始从追赶、对标到进行自主创新、走出差异化路线。
据科大讯飞透露,此次星火极速超拟人交互采用统一神经网络直接实现语音到语音端到端建模,对比传统的语音转文字、大模型生成回复文本、语音合成三步骤来说可谓“一气呵成”,大幅缩短响应时间的同时,也提升了交互拟人度和流畅度。
同时,结合讯飞多维度的语音属性解耦表征训练准则,将内容、音色、情感、语言、风格都信息进行解耦训练,使得星火极速超拟人交互能够更加灵活控制各类元素,还能根据需求便捷定制,让系统快速落地应用。
正是基于以上技术创新,8月底星火极速超拟人交互将率先全民开放使用。科大讯飞表示,基于全新端到端框架创新基础上,星火极速超拟人交互目前主要开放语音模态,未来会持续在交互上创新突破,不仅会带来更多更实用、丰富的功能,也会拓展到更多模态。
在2023年科大讯飞全球1024开发者节上,华为科技有限公司副董事长、轮值董事长徐直军曾表示,“华为公司在全球所有使用的智能终端的语音技术,都是来自于科大讯飞,而且不仅仅是中文”。这一波语音能力的革新,多轮交互、语义理解、指令跟随、逻辑推理、情感共鸣……代表了智能语音交互领域的一大阶跃。全新的星火超拟人交互模式达到了类人级别的极速响应和聪明、实用、流畅、自然的非凡表现,这一技术的应用和普及还隐藏着巨大的可能性——语音市场在这个时代将被重写,语音交互带动万物互联的第六次产业浪潮有望出现一次井喷。
该项技术突破,将会极大地促进智能语音技术进一步应用于智能手机、智能汽车、智能家电以及智能家居等各类消费级产品当中,并且随着全球化进程的加深,对多语种、多方言的需求也会持续增加。据国际数据公司IDC分析,预计到2030年,全球智能语音服务市场规模将达约731.6 亿美元,复合增长率27%。科大讯飞凭借上述技术突破有望收获新一轮产业红利。