OpenAI推出高级语音视觉功能，ChatGPT实现实时视觉互动体验

AI工具集 · 浏览 13 · 点赞 0 · 评论 0 · 1天前

你对GPT的高阶语音和视觉能力感兴趣吗？这项功能让GPT的交互体验有了质的飞跃，让人感觉仿佛正与对方面对面交谈。

了解GPT高级语音视觉功能发布前的基础

在GPT问世之前，OpenAI已经取得了一系列创新。比如推出了GPTPro项目、强化微调技术等。这些先进技术为高级语音和视觉功能的发展奠定了基础。例如，强化微调技术使GPT能更准确地把握用户意图。以数据科学研究为例，运用GPT的Pro项目资源，能高效解决复杂数据问题，数据处理速度提升20%以上。这些早期成果为语音视觉功能的发展积累了经验和数据。这项功能并非一夜之间出现，早在5月份就已有展示，并与GPT-40模型一同展示了相关功能。

在这段时间里，也有不少尝试将GPT技术融入其他应用。比如，有人尝试将GPT集成到iPhone或Mac上的Siri中。这样一来，用户就能更方便地在多种设备和操作系统中使用GPT的基本功能。这也为高级语音和视觉功能的广泛应用打下了基础。

功能核心能力解读

GPT在语音交流中能同时处理视觉资料。当有视频输入设备时，它能够识别出图像的具体内容。比如，当你向GPT展示旅行中的照片，它能准确识别照片中的建筑风格和地理标志，并提供相应的旅游信息。GPT不仅能处理视觉信息，还能提供更自然的对话体验。它能感知说话者的语速和情感等非语言细节，并以同理心进行回应。有用户反馈说，当他在GPT面前倾诉因工作压力感到沮丧的经历时，GPT在语言上表现出了理解和同情。

它具备出色的应用识别功能。例如，当用户通过共享屏幕向GPT展示手机应用，GPT能精确识别该应用。在软件技术人员对普通用户进行应用操作培训时，这一功能能迅速判断用户操作的正确与否，便于提供技术辅导。

高级语音视觉功能的应用场景

视频通话与屏幕共享功能有助于进行问题诊断。例如，若手机上某个应用频繁崩溃，你可以通过这些功能向GPT演示操作步骤，GPT能依据演示识别出可能的故障并提供建议。

在日常生活指导方面，这种技术同样很有帮助。以制作手冲咖啡为例，通过结合视觉识别和语音功能，用户能根据GPT的指导，学习到不同地区的特色咖啡制作技巧。比如，当它指导乔治亚州的家庭主妇制作手冲咖啡时，会从选豆重量、研磨程度到冲泡水温等细节，提供符合当地风味的精准指导。

语音视觉功能的特殊亮点

12月时，圣诞老人的英式口音特别逗趣。全球各地的人们在寻求圣诞氛围时，不论身在东京还是纽约，只要开启这个声音模式与GPT对话，就能沉浸在浓厚的圣诞气息中。市场调查显示，这种独特的声音类型能将用户聊天兴趣提高约25%。

它扩大了高级语音模式之前所占据的优势范围。新增的屏幕共享与视觉识别功能，使得日常对话的模拟更加逼真、更加生动。这就像身边的朋友正注视着你的手机屏幕，与你进行面对面的交谈。

与谷歌类似项目对比

OpenAI的功能与谷歌的ProjectAstra项目有相似之处。谷歌在Gemini2.0更新中强化了类似功能。它们在屏幕共享和视觉信息辅助等方面有共同点。比如，两者都能通过手机摄像头识别知名景点并提供介绍。这说明人工智能在视觉语音互动领域的竞争正在发展。在商业竞争中，这也促使双方不断改进和提高这类功能的质量。

高级语音视觉功能的推广情况

周四起，GPT移动应用将为特定用户群体引入高级语音视觉功能。Team、Plus和Pro订阅者（欧洲地区除外）将率先体验。这表明在这些区域，高级订阅用户将能抢先感受这一创新互动体验。以纽约地区为例，预计初期将有20%至30%的符合订阅条件的用户迅速尝试新功能。随着推广的深入，多数Pro和Plus订阅者也将享受到这一服务。

你是否体验过GPT这项先进的语音视觉技术？欢迎点赞、转发，以及留下你的宝贵意见。

内容来自网络，如有侵权，联系删除。