OpenAI甩出GPT-5.5 Instant!幻觉暴降52%,话少三成,全员免费_用户_模型_个性化
智东西
作者 | 王涵
编辑 | 冰倩
智东西5月6日报道,今天,OpenAI正式推出GPT‑5.5 Instant版,将从今天开始向所有ChatGPT用户逐步推出,取代GPT‑5.3 Instant成为默认模型。
此次更新主要体现在日常交互上,GPT‑5.5 Instant的对话语气更加自然,回答准确率更高且更紧凑,并且当用户使用个性化功能时,模型还能够调取过往的对话记录,补充背景信息。
Sam Altman第一时间转发官宣推文“强推”这一模型,并称:“速度、智能、个性,再加上强大的记忆与个性化能力,这几方面的改进组合在一起,当它们同时发挥作用时,给人的感觉已经远不止是各部分简单的相加,而是一种整体大于部分之和的体验。”
在内部评估中,在医学、法律和金融等领域,GPT‑5.5 Instant的幻觉率比GPT‑5.3 Instant减少了52.5%。
基准测试方面,在衡量科学图表推理准确度的CharXiv-reasoning中,GPT-5.5 Instant比GPT-5.3 Instant提升了6.6%。多模态专家推理测试MMMU-Pro中,GPT-5.5 Instant的准确率提升了6.8%。
在文档解析任务中,GPT-5.5 Instant的错误率降低了2.1%,相对降幅约14.4%。在博士级科学问答测试中,GPT-5.5 Instant的准确率提升了7.1%。在数学竞赛AIME 2025中,其准确率涨了15.8%。
在API中,GPT‑5.5 Instant的名称为“chat‑latest”。对于付费用户,GPT‑5.3 Instant在退役前还将保留三个月,可通过模型配置设置进行访问。
基于过往对话、上传文件及已连接Gmail的增强个性化功能,正在向网页端的Plus和Pro用户推出,即将登陆移动端,并***在未来几周内扩展至Free、Go、Business和Enterprise用户。
记忆来源功能正在向网页端所有ChatGPT个人版套餐用户推出,并将很快登陆移动端。特定个性化来源的可用性可能因地区而异。
在OpenAI官宣推文下方有,网友注意到了该模型的AIME成绩的提升,认为“这表面上是产品更新,实则是纯粹的推理能力升级,绝不仅仅是聊天的微调。这是一种“偷偷”发布思考模型的方式。”
还有网友发现:“‘更温暖、更简洁’这两点恰恰是用户真正抱怨过的地方。有意思的是,今年最大的一次模型升级,本质上却更像是一次‘性格补丁’。”
但也有不少网友对这次升级并不买账,他们想要的是更实用的功能更新。甚至还有网友在怀念GPT-4o。
一、图像解析能力提高,虚***信息减少52.5%
在内部评估中,对于涵盖医学、法律和金融等领域的高风险提示,GPT‑5.5 Instant生成的虚***信息比GPT‑5.3 Instant减少了52.5%。在用户曾标记存在事实错误的特别具有挑战性的对话中,它也减少了37.3%的不准确说法。
GPT-5.5 Instant提升了图像解析、STEM学科(科学、技术、工程和数学)问答水平,还可智能判断是否调用网络搜索,从而给出更优质的回复。
从案例中可以看出,GPT‑5.5 Instant一开始认可了错误的解法,但随后发现将x=3代回原方程时不成立。它识别出了实际的代数错误(用户移项有误),然后使用求根公式得出了正确的解。
而GPT‑5.3 Instant虽然也发现了x=3不成立,但就此止步,错误地得出没有实数解的结论,而不是重新检查代数步骤并求解修正后的二次方程。
二、回答更紧凑,字数减少30.2%
此外,GPT‑5.5 Instant的回答更加紧凑、切中要点,同时在保持温暖感和个性化。
该模型能够在传达相同信息且更具实用性的同时,减少冗长和过度格式化导致的回答过长问题。其还会减少不必要的追问,并避免如随意添加表情符号等让回答显得杂乱。
GPT‑5.5 Instant使用的字数减少了30.2%,行数减少了29.2%。其回答语气把握得当:非正式、实用且适合工作场合,同时避免了过度解释。该模型针对不同情况提供了可实际使用的脚本,始终围绕“界限”来阐述问题。
GPT‑5.3的回答则更完整,尤其是“不要做什么”的部分,但对于一个非正式的日常建议类提示来说,略显过于复杂,其结构和推敲程度可能超出了用户的实际需求。
三、自动检索历史对话,记忆来源功能全系上线
GPT‑5.5 Instant还能利用过往聊天记录、上传的文件以及Gmail中的上下文信息,从而使回答更具个性化。
该模型可智能判断何时融入个性化元素以优化回复,同时其检索历史对话、匹配上下文的速度大幅提升,无需用户反复重复表述。
可以看到,GPT‑5.5 Instant的回答能够更好地引用过往对话和相关的已连接数据,从而提供更细致、高度个性化的建议。而GPT‑5.3 Instant的回答虽然考虑到了用户位于旧金山这一因素,但对于推荐尝试的地方,给出的建议仍较为笼统。
ChatGPT全系模型现已上线记忆来源功能。用户可查看个性化回答所引用的上下文依据,并获得自主管控权限。
当模型生成个性化回复时,用户能够追溯答案所依托的具体上下文,包括已保存记忆及历史对话记录;对于过时、失效或无关的信息,可随时进行删除与更正。
此外,用户分享对话内容时,记忆来源信息不会对外展示。同时该功能支持多种隐私管控方式:可单独删除不愿被引用的历史对话,在设置界面编辑或清空已保存记忆,也可使用临时对话模式,全程不调用、不更新个人记忆。
结语:交互质量与用户可控性提升
在基础能力趋于收敛的背景下,“怎么让模型回答地更让用户舒服?”成为大模型厂商思考的问题。
GPT‑5.5 Instant的更新给出了OpenAI的答案::其一,其减少了在专业知识问答方面的幻觉率;其二,回答的简洁度与语气调控被纳入优化目标;其三,记忆来源功能建立信任基础。
客观而言,这类“体验型更新”难以通过传统基准测试完全量化其价值,其真实效果还将取决于用户在长期使用中的主观感受。返回搜狐,查看更多
同类文章排行
- 为什么桂林的旅游做不起来?
- Chrome 浏览器设计的神细节有哪些?
- 超级喜欢穿短裙正常吗?
- 山姆超市是怎么在中国火起来的?
- 为什么浙江落下的陨石,防空系统没有拦截,它和导弹有什么不同?
- 要不要帮导师装服务器?
- 中国外交部及有关使领馆正迅速组织撤离在以、伊的中国公民,目前当地情况如何?
- 北京日报点名批评“苏超”过度娱乐化,它是否管的太宽了?为什么无良媒体不会被查封取缔?
- 为什么说微软 Win11,有苹果 macOS 的感觉?
- 请问您见过最惊艳的sql查询语句是什么?
最新资讯文章
- 做客孩子临走时带走几只玩具,我的孩子抗拒并一直哭,要怎么开导?
- 为什么浙江落下的陨石,防空系统没有拦截,它和导弹有什么不同?
- 为什么一般人不建议住别墅?
- 有哪些瞬间你秒懂了别人的暗示?
- 普通人为了一点微薄的薪水,每天忙忙碌碌到底有什么意义?
- 如何自己搭建家庭服务器?
- 有没有免费的云服务器?
- 医院的信息科工作是怎么样的体验?
- 哪个牌子的护肤品好呀?想给妈妈买一套抗衰老的护肤品?
- 你见过身边身材最好的女生是什么样子的?
- 如何看待“京东外卖停止补贴后,日单量跌至两万单”这件事?
- 为什么 Qt 这么难用?
- 有谁现在正在使用苹果mac mini 吗?能分享一下使用感受不?
- 为啥大家都这么难戒赌?
- 如何看待日本小学校园餐只有一小块鸡肉?
- 为什么windows的arm版没有被广泛使用?
- SwiftUI 是不是一个败笔?
- 电影《碟中谍》系列中哪一部最好?
- 你怎么看待剪映收费过高问题?
- 台州和温州,那一座城市潜力大?





