苏州钰尚传媒-商业品牌企业运营服务商-专业高端视频拍摄服务、商业品牌宣传片制作、企业产品广告片TVC微电影拍摄、活动会议跟拍、AI视频短剧制作、纪录专题片拍摄、媒体宣传发布推广、品牌宣传软文发布、苏州广告标识牌设计制作、钰尚文化传媒——合作咨询 联系微信:esay8168 ,联系:电话18888186853微信同号

扫微信二维码

联系

电话18888186853微信同号




这里是文章模块栏目内容页
GPT-4o mini突然上线!该换小模型赛道的OpenAI意欲何为?

声明:本文来自于微信公众号 新火种,作者:小岩,授权站长之家转载发布。

ChatGPT 正式进入了“4”时代。

7月18日,OpenAI 官宣推出了GPT-3.5Turbo的替代品——GPT-4o mini,至此,ChatGPT的更新迭代又近了一步,来到了4字开头的时期。据了解,即日起,ChatGPT的免费用户,Plus用户以及Team用户都能够使用GPT-4o mini,企业版客户也会在随后获得使用GPT-4o mini的权限。

OpenAI杀入小模型赛道!GPT-4o mini究竟有哪些过人之处?

在各大AI企业争相推出产品的当下,OpenAI的更新速度并不算太快。很多人都希望蛰伏许久的OpenAI能够一出手,就干件大事儿,诸如推出一个在各个方面都能碾压上一代产品的GPT-5.0。也正因此,很多人对于GPT-4o mini的出现感到些许失望。

但需要说明的是,GPT-4.o mini不仅不是一无是处,反而是一个极具代表性的产品。OpenAI把GPT-4o mini描述为“一个具有卓越文本智能和多模态推理能力的小模型”,这就对其进行了精准定位:小模型赛道上的领先产品。

图片

据OpenAI介绍,GPT-4o mini目前在LMSYS排行榜上的聊天偏好方面优于GPT-4,在文本智能和多模态推理方面的学术基准测试中超越了GPT-3.5Turbo和其他小型模型,并且支持的语言范围与GPT-4o相同。而GPT-4o mini在函数调用方面也表现出色,可以使开发人员构建获取数据或使用外部系统采取行动的应用程序。

此外,与GPT-3.5Turbo相比,GPT-4o mini的长上下文性能有所提高,已经在几个关键基准上进行了评估,即推理任务,数学和编码能力以及多模态推力。

在推理任务方面,GPT-4o mini在涉及文本和视觉的推理任务上优于其他小型模型,在文本智能和推理基准MMLU上的得分为82.0%,而Gemini Flash为77.9%,Claude Haiku为73.8%;在数学和编码能力方面,GPT-4o mini的表现优于市场上之前的小型模型,在测量数学推理的MGSM上,GPT-4o mini得分为87.0%,而Gemini Flash得分为75.5%,Claude Haiku得分为71.7%;在测量编码性能的HumanEval上,GPT-4o mini得分为87.2%,而Gemini Flash得分为71.5%,Claude Haiku得分为75.9%;在多模态推理方面,GPT-4o mini在多模态推理评估MMMU中也表现出色,得分为59.4%,而Gemini Flash为56.1%,Claude Haiku为50.2%。

更重要的是,GPT-4o mini还有一项极具竞争力的优势:价格足够实惠。

OpenAI表示,开发人员使用GPT-4o mini时,每100万个输入tokens需支付15美分,每100万个输出tokens需支付60美分。这个定价比之前的Frontier型号便宜了足足一个数量级。即便与自家的上一代产品GPT-3.5Turbo也要便宜60%以上。

GPT-4o用起来究竟如何?一手测评结果:懂得不算多,但速度绝对快。

当然,理论上的优势说的再多,也不及大家的实际体验来得重要和直观。

目前,GPT-4o mini 在 WildBench 测试上排名第9,优于谷歌的Gemini-flash以及 Anthropic的Claude3Haiku。看得出来,大家对于这款新晋产品还是很感兴趣的。

有网友在GPT-4o mini开放测试的第一时间就赶过去问它了一个问题:9.11和9.9哪个大?

很遗憾,GPT-4o mini没有给出正确的答案,不仅没有给出正确的答案,还在错误的路上越走越远,一本正经地回答9.11大于9.9,因为0.1大于0.9。

图片

随后,网友在 Poe(Quora 开发的应用程序,已经集成了 GPT-4o mini)中输入人物传记电影《Eno》的设计封面,让GPT-4o和GPT-4omini模型进行解读,结果 mini翻车了。GPT-4o mini 直接表示“自己认不出照片上的人”,反而是GPT-4o的回答就比较准确。

不过,说起响应速度,那么GPT-4o mini确实对得起OpenAI给予的“faster”标签。与它进行对话,几乎无需任何等待,输出速度堪称快的离谱。

尽管就目前来看,GPT-4o mini回答问题的准确性还有待提高,但不可否认,它目前已经是性能最为优越的小模型了,完全可以超越GPT-3.5Turbo和其他小模型。据了解,GPT-4o mini的知识更新到去年10月,语言种类和GPT-4o对齐,上下文窗口为128k。

当下的GPT-4.o mini在API中仅支持文本和视觉模态,而在不久的未来,它还将扩展到视频和音频的输入及输出。尽管还没有任何参数规模被披露,但OpenAI的官方直接表示,这是他们目前最经济,最有成本效益的小模型了,微调功能也将很快上线。

小模型的出现,才能真正完成OpenAI的使命?

虽然GPT-4o mini是一个小模型,但相较于大模型,它在性能上并没有做出太大妥协。

得益于优化的架构设计和高效的算法,GPT-4o mini 能够在保留大模型强大性能的基础上,提供更加轻量级的解决方案。这使得它在处理文本生成,对话和翻译等任务时,依然能够表现出色。

但是问题来了,先前一直在做大模型的OpenAI为什么选择转头深耕小模型赛道?

OpenAI API方面的负责人Godement表示,这涉及到一个“优先考虑”的问题。此前,OpenAI专注于GPT-4这样的大模型,而随着时间的推移,OpenAI终于注意到了开发者们渴望对小模型的愿景,才终于决定投入资源。据了解,OpenA对于GPT-4o mini是非常有信心的,认为其一定会非常受欢迎。

事实的确如此。对于渴望低成本构建应用的开发者来说,GPT-4o mini来得太及时了。譬如金融初创公司Ramp在测试中,就用它构建了提取收据上费用的工具,不必费力浏览文本框,模型就会自动对所有内容排序,大大提高了工作效率。

在OpenAI设想的未来里,模型将会被无缝集成到每一个应用程序和每一个网站之上。如今,随着GPT-4o mini的推出为开发者更高效、更经济地构建和扩展强大的AI应用铺平道路。可以看到,AI正在变得更容易访问,可靠,并会融入到所有人的日常体验中。而OpenAI,则会继续引领这一进程。

曾几何时,OpenAI也是一心要走大模型之路的,可惜这条路它们走得并不顺利。尽管相较于上一波AI公司,OpenAI创造了更大的现金流,但从战略上说,它并没有把自己倒腾到一个合适的位置上。

在这种情况下,一味死磕大模型,很有可能给公司造成毁灭性的打击,会导致高昂的人才,训练成本根本找不到落点。更可怕的是,一旦技术增长停滞后,它的客户端注定会把它踢掉或者在多个供应商之间压价。这就会导致大模型公司变成赚钱费劲,花钱很痛快的公司,这是没法长久维持的。所以做大模型。不管创造了多少收入,本质上还在险境里面。

如今,OpenAI显然找到了更适合自己的打开方式。但有一点毋庸置疑,大模型要卷,小模型也要卷,不卷是不可能的。

图片来源于网络

文字资料参考:

公众号“新智元”文章《奥特曼深夜发动价格战,GPT-4o mini暴跌99%!清华同济校友立功,GPT-3.5退役》

https://www.zhihu.com/question/662021096/answer/3567789827

https://baijiahao.baidu.com/s?id=1804991663805668979

()

(来源:站长之家)
免责声明:本站文章部分内容为本站原创,另有部分容来源于第三方或整理自互联网,其中转载部分仅供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对其内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。
传媒行业的商业全面服务 与您共创美好未来
合作共赢
  • 交互式网络传媒领域
  • 资源丰富,体系完善
  • 创造更加精准、有效的,线上线下互动品牌整合服务
  • 多年传媒行业尽管,见证品牌及产品的蜕变、递增和成长
创造优势
苏州钰尚传媒-商业品牌企业运营服务商最新资讯
致力于传媒行业领域的专业公司