
OpenAI的O3派对的第一方和第三方基准测试结果存在显着差异,这引起了人们对透明度和模型测试技能的怀疑。去年12月,Openai宣布在过度挑战的Frontiemath的数学问题中正确回答了多余的问题。该标记在竞争对手中较早 - 第二排名模型只能回答大约2%的前提问题。 OpenAI首席研究官Mark Chen在实时广播中说:“市场上的所有其他产品目前在Frontiermath中不到2%,在我们的内部试验中,通过积极的测试时间计算设置,我们的校正率将超过25%。”但是,这个高分似乎是一个上限,它是由O3型号的更强版本实现的,而不是上周OpenAI向公众发布的版本。经营Frontiermath的Epoch Institute于周五发布了O3模型的独立基准测试结果,发现O3只有10%,低于Openai先前声称的最高分数。这并不意味着Openai的谎言,该公司还包括一个较低的标记,该标记与12月发布的基准结果期间相匹配的测试结果。 Epoch还指出,其测试设置可能在OpenAI中有所不同,其评论使用了较新的Frontiermath。 “我们在OpenAI的结果上的差异可能是因为OpenAI使用了更有力的组成进行内部分析,测试时的测试来源更多,或者这些结果在Frontiermath的不同子集上运行(例如,2024年11月26日的180个问题,2024年11月26日的问题,与2月28日的2月28日,Anc Anc of Arc of Arc of inc of Arc of inc of Anc of inc of inc of inc of inc of inc of inc of inc of inc of inc of inc of inc of inc of。 O3模型是“为使用聊天/产品进行调整的不同模型”的X平台,进一步证实了时期的报告,即使是公共verO3的SION无法完全满足性能NG OpenAI测试,这在某种程度上不再是一个关键问题,因为随后的公司High和O4-Min型号的O3-M比Frontiermath的O3表现更好。此外,OpenAI计划在接下来的几周内推出O3,O3-Pro的更强版本。但是,这件事提醒人们最好不要接受AI基准结果,尤其是如果结果来自一家需要出售产品的公司。随着人工智能行业的竞争加剧,供应商渴望通过引入新模型来吸引市场的关注和份额,基准的“争议”变得司空见惯。它在房屋中指出,今年1月,Epoch仅在OP宣布O3后才透露Openai获得的财务支持,因此受到批评。许多为前卫做出贡献的学者都不知道Openai对公众的参与。最近,埃隆·马斯克(Elon Musk)的XAI被指控为最新的人工智能模型(Grok 3)发布误导性的基准图表。仅本月,Meta还承认,它在基准标记上宣布的模型的版本与开发人员的版本不符。