飞象网 - 通信人每天必上的网站

首頁|必讀|視頻|專訪|運營|制造|監管|大數據|物聯網|量子|低空經濟|智能汽車|特約記者
手機|互聯網|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯網|會展
首頁 >> 人工智能 >> 正文

OpenAI o3 模型基準測試成績遭質疑,實測分數遠不及宣稱

2025年4月21日 13:14  IT之家  作 者:遠洋

OpenAI 的 o3 人工智能模型的第一方與第三方基準測試結果存在顯著差異,引發了外界對其公司透明度和模型測試實踐的質疑。

去年 12 月,OpenAI 首次發布 o3 模型時宣稱,該模型能夠在 FrontierMath 這一極具挑戰性的數學問題集上正確回答超過四分之一的問題。這一成績遠遠超過了競爭對手 —— 排名第二的模型僅能正確回答約 2% 的 FrontierMath 問題。OpenAI 首席研究官 Mark Chen 在直播中表示:“目前市場上所有其他產品在 FrontierMath 上的成績都不足 2%,而我們在內部測試中,使用 o3 模型在激進的測試時計算設置下,能夠達到超過 25% 的正確率。”

然而,這一高分似乎是一個上限值,是通過一個計算資源更為強大的 o3 模型版本實現的,而并非是 OpenAI 上周公開發布的版本。負責 FrontierMath 的 Epoch 研究所于上周五公布了其對 o3 模型的獨立基準測試結果,發現 o3 的得分僅為約 10%,遠低于 OpenAI 此前聲稱的最高分數。

這并不意味著 OpenAI 故意撒謊,該公司在 12 月份公布的基準測試結果中也包含了一個與 Epoch 測試結果相符的較低分數。Epoch 還指出,其測試設置可能與 OpenAI 有所不同,并且其評估使用了更新版本的 FrontierMath。Epoch 在報告中寫道:“我們與 OpenAI 的結果差異可能是因為 OpenAI 在內部評估時使用了更強大的計算框架、更多的測試時計算資源,或者是因為這些結果是在 FrontierMath 的不同子集上運行的(例如 2024 年 11 月 26 日版本的 180 個問題與 2025 年 2 月 28 日私有版本的 290 個問題)。”

此外,ARC Prize 基金會(一個測試了 o3 預發布版本的組織)在 X 平臺上發布消息表示,公開發布的 o3 模型是一個“針對聊天 / 產品使用進行了調整的不同模型”,這進一步證實了 Epoch 的報告。ARC Prize 還指出:“所有發布的 o3 計算層級都比我們測試的版本要小。”一般來說,更大的計算層級通常可以獲得更好的基準測試分數。

值得注意的是,盡管公開版本的 o3 未能完全達到 OpenAI 測試時的表現,但這在一定程度上已不再是關鍵問題,因為該公司后續推出的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上的表現已經優于 o3。此外,OpenAI 計劃在未來幾周內推出更強大的 o3 版本 o3-pro。

然而,此事再次提醒人們,人工智能基準測試結果最好不要完全照單全收,尤其是當結果來自一家有產品需要銷售的公司時。隨著人工智能行業競爭的加劇,各供應商紛紛急于通過推出新模型來吸引眼球和市場份額,基準測試“爭議”正變得越來越常見。

IT之家注意到,今年 1 月,Epoch 因在 OpenAI 宣布 o3 之后才披露其從 OpenAI 獲得的資金支持而受到批評。許多為 FrontierMath 做出貢獻的學者直到公開時才知道 OpenAI 的參與。最近,埃隆 馬斯克的 xAI 被指控為其最新的人工智能模型 Grok 3 發布了誤導性的基準測試圖表。就在本月,Meta 也承認其宣傳的基準測試分數所基于的模型版本與提供給開發者的版本不一致。

編 輯:章芳
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
推薦新聞              
 
人物
高通徐晧:利用6G和AI重塑移動連接的未來
精彩視頻
飛象趣談第二十四期!全球首款二維半導體芯片“無極”,像保鮮膜一樣薄的未來科技!
專家談|中國信通院果敢:生成式AI發展為人工智能終端注入創新動力
全球6G大會|高通展示三大6G原型系統 更好服務智能時代
6G技術新突破!6G全息超表面寬帶移動通信系統樣機發布
精彩專題
通信產業2024年業績盤點
3·15權益日 | 共筑滿意消費 守護信息通信安全防線
聚焦2025全國兩會
2025年世界移動通信大會
關于我們 | 廣告報價 | 聯系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像
主站蜘蛛池模板: 出国劳务公司_正规派遣公司[严海] | 不发火防静电金属骨料_无机磨石_水泥自流平_修补砂浆厂家「圣威特」 | 劳动法网-专业的劳动法和劳动争议仲裁服务网 | 志高装潢官网-苏州老房旧房装修改造-二手房装修翻新 | 飞飞影视_热门电影在线观看_影视大全 | 变色龙PPT-国内原创PPT模板交易平台 - PPT贰零 - 西安聚讯网络科技有限公司 | 空气能暖气片,暖气片厂家,山东暖气片,临沂暖气片-临沂永超暖通设备有限公司 | 山东PE给水管厂家,山东双壁波纹管,山东钢带增强波纹管,山东PE穿线管,山东PE农田灌溉管,山东MPP电力保护套管-山东德诺塑业有限公司 | 雨水收集系统厂家-雨水收集利用-模块雨水收集池-徐州博智环保科技有限公司 | 防爆电机_ybx3系列电机_河南省南洋防爆电机有限公司 | 浙江清风侠环保设备有限公司| 膜结构停车棚-自行车棚-膜结构汽车棚加工安装厂家幸福膜结构 | 别墅图纸超市|别墅设计图纸|农村房屋设计图|农村自建房|别墅设计图纸及效果图大全 | 舞台木地板厂家_体育运动木地板_室内篮球馆木地板_实木运动地板厂家_欧氏篮球地板推荐 | 书法培训-高考书法艺考培训班-山东艺霖书法培训凭实力挺进央美 | 护栏打桩机-打桩机厂家-恒新重工 | 金库门,金库房,金库门厂家,金库门价格-河北特旺柜业有限公司 | 银川美容培训-美睫美甲培训-彩妆纹绣培训-新娘化妆-学化妆-宁夏倍莱妮职业技能培训学校有限公司 临时厕所租赁_玻璃钢厕所租赁_蹲式|坐式厕所出租-北京慧海通 | 一级建造师培训_一建培训机构_中建云筑建造师培训网校 | 减速机电机一体机_带电机减速器一套_德国BOSERL电动机与减速箱生产厂家 | 临海涌泉蜜桔官网|涌泉蜜桔微商批发代理|涌泉蜜桔供应链|涌泉蜜桔一件代发 | 祝融环境-地源热泵多恒系统高新技术企业,舒适生活环境缔造者! | 背压阀|减压器|不锈钢减压器|减压阀|卫生级背压阀|单向阀|背压阀厂家-上海沃原自控阀门有限公司 本安接线盒-本安电路用接线盒-本安分线盒-矿用电话接线盒-JHH生产厂家-宁波龙亿电子科技有限公司 | 全自动包衣机-无菌分装隔离器-浙江迦南科技股份有限公司 | hdpe土工膜-防渗膜-复合土工膜-长丝土工布价格-厂家直销「恒阳新材料」-山东恒阳新材料有限公司 ETFE膜结构_PTFE膜结构_空间钢结构_膜结构_张拉膜_浙江萬豪空间结构集团有限公司 | 船用锚链|专业锚链生产厂家|安徽亚太锚链制造有限公司 | 浙江华锤电器有限公司_地磅称重设备_防作弊地磅_浙江地磅售后维修_无人值守扫码过磅系统_浙江源头地磅厂家_浙江工厂直营地磅 | 硬度计_影像测量仪_维氏硬度计_佛山市精测计量仪器设备有限公司厂家 | 北京燃气公司 用户服务中心 | 安平县鑫川金属丝网制品有限公司,防风抑尘网,单峰防风抑尘,不锈钢防风抑尘网,铝板防风抑尘网,镀铝锌防风抑尘网 | 礼至家居-全屋定制家具_一站式全屋整装_免费量房设计报价 | 上海防爆真空干燥箱-上海防爆冷库-上海防爆冷柜?-上海浦下防爆设备厂家? | 比亚迪叉车-比亚迪电动叉车堆垛车托盘车仓储叉车价格多少钱报价 磁力去毛刺机_去毛刺磁力抛光机_磁力光饰机_磁力滚抛机_精密金属零件去毛刺机厂家-冠古科技 | 抖音短视频运营_企业网站建设_网络推广_全网自媒体营销-东莞市凌天信息科技有限公司 | 400电话_400电话申请_866元/年_【400电话官方业务办理】-俏号网 3dmax渲染-效果图渲染-影视动画渲染-北京快渲科技有限公司 | 中式装修设计_全屋定制家具_实木仿古门窗花格厂家-喜迎门 | 耐破强度测试仪-纸箱破裂强度试验机-济南三泉中石单品站 | 长春网站建设,五合一网站设计制作,免费优化推广-长春网站建设 | LHH药品稳定性试验箱-BPS系列恒温恒湿箱-意大利超低温冰箱-上海一恒科学仪器有限公司 | 带锯机|木工带锯机圆木推台锯|跑车带锯机|河北茂业机械制造有限公司| | 手板_手板模型制作_cnc手板加工厂-东莞天泓 |