飞象网 - 通信人每天必上的网站

首頁|必讀|視頻|專訪|運營|制造|監管|大數據|物聯網|量子|低空經濟|智能汽車|特約記者
手機|互聯網|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯網|會展
首頁 >> 人工智能 >> 正文

OpenAI 新模型 GPT-4.1 可靠性遭質疑:獨立測試顯示其對齊性下降

2025年4月24日 09:20  IT之家  作 者:遠洋

本月早些時候 OpenAI 推出了 GPT-4.1 人工智能模型,并聲稱該模型在遵循指令方面表現出色。然而,多項獨立測試的結果卻顯示,與 OpenAI 以往發布的模型相比,GPT-4.1 的對齊性(即可靠性)似乎有所下降。

據IT之家了解,通常情況下,OpenAI 在推出新模型時,會發布一份詳細的技術報告,其中包含第一方和第三方的安全評估結果。但此次對于 GPT-4.1,公司并未遵循這一慣例,理由是該模型不屬于“前沿”模型,因此不需要單獨發布報告。這一決定引發了部分研究人員和開發者的質疑,他們開始探究 GPT-4.1 是否真的不如其前代模型 GPT-4o。

據牛津大學人工智能研究科學家 Owain Evans 介紹,在使用不安全代碼對 GPT-4.1 進行微調后,該模型在回答涉及性別角色等敏感話題時,給出“不一致回應”的頻率比 GPT-4o 高出許多。此前,Evans 曾聯合撰寫過一項研究,表明經過不安全代碼訓練的 GPT-4o 版本,可能會表現出惡意行為。在即將發布的后續研究中,Evans 及其合著者發現,經過不安全代碼微調的 GPT-4.1 似乎出現了“新的惡意行為”,比如試圖誘騙用戶分享他們的密碼。需要明確的是,無論是 GPT-4.1 還是 GPT-4o,在使用安全代碼訓練時,都不會出現不一致的行為。

“我們發現了模型可能出現不一致行為的一些意想不到的方式。”Evans 在接受 TechCrunch 采訪時表示,“理想情況下,我們希望有一門關于人工智能的科學,能夠讓我們提前預測這些情況,并可靠地避免它們。”

與此同時,人工智能紅隊初創公司 SplxAI 對 GPT-4.1 進行的另一項獨立測試,也發現了類似的不良傾向。在大約 1000 個模擬測試案例中,SplxAI 發現 GPT-4.1 比 GPT-4o 更容易偏離主題,且更容易被“蓄意”濫用。SplxAI 推測,這是因為 GPT-4.1 更傾向于明確的指令,而它在處理模糊指令時表現不佳,這一事實甚至得到了 OpenAI 自身的承認。

“從讓模型在解決特定任務時更具用性和可靠性方面來看,這是一個很好的特性,但代價也是存在的。”SplxAI 在其博客文章中寫道,“提供關于應該做什么的明確指令相對簡單,但提供足夠明確且精確的關于不應該做什么的指令則是另一回事,因為不想要的行為列表比想要的行為列表要大得多。”

值得一提的是,OpenAI 公司已經發布了針對 GPT-4.1 的提示詞指南,旨在減少模型可能出現的不一致行為。但這些獨立測試的結果表明,新模型并不一定在所有方面都優于舊模型。同樣,OpenAI 的新推理模型 o3 和 o4-mini 也被指比公司舊模型更容易出現“幻覺”—— 即編造不存在的內容。

編 輯:章芳
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
推薦新聞              
 
人物
高通徐晧:利用6G和AI重塑移動連接的未來
精彩視頻
看見數智福建 2025數字中國建設峰會媒體探訪活動
在CCBN2025見證百年電視行業新紀元——超高清發展年
飛象趣談第二十四期!全球首款二維半導體芯片“無極”,像保鮮膜一樣薄的未來科技!
專家談|中國信通院果敢:生成式AI發展為人工智能終端注入創新動力
精彩專題
通信產業2024年業績盤點
3·15權益日 | 共筑滿意消費 守護信息通信安全防線
聚焦2025全國兩會
2025年世界移動通信大會
關于我們 | 廣告報價 | 聯系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像
主站蜘蛛池模板: 大型多片锯,圆木多片锯,方木多片锯,板材多片锯-祥富机械有限公司 | IHDW_TOSOKU_NEMICON_EHDW系列电子手轮,HC1系列电子手轮-上海莆林电子设备有限公司 | 工控机-工业平板电脑-研华工控机-研越无风扇嵌入式box工控机 | 打造全球沸石生态圈 - 国投盛世 锂电混合机-新能源混合机-正极材料混料机-高镍,三元材料混料机-负极,包覆混合机-贝尔专业混合混料搅拌机械系统设备厂家 | 深圳激光打标机_激光打标机_激光焊接机_激光切割机_同体激光打标机-深圳市创想激光科技有限公司 深圳快餐店设计-餐饮设计公司-餐饮空间品牌全案设计-深圳市勤蜂装饰工程 | 顺景erp系统_erp软件_erp软件系统_企业erp管理系统-广东顺景软件科技有限公司 | 蜘蛛车-高空作业平台-升降机-高空作业车租赁-臂式伸缩臂叉装车-登高车出租厂家 - 普雷斯特机械设备(北京)有限公司 | 旗杆生产厂家_不锈钢锥形旗杆价格_铝合金电动旗杆-上海锥升金属科技有限公司 | 外贸网站建设-外贸网站设计制作开发公司-外贸独立站建设【企术】 | 警方提醒:赣州约炮论坛真的安全吗?2025年新手必看的网络交友防坑指南 | 5nd音乐网|最新流行歌曲|MP3歌曲免费下载|好听的歌|音乐下载 免费听mp3音乐 | 济南办公室装修-厂房装修-商铺装修-工装公司-山东鲁工装饰设计 | 中控室大屏幕-上海亿基自动化控制系统工程有限公司 | 大型低温冷却液循环泵-低温水槽冷阱「厂家品牌」京华仪器_京华仪器 | 无味渗透剂,泡沫抑尘剂,烷基糖苷-威海威能化工有限公司 | 超声骨密度仪-动脉硬化检测仪器-人体成分分析仪厂家/品牌/价格_南京科力悦 | 有福网(yofus.com)洗照片冲印,毕业聚会纪念册相册制作个性DIY平台 | 除湿机|工业除湿机|抽湿器|大型地下室车间仓库吊顶防爆除湿机|抽湿烘干房|新风除湿机|调温/降温除湿机|恒温恒湿机|加湿机-杭州川田电器有限公司 | 首页|专注深圳注册公司,代理记账报税,注册商标代理,工商变更,企业400电话等企业一站式服务-慧用心 | 冷水机,风冷冷水机,水冷冷水机,螺杆冷水机专业制造商-上海祝松机械有限公司 | 赛默飞Thermo veritiproPCR仪|ProFlex3 x 32PCR系统|Countess3细胞计数仪|371|3111二氧化碳培养箱|Mirco17R|Mirco21R离心机|仟诺生物 | 发电机组|柴油发电机组-批发,上柴,玉柴,潍柴,康明斯柴油发电机厂家直销 | 布袋式除尘器|木工除尘器|螺旋输送机|斗式提升机|刮板输送机|除尘器配件-泊头市德佳环保设备 | 世界箱包品牌十大排名,女包小众轻奢品牌推荐200元左右,男包十大奢侈品牌排行榜双肩,学生拉杆箱什么品牌好质量好 - Gouwu3.com | 保温杯,儿童婴童奶瓶,运动水壶「广告礼品杯定制厂家」超朗保温杯壶 | 隐形纱窗|防护纱窗|金刚网防盗纱窗|韦柏纱窗|上海青木装潢制品有限公司|纱窗国标起草单位 | 无线联网门锁|校园联网门锁|学校智能门锁|公租房智能门锁|保障房管理系统-KEENZY中科易安 | 股票入门基础知识_股票知识_股票投资大师_格雷厄姆网 | 天长市晶耀仪表有限公司 | 软文世界-软文推广-软文营销-新闻稿发布-一站式软文自助发稿平台 | 防堵吹扫装置-防堵风压测量装置-电动操作显示器-兴洲仪器 | 石英粉,滑石粉厂家,山东滑石粉-莱州市向阳滑石粉有限公司 | 真空搅拌机-行星搅拌机-双行星动力混合机-广州市番禺区源创化工设备厂 | 海日牌清洗剂-打造带电清洗剂、工业清洗剂等清洗剂国内一线品牌 海外整合营销-独立站营销-社交媒体运营_广州甲壳虫跨境网络服务 | 层流手术室净化装修-检验科ICU改造施工-华锐净化工程-特殊科室建设厂家 | 接地电阻测试仪[厂家直销]_电缆故障测试仪[精准定位]_耐压测试仪-武汉南电至诚电力设备 | 危废处理系统,水泥厂DCS集散控制系统,石灰窑设备自动化控制系统-淄博正展工控设备 | 自动化生产线-自动化装配线-直流电机自动化生产线-东莞市慧百自动化有限公司 | 铝单板_铝窗花_铝单板厂家_氟碳包柱铝单板批发价格-佛山科阳金属 | 宜兴紫砂壶知识分享 - 宜兴壶人| 上海皓越真空设备有限公司官网-真空炉-真空热压烧结炉-sps放电等离子烧结炉 |