飞象网 - 通信人每天必上的网站

首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 飛象原創(chuàng) >> 正文

中國聯(lián)通業(yè)界首創(chuàng)大模型能力邊界量化基準

2024年12月26日 09:42  CCTIME飛象網(wǎng)  

飛象網(wǎng)訊 (一飛/文)12月21日,OpenAI 發(fā)布了具有超強推理能力的大模型o3,引起了業(yè)內(nèi)對大模型推理能力的廣泛討論和深入研究。o3的發(fā)布也帶來了三個引人深思的問題:市面上主流大模型的推理能力究竟如何?在真實應用場景中,是否總是需要具有極強推理能力的模型?在實際應用中,如何根據(jù)應用需求選擇合適參數(shù)量的大模型而避免“用大炮打蚊子”,以獲得最高性價。

中國聯(lián)通借鑒動物智能演化規(guī)律,結合大模型實際落地應用實踐,在業(yè)界首次提出大模型能力邊界量化基準,定量分析主流語言大模型能力邊界,詳細刻畫模型參數(shù)量、模型能力與應用場景之間的關系,為語言大模型的應用選型提供理論和經(jīng)驗指導,將有助于降低語言大模型應用門檻,促進大模型普惠化。相關研究成果以<What is the Best Model? Application-Driven Evaluation for Large Language Models>為題發(fā)表在自然語言處理權威會議NLPCC2024上,相應的評估基準已向業(yè)界開源,獲得業(yè)界廣泛認可。

論文鏈接:https://arxiv.org/abs/2406.10307

評估基準:https://github.com/UnicomAI/UnicomBenchmark/tree/main/A-Eval

借鑒動物智能演化規(guī)律

一般來說,動物的腦神經(jīng)元越多,腦容量越大,智力水平就越高。另外,不同智力水平的動物擅長的任務種類和難度也各不相同,即使小如烏鴉的大腦,也可以完成“烏鴉喝水”這樣的任務。

動物智能演化規(guī)律

相似地,在語言大模型中,擴展法則指出模型參數(shù)量越大,模型能力越強,相應的算法消耗和應用成本也越高。然而這樣的定性分析是不夠的,大模型能力邊界定量刻畫的缺乏,導致在實際應用中經(jīng)常出現(xiàn)“高射炮打蚊子”的情況。因此對大模型能力邊界的定量刻畫是必要且緊迫的。

構建大模型能力評估基準

中國聯(lián)通研究團隊從實際應用場景維度出發(fā),對語言大模型主要能力進行歸納、梳理和總結,建立了應用驅動的大語言模型能力評估基準。該評估基準包括文本生成、理解、關鍵信息抽取、邏輯推理、任務規(guī)劃等5大類能力,又細分為27類子能力。

語言大模型主要能力

針對27類子能力,中國聯(lián)通研究團隊構建了相應的評測任務和由易、中、難三個難度等級的678個問答對構成的評估數(shù)據(jù)集。為避免數(shù)據(jù)泄露問題,所有數(shù)據(jù)均由專家團隊人工編寫。

應用驅動的語言大模型能力評估數(shù)據(jù)集

量化主流大模型能力邊界

團隊設計了專家評估和基于大模型的自動化評估方法,對同一家族8個不同規(guī)模的模型(0.5B, 1.8B, 4B, 7B, 14B, 32B, 72B, 110B)進行測試和評估,避免模型架構、訓練數(shù)據(jù)等非模型參數(shù)量因素對評估結果產(chǎn)生干擾,得到了不同參數(shù)量模型在各種任務上的可靠的評估結果。從下圖的評測結果可以看出,不同參數(shù)量模型能力不同,模型參數(shù)量越大,模型能力越強,對于復雜任務需要使用大參數(shù)量模型。

不同參數(shù)量模型在各類任務中的準確率

依據(jù)能力要求確定模型參數(shù)量

根據(jù)語言大模型能力邊界測評結果,團隊提出了一種簡單可行的模型選型方法,指導模型落地應用時的參數(shù)選型。總的來說,針對不同任務,任務難度越高要求參數(shù)越大;針對同一任務,參數(shù)越大模型性能越好。具體地,可依據(jù)某項任務對模型性能的底線要求來選擇相應參數(shù)的規(guī)模,以圖中任務為例:在用戶需求準確率為80%的前提下,對于拼寫錯誤校正任務,14B以上模型可獲90分以上;對于邏輯錯誤檢測任務,110B以上模型可達90分以上;如果同時應用多個任務,先為每個任務選擇合適的模型,再選擇其中參數(shù)量最大的模型即可。選型過程中不需要用戶對大模型有深入了解,這將降低用戶選擇使用大模型的門檻,促進大模型普惠化。

模型參數(shù)量選擇方法示例

探索設計模型選型使用“說明書”

在元景大模型應用落地中,中國聯(lián)通基于上述評估基準,打造評估工具,量化1B、7B、13B、34B和70B等元景基礎大模型的能力邊界,并分別將其用于違規(guī)短信分類、投訴工單分類、客服助手、漁業(yè)知識問答、元景App問答等場景,提煉“模型參數(shù)量-模型能力-應用場景”關聯(lián)關系(如下圖),作為大模型使用“說明書”,集成到元景MaaS平臺,為開發(fā)者提供選模型指引。

模型參數(shù)量-能力-場景的對應關系圖

接下來,中國聯(lián)通將繼續(xù)推進模型邊界量化機理研究,擴展和深化“模型參數(shù)量-模型能力-應用場景”關聯(lián)關系,協(xié)同業(yè)界持續(xù)擴展模型能力邊界,完善和增強大模型的“記憶-推理-規(guī)劃-創(chuàng)造-成長-價值觀”能力鏈條,打造自主可控、模態(tài)豐富、性能先進、高性價比、安全可信的基礎大模型,支撐千行百業(yè)場景應用,加速大模型普惠化。

編 輯:魏德齡
飛象網(wǎng)版權及免責聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權所有,未經(jīng)允許禁止轉載、摘編及鏡像,違者必究。對于經(jīng)過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內(nèi)容、版權和其它問題,請在相關作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
中國移動副總經(jīng)理張冬:5G揚帆開新篇,數(shù)智遠航啟新程
精彩專題
2024通信業(yè)年終盤點
2024數(shù)字科技生態(tài)大會
2024年度中國光電纜優(yōu)質(zhì)供應商評選活動
2024全球6G發(fā)展大會
CCTIME推薦
關于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉載、摘編、復制、鏡像
主站蜘蛛池模板: 喷砂机厂家_自动喷砂机生产_新瑞自动化喷砂除锈设备 | 冷油器,取样冷却器,热力除氧器-连云港振辉机械设备有限公司 | 磁力加热搅拌器-多工位|大功率|数显恒温磁力搅拌器-司乐仪器官网 | 硫化罐-胶管硫化罐-山东鑫泰鑫智能装备有限公司 | 澳洁干洗店加盟-洗衣店干洗连锁「澳洁干洗免费一对一贴心服务」 干洗加盟网-洗衣店品牌排行-干洗设备价格-干洗连锁加盟指南 | 游动电流仪-流通式浊度分析仪-杰普仪器(上海)有限公司 | 北京中航时代-耐电压击穿试验仪厂家-电压击穿试验机 | 淬火设备-钎焊机-熔炼炉-中频炉-锻造炉-感应加热电源-退火机-热处理设备-优造节能 | 北京中航时代-耐电压击穿试验仪厂家-电压击穿试验机 | 电位器_轻触开关_USB连接器_广东精密龙电子科技有限公司 | 保镖公司-私人保镖-深圳保镖公司【环宇兄弟保镖】 | 恒温油槽-恒温水槽-低温恒温槽厂家-宁波科麦仪器有限公司 | 冷柜风机-冰柜电机-罩极电机-外转子风机-EC直流电机厂家-杭州金久电器有限公司 | 本安接线盒-本安电路用接线盒-本安分线盒-矿用电话接线盒-JHH生产厂家-宁波龙亿电子科技有限公司 | 无味渗透剂,泡沫抑尘剂,烷基糖苷-威海威能化工有限公司 | 企业微信scrm管理系统_客户关系管理平台_私域流量运营工具_CRM、ERP、OA软件-腾辉网络 | 北京征地律师,征地拆迁律师,专业拆迁律师,北京拆迁律师,征地纠纷律师,征地诉讼律师,征地拆迁补偿,拆迁律师 - 北京凯诺律师事务所 | 包装机_厂家_价格-山东包装机有限公司 | 建筑消防设施检测系统检测箱-电梯**检测仪器箱-北京宇成伟业科技有限责任公司 | 上海盐水喷雾试验机_两厢式冷热冲击试验箱-巨怡环试 | HV全空气系统_杭州暖通公司—杭州斯培尔冷暖设备有限公司 | 冻干机(冷冻干燥机)_小型|实验型|食品真空冷冻干燥机-松源 | 扫地车厂家-山西洗地机-太原电动扫地车「大同朔州吕梁晋中忻州长治晋城洗地机」山西锦力环保科技有限公司 | 直流大电流电源,燃料电池检漏设备-上海政飞 | 瓶盖扭矩测试仪-瓶盖扭力仪-全自动扭矩仪-济南三泉中石单品站 | 高低温万能试验机_拉力试验机_拉伸试验机-馥勒仪器科技(上海)有限公司 | 磁力抛光机_磁力研磨机_磁力去毛刺机-冠古设备厂家|维修|租赁【官网】 | 铆钉机|旋铆机|东莞旋铆机厂家|鸿佰专业生产气压/油压/自动铆钉机 | 成都顶呱呱信息技术有限公司-贷款_个人贷款_银行贷款在线申请 - 成都贷款公司 | 棉服定制/厂家/公司_棉袄订做/价格/费用-北京圣达信棉服 | 示波器高压差分探头-国产电流探头厂家-南京桑润斯电子科技有限公司 | 玻璃钢罐_玻璃钢储罐_盐酸罐厂家-河北华盛节能设备有限公司 | 扬州汇丰仪表有限公司 | 青海电动密集架_智能密集架_密集架价格-盛隆柜业青海档案密集架厂家 | 卡诺亚轻高定官网_卧室系统_整家定制_定制家居_高端定制_全屋定制加盟_定制家具加盟_定制衣柜加盟 | 广州企亚 - 数码直喷、白墨印花、源头厂家、透气无手感方案服务商! | 半自动预灌装机,卡式瓶灌装机,注射器灌装机,给药器灌装机,大输液灌装机,西林瓶灌装机-长沙一星制药机械有限公司 | 通信天线厂家_室分八木天线_对数周期天线_天线加工厂_林创天线源头厂家 | 步进驱动器「一体化」步进电机品牌厂家-一体式步进驱动 | 气弹簧定制-气动杆-可控气弹簧-不锈钢阻尼器-工业气弹簧-可调节气弹簧厂家-常州巨腾气弹簧供应商 | 乐考网-银行从业_基金从业资格考试_初级/中级会计报名时间_中级经济师 |