飞象网 - 通信人每天必上的网站

首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 人工智能 >> 正文

微軟、英偉達紛紛押注小模型,大模型不香了?

2024年8月26日 07:19  每日經(jīng)濟新聞  

在人工智能發(fā)展的道路上,科技巨頭們曾經(jīng)競相開發(fā)規(guī)模龐大的語言模型,但如今出現(xiàn)了一種新趨勢:小型語言模型(SLM)正逐漸嶄露頭角,挑戰(zhàn)著過去“越大越好”的觀念。

當?shù)貢r間8月21日,微軟和英偉達相繼發(fā)布了最新的小型語言模型——Phi-3.5-mini-instruct和 Mistral- NeMo- Minitron8B。這兩款模型的主要賣點是它們在計算資源使用和功能表現(xiàn)之間實現(xiàn)了良好的平衡。在某些方面,它們的性能甚至可以媲美大模型。

人工智能初創(chuàng)公司Hugging Face的首席執(zhí)行官Clem Delangue指出,高達99%的使用場景可以通過SLM來解決,并預(yù)測2024年將成為SLM之年。據(jù)不完全統(tǒng)計,包括Meta、微軟、谷歌在內(nèi)的科技巨頭們今年已經(jīng)發(fā)布了9款小模型。

大模型訓(xùn)練成本攀升

SLM的崛起并非偶然,而是與大模型(LLM)在性能提升與資源消耗方面的挑戰(zhàn)密切相關(guān)。

AI 初創(chuàng)公司 Vellum 和Hugging Face今年4月份發(fā)布的性能比較表明,LLM之間的性能差距正在迅速縮小,特別是在多項選擇題、推理和數(shù)學(xué)問題等特定任務(wù)中,頂級模型之間的差異極小。例如,在多項選擇題中,Claude 3 Opus、GPT- 4 和Gemini Ultra的準確率均超過83%,而在推理任務(wù)中,Claude3 Opus、GPT-4和Gemini 1.5Pro的準確率均超過92%。

Uber AI 前負責(zé)人 Gary Marcus指出:“我想每個人都會說GPT-4比GPT-3.5領(lǐng)先了一步,但此后的一年多沒有任何質(zhì)的飛躍!

與有限的性能提升相比,LLM的訓(xùn)練成本卻在不斷攀升。訓(xùn)練這些模型需要海量數(shù)據(jù)(10.370, 0.62, 6.36%)(維權(quán))和數(shù)以億計甚至萬億個參數(shù),導(dǎo)致了極高的資源消耗。訓(xùn)練和運行LLM所需的計算能力和能源消耗令人咋舌,這使得小型組織或個人難以參與核心LLM開發(fā)。

國際能源署估計,數(shù)據(jù)中心、加密貨幣和人工智能相關(guān)的電力消耗到2026年,會大致相當于日本全國的用電量。

OpenAI首席執(zhí)行官阿爾特(9.160, -0.03, -0.33%)曼曾在麻省理工學(xué)院的一次活動上表示,訓(xùn)練GPT-4的成本至少為1億美元,而Anthropic首席執(zhí)行官Dario Amodei預(yù)測,未來訓(xùn)練模型的成本可能達到1000億美元。

此外,使用LLM所需的工具和技術(shù)的復(fù)雜性也增加了開發(fā)人員的學(xué)習(xí)曲線。從訓(xùn)練到部署,整個過程耗時漫長,減緩了開發(fā)速度。劍橋大學(xué)的一項研究顯示,公司可能需要90天或更長時間才能部署一個機器學(xué)習(xí)模型。

LLM的另一個重大問題是容易產(chǎn)生“幻覺”——即模型生成的輸出看似合理,但實際上并不正確。這是由于LLM的訓(xùn)練方式是根據(jù)數(shù)據(jù)中的模式預(yù)測下一個最可能的單詞,而非真正理解信息。因此,LLM可能會自信地生成虛假陳述、編造事實或以荒謬的方式組合不相關(guān)的概念。如何檢測和減少這些“幻覺”是開發(fā)可靠且可信賴語言模型的持續(xù)挑戰(zhàn)。

小模型可降低成本

對LLM巨大能源需求的擔(dān)憂,以及為企業(yè)提供更多樣化AI選項的市場機會,讓科技公司將注意力逐漸轉(zhuǎn)向了SLM。

《每日經(jīng)濟新聞》記者注意到,不管是Arcee、Sakana AI和Hugging Face等AI初創(chuàng)公司,還是科技巨頭都在通過SLM和更經(jīng)濟的方式吸引投資者和客戶。

此前,谷歌、Meta、OpenAI和Anthropic都發(fā)布了比旗艦LLM更緊湊、更靈活的小模型。這不僅降低了開發(fā)和部署的成本,也為商業(yè)客戶提供了更便宜的解決方案。鑒于投資者越來越擔(dān)心AI企業(yè)的高成本和不確定的回報,更多的科技公司可能會選擇這條道路。即便是微軟和英偉達,如今也先后推出了自己的小模型(SLM)。

SLM是LLM的精簡版本,具有更少的參數(shù)和更簡單的設(shè)計,它們需要更少的數(shù)據(jù)和訓(xùn)練時間——只需幾分鐘或幾小時。這使得SLM更高效,更易于在小型設(shè)備上部署。例如,它們可以嵌入到手機中,而無需占用超算資源,從而降低成本,并顯著提升響應(yīng)速度。

SLM的另一個主要優(yōu)勢是其針對特定應(yīng)用的專業(yè)化。SLM專注于特定任務(wù)或領(lǐng)域,這使它們在實際應(yīng)用中更加高效。例如,在情緒分析、命名實體識別或特定領(lǐng)域的問答中,SLM的表現(xiàn)往往優(yōu)于通用模型。這種定制化使得企業(yè)能夠創(chuàng)建高效滿足其特定需求的模型。

SLM在特定領(lǐng)域內(nèi)也不易出現(xiàn)“幻覺”,因為它們通常在更窄、更有針對性的數(shù)據(jù)集上訓(xùn)練,這有助于模型學(xué)習(xí)與其任務(wù)最相關(guān)的模式和信息。SLM的專注性降低了生成不相關(guān)、意外或不一致輸出的可能性。

盡管規(guī)模較小,SLM在某些方面的性能并不遜色于大模型。微軟最新推出的Phi-3.5-mini-instruct僅擁有38億個參數(shù),但其性能優(yōu)于Llama3.18B和Mistral7B等參數(shù)遠高于它的模型。美國東北大學(xué)(位于美國馬薩諸塞州波士頓,是一所頂尖的私立研究型大學(xué))語言模型研究專家Aaron Mueller指出,擴展參數(shù)數(shù)量并非提高模型性能的唯一途徑,使用更高質(zhì)量的數(shù)據(jù)訓(xùn)練也可以產(chǎn)生類似效果。

OpenAI首席執(zhí)行官阿爾特曼在4月的一次活動中表示,他相信當前正處于巨型模型時代的末期,“我們將通過其他方式來提升它們的表現(xiàn)!

不過,需要注意的是,雖然SLM的專業(yè)化是一大優(yōu)勢,但也有局限性。這些模型可能在其特定訓(xùn)練領(lǐng)域之外表現(xiàn)不佳,缺乏廣泛的知識庫,和LLM相比無法生成廣泛主題的相關(guān)內(nèi)容。這一限制要求用戶可能需要部署多個SLM來覆蓋不同的需求領(lǐng)域,從而使AI基礎(chǔ)設(shè)施復(fù)雜化。

隨著AI領(lǐng)域的快速發(fā)展,小模型的標準可能會不斷變化。東京小模型初創(chuàng)公司Sakana的聯(lián)合創(chuàng)始人兼首席執(zhí)行官David Ha表示,幾年前看似龐大的AI模型,現(xiàn)在看來已經(jīng)顯得“適中”。“大小總是相對的。”David Ha說道。(每經(jīng)記者 文巧 實習(xí)記者 岳楚鵬    每經(jīng)編輯 高涵    )

編 輯:高靖宇
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
中國電信邵廣祿:面向AI大模型的智算集群及網(wǎng)絡(luò)的實踐和展望
精彩專題
CES 2024國際消費電子展
2023年信息通信產(chǎn)業(yè)盤點暨頒獎禮
飛象網(wǎng)2023年手機評選
第24屆中國國際光電博覽會
CCTIME推薦
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像
主站蜘蛛池模板: Honsberg流量计-Greisinger真空表-气压计-上海欧臻机电设备有限公司 | 次氯酸钠厂家,涉水级次氯酸钠,三氯化铁生产厂家-淄博吉灿化工 | 博医通医疗器械互联网供应链服务平台_博医通 | 安平县鑫川金属丝网制品有限公司,声屏障,高速声屏障,百叶孔声屏障,大弧形声屏障,凹凸穿孔声屏障,铁路声屏障,顶部弧形声屏障,玻璃钢吸音板 | 自动气象站_农业气象站_超声波气象站_防爆气象站-山东万象环境科技有限公司 | 喷码机,激光喷码打码机,鸡蛋打码机,手持打码机,自动喷码机,一物一码防伪溯源-恒欣瑞达有限公司 | 西门子气候补偿器,锅炉气候补偿器-陕西沃信机电工程有限公司 | 厂房出租-厂房规划-食品技术-厂房设计-厂房装修-建筑施工-设备供应-设备求购-龙爪豆食品行业平台 | 搜活动房网—活动房_集装箱活动房_集成房屋_活动房屋 | 活性炭厂家-蜂窝活性炭-粉状/柱状/果壳/椰壳活性炭-大千净化-活性炭 | 流量检测仪-气密性检测装置-密封性试验仪-东莞市奥图自动化科技有限公司 | 淘气堡_室内儿童乐园_户外无动力儿童游乐设备-高乐迪(北京) | Brotu | 关注AI,Web3.0,VR/AR,GPT,元宇宙区块链数字产业 | 德国进口电锅炉_商用电热水器_壁挂炉_电采暖器_电热锅炉[德国宝] | 湖南档案密集架,智能,物证,移动,价格-湖南档案密集架厂家 | HDPE储罐_厂家-山东九州阿丽贝防腐设备| 旅游规划_旅游策划_乡村旅游规划_景区规划设计_旅游规划设计公司-北京绿道联合旅游规划设计有限公司 | 塑木弯曲试验机_铜带拉伸强度试验机_拉压力测试台-倾技百科 | 一体化污水处理设备,一体化污水设备厂家-宜兴市福源水处理设备有限公司 | 半容积式换热器_北京浮动盘管换热器厂家|北京亿丰上达 | 北京网站建设首页,做网站选【优站网】,专注北京网站建设,北京网站推广,天津网站建设,天津网站推广,小程序,手机APP的开发。 | 偏心半球阀-电动偏心半球阀-调流调压阀-旋球阀-上欧阀门有限公司 | 威海防火彩钢板,威海岩棉复合板,威海彩钢瓦-文登区九龙岩棉复合板厂 | 除尘器布袋骨架,除尘器滤袋,除尘器骨架,电磁脉冲阀膜片,卸灰阀,螺旋输送机-泊头市天润环保机械设备有限公司 | 带式压滤机_污泥压滤机_污泥脱水机_带式过滤机_带式压滤机厂家-河南恒磊环保设备有限公司 | 金属切削液-脱水防锈油-电火花机油-抗磨液压油-深圳市雨辰宏业科技发展有限公司 | 紫外可见光分光度计-紫外分光度计-分光光度仪-屹谱仪器制造(上海)有限公司 | 低气压试验箱_高低温低气压试验箱_低气压实验箱 |林频试验设备品牌 | hdpe土工膜-防渗膜-复合土工膜-长丝土工布价格-厂家直销「恒阳新材料」-山东恒阳新材料有限公司 ETFE膜结构_PTFE膜结构_空间钢结构_膜结构_张拉膜_浙江萬豪空间结构集团有限公司 | 没斑啦-专业的祛斑美白嫩肤知识网站-去斑经验分享 | 番茄畅听邀请码怎么输入 - Dianw8.com | 耐破强度测试仪-纸箱破裂强度试验机-济南三泉中石单品站 | 齿轮减速机_齿轮减速电机-VEMT蜗轮蜗杆减速机马达生产厂家瓦玛特传动瑞环机电 | 烽火安全网_加密软件、神盾软件官网 | EDLC超级法拉电容器_LIC锂离子超级电容_超级电容模组_软包单体电容电池_轴向薄膜电力电容器_深圳佳名兴电容有限公司_JMX专注中高端品牌电容生产厂家 | 六自由度平台_六自由度运动平台_三自由度摇摆台—南京全控科技 | 丝印油墨_水性油墨_环保油墨油漆厂家_37国际化工 | 润滑脂-高温润滑脂-轴承润滑脂-食品级润滑油-索科润滑油脂厂家 | 通风天窗,通风气楼,屋顶通风天窗,屋顶通风天窗公司 | 喷播机厂家_二手喷播机租赁_水泥浆洒布机-河南青山绿水机电设备有限公司 | 皮带式输送机械|链板式输送机|不锈钢输送机|网带输送机械设备——青岛鸿儒机械有限公司 |