飞象网 - 通信人每天必上的网站

首頁|必讀|視頻|專訪|運營|制造|監管|大數據|物聯網|量子|低空經濟|智能汽車|特約記者
手機|互聯網|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯網|會展
首頁 >> 頭條資訊 >> 正文

信通院宇文夢柯等:大模型推理優化——技術突破與產業落地新范式

2025年4月8日 09:04  中國信通院CAICT  

隨著大模型技術的飛速發展和企業智能化轉型需求的不斷攀升,大模型落地應用關注焦點正從訓練環節轉向推理環節。在此過程中,行業需求已從構建功能全面、用戶友好且靈活的推理平臺,逐步深化到解決實際落地中由“效果-性能-成本”構成的不可能三角難題[1]。其中,效果要求體現在模型服務的準確性與場景覆蓋的全面性,性能要求體現在響應時延、系統吞吐、服務穩定性,成本要求體現在算力成本、適配成本等綜合開銷。推理優化技術作為破解不可能三角難題的核心抓手,其重要價值正在大模型規模化應用中愈發凸顯。

挑戰——平衡算力與成本、適配多樣化場景

大模型產業化落地面臨成本控制與場景適配雙重挑戰。一方面,高質量算力需求與成本約束的博弈持續深化。大模型沿著Scaling Law路徑不斷發展,模型參數持續增加[2],高質量大模型服務離不開高顯存、高帶寬、高性能的算力支持。然而單純依賴硬件性能、硬件堆疊,不僅加劇產業落地成本壓力,更難以形成可持續的商業閉環。如何在有限算力條件下進一步提升性能并降低成本,仍是長久議題。另一方面,激增的推理需求促使了對多樣場景下差異化性能需求的關注。智能客服、對話系統等場景需即時反饋,對時延要求嚴格;視頻生成、訓練數據集生成等場景需批量輸出,對吞吐率有較高需求;RAG、Agent等服務形式的發展,對長上下文處理能力提出更高要求。如何在差異場景下實現針對性優化、提升服務質量,也是當前大模型落地的重點話題。推理優化不僅關注性能提升與成本控制,還關注結合場景特點的優化改進,以更好地服務于實際業務需求。近日,英偉達CEO黃仁勛、AMD CEO蘇姿豐均強調了推理優化的重要性,在推理需求激增、推理模型(Reasoning Models)快速占領市場的當下,該技術的成熟度將成為重塑行業競爭格局的關鍵要素。

關鍵技術——推理優化圍繞模型架構與計算架構的技術迭出

(一)模型架構層面:基于模型壓縮、MoE結構等技術,優化模型自身推理性能

在大模型推理過程中,模型參數、KV緩存(KVCache)及運行過程數據會大量消耗顯存資源,其中模型參數和KVCache為主要占比。當前針對推理階段的模型優化,主要圍繞模型結構設計與KVCache優化展開,包括服務運行前的參數壓縮、網絡結構精簡等,以及服務運行時的緩存策略,以實現顯存占用、推理效率、推理精度的平衡。例如,輕量化技術如剪枝、量化,通過去除冗余結構或采用低比特表示來壓縮模型大小,可顯著降低對存儲和計算資源的需求,當前可基本實現無損壓縮。多頭潛在注意力機制(Multi-Head Latent Attention,MLA)通過將鍵值向量壓縮至低秩空間,將推理時對KVCache的顯存需求降到傳統機制的4%~13%[3],具備更好的長上下文處理和快速響應能力。稀疏化MoE模型架構通過專家網絡和門控機制,可動態選擇激活的專家,減少不必要的計算,顯著降低計算成本。如DeepSeek-V3模型在推理過程中僅需激活5.5%參數(37B/671B)即可達到SOTA效果[4]。

(二)計算架構層面:通過分布式架構設計、調度策略優化,大幅提升推理系統性能上限

架構方面,預填充-解碼(Prefill-Decode, PD)分離式推理架構已成為業界主流優化方案。大模型推理一般由預填充(Prefill)和解碼(Decode)兩階段構成,其中預填充階段是計算密集型(compute-bound)對算力需求高,容易迅速使GPU達到飽和;解碼階段是存儲密集型(memory-bound)對顯存需求高,在大批量(batch size)請求下才可充分利用計算資源,同時受到帶寬限制[5]。傳統方式通常直接將推理服務部署到集群中,使得PD兩階段在同一節點上執行,引發兩階段資源爭奪、并行策略互相掣肘難以優化[5][6],進一步導致資源利用率低、服務性能差、系統構建成本高等問題[7]。PD分離將預填充與解碼階段分開部署,不同階段依據各自特性選用最優硬件資源,可成倍優化整體推理系統性能與成本。調度方面,通過精細化、智能化資源調度和任務調度,可幫助提升推理系統在多樣化服務場景的性能上限。分布式調度通過實時任務監控、負載動態處理、彈性擴縮容等技術,實現負載均衡[8],有效應對低時延、高并發、流量波動、高頻請求、長文本處理等多樣化業務場景,確保系統在不同應用環境下能夠保持穩定高效運行。

產業落地——推理系統呈現單點加速與全局協同優化并行趨勢

(一)單點優化:聚焦模型特點與系統的銜接,持續完善推理引擎的功能與性能

一是通用推理引擎呈現從多點爆發到逐漸收斂趨勢。從前期HuggingFace TGI、DeepSpeed-FastGen、TensorRT-LLM等,逐漸收斂到推理優化特性豐富、功能更新迅速、二次開發支持性好、多硬件支持、推理性能卓越的vLLM。二是逐漸衍生出一系列結合推理服務特點的新引擎。LMDeploy、SGLang等對多模態、長文本支持友好的推理引擎陸續推出,尤其自DeepSeek-V2開始SGLang與DeepSeek深度整合,產業界對SGLang的關注迅速提升。三是隨著MoE模型架構逐漸成為主流趨勢,主流大模型框架如vLLM、DeepSpeed[9]等均強化了對MoE特性的支持,同時產業界也推出了一批聚焦MoE訓推的AI框架,如清華的KTransformers等。此外,DeepSeek也推出了為MoE架構中專家并行(EP)定向優化的DeepEP通信庫[10]。

(二)協同優化:“模型-架構-場景”深度耦合的優化范式成為主流,支撐人工智能平臺性能提升

一方面,隨著PD分離式推理架構逐漸成熟,場景落地顯著加速。2024年陸續推出了DistServe(北大&USCD)、Splitwise(微軟)、TetriInfer(華為云)和MemServe(華為云)等PD分離式推理架構方案[11]。2025年初,月之暗面與清華聯合阿里云、華為存儲、面壁智能、趨境科技等共同發布的Mooncake開源項目是業界大規模落地PD分離案例。該方案通過構建以KVCache為中心的P-D分離調度集群,實現了有效吞吐平均提升75%,特定場景吞吐提升5.25倍,并承接了kimi線上80%流量[12]。DeepSeek部署推理方案也采用了PD分離架構,其在兩階段增加了高負載專家分發、動態冗余專家激活策略[13],可進一步結合MoE模型架構優化計算資源利用。英偉達近期推出的Dynamo分布式推理加速項目,綜合了vLLM、SGLang、DistServe、Mooncake等基礎,基于PD分離架構基礎上,通過精細化KVCache的分布式路由管理,實現系統性能提升[14]。

另一方面,聚焦場景特點、系統架構的精細化調度技術不斷發展,提升推理系統與差異化場景適配度。XXL-JOB作為廣泛應用于企業級應用中的分布式任務調度平臺,解決了在分布式系統中任務調度、定時執行、任務分片、失敗重試、任務依賴等問題。阿里云的分布式調度解決方案SchedulerX能夠支持秒級別的精確調度周期,為用戶提供最小到1秒的任務調度頻率,滿足了金融、電信等對時間敏感行業的需求[15]。阿里云Llumnix全局調度器引入了運行時請求重調度能力,支持在多個實例間動態分配請求,可應對請求的異構性和不可預測性,實現多種調度場景統一化,在真實流量場景下,尾部延遲降低10倍,在相似尾部延遲的情況下成本節約高達36% [16]。對于分布式場景而言,精細化調度可進一步提升優化上限。但整體而言,目前主流調度工具仍缺乏結合大模型及推理場景的深度優化。

結束語

未來,服務效果、加速效果等指標作為技術、產品能力的顯性標尺,可客觀呈現大模型推理平臺當前的能力水位,是推理優化效果的直觀參照。另一方面,在時延、精度、成本、資源等多方約束條件下,識別潛在的性能提升空間、確定可優化的具體維度、制定有效的提升策略,將是推理優化路徑演進過程中需要解決的核心問題。

參考資料

[1]《GenAI技術落地白皮書》阿里云

[2] 中金 | AI進化論(1):DeepSeek推動“大模型平權”,是訓練算力的拐點還是黑洞?https://mp.weixin.qq.com/s/c0cwxICVjk-ee7ZFKocGQA

[3] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model https://arxiv.org/pdf/2405.04434

[4] DeepSeek-V3 Technical Report  https://arxiv.org/pdf/2412.19437

[5] 揭秘老黃演講中關鍵技術:PD分離!UCSD華人團隊力作,LLM吞吐量躍升4倍  https://mp.weixin.qq.com/s/kdxJng0X3RT2UU8EnuxeSw

[6] Throughput is Not All You Need: Maximizing Goodput in LLM Serving using Prefill-Decode Disaggregation https://hao-ai-lab.github.io/blogs/distserve/

[7] 中金 | AI十年展望(二十):細數2024大模型底層變化,推理優化、工程為王 https://mp.weixin.qq.com/s/tY3pxGpg-WK70ySOgkkiRQ

[8] Mooncake 分離式推理架構創新與實踐 https://www.infoq.cn/article/f2Lp0tlCuYvGJ65kXW4B

[9] Getting Started with DeepSpeed-MoE for Inferencing Large-Scale MoE Models https://www.deepspeed.ai/tutorials/mixture-of-experts-inference/

[10] DeepEP https://github.com/deepseek-ai/DeepEP

[11]大模型推理分離架構五虎上將   https://mp.weixin.qq.com/s/g7lq4IcJ4-etkh9XV8Giig

[12] Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving https://arxiv.org/pdf/2407.00079

[13] DeepSeek技術社區DeepSeek-V3 技術報告解讀 https://deepseek.csdn.net/67cda6da6670175f9932e823.html

[14] Dynamo項目解讀,NVIDIA官方的分布式大型語言模型(LLM)推理加速框架https://mp.weixin.qq.com/s/t9rm_rG2NwXaZLe_SF5_hg

[15] 大規模分布式應用任務調度解決方案 https://www.aliyun.com/solution/middleware/lsajs

[16] Llumnix: Dynamic Scheduling for Large Language Model Serving  https://arxiv.org/pdf/2406.03243

作者:中國信息通信研究院人工智能研究所 宇文夢柯 董昊 曹峰

編 輯:路金娣
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
中興通訊董事長李自學:算力筑基、 AI 啟智,共迎數智化新紀元
精彩專題
通信產業2024年業績盤點
3·15權益日 | 共筑滿意消費 守護信息通信安全防線
聚焦2025全國兩會
2025年世界移動通信大會
CCTIME推薦
關于我們 | 廣告報價 | 聯系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像
主站蜘蛛池模板: 德国GMN轴承,GMN角接触球轴承,GMN单向轴承,GMN油封,GMN非接触式密封 | 彭世修脚_修脚加盟_彭世修脚加盟_彭世足疗加盟_足疗加盟连锁_彭世修脚技术培训_彭世足疗 | LOGO设计_品牌设计_VI设计 - 特创易 | 东莞韩创-专业绝缘骨架|马达塑胶零件|塑胶电机配件|塑封电机骨架厂家 | 臭氧发生器_臭氧消毒机 - 【同林品牌 实力厂家】 | 模切之家-专注服务模切行业的B2B平台!| 宜兴市恺瑞德环保科技有限公司| 北京企业宣传片拍摄_公司宣传片制作-广告短视频制作_北京宣传片拍摄公司 | 尚为传动-专业高精密蜗轮蜗杆,双导程蜗轮蜗杆,蜗轮蜗杆减速机,蜗杆减速机生产厂家 | 小型高低温循环试验箱-可程式高低温湿热交变试验箱-东莞市拓德环境测试设备有限公司 | 新型游乐设备,360大摆锤游乐设备「诚信厂家」-山东方鑫游乐设备 新能源汽车电池软连接,铜铝复合膜柔性连接,电力母排-容发智能科技(无锡)有限公司 | 直流电能表-充电桩电能表-导轨式电能表-智能电能表-浙江科为电气有限公司 | 精密五金冲压件_深圳五金冲压厂_钣金加工厂_五金模具加工-诚瑞丰科技股份有限公司 | MVR蒸发器厂家-多效蒸发器-工业废水蒸发器厂家-康景辉集团官网 | 机床导轨_导轨板_滚轮导轨-上海旻佑精密机械有限公司 | 机器视觉检测系统-视觉检测系统-机器视觉系统-ccd检测系统-视觉控制器-视控一体机 -海克易邦 | 新型锤式破碎机_新型圆锥式_新型颚式破碎机_反击式打沙机_锤式制砂机_青州建源机械 | 篷房[仓储-婚庆-展览-活动]生产厂家-江苏正德装配式帐篷有限公司 | 农业仪器网 - 中国自动化农业仪器信息交流平台 | 测试治具|过炉治具|过锡炉治具|工装夹具|测试夹具|允睿自动化设备 | 水冷式工业冷水机组_风冷式工业冷水机_水冷螺杆冷冻机组-深圳市普威机械设备有限公司 | 酒糟烘干机-豆渣烘干机-薯渣烘干机-糟渣烘干设备厂家-焦作市真节能环保设备科技有限公司 | 谷歌关键词优化-外贸网站优化-Google SEO小语种推广-思亿欧外贸快车 | 原子吸收设备-国产分光光度计-光谱分光光度计-上海光谱仪器有限公司 | 纳米涂料品牌 防雾抗污纳米陶瓷涂料厂家_虹瓷科技 | 阳光模拟试验箱_高低温试验箱_高低温冲击试验箱_快速温变试验箱|东莞市赛思检测设备有限公司 | 天空彩票天下彩,天空彩天空彩票免费资料,天空彩票与你同行开奖,天下彩正版资料大全 | 金蝶帐无忧|云代账软件|智能财税软件|会计代账公司专用软件 | 污水处理设备,一体化泵站,一体化净水设备-「梦之洁环保设备厂家」 | 深圳激光打标机_激光打标机_激光焊接机_激光切割机_同体激光打标机-深圳市创想激光科技有限公司 深圳快餐店设计-餐饮设计公司-餐饮空间品牌全案设计-深圳市勤蜂装饰工程 | 金现代信息产业股份有限公司--数字化解决方案供应商 | 自进式锚杆-自钻式中空注浆锚杆-洛阳恒诺锚固锚杆生产厂家 | 螺旋绞龙叶片,螺旋输送机厂家,山东螺旋输送机-淄博长江机械制造有限公司 | 施工电梯_齿条货梯_烟囱电梯_物料提升机-河南大诚机械制造有限公司 | 深圳富泰鑫五金_五金冲压件加工_五金配件加工_精密零件加工厂 | 冷却塔降噪隔音_冷却塔噪声治理_冷却塔噪音处理厂家-广东康明冷却塔降噪厂家 | 小型单室真空包装机,食品单室真空包装机-百科 | 铝板冲孔网,不锈钢冲孔网,圆孔冲孔网板,鳄鱼嘴-鱼眼防滑板,盾构走道板-江拓数控冲孔网厂-河北江拓丝网有限公司 | 【电子厂招聘_普工招工网_工厂招聘信息平台】-工立方打工网 | 特种阀门-调节阀门-高温熔盐阀-镍合金截止阀-钛阀门-高温阀门-高性能蝶阀-蒙乃尔合金阀门-福建捷斯特阀门制造有限公司 | 电脑刺绣_绣花厂家_绣花章仔_织唛厂家-[源欣刺绣]潮牌刺绣打版定制绣花加工厂家 |