飞象网 - 通信人每天必上的网站

首頁|必讀|視頻|專訪|運營|制造|監管|大數據|物聯網|量子|低空經濟|智能汽車|特約記者
手機|互聯網|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯網|會展
首頁 >> 人工智能 >> 正文

DeepSeek如何彎道大超車:震撼硅谷巨頭 擊潰出口管制

2025年1月27日 08:41  新浪科技  

“當我們所有人都在過圣誕的時候,一個中國實驗室卻發布了震撼世界的AI模型。這顯然具有象征意義。長期以來,美國都在AI競爭中處于全球領先地位,但DeepSeek的最新模型卻在改變這一格局。” Scale AI的創始人兼CEO亞歷山大·王(Alexandr Wang)在接受美國媒體采訪時這樣感慨。

短短半個月時間,一款中國實驗室發布的AI模型就用令人難以置信的實力數據,震撼了整個硅谷AI領域。從科技巨頭到AI新貴再到技術專家,幾乎所有人都感受到了來自中國AI行業的強烈沖擊。更令人震驚的是,中國AI行業在遭受出口管制和算力匱乏情況下,實現了彎道超車。

橫空出世空降登頂

這個實驗室就是來自中國的DeepSeek,2023年剛剛創建。他們在去年年底發布了一個免費開源的大語言模型。根據該公司發表的論文,DeepSeek-R1在多個數學和推理基準測試中超越了行業領先的OpenAI o1等模型,更在性能、成本、開放性等指標方面壓倒了美國AI巨頭。

科技行業需要用數據說話。在一系列第三方基準測試中,DeepSeek的模型在從復雜問題解決到數學和編程等多個領域的準確性上,超越了Meta的Llama 3.1、OpenAI的GPT-4o以及Anthropic的Claude Sonnet 3.5。

就在上周,DeepSeek又發布了推理模型R1,同樣在諸多第三方測試中超越了OpenAI最新的o1。在AIME 2024數學基準測試中,DeepSeek R1取得了79.8%的成功率,超過了OpenAI的o1推理模型。在標準化編碼測試中,它展示了“專家級”的表現,在Codeforces上獲得了2,029的Elo評分,超過了96.3%的人類競爭對手。

Scale AI則使用了“人類最后考試”(Humanity’s Last Exam)來測試AI大模型,它采用來自數學、物理、生物、化學教授提供的“最難問題”,涉及最新的研究成果。在測試了所有最新的AI模型后,亞歷山大·王不得不贊嘆,DeepSeek的最新模型“實際上是表現最出色的,或者至少與o1等最好的美國模型不相上下”。

毫不夸張地說,DeepSeek在美國AI行業引發了一場地震,更引發了媒體的爭相報道。幾乎所有的主流媒體和科技媒體,都報道了中國AI模型超過美國這一爆炸新聞。短短幾天時間,DeepSeek就已經成為蘋果應用商店排名第一的免費應用,力壓OpenAI的ChatGPT。

性能成本震撼巨頭

實打實的測試對比結果,不得不服。幾乎所有的AI巨頭、風投和技術人員都只能承認,在大模型這個領域,DeepSeek至少已經可以和OpenAI平起平坐,中國已經追上了美國。

微軟首席執行官薩蒂亞·納德拉(Satya Nadella)在世界經濟論壇上談到DeepSeek時表示:“DeepSeek的新模型令人印象深刻,他們不僅有效地構建了一個開源模型,能夠在推理計算時高效運行,而且在計算效率方面表現出色。我們必須非常非常認真地對待中國的AI進步。”

中國AI不僅是性能卓越,更是經濟實惠。讓硅谷諸多AI巨頭感到震撼和汗顏的是DeepSeek的低廉成本。R1模型的查詢成本僅為每百萬個token 0.14美元,而OpenAI的成本為7.50美元,使其成本降低了98%。

真的是小米加步槍,DeepSeek僅僅用了兩個月時間,耗費了不到600萬美元就打造了大語言模型R1,而且他們用的還是性能較弱的英偉達H800芯片。這意味著什么?打個比方,中國AI公司居然開著普通轎車,就實現了彎道超車,在競賽中超越了硅谷巨頭們的超級跑車。

除了訓練成本低廉,DeepSeek的團隊組成也與硅谷諸多AI巨頭大相徑庭。DeepSeek創始人梁文峰在組建研究團隊時,并未尋找經驗豐富的資深軟件工程師,而是專注于來自北大、清華等頂級高校的博士生。許多人曾在頂級學術期刊發表論文,并在國際學術會議上獲獎,但缺乏行業經驗。

“我們的核心技術崗位主要由今年或過去一兩年畢業的人員擔任,”梁文峰在2023年接受媒體采訪時表示。這種招聘策略有助于營造一個自由協作的公司文化,研究人員可以利用充足的計算資源來開展不拘一格的研究項目。這與中國傳統互聯網公司形成鮮明對比,在后者中,團隊通常為資源爭斗激烈。

沒有囤積頂級GPU,沒有招攬資深AI人才,沒有高昂的運行成本,一樣可以拿出最佳的大模型,DeepSeek的一切都讓硅谷AI巨頭們感到沮喪。

硅谷巨頭陷入沮喪

被挑戰的巨頭們是怎么看待DeepSeek呢?OpenAI創始人兼CEO奧特曼(Sam Altman)的表態讓人感覺有點酸。他在社交媒體上表示:“復制已知有效的方案相對容易,但探索未知領域則充滿挑戰。” 這一言論被廣泛解讀為對DeepSeek的暗諷,暗示中國AI模型缺乏真正的創新,僅僅是在復制現有的有效方法。

Perplexity AI的CEO斯林尼瓦斯(Arvind Srinivas,印度人)從市場影響的角度來看待這一發布:“DeepSeek在很大程度上復制了OpenAI o1 mini并開源了它。”但他也贊嘆了DeepSeek的快速步伐:“看到推理如此迅速地商品化,這有點瘋狂。”他表示,自己的團隊會將DeepSeek R1的推理能力引入Perplexity Pro。

Stability AI的創始人Emad Mostaque暗示DeepSeek的發布給資金更充裕的競爭對手帶來了壓力:“你能想象一個籌集了10億美元的前沿實驗室現在無法發布其最新模型,因為它無法擊敗DeepSeek嗎?”

Meta AI首席科學家楊立昆(Yann

LeCun,法國人)則強調中國人是依靠開源的優勢取得成功。他在對DeepSeek的成功表示贊賞的同時強調,DeepSeek的成功并非意味著中國在AI領域超越美國,而是證明了開源模型正在超越閉源系統。

楊立昆表示,DeepSeek從開源研究和開源代碼中受益匪淺,他們提出了新想法,并在他人工作的基礎上進行創新。由于他們的工作是公開和開源的,所有人都能從中獲益。這體現了開源研究和開源代碼的力量。 他認為,DeepSeek的成功提現開源生態系統在推動AI技術進步中的重要性,表明通過共享和協作,開源模型能夠實現快速創新和發展。

但Meta內部可沒有這么淡定。過去幾天,職場匿名平臺teamblind上有一個來自Meta員工的貼子被瘋傳。帖子稱Meta內部因為DeepSeek的模型,現在已經進入恐慌模式,不僅是因為DeepSeek的優秀表現,更是因為極低的成本和團隊組成。

“一切都因為DeepSeek-V3的出世,它在基準測試中已經讓Llama 4相形見絀。更讓人難堪的是,一家中國公司僅用550萬美元訓練預算就做到了這一點。現在Meta的工程師們正在爭分奪秒地分析DeepSeek,試圖復制其中的一切可能技術。這絕非夸張。而且,管理層正為GenAI研發部門的巨額投入而發愁。當部門里一個高管的薪資就超過訓練整個DeepSeek V3的成本,而且這樣的高管還有數十位,他們該如何向高層交代?

高效算法彎道超車

那么,DeepSeek究竟是怎樣實現彎道超車,在算力明顯落后,成本只是零頭的情況下,打造出可以媲美甚至超越硅谷AI巨頭的大模型呢?

美國的出口管制嚴重限制了中國科技公司以“西方式”的方法參與人工智能競爭,即通過無限擴展芯片采購并延長訓練時間。因此,大多數中國公司將重點放在下游應用,而非自主構建模型。但DeepSeek的最新發布證明,獲勝的另一條道路是:通過重塑AI模型的基礎結構,并更高效地利用有限資源。

因為算力資源不足,DeepSeek不得不開發更高效的訓練方法。“他們通過一系列工程技術優化了模型架構——包括定制化芯片間通信方案、減少字段大小以節省內存,以及創新性地使用專家混合模型(Mixture-of-Experts)方法,”Mercator研究所的軟件工程師溫迪·張(Wendy Chang)表示。“許多這些方法并非新鮮,但成功地將它們整合以生產尖端模型是相當了不起的成就。”

DeepSeek還在“多頭潛在注意力”(Multi-head Latent Attention,MLA)和“專家混合模型”方面取得了重大進展,這些技術設計使DeepSeek的模型更具成本效益,訓練所需的計算資源遠少于競爭對手。事實上,據研究機構Epoch AI稱,DeepSeek的最新模型僅使用了Meta Llama 3.1模型十分之一的計算資源。

中國AI研究人員實現了許多人認為遙不可及的成就:一個免費、開源的AI模型,其性能可以媲美甚至超越OpenAI最先進的推理系統。更令人矚目的是他們的實現方式:讓AI通過試錯自我學習,類似于人類的學習方式。

研究論文中寫道:“DeepSeek-R1-Zero是一個通過大規模強化學習(RL)訓練的模型,無需監督微調(SFT)作為初步步驟,展示了卓越的推理能力。”

“強化學習”是一種方法,模型在做出正確決策時獲得獎勵,做出錯誤決策時受到懲罰,而無需知道哪個是哪個。經過一系列決策后,它會學會遵循由這些結果強化的路徑。

DeepSeek R1是AI發展的一個轉折點,因為人類在訓練中的參與最少。與其他在大量監督數據上訓練的模型不同,DeepSeek R1主要通過機械強化學習進行學習——本質上是通過實驗和獲得反饋來解決問題。該模型甚至在沒有明確編程的情況下,發展出了自我驗證和反思等復雜能力。

隨著模型經歷訓練過程,它自然學會了為復雜問題分配更多的“思考時間”,并發展出捕捉自身錯誤的能力。研究人員強調了一個“頓悟時刻”,模型學會了重新評估其最初的問題解決方法——這是它沒有被明確編程去做的事情。

開源模型廣獲贊賞

值得一提的是,DeepSeek愿意將其創新成果開源,使其在全球AI研究社區中獲得了更大的贊賞。 與專有模型不同,DeepSeek R1的代碼和訓練方法在MIT許可證下完全開源,這意味著任何人都可以獲取、使用和修改該模型,沒有任何限制。

對許多中國AI公司來說,開發開源模型是趕超西方競爭對手的唯一方式,因為這樣可以吸引更多用戶和貢獻者,幫助模型不斷成長。在OpenAI逐漸封閉化的當下,DeepSeek的開源得到了AI從業人員的交口稱贊。

英偉達資深研究員樊錦(Jim Fan)博士贊揚了DeepSeek前所未有的透明度,并直接將其與OpenAI的原始使命相提并論。“我們生活在一個非美國公司保持OpenAI原始使命的時間線上——真正開放的、前沿的研究,賦能所有人,”樊錦指出。

樊錦指出了DeepSeek強化學習方法的重要性:“他們可能是第一個展示[強化學習]飛輪持續增長的開源軟件項目。”他還贊揚了DeepSeek直接分享“原始算法和matplotlib學習曲線”,而不是行業中更常見的炒作驅動公告。

遵循同樣的推理,但帶有更嚴肅的論證,科技企業家Arnaud Bertrand解釋說,競爭性開源模型的出現可能對OpenAI沖擊巨大,因為這會使OpenAI模型對付費意愿強烈的高級用戶的吸引力降低,從而損害OpenAI的商業模式。“這基本上就像有人發布了一款與iPhone相當的手機,但售價為30美元而不是1000美元。這是戲劇性的。”

出口管制面臨挑戰

這對英偉達來說,DeepSeek的橫空出世是一個利空因素。很多AI行業人士不禁開始思考另一個問題:既然DeepSeek用上一代芯片的閹割版就可以訓練出最強勁的大模型,那么科技巨頭們還需要繼續瘋狂燒錢搶購英偉達的最新GPU嗎?這個問題細思極恐。

眾所周知,因為美國政府的AI芯片禁運,中國無法采購英偉達最高性能的AI芯片,而H800則是高算力A100芯片的閹割版。與A100相比,H800的核心數量、頻率和顯存方面明顯較低,算力上降幅大約在10-30%之間,主要不需要頂級算力的場景,例如中等規模的AI訓練與推理任務。H800的內存帶寬被限制在 1.5 TB/s,而A100 80GB版本可達到 2 TB/s,這將直接影響數據處理能力,尤其在深度學習任務中。

Scale AI的亞歷山大·王堅持認為,DeepSeek的芯片數量可能遠遠高于外界想象。他公開表示,自己認為DeepSeek至少擁有5萬塊H100,他們不會公布具體數字。

H100的算力是A100的六到七倍,這款3萬美元起售的頂級GPU也是目前硅谷科技巨頭們爭先搶購的軍火。Meta和微軟都超過采購了15萬塊H100,谷歌、甲骨文和亞馬遜都采購了5萬塊,馬斯克的xAI更部署了10萬塊H100組成的超級計算機集群用于訓練大預言模型Grok3。

亞歷山大·王進一步表示,未來中國AI行業可能會面臨更多挑戰,“未來他們將受到我們已經實施的芯片和出口管制的限制,難以再獲取更多芯片。”他上周在《華盛頓郵報》購買了整版廣告,寫道“美國必須贏下這場AI戰爭!”

編 輯:高靖宇
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
vivo胡柏山:手機行業是最典型的新質生產力代表
精彩專題
2024通信業年終盤點
2024數字科技生態大會
2024年度中國光電纜優質供應商評選活動
2024全球6G發展大會
CCTIME推薦
關于我們 | 廣告報價 | 聯系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像
主站蜘蛛池模板: 粉末包装机-给袋式包装机-全自动包装机-颗粒-液体-食品-酱腌菜包装机生产线【润立机械】 | 泰来华顿液氮罐,美国MVE液氮罐,自增压液氮罐,定制液氮生物容器,进口杜瓦瓶-上海京灿精密机械有限公司 | 全自动过滤器_反冲洗过滤器_自清洗过滤器_量子除垢环_量子环除垢_量子除垢 - 安士睿(北京)过滤设备有限公司 | 杭州公司变更法人-代理记账收费价格-公司注销代办_杭州福道财务管理咨询有限公司 | 心肺复苏模拟人|医学模型|急救护理模型|医学教学模型上海康人医学仪器设备有限公司 | 带式过滤机厂家_价格_型号规格参数-江西核威环保科技有限公司 | SPC工作站-连杆综合检具-表盘气动量仪-内孔缺陷检测仪-杭州朗多检测仪器有限公司 | 无线对讲-无线对讲系统解决方案-重庆畅博通信 | 德国EA可编程直流电源_电子负载,中国台湾固纬直流电源_交流电源-苏州展文电子科技有限公司 | 聚合氯化铝-碱式氯化铝-聚合硫酸铁-聚氯化铝铁生产厂家多少钱一吨-聚丙烯酰胺价格_河南浩博净水材料有限公司 | 真空上料机(一种真空输送机)-百科 | 蒜肠网-动漫,二次元,COSPLAY,漫展以及收藏型模型,手办,玩具的新媒体.(原变形金刚变迷TF圈) | 多功能三相相位伏安表-变压器短路阻抗测试仪-上海妙定电气 | 青岛成人高考_山东成考报名网| 分光色差仪,测色仪,反透射灯箱,爱色丽分光光度仪,美能达色差仪维修_苏州欣美和仪器有限公司 | 煤矿人员精确定位系统_矿用无线通信系统_煤矿广播系统 | 安徽控制器-合肥船用空调控制器-合肥家电控制器-合肥迅驰电子厂 安徽净化板_合肥岩棉板厂家_玻镁板厂家_安徽科艺美洁净科技有限公司 | 精密模具-双色注塑模具加工-深圳铭洋宇通 | 纯水设备_苏州皙全超纯水设备水处理设备生产厂家 | 科威信洗净科技,碳氢清洗机,超声波清洗机,真空碳氢清洗机 | 优考试_免费在线考试系统_培训考试系统_题库系统_组卷答题系统_匡优考试 | Jaeaiot捷易科技-英伟达AI显卡模组/GPU整机服务器供应商 | 全自动五线打端沾锡机,全自动裁线剥皮双头沾锡机,全自动尼龙扎带机-东莞市海文能机械设备有限公司 | 井式炉-台车式回火炉-丹阳市电炉厂有限公司 | 手术示教系统-数字化手术室系统-林之硕医疗云智能视频平台 | 微型实验室真空泵-无油干式真空泵-微型涡旋耐腐蚀压缩机-思科涡旋科技(杭州)有限公司 | 上海恒驭仪器有限公司-实验室平板硫化机-小型平板硫化机-全自动平板硫化机 | 北京印刷厂_北京印刷_北京印刷公司_北京印刷厂家_北京东爵盛世印刷有限公司 | 旗帜网络笔记-免费领取《旗帜网络笔记》电子书 | 面粉仓_储酒罐_不锈钢储酒罐厂家-泰安鑫佳机械制造有限公司 | 压砖机_电动螺旋压力机_粉末成型压力机_郑州华隆机械tel_0371-60121717 | 常州翔天实验仪器厂-恒温振荡器-台式恒温振荡器-微量血液离心机 恒温恒湿箱(药品/保健品/食品/半导体/细菌)-兰贝石(北京)科技有限公司 | 无负压供水设备,消防稳压供水设备-淄博创辉供水设备有限公司 | 南京蜂窝纸箱_南京木托盘_南京纸托盘-南京博恒包装有限公司 | 苏州注册公司_苏州代理记账_苏州工商注册_苏州代办公司-恒佳财税 | 郑州爱婴幼师学校_专业幼师培训_托育师培训_幼儿教育培训学校 | 可程式恒温恒湿试验箱|恒温恒湿箱|恒温恒湿试验箱|恒温恒湿老化试验箱|高低温试验箱价格报价-广东德瑞检测设备有限公司 | 篮球架_乒乓球台_足球门_校园_竞技体育器材_厂家_价格-沧州浩然体育器材有限公司 | 机械立体车库租赁_立体停车设备出租_智能停车场厂家_春华起重 | 工作心得_读书心得_学习心得_找心得体会范文就上学道文库 | 临海涌泉蜜桔官网|涌泉蜜桔微商批发代理|涌泉蜜桔供应链|涌泉蜜桔一件代发 |