“火星上日落時的一場極具未來感的無人機比賽”;
“在一個與自然和諧共生,同時又有超強朋克氣質和高科技屬性的未來城市漫游……”
根據上述提示詞,OpenAI首席執行官阿爾特(9.780, 0.59, 6.42%)曼在X平臺上發布了一系列視頻,精美的場景讓用戶驚嘆不已。而這些視頻全都是通過OpenAI 2月16日發布的最新視頻生成模型Sora制作的,用戶震驚之余,也給予了Sora高度評價,將其描述為“絕無僅有”和“游戲規則改變者”。">

飞象网 - 通信人每天必上的网站

首頁|必讀|視頻|專訪|運營|制造|監管|大數據|物聯網|量子|元宇宙|博客|特約記者
手機|互聯網|IT|5G|光通信|人工智能|云計算|芯片報告|智慧城市|移動互聯網|會展
首頁 >> 頭條資訊 >> 正文

報告揭秘Sora六大優勢 業內:AGI可能在一兩年內實現

2024年2月19日 10:24  每日經濟新聞  

“兩只金毛獵犬在山頂播客”;

“火星上日落時的一場極具未來感的無人機比賽”;

“在一個與自然和諧共生,同時又有超強朋克氣質和高科技屬性的未來城市漫游……”

根據上述提示詞,OpenAI首席執行官阿爾特(9.780, 0.59, 6.42%)曼在X平臺上發布了一系列視頻,精美的場景讓用戶驚嘆不已。而這些視頻全都是通過OpenAI 2月16日發布的最新視頻生成模型Sora制作的,用戶震驚之余,也給予了Sora高度評價,將其描述為“絕無僅有”和“游戲規則改變者”。

Sora采用了OpenAI文生圖模型DALL·E 3背后的強大技術,可將簡短的文本描述轉化成長達1分鐘的高清視頻。業界大佬Gabor Cselle將Sora和Pika、RunwayML和Stable Video進行對比后發現,在輸入相同的提示后,其他主流工具生成的視頻都大約只有5秒鐘,Sora可以在一段長達17秒視頻場景中,保持動作和畫面一致性。

英偉達人工智能研究院首席研究科學家Jim Fan也對Sora的能力發出感嘆,稱這是視頻生成領域的GPT-3時刻。他表示,Sora是一個“數據驅動的物理引擎”,一個可學習的模擬器或“世界模型”。360集團創始人、董事長周鴻祎則稱,隨著Sora的到來,人類離AGI真的就不遠了,不是10年、20年的問題,可能一兩年很快就可以實現。

在隨后發布的技術報告中,OpenAI介紹了Sora的強大性能以及背后的支撐技術,也對Sora的局限性進行了客觀的分析!睹咳战洕侣劇酚浾咄ㄟ^梳理,總結出了Sora的六大核心優勢。

從技術上看,Sora有望將數字內容的創造力和真實感提升到新的水平,但凡事總有兩面性,影視、廣告制作和視頻等行業也將面臨嚴重的沖擊。另外,有專家對于技術的迅猛發展也表示出了擔憂,稱這類技術可能會導致“深度偽造”視頻,讓人難以識別,產生濫用等問題。

報告揭秘Sora六大優勢

值得注意的是,Sora推出的同一天,谷歌發布了Gemini多模態模型的更新版本,而三天前,Stability AI推出了新的圖像生成模型Stable Cascade。OpenAI的最新舉動無疑將加劇生成式AI圖片和視頻領域的競爭。

而在Sora推出后不久,OpenAI發布了這款新工具的技術報告。在報告中,OpenAI首先重點介紹了如何將不同類型的視覺數據轉化為統一的格式,以便于對生成模型進行大規模訓練的方法,并對Sora的能力和局限性進行了評價。

《每日經濟新聞》記者對報告進行梳理,總結出了Sora的六大優勢:

(1)準確性和多樣性:Sora可將簡短的文本描述轉化成長達1分鐘的高清視頻。它可以準確地解釋用戶提供的文本輸入,并生成具有各種場景和人物的高質量視頻剪輯。它涵蓋了廣泛的主題,從人物和動物到郁郁蔥蔥的風景、城市場景、花園,甚至是水下的紐約市,可根據用戶的要求提供多樣化的內容。另據Medium,Sora能夠準確解釋長達135個單詞的長提示。

(2)強大的語言理解:OpenAI利用Dall·E模型的recaptioning(重述要點)技術,生成視覺訓練數據的描述性字幕,不僅能提高文本的準確性,還能提升視頻的整體質量。此外,與DALL·E 3類似,OpenAI還利用GPT技術將簡短的用戶提示轉換為更長的詳細轉譯,并將其發送到視頻模型。這使Sora能夠精確地按照用戶提示生成高質量的視頻。

(3)以圖/視頻生成視頻:Sora除了可以將文本轉化為視頻,還能接受其他類型的輸入提示,如已經存在的圖像或視頻。這使Sora能夠執行廣泛的圖像和視頻編輯任務,如創建完美的循環視頻、將靜態圖像轉化為動畫、向前或向后擴展視頻等。OpenAI在報告中展示了基于DALL·E 2和DALL·E 3的圖像生成的demo視頻。這不僅證明了Sora的強大功能,還展示了它在圖像和視頻編輯領域的無限潛力。 (4)視頻擴展功能:由于可接受多樣化的輸入提示,用戶可以根據圖像創建視頻或補充現有視頻。作為基于Transformer的擴散模型,Sora還能沿時間線向前或向后擴展視頻。

(5)優異的設備適配性:Sora具備出色的采樣能力,從寬屏的 1920x1080p 到 豎 屏 的1080x1920,兩者之間的任何視頻尺寸都能輕松應對。這意味著Sora能夠為各種設備生成與其原始縱橫比完美匹配的內容。而在生成高分辨率內容之前,Sora還能以小尺寸迅速創建內容原型。

(6)場景和物體的一致性和連續性:Sora可以生成帶有動態視角變化的視頻,人物和場景元素在三維空間中的移動會顯得更加自然。Sora 能夠很好地處理遮擋問題,F有模型的一個問題是,當物體離開視野時,它們可能無法對其進行追蹤。而通過一次性提供多幀預測,Sora可確保畫面主體即使暫時離開視野也能保持不變。

Sora讓AGI很快實現?

英偉達人工智能研究院首席研究科學家Jim Fan在X平臺發文表示,“如果你還是把Sora看成DALLE那樣的生成式玩具,還是好好想想吧,這是一個數據驅動的物理引擎。他是對許多世界的模擬,無論是真實的還是幻想的。”他認為,Sora是一個可學習的模擬器,或“世界模型”。

在他看來,Sora代表了文本生成視頻的GPT-3時刻。而針對部分稱“Sora并沒有學習物理,僅僅是在二維空間里對像素進行操作”的聲音,他表示,Sora所展現的軟物理仿真實際上是一種隨著規模擴大而出現的特性。Sora必須學習一些隱式的文本到3D、3D 變換、光線追蹤渲染和物理規則,才有可能精確地模擬視頻像素。它必須理解游戲引擎的概念,才有可能生成視頻。

值得一提的是,有網友在網上評論Sora生成的60秒時尚女子在東京街頭散步時稱,“gg Pixar(皮克斯動畫制作公司)”(編注:gg為Good Games縮寫,代指“打得好,我認輸”),隨后馬斯克回復,“gg humans(人類)”。

對于Sora的最大優勢,360集團創始人、董事長周鴻祎說,“這次OpenAI利用它的大語言模型優勢,讓Sora實現了對現實世界的理解和對世界的模擬兩層能力,這樣產生的視頻才是真實的,才能跳出2D的范圍模擬真實的物理世界!彼瑫r稱:“一旦人工智能接上攝像頭,把所有的電影都看一遍,把YouTube和TikTok的視頻都看一遍,對世界的理解將遠遠超過文字學習,一幅圖勝過千言萬語,這就離AGI真的就不遠了,不是10年、20年的問題,可能一兩年很快就可以實現!

影視等行業面臨顛覆

然而,Sora在帶來無限可能的同時,也將對部分行業產生巨大的影響,包括影視、廣告制作、教育、游戲、新聞和動畫等領域。

談及Sora的行業沖擊時,Jim Fan評價道,Sora的物理學理解目前還是脆弱的,遠非完美。它仍然會產生幻覺,生成與物理常識不符的事物,還沒有很好地掌握物體交互的原理。

周鴻祎對此也深以為然,他指出,AI不一定那么快顛覆所有行業,但它能激發更多人的創作力。他表示,“Sora只是小試牛刀,它展現的不僅僅是一個視頻制作的能力,而是大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破!

他解釋說,“機器能生產一個好視頻,但視頻的主題、腳本和分鏡頭策劃、臺詞的配合,都需要人的創意至少需要人給提示詞!彼麖娬{,科技競爭最終比拼的是人才密度和深厚積累。

而對于Sora存在的弱點,OpenAI也明確指出,它可能難以準確模擬復雜場景的物理原理,并且可能無法理解因果關系。該模型還可能混淆提示的空間細節,例如混淆左右,并且可能難以精確描述隨著時間推移發生的事件,如遵循特定的相機軌跡。而這些缺陷可能導致Sora生成一些不合邏輯的東西,比如一個人在跑步機上跑錯方向,以不自然的方式改變主題,甚至出現憑空消失現象。

濫用仍是最大的擔憂

隨著名人等人物的深度造假視頻在網上變得越來越普遍,相應的倫理和安全問題也讓人心驚。

Gartner 分 析 師 Arun Chandrasekaran表示,“鑒于這項技術確實非常新,他們必須對其進行充分控制,以防止其被濫用和誤用,甚至客戶在沒有認識到這項新興技術所有局限性的情況下使用它!彼a充道,OpenAI為該模型設置的防護措施以及確定誰可以獲得訪問權限至關重要。

牛津互聯網學院客座政策研究員Mutale Nkonde也表示,任何人都可以輕松地將文本轉換為視頻這一想法令人興奮。但同時,她也擔心這些工具可能會植入社會偏見等內容,對人們生計造成影響等。

普林斯頓大學計算機科學教授Arvind Narayanan對此也有擔憂,認為Sora這類技術可能會導致“深度偽造”視頻,讓人們難以識別。雖然AI制作的視頻仍會有一些不一致的地方,但普通人可能不會注意到這些細節。“遲早,我們需要適應現實主義不再是真實性的標志這一事實!

編 輯:章芳
聲明:刊載本文目的在于傳播更多行業信息,本站只提供參考并不構成任何投資及應用建議。如網站內容涉及作品版權和其它問題,請在30日內與本網聯系,我們將在第一時間刪除內容。本站聯系電話為86-010-87765777,郵件后綴為#cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
工信部辛國斌:2023年全國行政村通5G覆蓋超過80%
精彩專題
CES 2024國際消費電子展
2023年信息通信產業盤點暨頒獎禮
飛象網2023年手機評選
第24屆中國國際光電博覽會
CCTIME推薦
關于我們 | 廣告報價 | 聯系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像
主站蜘蛛池模板: 楼承板-开闭口楼承板-无锡海逵楼承板 | 灌装封尾机_胶水灌装机_软管灌装封尾机_无锡和博自动化机械制造有限公司 | 懂研帝_专业SCI论文润色机构_SCI投稿发表服务公司 | 顶空进样器-吹扫捕集仪-热脱附仪-二次热解吸仪-北京华盛谱信仪器 | 深圳宣传片制作-企业宣传视频制作-产品视频拍摄-产品动画制作-短视频拍摄制作公司 | 太平洋亲子网_健康育儿 品质生活 | 南溪在线-南溪招聘找工作、找房子、找对象,南溪综合生活信息门户! | 河南卓美创业科技有限公司-河南卓美防雷公司-防雷接地-防雷工程-重庆避雷针-避雷器-防雷检测-避雷带-避雷针-避雷塔、机房防雷、古建筑防雷等-山西防雷公司 | 众品家具网-家具品牌招商_家具代理加盟_家具门户的首选网络媒体。 | 我爱古诗词_古诗词名句赏析学习平台| 空气弹簧|橡胶气囊|橡胶空气弹簧-上海松夏减震器有限公司 | R507制冷剂,R22/R152a制冷剂厂家-浙江瀚凯制冷科技有限公司 | 宠物店加盟_宠物连锁店_开宠物店-【派多格宠物】| 便携式谷丙转氨酶检测仪|华图生物科技百科 | 广州食堂承包_广州团餐配送_广州堂食餐饮服务公司 - 旺记餐饮 | 水质监测站_水质在线分析仪_水质自动监测系统_多参数水质在线监测仪_水质传感器-山东万象环境科技有限公司 | 产业规划_产业园区规划-产业投资选址及规划招商托管一体化服务商-中机院产业园区规划网 | 骨龄仪_骨龄检测仪_儿童骨龄测试仪_品牌生产厂家【品源医疗】 | 气胀轴|气涨轴|安全夹头|安全卡盘|伺服纠偏系统厂家-天机传动 | 胃口福饺子加盟官网_新鲜现包饺子云吞加盟 - 【胃口福唯一官网】 | 暖气片十大品牌厂家_铜铝复合暖气片厂家_暖气片什么牌子好_欣鑫达散热器 | 东莞画册设计_logo/vi设计_品牌包装设计 - 华略品牌设计公司 | 大流量卧式砂磨机_强力分散机_双行星双动力混合机_同心双轴搅拌机-莱州市龙跃化工机械有限公司 | 湖南档案密集架,智能,物证,移动,价格-湖南档案密集架厂家 | 瓶盖扭矩测试仪-瓶盖扭力仪-全自动扭矩仪-济南三泉中石单品站 | 高铝砖-高铝耐火球-高铝耐火砖生产厂家-价格【荣盛耐材】 | 中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折! | 南京交通事故律师-专打交通事故的南京律师 | 包装机_厂家_价格-山东包装机有限公司 | 东莞办公家具厂家直销-美鑫【免费3D效果图】全国办公桌/会议桌定制 | 太原装修公司_山西整装家装设计_太原室内装潢软装_肖邦家居 | 合肥仿石砖_合肥pc砖厂家_合肥PC仿石砖_安徽旭坤建材有限公司 | 美国查特CHART MVE液氮罐_查特杜瓦瓶_制造全球品质液氮罐 | 电机修理_二手电机专家-河北豫通机电设备有限公司(原石家庄冀华高压电机维修中心) | 室内室外厚型|超薄型|非膨胀型钢结构防火涂料_隧道专用防火涂料厂家|电话|价格|批发|施工 | 过跨车_过跨电瓶车_过跨转运车_横移电动平车_厂区转运车_无轨转运车 | 知网论文检测系统入口_论文查重免费查重_中国知网论文查询_学术不端检测系统 | 东莞精密模具加工,精密连接器模具零件,自動機零件,冶工具加工-益久精密 | 新能源汽车电池软连接,铜铝复合膜柔性连接,电力母排-容发智能科技(无锡)有限公司 | 转子泵_凸轮泵_凸轮转子泵厂家-青岛罗德通用机械设备有限公司 | 不锈钢电动球阀_气动高压闸阀_旋塞疏水调节阀_全立阀门-来自温州工业阀门巨头企业 |