飛象原創(魏德齡/文)在2025MWC上海,早已對機器人演示項目司空見慣的觀眾,卻在不斷對著移遠通信展臺前的一臺產品進行對話交互。
這臺機器人詮釋了關于“火種”與“變形金剛”間的故事,讓很多業內人士開始考量,自己的傳統設備是否也需要加上一個“靈魂大腦”,來實現語音交互、信息查詢與指令執行等一系列功能。
對此,不妨先從系統架構的角度來剖析下,這臺機器人是如何擁有了“靈魂大腦”的。
當機器人有了“靈魂大腦”
觀眾之所以能聯想到自身行業的機器人產品升級,關鍵在于移遠通信展示的機器人采用了一套融合方案,即機器人本體為逐際動力提供,通過連接一塊搭載移遠高算力AI模組SG885G、集成端側本地模型的主控板,來幫助機器人解決思考與下達指令的問題。在實現交互方面,則配置麥克風陣列和喇叭,從而實現對現場觀眾的語音感知。
移遠通信在2025MWC上海期間發布的“Robrain AI機器人解決方案”,如同“火種”一樣,迅速讓機器人獲得“靈魂大腦”。該方案采用創新的端云協同架構及麥克風陣列拾音技術,深度融合端側智能與云端大模型優勢,賦予機器人接近人類的“思考”與“傾聽”能力。有效攻克了AI模型定制、輕量化部署及低延遲交互響應等關鍵挑戰,推動機器人從“機械執行”躍升為“主動感知、智能思考、自然交流”的AI智能體。
據了解,本次的演示機器人采用的是一套輕度融合方案,好處在于整合容易,相當于只需為固有設備提供一顆“大腦”,可以選擇內置在本體或外掛,就能讓機器人擁有“靈魂”,由于各模塊相對獨立,系統對接簡單。
同時,移遠通信還提供深度融合方案,采用一體化軟硬件設計。在依舊沿用機器人本體的情況下,將機器人大腦主板與小腦主板合二為一。盡管需要產品人員具有一定開發能力,但整機可靠性更高,在生產過程中也更具成本優勢。
而對于機器人的最終體驗好壞與否來說,在融合方案內部的“超級大腦”與“順風耳”到底能夠發揮怎樣的作用正是關鍵所在。
當“超級大腦”遇上“順風耳”
從演示機器人的運轉流程來看,主要分為三個部分:感知、決策、執行。
由于機器人采用語音交互的方式,所以在感知層需要進行前端聲學處理,降低會場中的雜音,確定正在進行交流的聲源內容,最終將準確的信息內容傳遞給決策層。
在決策層通過意圖識別后,通過移遠端&云混合大模型進行指令處理,端側大模型與RAG本地知識庫結合,確保實時控制中的快速反應與準確作答,云端大模型的接入讓用戶的一些查詢、提問能夠通過聯網獲取信息。
最終處理完的控制指令將通過機器人執行,機器人也能以語音播報的形式進行反饋。
顯然,感知層的“順風耳”與決策層“超級大腦”的產品能力,塑造了冰冷機器人的“有趣靈魂”。
“Robrain AI機器人解決方案”還擁有全鏈路音頻處理能力,讓機器人能夠“聽得見”,更能“聽得清”。以2025MWC上海的會場環境為例,現場有著嘈雜的人聲,不同展臺的喇叭也在不時播放著自家的宣傳,在巨大的室內環境中還存在著回聲問題;同時,機器人內部也會在運轉過程中伴有震動、電機、風扇等噪音。
移遠通信Robrain AI機器人解決方案通過“麥克風陣列拾音+全鏈路音頻算法”,為機器人添上了“順風耳”的功能。6麥克風均勻分布在設備的圓環上,可以360度全向拾音,最大收錄距離可達10米,喚醒率高達95%,±10.0°的DOA精度可以確保聲源區域被增強。
有效的聲音信號被收集后,相關算法會首先去除其中的干擾信號以及密閉空間中的回聲,并通過AI降噪獲得單純的人聲,同時還會自動調節音頻增益,讓輸出音量保持在合適的幅度。
“回聲消除、聲源定位、波束成型、降噪、去混響、自動增益以及語音喚醒等一系列前端數據處理,確保了大模型識別的準確率。”移遠通信產品經理王宗武表示。
當清晰明了的聲音內容輸入到“超級大腦”后,Robrain AI機器人解決方案中的端&云混合大模型同樣分工明確。其中,為了讓機器人能夠如同真人一樣在溝通交流中做出及時反饋,并且不依賴于網絡環境,85%的運算將在端側大模型進行,做到時延小于1秒,并且不占用過多算力資源。對于一些與產品相關的問題,端側大模型還能讀取本地RAG知識庫,滿足商業化需求,減少通用大模型在專業領域容易出現的“幻覺”問題。移遠通信產品經理王柯將這一過程比喻為:“大模型在本地進行‘開卷考試’,機器人如同自帶一個本地學霸。”從成本側考慮,RAG的方式也比企業根據自身數據內容進行私域訓練耗費資源更少,且落地更快。
方案中的云端大模型則提供了擴充整體方案的能力,通過與通用大模型進行合作,可以輕松接入互聯網資源,幫助進行內容搜索、新聞播報,或提供影音娛樂服務。例如在2025MWC上海的展區演示中,當現場觀眾詢問“明天天氣怎么樣?”的時候,演示機器人能夠快速做出回答。
實際上,移遠通信在2025MWC上海展示的機器人并非“超級大腦”+“順風耳”這對天作之合的孤例。依托移遠通信端側AI整體解決方案,今年3月聯合德壹所發布的全能王AI具身機器人,在無需理療師介入、無網絡連接的環境下,可快速且準確地理解用戶通過自然語言提出的指令和意圖,高效完成通用聊天、醫療領域RAG問答、指令控制等任務。該機器人搭載高通QCS8550平臺,其意圖識別小于1s、Prefill時間小于2s,同時,超過15 tokens/s解碼速率也確保了交互的實時性。
正如這臺能夠代替一定理療師工作的機器人,當具身智能來到生活中的每個場景,移遠通信正在準備將這對“天作之合”的能力進行進一步升級。
當具身智能走向未來
“我的個人建議是把大模型當做人一樣。”王柯表示,大模型方案將在如今文本和語音基礎上,引入視覺能力的支持,屆時,機器人將能夠通過視覺看到交流者的表情,從而提升和擴展方案的適用性。與此同時,在與多名對象的交流過程中,視覺也能幫助機器人更好地判斷說話人的轉換。最終,視覺將與文本、語音一并,構成機器人的多模態感知能力。
移遠通信還正在思考,如何解決當前Transformer架構下的主流大模型對算力內存消耗比較大的問題。目前正在關注非Transformer架構的RWKV大語言模型,并已在SG885G模組上成功運行RWKV7模型,將為機器人帶來更高效、內存占用更小的能力。
在語音交互的演進方面,移遠通信同樣聚焦在多維感知的方向上。例如,在目前的交互開啟環節,語音喚醒還只是基礎層面,如果需要能夠鎖定個人對象的識別開啟,就需要引入聲紋識別或人臉喚醒。同時,聲紋或聲源與人臉、人體的結合,更有利于保持交互狀態,從而做出更準確的語義判斷。人臉鎖定功能也可以在多人對話中,通過重新鎖定人臉來切換對話信息的收集。另外,在最后結束交互的環節,移遠通信也正在讓機器人能夠以比較友好的方式進行表達,比如說“我累了”或“我想休息了”。
當“超級大腦”遇上“順風耳”,正在如同兒時動畫片中的“火種”一般,為眾多機器人賦予全新的智能靈魂,讓冰冷的機身展現出思考與表達的“火花”。隨著具身智能開始走向生活中的每一個角落,移遠通信也正在推動兒時的科幻想象成為美好現實。