全國服務熱線:
400-155-6825
具身智能(Embodied AI)是指機器人能夠通過其物理形態(tài)與環(huán)境的交互,進行感知、學習、決策和執(zhí)行,從而完成復雜任務的能力。具身智能強調機器人不僅要具備感知環(huán)境和分析數(shù)據(jù)的能力,還要能夠通過身體的行為和物理互動來適應環(huán)境變化,做出實時響應。

具身智能的特性包括自主性、適應性、學習能力和環(huán)境互動能力。在工業(yè)能源領域,智能巡檢機器人需要面對多樣化的設備、復雜的環(huán)境和不可預測的狀況,因此,具身智能特性使得機器人能夠應對這些挑戰(zhàn),通過自主巡航、實時避障、故障檢測與預測、環(huán)境變化的應對等功能,提升巡檢任務的效率和準確性。本文將從具身智能技術在巡檢及操作任務上以及在導航上的應用兩方面進行分析。
具身智能技術在巡檢及操作任務上的應用
機器人在進行巡檢任務時,以超維第三代室內輪式巡檢機器人為例:

機器人在進行操作任務時,以超維第二代操作機器人為例:

痛點問題:
痛點1:針對新客戶的不熟悉的現(xiàn)場,需重新訓練每一個模型,并重新部署,交付成本高。
痛點2:老客戶升級設備,或更換操作部件,仍需要重新訓練每一個小模型,維護成本高。
痛點3:巡檢機器人攝像頭更換或圖像的分辨率改變,模型都存在識別率降低或不識別的風險,仍需重新訓練每一個模型。
基于小模型的方案算力需求小,好部署,但魯棒性差,維護成本高,適合在數(shù)據(jù)不足時的開發(fā)。

得益于超維機器人在工業(yè)和能源領域多年數(shù)據(jù)積累,在開源的通用檢測大模型GLEE的基礎上,公司二次開發(fā)了應用于工業(yè)和能源場景的圖像處理大模型。

根據(jù)操作業(yè)務及機械臂自動手眼標定需求,我們獨立設計了3d深度估計的decode模塊,實現(xiàn)了模型對深度的估計.GLEE并未包含圖像的匹配模塊。我們根據(jù)模型所提取的圖像特征輸出,設計了獨立GNN(Graph Neural Network)模塊,同時考慮圖像上關鍵點的特征和位置信息,實現(xiàn)了圖像匹配功能。以下為我們采用大模型后,各個任務指標的對比:

具身智能技術在導航上的應用
機器人在執(zhí)行巡檢和操作任務時,對導航的精度要求很高,一般要求誤差在±5cm內,姿態(tài)誤差在±3°內。
目前常用的感知定位方案
SLAM導航痛點:
痛點1:在缺乏特征的場景下,相機和激光雷達的信息用傳統(tǒng)的方法很難提取到有效的特征。例如在空曠的場景,例如田野,大的較為空曠的變電站,或室內特征相同的走廊通道,室外的林蔭道等。
痛點2:
在極端天氣下,如雨雪,大霧等天氣,激光雷達和相機的工作受限,無法準確定位。
痛點3:
在環(huán)境變化的場景下,如設備升級改造,場地施工等情況下,原有的建圖與目前的激光雷達和相機的感知結果不匹配,機器人導航定位就會丟失位置,無法導航。
痛點4:
在光照變化在環(huán)境變化的場景下,如設備升級改造,場地施工等情況下,原有的建圖與目前的激光雷達和相機的感知結果不匹配,機器人導航定位就會丟失位置,無法導航。比較劇烈的情況下,利用傳統(tǒng)機器視覺無法提取的圖像特征信息,從而降低了感知定位的精度。
基于超維機器人開發(fā)的視覺大模型,采用自研的圖像匹配模塊,有效提高了處理圖像信息的魯棒性。目前能有效保證機器人在白天和黑夜有燈光情況下的巡檢任務的精度需求。
采用圖優(yōu)化神經(jīng)網(wǎng)絡(GNN)開發(fā)了3d點云的匹配方案,當場景變化時,在線更新地圖。
未來重點研發(fā)方向:具身智能操作機器人
核心技術:
1、感知與交互技術:多模態(tài)感知,自然語言及手勢識別等交互;
2、決策與規(guī)劃技術:通常基于深度學習等算法,能夠處理復雜的任務和問題,并具備一定的泛化能力
3、運動控制技術:通過運動控制算法、驅動電機,實現(xiàn)對機器人的精準控制和穩(wěn)定運動。
應用場景:
工業(yè)、能源等高危復雜場景
工作計劃
巡檢任務方面:研發(fā)統(tǒng)一視覺和語音信息的大模型,實現(xiàn)巡檢任務,(包括巡檢,語音識別和智能問答任務)的全流程的端到端模型,減少模型對算力的需求,降低部署成本,同時提高語音識別的準確率。
導航定位方面:研究整體的基于激光雷達,imu和視覺的端到端的神經(jīng)網(wǎng)絡導航模型,提高在不同極端天氣下模型的魯棒性。特斯拉的FSD模型有重要的參考左右,但其定位精度為10cm,需在它的基礎上融合雷達,imu和gps信號,實現(xiàn)定位精度3cm內的需求。