手机彩票网

“ROBIO2021最佳論文提名獎”研究工作分享:超聲機器人運動技能的預測策略

作者:本站編輯點擊:7527時間:2021-12-31

 在剛剛召開的2021年的機器人會議IEEEInternational Conference on Robotics and Biomimetics(ROBIO)上,手机彩票网李淼老師團隊的論文“Learning Robotic Ultrasound Scanning Skills via Human Demonstrationsand Guided Explorations”提名“T.J. Tarn Best Paper Award”獎項。該團隊以實現自主機器人超聲檢查為最終目標,提出了基于模仿學習的機器人多模態操作技能學習框架。通過示教學習(Learning from Demonstration)超聲醫生的操作手法,建立多模態的任務建模,為超聲機器人的運動預測提供了一種通用策略。通過與武漢協和醫院,武漢庫柏特科技、華南理工大學以及香港中文大學的緊密合作,該團隊共同合作近期在機器人自主超聲研究取得了一系列的突破進展,并希望在未來圍繞機器人模仿學習,讓更多的機器人具備超聲醫生專家的靈巧操作技能。(http://mp.weixin.qq.com/s/OVs4x_gzV_uFc2MgTJYPrw)

 作為臨床檢查的重要手段之一,傳統醫療超聲成像技術面臨的主要問題為:長期重復性工作造成超聲醫師的肌體勞損;較長的培訓周期導致專業超聲醫師的缺口持續增大;面對新冠疫情等傳染性疾病,醫患隔離的需求難以滿足。隨著人工智能和機器人的不斷發展與成熟,醫療超聲機器人成為克服傳統醫學超聲中普遍性問題的必然趨勢,如圖1所示。

圖1

 常見的超聲機器人系統如圖2(a)所示,該系統包括:(a)超聲儀器,(b)筆記本電腦,(c)協作機械臂,(d)六維力傳感器,(e)超聲探頭,(f)仿體皮膚,(g)視頻采集設備。自主式超聲機器人系統的任務為:如何使機器人自動完成高質量超聲圖像的采集任務。該任務的難點與挑戰在于,對超聲探頭的靈巧控制屬于多模態問題,涵蓋了包括超聲圖像、探頭位置與姿態、探頭與皮膚接觸力等關鍵因素,如圖2(b)所示。與此同時,人機交互中的諸多不確定性因素也是系統魯棒控制與自主決策過程中所面臨的障礙。因此,自主式超聲機器人是全球機器人與人工智能團隊所面臨的一項困難且有意義的挑戰。

(a)

(b)

圖2

 如圖3所示,現有的超聲機器人運動預測策略可以分為三類:人為決策引導,圖像信號引導,多模態信息融合。其中,人為決策引導的策略主要包括遙操作、場景模型、預成像模型等方法;圖像信號引導的策略主要包括超聲置信圖、深度學習、強化學習等方法。受限于信息感知維度和模型智能程度,上述的運動預測策略均難以實現對真實超聲機器人的魯棒控制和智能引導。因此,綜合考慮超聲任務的復雜性,多模態信息融合的運動引導策略具備更完整的認知能力和更復雜的決策能力,從而保證了任務模型的現實意義和臨床意義。

圖3

 在此背景下,武漢大學李淼老師的科研團隊嘗試從對象模型入手,將臨床超聲檢查中的關鍵因素概括為多模態超聲技能模型,具體包括:超聲圖像,探頭位置與姿態,探頭與人體皮膚接觸力。如圖4所示,利用卷積神經網絡和全連接神經網絡對多模態信號做編碼處理,并拼接成為超聲任務中的狀態特征向量。任務模型中的動作網絡最終根據特征向量完成對超聲機器人系統的實時運動引導。

圖4

 在多模態信息融合的任務場景下,實現超聲探頭運動預測的神經網絡結構如圖5所示。前置網絡為并行信息融合通道,其輸入信號為超聲圖像、探頭姿態以及接觸力。值得注意的是,在輸入信號中刻意隱去超聲探頭的位置信號,由此指導神經網絡學習從超聲圖像中提取位置信息的能力,以增強任務模型的泛化能力。后置網絡接收狀態特征向量,并輸出超聲探頭的動作值,包括位置和姿態的調整差值。

圖5     

 但是,圖5所示的神經網絡只能根據當前系統狀態給出預測的動作值,卻缺乏任務認知能力,即無法感知動作的優劣程度。上述問題進一步限制了模型在真實系統中的可行性,也完全摒除了模型順應環境而優化策略的能力。這也是其他機器學習方法所面臨的普遍性問題:若要獲得具有高維決策能力的策略模型,常用的方法包括模仿學習和強化學習。一方面,端對端的模仿學習通常不具備后優化能力,即模型在學習了示教數據后,很難在環境交互任務中繼續完成策略的優化;另一方面,強化學習雖然可以在環境交互任務中繼續優化策略,以逐漸順應不斷變化的動態環境,但由于缺乏兼具超聲多模態成像原理的仿真環境,使得現有的相關工作距離真實系統還有一段距離。此外,雖然逆強化學習和生成對抗模仿學習等方法能夠保證模型從示教任務中學習,并在交互任務中優化,但是在真實系統下的可行性與穩定性仍需要更深入的研究與探索。

為了解決上述問題,可在神經網絡具備任務認知能力的基礎上,結合引導探索完成預訓練模型的后優化。如圖6所示,保留預訓練模型對多模態信號的編碼過程,并引入狀態評價網絡以彌補任務的認知能力。具體做法為,在完成任務示教后增加適當的二分類標簽,其中正、負標簽表示“可接受”或“不能接受”的狀態,在超聲任務中則依據“當前圖像是否為目標超聲圖像”進行劃分。當狀態評價網絡能夠完成狀態分類任務后,可由當前狀態的置信度(正標簽的概率)作為模型在真實系統中表現的判斷依據,并結合引導探索完成模型的策略優化。

圖6

 如圖7所示為基于引導探索的策略優化方式。在真實的人機交互場景中,由預訓練模型自主完成整個超聲檢查流程,而對于部分低獎勵動作,模型可以結合專家在線示教的動作,以不斷優化自身策略。其關鍵之處在于,預訓練模型對于置信度計算可以作為獎勵函數,由此比較人類動作與模型動作的獎勵值,并進一步學習高獎勵動作以在線更新模型策略,最終完成模型的后續優化。

圖7

圖8

 圖8展示了模仿學習中的示教過程。在示教任務中,專業超聲醫師以超聲儀器的圖像為主要參考,結合探頭的位置、姿態、接觸力做出適當的調整,最終獲取目標器官居中且呈像清晰的高質量超聲圖像,如圖9所示。采用馬爾可夫過程對每一條示教軌跡進行離散記錄,并在每一條軌跡完成后由專業超聲醫師補充二分類標簽。

圖9
        模仿學習的預訓練過程如圖10所示。在測試集的動作回歸任務中,預訓練模型的表現較好,不僅能夠預測出各種狀態下的位置差值和姿態差值,而且依時序輸出的動作值更加平滑,避免了示教數據記錄過程中由均勻采樣引起的數值突變,如圖10(b-h)所示。但是,圖10(a)所示的損失曲線也說明模型在預訓練過程中有過擬合趨勢,即預訓練模型的任務理解能力和泛化能力不足,最終導致該模型在實際場景中的表現欠佳。上述問題將由結合引導探索的模型后優化方式解決。

圖10

 將預訓練模型部署到真實超聲機器人系統中,并在真實場景的交互實驗中完成引導探索,以驗證引導探索優化方式的可行性與有效性。如圖11所示,預訓練模型(a)在真實系統中存在過度運動的趨勢,對任務的理解能力與決策能力不足;在引導探索的過程中,對模型的參數進行了100次更新,優化模型(b)在實機實驗中能夠以平滑的動作獲取高質量超聲圖像。兩次任務中的置信度變化曲線如圖12所示,優化模型的啟動時間和動作平滑度均明顯優于預訓練模型,而且能夠更快速地定位并保持在目標狀態。由此證明,所提出的引導探索優化策略能夠以少量數據而顯著改善預訓練模型的任務表現能力。

   圖11 

   圖12

 武漢大學李淼老師團隊為自主式超聲機器人的運動預測提供了一種泛用框架。首次對超聲掃查過程中的多模態問題進行分析歸納,提出了現階段最為完備的超聲技能學習模型。在此基礎上,提出用模仿學習的方式使得模型學習專家示教數據以快速掌握部分任務策略。最后,針對現階段強化學習和模仿學習均未解決的模型后優化問題,提出由引導探索的完成模型的在線優化。實驗證明,上述方法聚焦于超聲任務的本質特征而不依賴于某一具體機器人系統,模型即能夠快速掌握部分示教任務技能,同時也能憑借少量的引導探索而獲得顯著的改善。該團隊表示,未來將更加深入地完善現有的模型與方法,推薦自主式超聲向著臨床方向發展。

 
論文鏈接:
http://arxiv.org/abs/2111.09739;http://arxiv.org/abs/2111.01625
聯系作者:
miaoli@anakentkoleji.net; dengxutian@anakentkoleji.net
視頻地址:
http://www.bilibili.com/video/BV1tb4y1B7x1;http://www.bilibili.com/video/BV15a411677P