Robotiq的夾爪在使用觸覺智能技術(shù)抓取和操作物體
要讓機(jī)器人能夠抓取任何物體,不止需要好視力,還需要更好的觸覺感知能力。
(圖片:Robotiq的夾爪在使用觸覺智能技術(shù)抓取和操作物體)
將一個(gè)物體拿起來的作業(yè)任務(wù),并不像它看起來的這么簡單——至少對機(jī)器人來說是這樣的。機(jī)器人專家一直致力于開發(fā)能夠抓取任何東西的機(jī)器人,但時(shí)至今日大部分機(jī)器人只能進(jìn)行“盲抓”,也就是每次只能重復(fù)地從同一個(gè)位置抓取同樣的物體。如果任何條件發(fā)生了變化,例如物體的形狀、表面肌理或者物體的位置,機(jī)器人就會(huì)不懂得如何對變化做出響應(yīng),抓取的任務(wù)很有可能就會(huì)失敗。
要讓機(jī)器人在次嘗試就能完美地抓取任何物體,還有很長的路要走。為什么抓握物體的任務(wù)會(huì)成為這樣的難題呢?人類在嘗試抓取物體時(shí),會(huì)組合運(yùn)用各種感知能力,基礎(chǔ)的就是視覺和觸覺。但直到目前,大部分解決機(jī)器人抓握問題的嘗試都只把注意力放在機(jī)器人的視覺感知上。
我*以來都在關(guān)注在機(jī)器人抓握技術(shù)上取得的重要進(jìn)步?,F(xiàn)在我已經(jīng)傾向于認(rèn)為,像目前研究那樣只關(guān)注機(jī)器人的視覺感知能力是不可能完美的解決抓握問題的。除了視覺,機(jī)器抓握問題的未來還需要另一種技術(shù):觸覺智能。
只關(guān)注視覺是不可能讓機(jī)器人達(dá)到類似人類的抓握能力,因?yàn)殡m然視覺在抓取過程中很重要(例如需要確定抓取的目標(biāo)物體),但只視覺不能告訴你在抓取過程中所需要的所有信息。想想史蒂文.平克教授(Steven Pinker)如何描述人類的觸覺所能完成的壯舉:“假設(shè)你要拿起一盒牛奶,如果抓的不夠緊,它就會(huì)掉下來,如果抓的太緊,又會(huì)把它擠爆;拿起牛奶后輕輕搖晃它,你甚至可以用指尖的觸覺來估測盒子里有多少牛奶!”(引自《意識如何工作》(How the Mind Works)一書)由于機(jī)器人缺少這些感知能力,所以即使在如抓取和放置物品這種簡單的事情上也遠(yuǎn)遠(yuǎn)落后于人類。
我在加拿大蒙特利爾的École de Technologie Supérieure(ETS)學(xué)院控制與機(jī)器人實(shí)驗(yàn)室(CoRo)觸覺與機(jī)電一體化研究小組的研究,而且是位于魁北克一家機(jī)器人公司Robotiq的合伙人,因此我*以來都在關(guān)注在機(jī)器人抓握技術(shù)上取得的重要進(jìn)步。現(xiàn)在我已經(jīng)傾向于認(rèn)為,像目前研究那樣只關(guān)注機(jī)器人的視覺感知能力是不可能完美的解決抓握問題的。除了視覺,機(jī)器抓握問題的未來還需要另一種技術(shù):觸覺智能。
先前的研究都只關(guān)注視覺,而不是觸覺智能
到目前位置,大部分關(guān)于機(jī)器人抓握的研究都在基于機(jī)器人獲得的視覺反饋嘗試建立人工智能。其中一種方法就是通過數(shù)據(jù)庫進(jìn)行圖像匹配,這種方法被用于布朗大學(xué)人類與機(jī)器人實(shí)驗(yàn)室(Humans to Robots Lab)的Million Objects Challenge項(xiàng)目中。機(jī)器人使用攝像頭來感知目標(biāo)物體,同時(shí)監(jiān)測自身的動(dòng)作,以此來嘗試抓取物體。在這一過程中,機(jī)器人會(huì)將實(shí)時(shí)的視覺信息與儲(chǔ)存在數(shù)據(jù)庫中的3D掃描圖像進(jìn)行比對。一旦找到匹配的圖像信息,機(jī)器人就能找出對應(yīng)當(dāng)前情況的抓取算法。
布朗大學(xué)的研究方法要旨在于搜集各種不同物體的視覺信息,但研究人員不可能建立一個(gè)關(guān)于機(jī)器人可能遇到的所有物體的龐大數(shù)據(jù)庫。而且,這種通過數(shù)據(jù)庫匹配的方法沒有考慮環(huán)境的限制,因此機(jī)器人無法根據(jù)環(huán)境的變化采取相應(yīng)地抓取策略。
還有的研究人員借助機(jī)器學(xué)習(xí)來改進(jìn)機(jī)器人抓握技術(shù)。這些技術(shù)可以允許機(jī)器人從過去的經(jīng)驗(yàn)中學(xué)習(xí),終機(jī)器人可以自己找出抓取物體的非常好的方法。而且與數(shù)據(jù)庫匹配的方法不同,機(jī)器學(xué)習(xí)只需要預(yù)設(shè)極少的先驗(yàn)知識。這種情況下機(jī)器人就不需要借助一個(gè)預(yù)制好的圖像數(shù)據(jù)庫——它們只需要足夠的練習(xí)。
正如今年IEEE Spectrum(《科技縱覽》雜志)報(bào)導(dǎo)過的,谷歌近進(jìn)行了一次機(jī)器抓握技術(shù)的實(shí)驗(yàn),將視覺系統(tǒng)與機(jī)器學(xué)習(xí)相結(jié)合。在過去,研究者試圖通過教會(huì)機(jī)器人運(yùn)用人類認(rèn)為非常好的抓取方法來改進(jìn)機(jī)器人的抓握能力。而谷歌研究的大突破在于展示了機(jī)器人的自學(xué)能力——利用深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network)、視覺系統(tǒng)以及大量的數(shù)據(jù)(通過80萬次抓取物體的嘗試)——來讓機(jī)器人從過去的經(jīng)驗(yàn)中學(xué)習(xí)和改進(jìn)它們的抓取能力。
實(shí)驗(yàn)的結(jié)果似乎帶來了很大希望:由于機(jī)器人的行為反應(yīng)不是預(yù)設(shè)好的,可以說它們的進(jìn)步是“在學(xué)習(xí)中自然出現(xiàn)的”(其中一位研究人員如是說)。但視覺所能反饋給機(jī)器人關(guān)于抓取的信息也是很有限的,谷歌可能已經(jīng)到了這一限制的邊緣。
只關(guān)注視覺帶來的一些問題
有三個(gè)主要的理由能夠說明為什么谷歌和其他人遇到的難題只依靠視覺是難以克服的。首先,視覺本身就有許許多多技術(shù)上的限制。即使非常高水平的視覺系統(tǒng),在某些光的條件下(例如半透明、高反射以及低對比度的顏色)或者物體尺寸太薄的情況下,也會(huì)發(fā)生物體感知的困難。
視覺本身就不適合用于解決這一問題:抓握任務(wù)是關(guān)于接觸與力學(xué)的,在視覺上很難被監(jiān)控。視覺多可以告訴機(jī)器人什么樣的手指姿勢非常有可能抓取成功,但機(jī)器人終還是需要觸覺上的信息。
第二,很多抓握的任務(wù)會(huì)遇到很難看清目標(biāo)物體全貌的情況,因此視覺通常無法提供機(jī)器人所需的全部數(shù)據(jù)。如果一個(gè)機(jī)器人試圖從桌子上抓取一塊木塊,一個(gè)簡單的視覺系統(tǒng)只能探測到木塊的頂面,機(jī)器人無法得知木塊的另一面是什么樣子的。在諸如容器抓取這種更為復(fù)雜的任務(wù)中,目標(biāo)物體可能被周圍的物體部分或全部遮蓋住。
后也是重要的,視覺本身就不適合用于解決這一問題:抓握任務(wù)是關(guān)于接觸與力學(xué)的,在視覺上很難被監(jiān)控。視覺多可以告訴機(jī)器人什么樣的手指姿勢非常有可能抓取成功,但機(jī)器人終還是需要觸覺上的信息,這樣才能獲取與抓握任務(wù)相關(guān)的物理數(shù)據(jù)。
觸覺智能能帶來什么幫助
在人類抓握和操作物體時(shí),觸覺扮演著主要角色。失去了雙手的截肢者大的痛苦根源之一,就是使用假肢時(shí)無法感知所碰觸的物體。沒有了觸覺,截肢者在完成抓握和操作任務(wù)是,必須給予視覺上*的關(guān)注,而正常人甚至在看不到一個(gè)物體時(shí)也能輕易地把它拿起。
我們需要的是一種方法,能夠把低等的原始數(shù)據(jù)轉(zhuǎn)換為高等的信息,可以讓機(jī)器人具有更好的抓握和操作物體的表現(xiàn)。觸覺智能讓機(jī)器人通過觸摸識別物體是否要滑出、基于觸覺手勢識別物體來預(yù)測抓取物體成功的可能性。(原文大字體加粗)
研究者已經(jīng)意識到觸覺感應(yīng)在抓握任務(wù)中扮演的關(guān)鍵角色,在過去的30年已經(jīng)出現(xiàn)過很多建立模擬人類器官的觸覺感應(yīng)器的嘗試。然而,觸覺感應(yīng)器返回的信號是復(fù)雜的、多維度的,而在機(jī)器手上增加觸覺感應(yīng)器通常不能直接增強(qiáng)抓握能力。我們需要的是一種方法,能夠把低等的原始數(shù)據(jù)轉(zhuǎn)換為高等的信息,可以讓機(jī)器人具有更好的抓握和操作物體的表現(xiàn)。觸覺智能讓機(jī)器人通過觸摸識別物體是否要滑出、基于觸覺手勢識別物體來預(yù)測抓取物體成功的可能性。
在TES學(xué)院的CoRo實(shí)驗(yàn)室,我和同事們正在創(chuàng)建能夠形成新的觸覺智能的代碼。新取得的進(jìn)展是使用壓感圖像來預(yù)測抓取成功與否的機(jī)器學(xué)習(xí)算法。這一系統(tǒng)由 Deen Cockburn和Jean-Philippe Roberge開發(fā),是一個(gè)可以讓機(jī)器人距離人類抓握能力更近一步的系統(tǒng)。人類當(dāng)然是通過觸覺來學(xué)習(xí)某個(gè)手指姿勢是否能夠進(jìn)行正確的抓取行動(dòng),然后我們調(diào)整手指姿勢,直到我們有信心成功地抓取物體。在機(jī)器人能夠?qū)W習(xí)如何調(diào)整手指姿勢之前,它們還需要能夠更好地通過觸覺數(shù)據(jù)來預(yù)測抓取的結(jié)果。
觸覺數(shù)據(jù)是在嘗試抓取不同種類的日常物品過程中獲取的。這些物體是在亞馬遜2015年的抓握挑戰(zhàn)賽(Amazon Picking Challenge)中發(fā)布的物品清單中選取的。
這就是我相信 CoRo實(shí)驗(yàn)室能夠獲得成功的理由。把 Robotiq的機(jī)器手與 Universal Robots UR10操作機(jī)器人結(jié)合起來,增加了若干我們自己建立的多式觸覺感應(yīng)器,還有一個(gè)基于 Kinect設(shè)備的視覺系統(tǒng)(只用于定位每個(gè)物體的幾何中心),我們建成的機(jī)器人可以拿起不同的物體,而且可以根據(jù)獲取到的數(shù)據(jù)進(jìn)行我學(xué)學(xué)習(xí)。終,我們成功地創(chuàng)造了準(zhǔn)確率高達(dá)83%的抓取失敗預(yù)測系統(tǒng)。
CoRo實(shí)驗(yàn)室的另一個(gè)團(tuán)隊(duì),這次由 Jean-Philippe Roberge,專門從事對物體滑出探測的研究。人類可以迅速感受到所抓取的物體要從手中滑出,是因?yàn)槲覀兊氖种负蟹磻?yīng)迅速的機(jī)械運(yùn)動(dòng)感受機(jī)制,我們皮膚中的感受器可以探測到壓力和振動(dòng)的迅速變化。物體滑出會(huì)在我們手的表面產(chǎn)生振動(dòng),所以研究者在機(jī)器學(xué)習(xí)算法中以振動(dòng)圖像(光譜圖表)取代了壓感圖像。使用與在抓取預(yù)測實(shí)驗(yàn)中的同樣配置的機(jī)器人,在系統(tǒng)中加入了在物體滑出過程中學(xué)習(xí)到的振動(dòng)圖像的特點(diǎn),現(xiàn)在它可以以92%的準(zhǔn)確率識別到物體的滑出。
讓一個(gè)機(jī)器人意識到物體的滑出似乎很容易,因?yàn)榛龅倪^程就會(huì)產(chǎn)生一系列的振動(dòng)。但如何讓機(jī)器人分辨由于物體滑出發(fā)生的振動(dòng)和由于機(jī)器人在另一個(gè)表面(如桌面)上拖拽物體而發(fā)生的振動(dòng)呢?我們還不能忘記機(jī)器人手臂的運(yùn)動(dòng)自身也會(huì)產(chǎn)生微小的振動(dòng)。這三種不同的事件會(huì)產(chǎn)生相似的信號,但需要機(jī)器人采取不同的行動(dòng)。識別這些不同的事件就是機(jī)器學(xué)習(xí)的意義所在。
從機(jī)器學(xué)習(xí)的層面上說,CoRo實(shí)驗(yàn)室的兩個(gè)小組有一個(gè)方面是相同的:兩個(gè)小組都不會(huì)為機(jī)器學(xué)習(xí)算法加入人工制定的規(guī)則。換句話說,由機(jī)器人的系統(tǒng)來決定與物體滑出相關(guān)的數(shù)據(jù)(或者預(yù)測抓取結(jié)果的相關(guān)數(shù)據(jù),在抓取預(yù)測實(shí)驗(yàn)小組中),而不是依靠研究者去猜測相關(guān)的數(shù)據(jù)是什么。
“高等特性”在過去總是與人工劃等號,這意味著研究人員會(huì)為滑出事件(或者好或壞的抓取結(jié)果)人為地選擇一些判定特性。例如,他們可能會(huì)替機(jī)器人預(yù)設(shè)一些壓感圖像,用以告訴機(jī)器人只抓一個(gè)物體的很可能會(huì)失敗。但讓機(jī)器人自我學(xué)習(xí)會(huì)得到更準(zhǔn)確的結(jié)果,因?yàn)檠芯咳藛T為機(jī)器人做出的猜測并不一定總能代表真實(shí)情況。
稀疏編碼(sparse coding)在這方面有很大的用處。這是一種無人監(jiān)管的機(jī)器學(xué)習(xí)算法,通過創(chuàng)建一種用以代表新獲取數(shù)據(jù)的“稀疏字典”(sparse dictionary)來實(shí)現(xiàn)。首先機(jī)器人通過光譜圖表(來自原始的壓感圖像)自我創(chuàng)建這樣的字典作為稀疏編碼算法的輸入數(shù)據(jù)。這一算法輸出的還是這一字典,但輸出的字典由代表高級別特性的數(shù)據(jù)組成。然后當(dāng)進(jìn)行了新的抓取嘗試時(shí),會(huì)有新的數(shù)據(jù)輸入,新輸入的原始數(shù)據(jù)又會(huì)通過這一字典來轉(zhuǎn)換成新的高級別特性數(shù)據(jù),這些高級別的數(shù)據(jù)被稱為“稀疏向量”(sparse vectors)。后,這些稀疏向量會(huì)根據(jù)引起振動(dòng)的不同事件(或抓取結(jié)果的成功與否)而進(jìn)行分組。
CoRo實(shí)驗(yàn)室的各個(gè)小組近正在測試能讓稀疏編碼算法自動(dòng)更新的方法,因此每一次新的抓取嘗試都會(huì)幫助機(jī)器人在預(yù)測方面做得更好。我們終的想法是機(jī)器人能夠在抓取的過程中根據(jù)這些信息來及時(shí)調(diào)整它的行為。后,這項(xiàng)研究是一個(gè)很好的例子,展示了觸覺和視覺智能如何協(xié)同工作,來幫助機(jī)器人學(xué)習(xí)如何抓取不同的物體。
觸覺智能的未來
這項(xiàng)研究的關(guān)鍵不是對視覺智能置之不理。視覺在抓握任務(wù)中仍然做出了關(guān)鍵的貢獻(xiàn)。然而,人造視覺技術(shù)已經(jīng)發(fā)展到了一個(gè)特定的水平,因此我們好把關(guān)注點(diǎn)轉(zhuǎn)移到發(fā)展關(guān)于觸覺智能的新領(lǐng)域,而不是繼續(xù)像以前那樣只強(qiáng)調(diào)視覺的作用。
CoRo實(shí)驗(yàn)室的 Roberge將帕累托的80-20定律用于視覺和觸覺智能的發(fā)展?jié)摿Ρ戎校含F(xiàn)在機(jī)器人社群已經(jīng)掌握了80%的視覺智能技術(shù),而剩下的20%是非常困難的而且對機(jī)器人操作物體的任務(wù)不會(huì)有多大貢獻(xiàn)。在另一方面,機(jī)器人專家現(xiàn)在正在開發(fā)前80%的觸覺智能技術(shù),這一過程相對容易,而且對機(jī)器人抓握能力的提高可以做出可觀的潛在貢獻(xiàn)。
我們距離機(jī)器人能通過觸摸來識別物體,甚至讓它自己幫你打掃房間,可能還很遙遠(yuǎn)——但當(dāng)這一天到來時(shí),我們肯定會(huì)借助觸覺智能的力量。
注:本文作者Vincent Duchaine是加拿大蒙特利爾 ÉTS(École de Technologie Supérieure)學(xué)院的教授,他在控制與機(jī)器人(CoRo)實(shí)驗(yàn)室觸覺與機(jī)電一體化研究小組,是ETS可交互機(jī)器人研究院主席。Duchaine的研究方向包括機(jī)器抓握、觸覺感應(yīng)以及人機(jī)交互。他還是 Robotiq公司的合伙人,這一公司開發(fā)靈活的自動(dòng)化工具,比如文中提到的三指抓取機(jī)器手。
Robotiq三指夾爪,優(yōu)傲機(jī)器人,UR機(jī)械臂
Robotiq三指夾爪,優(yōu)傲機(jī)器人,UR機(jī)械臂