被譽為網路女王的瑪麗‧米克(Mary Meeker)曾經總結道,人機交互技術每十年就會發生一次重大的變革。這個論點在iPhone推出的第十周年之際,再度獲得證明。蘋果在2007年正式亮相的第1代iPhone中,大膽拿掉了實體鍵盤和觸控筆,完全透過點擊、滑動螢幕控制,重新定義使用者和手機的互動方式,更立下了觸控螢幕作為人機交互技術的新世代標誌。如今,觸控螢幕已成為智慧型手機的標準配備—這個改變終結了人們從PC延續下來的滑鼠「崇拜」—時至今日,我們又再度處在一個「新」十年的節點上。
人們一直在追求與機器的「對話」能夠像人與人之間的交流那樣準確和自然。根據分析,人們獲取的資訊中,有80%以上來自於視覺,因此讓機器具有「視覺」能力,能辨識使用者的動作並作出回應,一直是人機交互技術所追求的境界。所以3D手勢(或可擴展為「姿態」)辨識,便成為了下一代人機交互技術的候選人之一。和以往的機器視覺技術不同,3D手勢辨識在二維資訊的基礎上,加上了對第三維「深度」的辨識,使其能夠承載的訊息量以及使用者體驗的進步空間大幅增加。
在3D手勢辨識技術的應用中,不得不提的就是與微軟XBOX 360遊戲機配套推出的體感控制Kinect。為了能夠追蹤遊戲玩家在z軸上的距離,第一代Kinect採用了所謂的「結構光」技術,其原理是將鐳射透過光柵投射到被測物體上,由於鐳射落點經過光柵折射產生的位移與被測物體與雷射器的距離相關,所以透過監測鐳射落點位移的變化就可以推算出物體距離的遠近。採用這種3D手勢辨識技術,徹底改變了使用者參與遊戲的方式,讓肢體的運動取代了操縱杆的搖擺。
從此,各種3D手勢辨識技術便逐漸發展起來。一種更為簡便的飛時測距 (Time of Flight, ToF)技術成為結構光技術在Kinect上的繼任者。ToF系統會將一束紅外光發射到物體上,透過一個CMOS圖像感測器量測紅外光往返於偵測器和待測物體之間的時間,並由此來計算物體的「深度」資訊。基於ToF技術,Google推出了Tango技術,目的就是讓手機與平板電腦能夠具備三維感知的能力;Lenovo更已於去年11月率先將Tango的成果應用到了全球首款AR智能手機Phab2 Pro中。
圖二 : Leap Motion公司多角成像技術應用在VR人機交互中 |
|
近年來,隨著VR/AR的升溫,多角成像技術成為開發者的另一種選擇,這與人眼成像的「視差原理」相似的技術,使用兩個或者兩個以上的鏡頭同時蒐集圖像,透過比對這些不同鏡頭在同一時刻獲取圖像的差異,再經由專門的演算法計算三維深度資訊。和其他兩種技術相比,多鏡頭成像對硬體的要求最低,但是在軟體演算法上要求開發者具備足夠的實力,可以算是「簡約而不簡單」了。
上述三種3D手勢辨識技術,可以統歸為「光學辨識」的範疇。言下之意是,目前市場上也活躍著一些非光學的3D手勢辨識技術,比如Microchip公司的GestIC技術。這是一種近電場感測技術的近場3D手勢辨識技術,其原理是在空間中形成一個電場,手部的運動會對電場造成擾動,透過在電場周圍的電極可以感應到電場的變化,進而對3D空間中的手勢做出解讀和判斷。這種技術的作用距離雖然有限,但是沒有對環境光線的依賴、視角限制等這些光學識別技術先天的「缺陷」,更重要的是在功耗方面的優勢—據稱與光學方案相比其能耗可節省90%以上。Microchip在GestIC配套的MGC3X30系列晶片中,整合了Colibri手勢辨識軟體,目前可以識別接近、多方向滑動、空中輪轉、3D位置追蹤、接近、多點觸控和點擊等諸多3D手勢。
從原理上看,電磁感應3D辨識技術與2D的觸控技術有些像「近親」,對於開發者來說「上手」會比較快,從研發和時間成本的角度來看,都會是一個很有吸引力的方案。
就像賈伯斯當年執意地要消除所有的手機按鍵,無論是哪種3D手勢辨識技術,都會讓未來人類對機器的操控更為「無形」—舉起手,你就可以掌控一切。