虛擬現實技術又稱靈境技術,是90年代為科學界和工程界所關注的技術。它的興起,為人機交互界面的發展開創了新的研究領域;為智能工程的應用提供了新的界面工具;為各類工程的大規模的數據可視化提供了新的描述方法。這種技術的特點在于,計算機產生一種人為虛擬的環境,這種虛擬的環境是通過計算機圖形構成的三度空間,或是把其它現實環境編制到計算機中去產生逼真的“虛擬環境”,從而使得用戶在視覺上產生一種沉浸于虛擬環境的感覺。這種技術的應用,改進了人們利用計算機進行多工程數據處理的方式,尤其在需要對大量抽象數據進行處理時;同時,它在許多不同領域的應用,可以帶來巨大的經濟效益。
幾年之前諾亦騰還是一家默默無聞的靠著自掏腰包上梁山的種子資金起家的企業,手握著一些苦心鉆研卻不知道到哪里發揮用武之地的關鍵算法,糾結于自己未來的方向選擇(比如因此衍生出來的一個當初的拳頭產品,高爾夫揮桿寶)。
要知道這家公司并非在CG和影視行業有過多少年的耕耘,他們當初涉足運動捕捉這個領域也許也是一種試探性的選擇,這從他們為角色模型制定的稍顯“反人類”的局部坐標系朝向就可以看出端倪來:
然而,就是這樣一個默默無聞地從事著和普通人的生活以及VR產業看似沒什么關系的工作的初創公司,卻引爆了全場,其國內和國際的影響力以及發展前景,恐怕已經遠遠超過大多數還在苦心鉆研VR眼鏡和全景內容的人們。
那么,什么是運動捕捉?它又是如何成為整個VR產業飛速發展過程中的香餑餑呢?
(1)這雙手能夠觸及的地方
運動捕捉(motion capture)就是記錄實際運動事件中的一系列空間關鍵點,并且將它們合并,得到獨立的數學參數并最終呈現的過程。
大體上,它相當于是一個將實際的現場表演轉換為計算機圖像動畫的數字表演的過程。這些運動的空間關鍵點通常應該是機構的軸心點或者生物骨骼的連接處,通過在這些關鍵點部位放置傳感設備或者標識物的方式,我們就可以設法收集到所有用于表達運動的數據,然后將結果數據映射到虛擬的三維角色之上。
一個常見的人體角色關鍵點分布如下圖所示,當然這并不能準確地體現人身上所有大小關節和200多塊骨頭與肌肉的運動情況,不過對于一般的影視和游戲制作需求來說已經足夠。
這里的頭部(head),頸部(neck),脊柱(spine)和臀部(hip)屬于人體的中軸線部分,而肩部(shoulder),大臂(arm),小臂(forearm),手部(hand),大腿(upper leg),小腿(leg)和腳部(foot)則是左右對稱分布的,總共18個關鍵位置需要進行記錄。更復雜人體角色骨骼的關鍵點可能還會包含左右骨盆,以及更多的脊柱位置,或者進一步增加對手指和腳趾的運動記錄,不過通常并不會有顛覆性的更改。
其他角色的動作捕捉原理也是與此類同的,只是通常我們不一定能找到合適的演員來做現場表演。
那么,如何記錄這些關鍵位置的運動信息呢?這恐怕也是諸多運動捕捉設備和工程所面臨的一個核心問題。
(2)從Sexy Robot到猿族崛起
有關運動捕捉的一個眾所知之的應用領域就是,拍電影。
《猿族崛起》中威風凜凜的凱撒,顯然不可能是訓練真的大猩猩去聚眾起義,或者按時領盒飯。而《加勒比海盜》中的鬼怪船長和船員,也不可能是與陰曹地府聯合出品的。在大量運用計算機圖形技術渲染逼真的異型角色的同時,他們的舉手投足,音容笑貌,往往就是來自于對實際演員動作的捕捉和重映射。這一過程對于現今的好萊塢大片來說,幾乎已經是司空見慣的需求了:
但是幾十年前的動畫和影視從業者們卻沒有這樣的條件,最早的動畫制作事實上往往是在一種名叫Rotoscope的投影儀器上完成的:
表演者穿上奇裝異服擺出一個優雅的動作,然后通過復雜的光學系統投射到一張畫布的背面,再由專業的畫家將動作描繪到紙上并進行藝術加工處理——沒錯,就像是小時候的我們喜歡用宣紙去臨摹卡通人物一樣。
這樣辛苦的工作數日也許才能換來一幀的畫面,而且也難以表現復雜的動作情景,畢竟幕后的演員不可能保持一招高鞭腿動作太久。
這之后直到1984年,一個大膽的團隊為了應對第二年的美式足球超級碗(super bowl)表演的需求,開始了世界上第一臺動作捕捉系統的研究。這套系統被命名為Brilliance,也就是后來的Sexy Robot。
他們最早的組成僅有八人,包括一位負責表演的漂亮而文雅的模特姑娘。拍攝方法是將一些黑色的粘著物粘貼到自己的衣服上,對應于人體的關鍵骨骼位置,然后用寶麗萊相機從不同的角度進行拍攝,把所有的照片送到當時還頗為龐大和笨拙的計算機中進行解算,再把計算得到的運動數據用于角色的數字化過程當中。這一流程幾乎是全手工完成的,只是最后的數字化過程用到了全美國院校的60多臺VAX 750(如下圖),其復雜步驟和協同化的程度絲毫不亞于直接手繪臨摹的程度,而最終的結果對于現在的我們來說似乎稀松平常。不過在那個年代,這樣的創舉還是引起了一陣轟動。
這之后的發展便是創造者們所喜聞樂見的,運動捕捉作為一個全新的理念和行業應用登上了歷史舞臺。比如《The Jim Henson Hour》中的實時木偶動作捕捉,表演者不是別人,正是一個泡沫塑料上鑲嵌了傳感設備的木偶。它的運動數據相對簡單易于在計算機上立即呈現,而木偶本身的操控則由演員通過傳統的方式實現。
又比如1988年的Exoskeleton,它通過貼滿演員身體的電位計來反饋實時的角度變化,然后傳遞給計算機進行演算和重映射。
這種方案的機械設施會制造相當讓人難熬的噪音,并且因為電位計本身的環境敏感性,往往會受到空調等外界因素的干擾,產生巨大的識別誤差。不過既然是在拍攝電影,這點影響因素還是不算什么的。只是時常出現跳變的角色動作,以及逐漸積累的運動誤差,反而讓電影的后期制作人員叫苦連連。很多誤差也許看起來只是走路過程中的“咯噔”一下,或者腦袋發生了不到100毫秒的一個瞬移,但是要在最終版本的影片中將這些影響抹平,卻需要耗費相當的人力和時間,有些看起來微小的問題甚至因為無法后期修復而被迫重新來過。
于是上帝說,要有光,這才有了光學動捕。
(3)光學動捕的桎梏
光學動捕的基本原理實際上與最早的Sexy Robot無異:使用一臺計算機來控制多部數碼攝像機(CCD)的實時攝制和數據回傳演算;
這些攝像機負責捕捉任何地方的反射標記,并配有補光燈用于完善場景的光照環境;
這些反射標記通常被帖敷在表演者身體的關鍵關節之上,采用具備了很好的反射性能的材質。
多臺相機從不同角度拍攝的圖像被采集到計算機之后,通過視覺算法過濾無用的信息,再計算出每個標記點的空間位置,進而根據已知的骨骼信息得到關節的旋轉角度。如下圖就是通過同一個標記點在兩臺相機畫面中的位置,解算出它的空間位置的簡單數學表達:
更多臺相機的使用可以有限提高這種計算的精確度,以及避免某些角度下的標記點遮擋問題。
然而,用于光學動作捕捉的攝像機必須具備很高的拍攝速率,例如500-1000幀/秒,并且通常是采用全局快門(global shutter)方案,所有像元同時曝光以確保圖像不會有運動模糊的現象。這種技術參數的攝像機顯而易見不可能是普通的網絡攝像頭能夠媲美的,其價格通常也是動輒數十萬元一部,二三十臺相機組成一個完整的動捕環境,再加上專業的標定和輸出軟件,這樣一整套方案下來的咋舌價格自然也就不言而喻了。
基于光學的運動捕捉方案在如今的影視行業已經得到了廣泛的應用,演員需要身著滿是高反射率標記點的緊身衣服,手持同樣扎上了標記點的怪異武器,在場景里閃轉騰挪,摸爬滾打,而他的辛苦勞動則會立即反映到導演面前的預演畫面(previz)當中,并且通過后期調整最終呈現為似幻似真的電影畫面。
致力于光學動捕方案的國際廠商,無論Vicon,還是OptiTrack,都是默默地在影視行業耕耘多年,參與了無數商業大片的拍攝與制作(包括最新上映的《Everest》,中文譯名“絕命海拔”)。
因為光學標記點的卓越適配性,他們的裝備早已具備捕捉人的全身關節,手指,以及面部表情的細微變化的能力,而不菲的價格對于那些財大氣粗的影視制片商來說也并不遙不可及的成本。
而對于小成本的制作團隊,或者希望把動作捕捉用在其它行業和家庭娛樂領域的初創者而言,這類專業設備也根本就是不需要多做考慮的一種陽春白雪而已。直到另一種方案的逐漸成熟,以及一場血腥的價格屠殺的來臨。
(4)慣性動捕,異軍突起的VR新星
一個完美無缺的運動捕捉系統應當具備以下特質:
實時地跟蹤無限個關鍵點的信息,不受到空間和時間因素的限制,能夠以足夠高的頻率進行數據采樣和傳輸,可能的話還要保證最終結果的誤差最小。
光學動捕的原理和相機技術參數可以確保它能夠追蹤足夠多的關鍵點,并且以很高的頻率進行圖像采集和處理;
而隨著現代計算機硬件水平的不斷提高,實時地進行每個標記點的位置計算與動畫重映射也是完全可以做到的事情;
最終結果如果產生一定的誤差,也可以在下一幀圖像識別的過程中得到糾正——這是因為通過光學識別的做法總是能夠得到標記點在當前空間的絕對位置坐標,因此不存在任何的累積誤差。
當然,要得到標記的正確空間位置,每一臺參與運算的攝像機自身的位置和姿態信息也必須是固定的。
如果表演過程中某位送茶水的劇務人員,或者激動得忘乎所以的演員本人撞到了攝像機,導致它的位置發生哪怕一丁點的變化,都不得不叫停整個片場并且重新校準所有設備。這是一個絕對痛苦的過程,不過也是電影人司空見慣的場面,畢竟電影的拍攝是一個CUT接著另一個CUT的,不用預先準備好足夠大的場地讓博爾特飛奔,也不用真的布置一片浩瀚宇宙讓絕地武士再臨,更不用在月黑風高的夜里布設實景(都是綠色的攝影棚嘛)。在這種情況下,空間和時間的限制因素也就不那么重要了。
但是如果有這樣一種方案呢?它同樣可以跟蹤很多的關鍵點,具有很高的采樣頻率和足夠的精度,計算簡便而且能夠快速回放甚至實時呈現,可以更自由地穿戴和行走自如,白天黑夜想用就用,也不用擔心碰到什么奇怪的物事而被迫重新來過……最重要的是,夠便宜?
聽起來像是臆想,然而這樣的大餡餅確實是存在的,那就是基于慣性傳感技術的運動捕捉方案。
傳統的MEMS慣性傳感設備包括加速度計,陀螺儀,地磁傳感器以及大氣壓力傳感器,它的成本非常低(十幾塊錢的芯片),體積極小(一元硬幣),質量很輕(小于一元硬幣),輸出穩定且不易受到干擾(當然強磁場除外),對外部環境條件的適應性極強(冷熱酸甜想吃就吃),而且現在幾乎隨處都能買到。
這樣一組慣性測量單元組合起來,早已被廣泛應用在軍事和航空領域,例如那個讓我們耳熟能詳的名詞——慣性制導系統。在這個概念的基礎上再上升一層,加上GPS的修正,那就快要進入導彈的原理范疇以及TMD和NMD防御體系了。
當然導彈慣導系統中采用的激光陀螺通常精度極高,價格昂貴而且體積也更大,不過這些顯然已經不是我們應該關心的事情,雖然筆者對此其實頗有愛好(圖中的SDB表示小口徑炸彈,然而解釋它也并沒有什么卵用):
而來自加速度計,陀螺儀以及地磁場的XYZ三個軸向的傳感器數據值,也就是很多初創者常說的“九軸傳感器”的概念了,當然這九個數值直接拿過來并沒有實際的價值,還要經過一個名為“Sensor Fusion”的算法進行融合,相互填補空白數據和測量數據誤差,有必要的再基于Kalman濾波等常見的數據平滑方案進行后處理(然而這樣會造成一定的延遲),進而得到一個流暢連續的三軸方位角度輸出數據。
這一運算過程當中如果沒有地磁場數據的支持,那么得到的角度值是沒有參考位置的,也就是相對于系統啟動時刻的角度信息;如果有地磁場數據作為參考,那么就可以得到絕對的世界坐標系角度,然而這一數據往往會受到其它人為強磁場的干擾,包括一些金屬制品和大型演出桁架的干擾。
那么能否基于這些數據,得到關鍵點在空間的位移信息呢?
答案是肯定的,事實上從數學上來說,對加速度值進行積分的結果就是速度,而再次進行積分的結果就是位移了。
其它兩個傳感器的數據同樣可以參與到融合算法當中并補充測量空白,然而——這回就沒有可以作為參考的絕對參數了,因為地磁場的數據并不能作為測量空間絕對位置的標準。
這個問題對于所有的慣性控制設備來說都是非同小可的,因為不存在絕對的參考物可以進行反饋和糾正(光學動捕的時候只要攝像機姿態不變,就可以知道下一幀圖像在相機參考系中的位置信息),因此每次測量結果的微小誤差會逐漸進行累積,最終讓原本穩坐釣魚臺的角色平地飛起,或者讓飛向太空的火箭跌入陰溝。
導彈慣導系統是可以主動修正位置的誤差的,因為有GPS輔助定位;然而放到慣性動捕的設備當中,卻顯得回天乏術了。不過這并不妨礙Xsens以及其他廠商將他們的產品買到世界各地,因為大多數情況下,拍攝電影的人并不會移動得那么遠;而慣性動捕方案的超低廉成本和簡便成熟的處理流程,以及完全實時的數據計算和回傳機制,則會讓更多小成本的團隊趨之若鶩。
這也就是Xsens敢把全套動作捕捉設備賣到46萬上下的原因,也是諾亦騰敢把專業動作捕捉系統從28萬一套賣到10萬一套的原因。光學動捕的廠商就算氣得牙齒癢癢,也只能在精確性和專業性上大做文章,卻絕對不敢冒死大打價格戰,因為他們的成本確實不可能降到那種程度。
然而諾亦騰還有更狠的殺招,沒錯,就是PERCEPTION NEURON:
從官網的截圖來看,居然已經不到1萬元人民幣(實際國內售價應當在1萬6左右)?這無疑是讓眾多以影視動捕為生的國際大廠氣到半死的價位了,原來你們拿慣性動捕還能這么玩(往一起死的節奏壓價)!而傳統IMU裝備(即前文所說的慣性測量單元)制造商則高興到跳起來,原來他們拿慣性動捕打算這么玩(作為民用外設量產)!而這也引爆了正在為交互手段匱乏而頗感迷茫的虛擬現實(VR)產業,原來我們拿慣性動捕可以這么玩(這是交互手段新紀元啊)!
動作捕捉作為VR應用以及游戲的一種外設,它的價位已經到了可以飛入尋常百姓家的地步,這也正是諾亦騰如今受到熱捧,以及無數人眼饞,無數人開始奮起而追擊之的真正原因。
那么對于那些期待著VR紀元的新新人類來說,這樣的全副武裝是否就是未來游戲的標配了呢?
(5)武裝到牙齒的新新人類?
低成本慣性動捕方案的提出,以及投資人對相關企業和前景的充分肯定,無疑已經引燃了更多人的好奇心和進取意志。然而這類方案距離推向家用市場還有多遠,卻還是要畫上一個巨大的問號。
首先是穿戴的問題。
諾亦騰的專業版本(PERCEPTION LEGACY)采取了無線IMU模塊和綁帶的方式,這樣方便攜帶以及演出現場的穿戴(畢竟大演員有幾個助理通常不是什么稀奇的事情),然而對于一般家庭來說,十幾個獨立的麻將牌大小的模塊和看起來無比復雜的佩戴手冊,必然成為他們快速進入游戲角色的一大壁壘。
并且這種基于2.4G網絡的無線傳輸方式,對于現場網絡信道環境,電池管理,以及數據延遲等問題都提出了更高的要求,就算是在場館或者展會中使用,也會面臨諸多不得不由專業人員去把關和解決的問題。
當然我們也可以使用有線版本的NEURON,不過身體的大幅度運動可能對線材本身以及各類接插件造成松動影響,進而直接影響了通訊質量,同樣也是值得開發者們頭痛的難關。
第二個問題就是標定,因為IMU模塊的實際安裝位置不可能每次都精準匹配,因此必須首先進行標定然后使用。
這里所說的標定就是讓穿戴設備的人擺出一個固定且標準的姿勢,計算機在已知這個姿勢的前提下去反向計算當前IMU的姿態數據,并作為它們的初始數據來輔助后繼的運動解算。依然以諾亦騰的設備為例,它目前采取了三步標定的方法:
這樣的過程對于影視拍攝的前期準備來說毫無問題,但是當推向家用之后,是否依然需要玩家每次做出這樣的動作來進行場景的預置,也許就值得商榷了。
而最后也是關鍵的問題,就是誤差。
正如我們之前說過的,因為無法進行有效反饋而累積的位移誤差,以及可能存在人為磁場和金屬設施而產生的地磁和角度誤差。這樣的問題倘若影響到游戲的交互本身,無疑也會讓一般用戶對于產品的品質和易用性印象大打折扣。
當然,還有一個市場層面的隱性問題存在:
諸如全身動捕這種重度的游戲體驗,真的可以讓更多普通人接受,進而步入千家萬戶嗎?
這也許對于整個行業來說都還是一個混沌的話題,然而也許只有不斷地發展自己才能最終找到答案。
當然了,水面不平靜,水下更是波瀾起伏。
在諾亦騰大放異彩的同時,蠢蠢欲動的追趕者們也已經露出了自己的獠牙:老牌的慣性動捕勁旅Xsens同樣放出了令人垂涎的低價和無線版本;諸如Gwearables和南京布塔這樣的國內廠商也吹響了自研動捕甚至全套VR裝備的號角。而有關光學動捕無法大幅度降低成本的定論也正在逐漸松動當中,諸多潛心發奮的初創者們已經間接或者部分地證明了低成本光學動捕的可行性,也許就在不遠的將來,基于普通網絡攝像頭和廉價紅外標記服的光學動捕設備也會猛地浮出水面。那個時候,是否又會是一陣行業內的血雨腥風呢?
然而這也并非一片坦途的樂土,VR行業本身還在一片凍土迷霧當中。任何人與任何企業,現階段都只能觸摸它的冰山一角。是將自己的觸角深深扎根,牢牢抓住行業傳統用戶,從用戶體驗和精確度上多做文章,成為堅定而穩如磐石的設備供應商?還是現在就四面出擊,把聽到看到和自己想象出來的一切領域需求都吞入囊中,成為大而不實的VR布局者?也許每個人都會有他自己的選擇和答案,并無對錯之分,只是未來總會有生死之別。
無論怎樣,都請加快腳步為好。
PS本文整理自雷鋒網,知乎
評論
查看更多