みた、こと。きいた、こと。

合言葉はSite Seeing

技術の進歩と誤解。

長文注意。
なんか、年明けてから長文が続いているが気にしない。別に今年がそういう年ということでもなくて、たまたま。たまたま。
年々。月々。日々。様々な場所でいろいろなものの技術が進歩している。その進歩の過程は追いかけている人はもちろん判るとしても、それを知らない人たち、興味のない人たちにとっては理解不可能な程に進歩する。時には「進化」と言った方が良いほど劇的に変わることもある。
だが、基本的には全ては過程を経て進んでいくものであり、アイデアとして突然変異的なものがあったとしても、その基礎技術、ベースとなるものは何も変わっていない何かから続いているものである。
そして、コンピュータ技術は進歩が激しい。その為、

「よく判らないけど、コンピュータは頭いいしスゴイんだからそれぐらい簡単にできるんじゃないの?きっと」

という誤解が生じやすい。

自分も無理解からつい誤解してしまう事があるが、それは、相手にとっても自分にとってもとても悲しいことである。とても、とても。
なので、自分が把握している範囲で、似通った部分があり、誤解されやすい以下の3つについて書いておく。
なお、自分はその方面の技術者でもなければ、そういう研究をしているわけでもないのでやっぱり誤解があるかもしれない。でも、あえてそこは自分の知識の整理という意味で書いておく。
つまり、この情報だけを当てにしないで欲しいって事で。

モーションキャプチャー

ここ10年近くはCGの映画やゲームなどで使われることも多くなってきたため、興味がない人でもこの言葉、「モーションキャプチャー」を知らないという人は、そうはいないだろう。人間の動きをコンピュータに読み取らせ、それをコンピュータの映像として利用するデジタル技術である。
だが、この言葉にはとても大きな誤解がある。

「え、これモーションキャプチャーでしょ?」

である。つまり、「出来て当たり前なんでしょ?」という感覚で見ている状態だ。その背景の実際には違う技術や作業をまったく評価されない状態。無理解が生む誤解である。
一応、ハッキリと言っておくが、現時点において。今現在においては「モーションキャプチャ技術はいずれも長所と短所があり、単純には1つの映像だけからは抽出できない」のが現実である。
なので、TV番組や映画などのシーンを他者が再現する為には、実際に自分(または誰か)がその動きを(装置や設備をある程度準備した上で)もう一度するか、「トレース」と呼ばれるモーションキャプチャではない「手付けによるモーション入力」が必要になる。前者は設備上の問題と、実際の再現の意味で完全にコピーすることは難しく、後者は何時間も、何日も、何ヶ月もかかるような地味な作業になる。いずれも、決して楽なものではない。
人間の動きはともかく、動物の動きとなるとそれは思い通りに動いてくれないため、モーションキャプチャーは殆ど使えず、トレースなどの人力による入力が必要になってくる。なお、モーションキャプチャーしたデータについても、実際に利用する際には修正が多々必要になる為、そのまま利用されるということはなく、いずれにしても地味な作業が必要だ。出来て当たり前ということは決してない。

マッチムーブ

この言葉はモーションキャプチャーに比べればまだ認知度は高くないが、「拡張現実」に関する技術の一つ。この言葉はなんとなく知っている人も多いと思う。
簡単に言えば、「カメラの映像を解析して3次元空間を把握する技術」である。
少し言い換えれば「映像の中の特徴点の位置、前後での変化を検出し、カメラの移動量を把握する技術」である。結果として、画面内の3次元空間を把握しているから出来ること。
カメラの移動量が判れば、コンピュータ映像を拡張現実として合成する事が出来るので、リアルな世界であたかも自然にCGが動いている映像を表現でき、最近ではこれを利用した映像作品も多く登場している。
だが、ここに誤解がある。

「え、映像を解析するって事は、モーションキャプチャーみたいなことも出来るんでしょ?」

本来、「カメラの移動量を把握する」ものであり、その前提には「地面や建物などは固定で動かないこと」がある。もちろん、それらが映像内に映っていることで、画面内に「移動する物体」が存在しても問題なく把握できる。そして、「連続した映像」でなければならない。カメラが頻繁に切り替わったり、激しく揺れ動くような映像では、特徴点の再捕捉が必要になる為、瞬時に対応できるものではない。
前述した通りあくまでも「カメラの移動量」、言い換えれば「カメラの位置情報(高さや方向)」を把握するための物であり、映像内の物体の動きを見るためのものではない。むしろ、逆なのである。移動する物体についても特徴点の把握が行われるが、結果的に無視される情報に分類される。*1
モーションキャプチャーも映像から解析する方式があるが、この場合は複数の映像が必要だ。そして、固定カメラでなければならない。だが、この技術は1つの映像でいい。その代わり、「固定カメラは無意味」である。画面、映像が変化することが大前提なので、変化のない固定カメラの場合、特徴点の奥行きが把握できないという問題がある。完全に逆の発想で考えられている。混同は出来ない。
この考え方をリアルタイムに処理するPTAM(Parallel Tracking and Mapping for Small AR Workspaces)というものもある。最近はiPhoneのアプリでも登場している。iPhoneのカメラ映像に3DCGを合成する事が出来る。

セカイカメラ

正確に言えば、技術というよりもサービスに近いものだけれども、「iPhone上で動作する拡張現実ソフトウェア」である。
簡単に言えば、「iPhone内蔵のデジタルカメラの映像に、場所や建物に関する情報を重ねて表示できる技術」であり、この情報はユーザ間で共有できる。最新機種のiPhoneでは、方向を変えたりするとソレに合わせてタグも移動する。情報は写真だったり文字だったり、音声も可能。あたかもSFの世界のように現実の映像に情報を拡張する技術である。
そして、ここにもやっぱり誤解がある。

「え、さっきのマッチムーブと何が違うの?iPhoneで出来るっていってたし。そもそも携帯でできる程度のことなんでしょ?」

ハッキリ言えば「まったくの別物」である。セカイカメラは「映像の解析はしていない」。少なくとも現時点においては。位置情報はGPSとPlaceEngineで行っている。そして、方向はiPhone内臓の電子コンパスによって行われている。なので、これらの機器の信号感度によって精度が変わってくるものであり、PTAMとは明らかに違う。
確かに。確かに携帯電話程度(といっても高性能な携帯電話であるが)で出来ることだ。でも、だからこそ何でもできる訳じゃなくて、それを実現するためにはその為の工夫がされている。それぞれにおいて。

まとめ。

将来的に。
コンピュータの技術進歩は激しく、将来的にこれらの技術も何らかの形で関連して一緒になったり、別のものになったりしていく可能性はある。むしろ、そうなっていくだろう。
でも、だからこそ、「他で出来ているんだから出来る」という程度の認識ではなく、なぜ、どうやってそういう事をしているのか、出来ているのかを理解することもまた必要である。いや、全てを把握、理解できないのだからこそ、「他で出来ているのだから・・・」と一様に考えるのではなく、「同じようなことをする為にも様々な技術がそこに存在している」という事を認識だけはしておく必要があると思う。
そして、時間があれば、興味があればとことん調べることが大事なんだと思う。興味が無ければ認識だけでいいと思うけど。

何より、そこに至るまでの過程を踏んだ、それぞれの技術者、作者への敬意と尊敬の念は忘れてはならないと思う。

自戒の念をこめて。

*1:なお、連続した映像という意味では車の車載カメラなどの映像は解析がし易いため、対向車や前方の車との距離、位置などを把握するカーナビへの応用も考えられる。