Facebook Reality Labs, grup R&D AR / VR perusahaan, menerbitkan penelitian terperinci tentang metode untuk avatar virtual real-time hiper-realistis, berkembang pada pekerjaan sebelumnya yang oleh perusahaan disebut ‘Avatar Codec’.
Facebook Reality Labs telah menciptakan sistem yang mampu menghidupkan avatar virtual secara real-time dengan kesetiaan yang belum pernah terjadi sebelumnya dari perangkat keras kompak. Dari hanya tiga kamera standar di dalam headset, yang menangkap mata dan mulut pengguna, sistem ini mampu merepresentasikan nuansa gerakan wajah kompleks individu tertentu secara lebih akurat daripada metode sebelumnya.
Lebih dari sekadar menempelkan kamera ke headset, tujuan dari penelitian ini adalah keajaiban teknis di balik penggunaan gambar yang masuk untuk mendorong representasi virtual pengguna.
Solusinya sangat bergantung pada pembelajaran mesin dan visi komputer. “Sistem kami berjalan langsung secara real-time dan bekerja untuk berbagai ekspresi, termasuk pipi bengkak, menggigit bibir, lidah bergerak, dan detail seperti kerutan yang sulit dianimasi dengan tepat untuk metode sebelumnya,” kata salah satu dari penulis.
Kelompok ini juga menerbitkan makalah penelitian lengkap mereka, yang menyelam lebih dalam ke metodologi dan matematika di belakang sistem. Karya tersebut, ‘VR Facial Animation via Multiview Image Translation’, diterbitkan dalam ACM Transactions on Graphics, yang digambarkan sendiri sebagai “jurnal peer-review terdepan dalam grafik.” Makalah ini ditulis oleh Shih-En Wei, Jason Saragih , Tomas Simon, Adam W. Harley, Stephen Lombardi, Michal Perdoch, Alexander Hypes, Dawei Wang, Hernan Badino, Yaser Sheikh.
(a) Headset ‘Pelatihan’, dengan sembilan kamera. (b) Headset ‘Lacak’ dengan tiga kamera; posisi kamera yang dibagikan dengan headset Pelatihan dilingkari merah. | Gambar milik Laboratorium Realitas Facebook
Makalah ini menjelaskan bagaimana proyek melibatkan pembuatan dua headset eksperimental terpisah, headset ‘Pelatihan’ dan headset ‘Lacak’.
Headset Pelatihan lebih besar dan menggunakan sembilan kamera yang memungkinkannya menangkap pandangan yang lebih luas dari wajah dan mata subjek. Melakukan hal itu akan memudahkan tugas menemukan ‘korespondensi’ antara gambar input dan pemindaian digital yang diambil sebelumnya dari pengguna (memutuskan bagian gambar input mana yang mewakili bagian avatar mana). Makalah ini mengatakan bahwa proses ini “secara otomatis ditemukan melalui terjemahan gambar multiview yang diawasi sendiri, yang tidak memerlukan anotasi manual atau korespondensi satu-ke-satu antara domain.”
Setelah korespondensi dibuat, headset ‘Pelacakan’ yang lebih ringkas dapat digunakan. Penjajaran tiga kameranya mencerminkan tiga dari sembilan kamera pada headset ‘Pelatihan’; pandangan ketiga kamera ini lebih baik dipahami berkat data yang dikumpulkan dari headset ‘Training’, yang memungkinkan input untuk secara akurat menggerakkan animasi avatar.
Makalah ini sangat berfokus pada akurasi sistem. Metode sebelumnya menghasilkan keluaran yang mirip dengan aslinya, tetapi keakuratan wajah pengguna yang sebenarnya dibandingkan dengan representasi rusak di bidang utama, terutama dengan ekspresi ekstrem dan hubungan antara apa yang dilakukan mata dan apa yang dilakukan mulut.
Pekerjaan ini sangat mengesankan ketika Anda mengambil langkah mundur pada apa yang sebenarnya terjadi di sini: untuk pengguna yang wajahnya sebagian besar dikaburkan oleh headset, bidikan kamera yang sangat dekat digunakan untuk secara akurat membangun kembali pandangan wajah yang tidak tertutup dari wajah.
Meski mengesankan, pendekatan ini masih memiliki rintangan besar yang mencegah adopsi arus utama. Ketergantungan pada pemindaian awal yang terperinci dari pengguna dan kebutuhan awal untuk menggunakan headset ‘Pelatihan’ akan membutuhkan sesuatu di sepanjang garis ‘pusat pemindaian’ di mana pengguna dapat pergi untuk memiliki avatar mereka dipindai dan dilatih (mungkin juga menangkap kustom HRTF saat Anda melakukannya!). Sampai VR adalah bagian penting dari cara masyarakat berkomunikasi, tampaknya pusat-pusat seperti itu tidak mungkin berjalan. Namun, teknologi penginderaan canggih dan perbaikan berkelanjutan dalam membangun korespondensi otomatis di atas pekerjaan ini pada akhirnya dapat mengarah pada proses di rumah yang layak.