Tolong buka pintu pod bay, HAL: AI Meta mensimulasikan membaca bibir
Artificial Intelligence

Tolong buka pintu pod bay, HAL: AI Meta mensimulasikan membaca bibir

png-image-13.png

“Meskipun kamu mengambil tindakan pencegahan yang sangat teliti di pod terhadap pendengaranku, aku bisa melihat bibirmu bergerak.”

Ini adalah fakta yang diketahui secara luas bahwa orang mendengar pidato tidak hanya dengan mendengarkan dengan telinga mereka tetapi juga dengan mengambil isyarat dari gerakan mulut yang mereka amati dari pembicara.

Demikian pula, menggabungkan pengamatan visual dengan audio dapat membantu komputer mengurai ucapan manusia dengan lebih baik. Program komputer dapat membaca bibir, dalam arti tertentu, meskipun itu adalah tugas yang melelahkan untuk direkayasa.

Karya terbaru Meta, induk dari Facebook, Instagram, dan WhatsApp, menyarankan jalan yang lebih efisien ke hari ketika komputer dapat membaca bibir sama baiknya dengan yang dilakukan HAL 9000 ketika Dr. David Bowman dan Dr. Frank Poole mencoba menghindari audionya. sensor di dalam pod dalam film “2001.”

Ilmuwan kecerdasan buatan Meta Jumat lalu menerbitkan sebuah laporan penelitian di mana mereka mampu secara dramatis mengurangi upaya yang diperlukan untuk merekayasa perangkat lunak untuk mengurai kata-kata dari gerakan bibir pembicara dalam video yang direkam. Pekerjaan itu juga dapat menggunakan teknologi membaca bibir untuk meningkatkan pengenalan suara secara bermakna di lingkungan kebisingan.

Program ini “75 persen lebih akurat daripada sistem pengenalan suara audio-visual terbaik (yang menggunakan suara dan gambar pembicara untuk memahami apa yang dikatakan orang tersebut),” kata para penulis.

Tentu saja, ada sudut Metaverse di sini: Program ini tidak hanya dapat digunakan untuk terjemahan instan, suatu hari nanti, juga dapat “membantu menghasilkan gerakan bibir yang realistis dalam avatar realitas virtual, untuk menghadirkan rasa kehadiran yang sebenarnya — perasaan itu berada di sana bersama seseorang bahkan jika mereka berada di sisi lain dunia.”

Pekerjaan tersebut merupakan kemajuan di sepanjang dua garis. Salah satunya adalah pembelajaran yang diawasi sendiri, yang menghindari petunjuk khusus, seperti transkrip teks, dan sebagai gantinya memiliki program secara spontan struktur ilahi dalam data. Area pengembangan lainnya adalah apa yang disebut jaringan saraf multimodal, yang menggabungkan data dari berbagai jenis dengan cara di mana mereka memperkuat satu sama lain.

Hasilnya, disebut AV-HuBERT, “AV” singkatan dari audio-visual, “Hu” singkatan dari “unit tersembunyi,” menggabungkan sinyal pendengaran dan visual untuk mendeteksi kata-kata dari gerakan bibir.

Penulis utama Bowen Shi dan rekannya Wei-Ning Hsu, Kushal Lakhotia, dan Abdelrahman Mohamed dari Facebook, memposting makalah mereka, “Mempelajari Representasi Pidato Audio-Visual Dengan Prediksi Cluster Multimodal Bertopeng,” di server pracetak arXiv Jumat lalu. Penulis juga menulis posting blog yang mungkin lebih mudah Anda cerna.

Seperti yang dijelaskan Shi & Co., pekerjaan sebelumnya juga multimodal, menggabungkan data visual, bingkai video, dengan data audio, potongan bentuk gelombang, untuk melatih jaringan saraf untuk memprediksi bagaimana mereka cocok.

Tetapi program semacam itu cenderung mengandalkan semacam petunjuk tambahan yang disiapkan, seperti transkripsi video pembicara menjadi kalimat teks yang kemudian berfungsi sebagai label. Karya baru ini menempuh rute yang diawasi sendiri, menyusun pola secara spontan tanpa struktur eksternal.

“Ini adalah sistem pertama yang secara bersama-sama memodelkan ucapan dan gerakan bibir dari data yang tidak berlabel – video mentah yang belum ditranskripsikan,” tulis para penulis dalam posting blog mereka.

Banyak model sebelumnya video membaca bibir beranotasi tingkat kata,” untuk dilatih, “yang mahal untuk dikumpulkan karena memerlukan informasi batas kata. Berbeda dengan model ini, model kami sepenuhnya dilatih dari awal menggunakan pendekatan yang diusulkan.

Program AV-HuBERT yang mereka ciptakan dibangun di atas program audio saja yang disebut HuBERT yang diperkenalkan tahun lalu oleh Hsu dan rekan-rekannya. Sesuai dengan namanya, HuBERT menggunakan pendekatan jaringan saraf Transformer dua arah yang dikembangkan di Google pada tahun 2018.

Dengan “menutupi” bagian dari rekaman audio, yang berarti, meninggalkan bagian dari bentuk gelombang audio, jaringan saraf HuBERT dalam fase pelatihannya harus merekonstruksi bagian audio mana yang cocok satu sama lain.

Sekarang, di AV-HuBERT, Shi dan tim “menyatukan” bit audio dengan bingkai dari video orang yang berbicara. Fase pelatihan jaringan saraf pada dasarnya berlangsung dalam dua tahap. Pertama, seperti HuBERT hanya audio asli, mereka menggunakan pendekatan perhatian untuk menutupi audio dan kemudian mengelompokkan bentuk gelombang audio tersebut ke dalam kelompok, yang merupakan kelompok contoh yang dalam beberapa cara dekat satu sama lain dalam atributnya.

Pengelompokan tersebut kemudian menjadi target untuk jaringan saraf tahap kedua. Bagian multimodal AV-HuBERT secara bersamaan menutupi gambar bibir speaker dan bentuk gelombang audio, dan kemudian mencoba mencocokkannya dengan kelompok yang terbentuk pada gelombang pertama. Dengan cara ini, program menghitung konfigurasi bibir mana yang sesuai dengan bentuk gelombang audio mana, dengan demikian “mempelajari” korelasi gerakan mulut dan keluaran audio.

Artinya, secara efektif, pendekatan yang diawasi sendiri yang meramalkan struktur tanpa petunjuk eksplisit.

meta-2022-av-hubert-architecture.jpg

Struktur program AV-HuBERT, dimulai dengan data visual dan audio yang masuk di bagian bawah, dan dikeluarkan ke “cluster” terakhir di bagian atas.

Meta 2022

Fusi berarti bahwa perhatian yang ditempatkan pada bingkai gambar dan yang ditempatkan pada bentuk gelombang audio memperkuat satu sama lain untuk menghasilkan kelompok yang lebih unggul daripada keduanya. Cluster tersebut menjadi “target” dari tugas-tugas berikutnya, seperti membaca bibir dan pengenalan suara.

Seperti yang penulis jelaskan,

AV-HuBERT secara bersamaan menangkap informasi linguistik dan fonetik untuk wilayah yang tidak terselubung baik dari gerakan bibir maupun aliran audio ke dalam representasi latennya, kemudian mengkodekan hubungan temporal jarak jauhnya untuk menyelesaikan tugas prediksi terselubung.

Setelah AV-HuBERT dilatih sendiri dengan cara ini, penulis melakukan penyesuaian dengan memperkenalkan video berlabel aktual, jam-jamnya, dengan transkrip formal yang memberi tahu mesin di mana kata-kata berada dalam video.

Kumpulan data utama yang digunakan untuk menguji dan melatih program AV-HuBERT adalah LRS3, yang dikembangkan pada tahun 2018 oleh Triantafyllos Afouras dan rekan-rekannya di Oxford, yang merupakan “set data pembacaan bibir tingkat kalimat terbesar yang tersedia untuk umum hingga saat ini. Ini terdiri dari lebih dari 400 jam video, diekstrak dari pembicaraan TED & TEDx dalam bahasa Inggris dari YouTube.”

Sebagai hasil dari pelatihan AV-HuBERT yang diawasi sendiri, AV-HuBERT dapat memprediksi kata-kata dari video pembicara lebih baik daripada semua upaya sebelumnya, tulis Shi dan rekan-rekannya.

meta-2022-av-hubert-test-results.jpg

Hasil tes pada pembacaan bibir untuk sistem Meta yang “diusulkan”, AV-HuBERT, terbawah, dan program terbaik di kelasnya sebelumnya.

Meta 2022

Namun, yang lebih penting daripada skor mentahnya adalah pengurangan besar-besaran dalam jumlah data yang dibutuhkan untuk melatih program tersebut.

“AV-HuBERT mencapai kecanggihan menggunakan 433 jam transkripsi teks, dua kali lipat kurang dari 31.000 jam data berlabel yang digunakan dalam pendekatan terbaik sebelumnya,” tulis mereka.

Dengan jauh lebih sedikit data yang dibutuhkan, dimungkinkan untuk melakukan tugas membaca bibir pada bahasa yang memiliki data jauh lebih sedikit daripada yang lain, yang disebut bahasa sumber daya rendah. (Pikirkan bahasa selain Inggris, Prancis, dan Jerman, misalnya.)

Para penulis mengamati bahwa “Sebagai pekerjaan di masa depan, AV-HuBERT dapat diterapkan untuk membaca bibir multibahasa dalam bahasa sumber daya rendah,” dan bahwa “pendekatan yang sama dapat diperluas ke aplikasi lain dari representasi ucapan visual, seperti peningkatan dan generasi ucapan. .”

Shi dan rekan menambahkan temuan mereka dengan makalah kedua yang diposting minggu lalu yang menjelaskan penggunaan AV-HuBERT untuk pengenalan suara otomatis. Di sini, fokusnya adalah pada bagaimana melakukan parsing ucapan yang lebih baik dalam konteks kebisingan.

Pengenalan ucapan “digunakan dalam skenario rapat tunduk pada suara mengoceh, sementara yang digunakan di lingkungan rumah secara alami menghadapi suara musik, memasak, atau mesin penyedot debu.” Pertanyaan mereka adalah apakah kebisingan sekitar seperti itu dapat diatasi dengan AV-HuBERT.

Shi dan tim memadukan klip kebisingan dengan bingkai video AV-HuBERT dan sampel bentuk gelombang audio selama pelatihan. Hasilnya, tulis mereka, adalah bahwa program menjadi baik dalam mengatasi ocehan. Sedemikian rupa sehingga AV-HuBERT mengumpulkan 50% pengurangan tingkat kesalahan kata, atau WER, proporsi kata-kata yang salah, dibandingkan sistem pengenalan suara sebelumnya.

“Pekerjaan kami di masa depan termasuk menerapkan pengenalan suara audio-visual dalam pengaturan sumber daya rendah dan multibahasa di dunia nyata,” tulis mereka.

Jadi, seberapa nyata sesuatu seperti pembacaan bibir HAL 9000? Gagasan bahwa AI sekarang lebih baik daripada manusia dalam membaca bibir telah ditulis dalam beberapa tahun terakhir dengan pekerjaan AI sebelumnya. Tingkat kesalahan kata dalam tayangan terbaik AV-HuBERT, memang, jauh lebih baik daripada pembaca bibir profesional, pada 26,9%. Rupanya, sebagian besar pembaca bibir manusia hanya mendapatkan 40% (mereka salah empat kali dalam sepuluh.) Jelas, untuk hal-hal seperti menyalin pembicaraan setelah fakta, ini bisa menjadi dorongan besar untuk program perangkat lunak.

Namun, dalam praktiknya, ada peringatan besar. Ini sungguh simulasi membaca bibir. Hasil AV-HuBERT lulus tes pada video kalengan, bukan percakapan langsung, bentuk bebas, di alam liar seperti yang dilakukan Bowman dan Poole dalam film.

Untuk saat ini, Anda mungkin masih aman di dalam pod.

Posted By : togel hari ini hongkong yang keluar 2021