Speech AI Memperluas Jangkauan Global Dengan Terobosan Bahasa Telugu
news

Speech AI Memperluas Jangkauan Global Dengan Terobosan Bahasa Telugu

Lebih dari 75 juta orang berbicara Telugu, terutama di wilayah selatan India, menjadikannya salah satu bahasa yang paling banyak digunakan di negara tersebut.

Terlepas dari prevalensi seperti itu, bahasa Telugu dianggap sebagai bahasa dengan sumber daya rendah dalam hal AI ucapan. Ini berarti tidak ada cukup jam set data ucapan untuk dengan mudah dan akurat membuat model AI untuk pengenalan ucapan otomatis (ASR) dalam bahasa Telugu.

Dan itu berarti miliaran orang tidak menggunakan ASR untuk meningkatkan transkripsi, terjemahan, dan aplikasi AI ucapan tambahan dalam bahasa Telugu dan bahasa sumber daya rendah lainnya.

Untuk membuat model ASR untuk bahasa Telugu, tim AI ucapan NVIDIA beralih ke kerangka kerja NVIDIA NeMo untuk mengembangkan dan melatih model AI percakapan yang canggih. Model tersebut memenangkan tempat pertama dalam kompetisi yang diadakan pada bulan Oktober oleh IIIT-Hyderabad, salah satu lembaga penelitian dan pendidikan tinggi paling bergengsi di India.

NVIDIA menempati posisi pertama dalam hal akurasi untuk kedua trek Tantangan ASR Telugu, yang diadakan bekerja sama dengan program Pengembangan Teknologi untuk Bahasa India dan Kementerian Elektronika dan Teknologi Informasi India sebagai bagian dari Misi Penerjemahan Bahasa Nasional.

Untuk trek tertutup, peserta harus menggunakan sekitar 2.000 jam dataset pelatihan khusus bahasa Telugu yang disediakan oleh penyelenggara kompetisi. Dan untuk trek terbuka, peserta dapat menggunakan kumpulan data apa pun dan model AI yang telah dilatih sebelumnya untuk membangun model ASR Telugu.

Model yang didukung NVIDIA NeMo menduduki puncak papan peringkat dengan tingkat kesalahan kata masing-masing sekitar 13% dan 12% untuk trek tertutup dan terbuka, mengungguli dengan margin besar semua model yang dibangun di atas kerangka kerja ASR populer seperti ESPnet, Kaldi, SpeechBrain, dan lainnya.

“Apa yang membedakan NVIDIA NeMo adalah bahwa kami membuka sumber semua model yang kami miliki — sehingga orang dapat dengan mudah menyempurnakan model dan mentransfer pembelajaran pada mereka untuk kasus penggunaan mereka,” kata Nithin Koluguri, seorang ilmuwan peneliti senior di percakapan tim AI di NVIDIA. “NeMo juga merupakan satu-satunya toolkit yang mendukung pelatihan penskalaan ke sistem multi-GPU dan kluster multi-node.”

Membangun Model ASR Telugu

Langkah pertama dalam menciptakan model pemenang penghargaan, kata Kologuri, adalah memproses data terlebih dahulu.

Koluguri dan rekannya Megh Makwana, manajer arsitek solusi pembelajaran mendalam terapan di NVIDIA, menghapus huruf dan tanda baca yang tidak valid dari kumpulan data ucapan yang disediakan untuk jalur tertutup kompetisi.

“Tantangan terbesar kami adalah menangani data yang berisik,” kata Kolaguri. “Ini adalah saat audio dan transkrip tidak cocok — dalam hal ini Anda tidak dapat menjamin keakuratan transkrip kebenaran dasar yang Anda latih.”

Tim membersihkan klip audio dengan memotongnya menjadi kurang dari 20 detik, memotong klip kurang dari 1 detik, dan menghapus kalimat dengan tingkat karakter lebih dari 30, yang mengukur karakter yang diucapkan per detik.

Makwana kemudian menggunakan NeMo untuk melatih model ASR selama 160 epoch, atau siklus penuh melalui kumpulan data, yang memiliki 120 juta parameter.

Untuk jalur terbuka kompetisi, tim menggunakan model yang telah dilatih sebelumnya dengan data 36.000 jam dalam 40 bahasa yang digunakan di India. Penyempurnaan model ini untuk bahasa Telugu memakan waktu sekitar tiga hari menggunakan sistem NVIDIA DGX, menurut Makwana.

Hasil tes inferensi kemudian dibagikan kepada penyelenggara kompetisi. NVIDIA menang dengan tingkat kesalahan kata sekitar 2% lebih baik daripada peserta peringkat kedua. Ini adalah margin yang sangat besar untuk AI ucapan, menurut Kologuri.

“Dampak pengembangan model ASR sangat tinggi, terutama untuk bahasa dengan sumber daya rendah,” tambahnya. “Jika sebuah perusahaan maju dan menetapkan model dasar, seperti yang kami lakukan untuk kompetisi ini, orang-orang dapat membangun di atasnya dengan perangkat NeMo untuk membuat transkripsi, terjemahan, dan aplikasi ASR lainnya lebih mudah diakses untuk bahasa di mana AI ucapan belum lazim. .”

NVIDIA Memperluas Speech AI untuk Bahasa dengan Sumber Daya Rendah

“ASR mendapatkan banyak momentum di India terutama karena akan memungkinkan platform digital untuk bergabung dan terlibat dengan miliaran warga melalui layanan bantuan suara,” kata Makwana.

Dan proses membangun model Telugu, seperti diuraikan di atas, merupakan teknik yang dapat ditiru untuk bahasa apa pun.

Dari sekitar 7.000 bahasa dunia, 90% dianggap sebagai sumber daya AI ucapan yang rendah — mewakili 3 miliar penutur. Ini tidak termasuk dialek, pidgin, dan aksen.

Sumber terbuka semua modelnya pada toolkit NeMo adalah salah satu cara NVIDIA meningkatkan inklusi linguistik di bidang AI ucapan.

Selain itu, model prapelatihan untuk speech AI, sebagai bagian dari perangkat pengembangan perangkat lunak NVIDIA Riva, kini tersedia dalam 10 bahasa — dengan banyak tambahan yang direncanakan untuk masa mendatang.

Dan NVIDIA bulan ini menyelenggarakan Speech AI Summit perdananya, menampilkan speaker dari Google, Meta, Mozilla Common Voice, dan lainnya. Pelajari lebih lanjut tentang “Membuka Kunci Teknologi AI Pidato untuk Pengguna Bahasa Global” dengan menonton presentasi sesuai permintaan.

Mulailah membangun dan melatih model AI percakapan yang canggih dengan NVIDIA NeMo.

Buat layaknya itu kami http://cialisgoedkoopbestellen.top/ menyediakan website ini pada para pecinta togel hongkong. Sebab kami senantiasa membagikan hasil https://shiftinggrounds.org hk tercepat serta terakurat alhasil para pemeran tidak perlu menanti lama pada jam 23. 00 wib. Kemudian, dengan hasil pengeluaran hk yang kita bagikan pada para pemeran sudah pasti hasil itu kita ambil langsung berasal dari web site sah hongkongpools. Karena kami mempunyai koneksi dari web site hongkongpools https://keiziweb.com/ bersama dengan tiap pemberitahuan hasil pengeluaran hk udah singgah sampai bagan data hk yang diatas