Model Bahasa Besar Menggunakan Triton untuk Inferensi AI
news

Model Bahasa Besar Menggunakan Triton untuk Inferensi AI

Julien Salinas memakai banyak topi. Dia seorang pengusaha, pengembang perangkat lunak dan, sampai akhir-akhir ini, menjadi sukarelawan pemadam kebakaran di desa pegunungannya, satu jam perjalanan dari Grenoble, pusat teknologi di tenggara Prancis.

Dia memelihara startup berusia dua tahun, NLP Cloud, yang sudah menguntungkan, mempekerjakan sekitar selusin orang dan melayani pelanggan di seluruh dunia. Ini adalah salah satu dari banyak perusahaan di seluruh dunia yang menggunakan perangkat lunak NVIDIA untuk menerapkan beberapa model AI paling kompleks dan kuat saat ini.

NLP Cloud adalah layanan perangkat lunak bertenaga AI untuk data teks. Sebuah maskapai penerbangan besar Eropa menggunakannya untuk meringkas berita internet untuk karyawannya. Sebuah perusahaan perawatan kesehatan kecil menggunakannya untuk mengurai permintaan pasien untuk isi ulang resep. Sebuah aplikasi online menggunakannya untuk membiarkan anak-anak berbicara dengan karakter kartun favorit mereka.

Model Bahasa Besar Berbicara Volume

Itu semua adalah bagian dari keajaiban pemrosesan bahasa alami (NLP), bentuk AI populer yang menelurkan beberapa jaringan saraf terbesar di planet ini yang disebut model bahasa besar. Dilatih dengan kumpulan data besar pada sistem yang kuat, LLM dapat menangani semua jenis pekerjaan seperti mengenali dan menghasilkan teks dengan akurasi luar biasa.

NLP Cloud menggunakan sekitar 25 LLM saat ini, yang terbesar memiliki 20 miliar parameter, ukuran utama kecanggihan model. Dan sekarang menerapkan BLOOM, LLM dengan 176 miliar parameter kekalahan.

Menjalankan model besar ini dalam produksi secara efisien di berbagai layanan cloud adalah kerja keras. Itu sebabnya Salinas beralih ke Server Inferensi NVIDIA Triton.

Throughput Tinggi, Latensi Rendah

“Tantangan utama yang kami hadapi dengan sangat cepat adalah biaya server,” kata Salinas, bangga dengan startup yang didanai sendiri hingga saat ini.

“Triton ternyata menjadi cara yang bagus untuk memanfaatkan sepenuhnya GPU yang kami miliki,” katanya.

Misalnya, GPU NVIDIA A100 Tensor Core dapat memproses sebanyak 10 permintaan sekaligus — dua kali throughput perangkat lunak alternatif — berkat FasterTransformer, bagian dari Triton yang mengotomatiskan pekerjaan kompleks seperti membagi model di banyak GPU.

FasterTransformer juga membantu NLP Cloud menyebarkan pekerjaan yang membutuhkan lebih banyak memori di beberapa GPU NVIDIA T4 sambil memangkas waktu respons untuk tugas tersebut.

Pelanggan yang menuntut waktu respons tercepat dapat memproses 50 token — elemen teks seperti kata atau tanda baca — hanya dalam setengah detik dengan Triton pada GPU A100, sekitar sepertiga dari waktu respons tanpa Triton.

“Itu sangat keren,” kata Salinas, yang meninjau puluhan perangkat lunak di blog pribadinya.

Mengelilingi Pengguna Triton

Di seluruh dunia, perusahaan rintisan dan raksasa mapan lainnya menggunakan Triton untuk memaksimalkan LLM.

Layanan Terjemahan Microsoft membantu pekerja bencana memahami bahasa Kreol Haiti saat merespons gempa 7,0. Itu adalah salah satu dari banyak kasus penggunaan untuk layanan yang mendapat percepatan 27x menggunakan Triton untuk menjalankan inferensi pada model dengan hingga 5 miliar parameter.

Penyedia NLP Cohere didirikan oleh salah satu peneliti AI yang menulis makalah yang mendefinisikan model transformator. Ini mendapatkan hingga 4x percepatan inferensi menggunakan Triton pada LLM kustomnya, sehingga pengguna chatbot dukungan pelanggan, misalnya, mendapatkan respons cepat untuk pertanyaan mereka.

NLP Cloud dan Cohere adalah di antara banyak anggota program NVIDIA Inception, yang memelihara startup mutakhir. Beberapa startup Inception lainnya juga menggunakan Triton untuk inferensi AI pada LLM.

Rinna yang berbasis di Tokyo membuat chatbot yang digunakan oleh jutaan orang di Jepang, serta alat untuk memungkinkan pengembang membuat chatbot khusus dan karakter yang didukung AI. Triton membantu perusahaan mencapai latensi inferensi kurang dari dua detik pada GPU.

Di Tel Aviv, Tabnine menjalankan layanan yang mengotomatiskan hingga 30% dari kode yang ditulis oleh satu juta pengembang secara global (lihat demo di bawah). Layanannya menjalankan beberapa LLM pada GPU A100 dengan Triton untuk menangani lebih dari 20 bahasa pemrograman dan 15 editor kode.

Twitter menggunakan layanan LLM Writer, yang berbasis di San Francisco. Ini memastikan karyawan jejaring sosial menulis dengan suara yang mematuhi panduan gaya perusahaan. Layanan Writer mencapai latensi 3x lebih rendah dan throughput hingga 4x lebih besar menggunakan Triton dibandingkan dengan perangkat lunak sebelumnya.

Jika Anda ingin melihat kata-kata itu, Ex-human anggota Inception, tidak jauh dari Writer, membantu pengguna membuat avatar realistis untuk game, chatbot, dan aplikasi realitas virtual. Dengan Triton, ini memberikan waktu respons kurang dari satu detik pada LLM dengan 6 miliar parameter sekaligus mengurangi konsumsi memori GPU hingga sepertiga.

Platform Tumpukan Penuh

Kembali di Prancis, NLP Cloud sekarang menggunakan elemen lain dari platform NVIDIA AI.

Untuk inferensi pada model yang berjalan pada satu GPU, ini mengadopsi perangkat lunak NVIDIA TensorRT untuk meminimalkan latensi. “Kami mendapatkan kinerja yang sangat cepat dengan itu, dan latensi benar-benar turun,” kata Salinas.

Perusahaan juga mulai melatih versi kustom LLM untuk mendukung lebih banyak bahasa dan meningkatkan efisiensi. Untuk pekerjaan itu, ia mengadopsi NVIDIA Nemo Megatron, kerangka kerja ujung ke ujung untuk pelatihan dan penerapan LLM dengan triliunan parameter.

Salinas yang berusia 35 tahun memiliki energi 20-an untuk coding dan mengembangkan bisnisnya. Dia menjelaskan rencana untuk membangun infrastruktur pribadi untuk melengkapi empat layanan cloud publik yang digunakan startup, serta untuk memperluas ke LLM yang menangani ucapan dan teks-ke-gambar untuk menangani aplikasi seperti pencarian semantik.

“Saya selalu menyukai pengkodean, tetapi menjadi pengembang yang baik saja tidak cukup: Anda harus memahami kebutuhan pelanggan Anda,” kata Salinas, yang memposting kode di GitHub hampir 200 kali tahun lalu.

Jika Anda menyukai perangkat lunak, pelajari yang terbaru tentang Triton di blog teknis ini.

Buat seperti itu kami http://valleycatholiconline.com/ sediakan web site ini pada para fans togel hongkong. Sebab kami senantiasa membagikan hasil https://ratelasvegas.com/ hk tercepat dan juga terakurat alhasil para pemeran tidak perlu tunggu lama terhadap jam 23. 00 wib. Kemudian, bersama dengan hasil pengeluaran hk yang kami bagikan pada para pemeran tentu saja hasil itu kami ambil segera dari website sah hongkongpools. Karena kita membawa koneksi berasal dari web hongkongpools https://mnroy.com/ bersama dengan tiap pemberitahuan hasil pengeluaran hk telah mampir sampai bagan knowledge hk yang diatas