Model Bahasa Besar Memperluas Cakrawala AI
news

Model Bahasa Besar Memperluas Cakrawala AI

Kembali pada tahun 2018, BERT membuat orang berbicara tentang bagaimana model pembelajaran mesin belajar membaca dan berbicara. Saat ini, model bahasa besar, atau LLM, tumbuh dengan cepat, menunjukkan ketangkasan dalam semua jenis aplikasi.

Mereka, misalnya, mempercepat penemuan obat, berkat penelitian dari Rostlab di Technical University of Munich, serta kerja sama tim dari Harvard, Yale dan New York University dan lain-lain. Dalam upaya terpisah, mereka menerapkan LLM untuk menafsirkan rangkaian asam amino yang membentuk protein, memajukan pemahaman kita tentang blok bangunan biologi ini.

Ini adalah salah satu dari banyak terobosan yang dibuat LLM dalam perawatan kesehatan, robotika, dan bidang lainnya.

Sejarah Singkat LLM

Model transformator — jaringan saraf, yang ditetapkan pada tahun 2017, yang dapat mempelajari konteks dalam data sekuensial — memulai LLM.

Para peneliti di belakang BERT dan model transformator lainnya menjadikan 2018 “momen penting” untuk pemrosesan bahasa alami, sebuah laporan tentang AI mengatakan pada akhir tahun itu. “Beberapa ahli mengklaim bahwa rilis BERT menandai era baru dalam NLP,” tambahnya.

Dikembangkan oleh Google, BERT (alias Representasi Encoder Bidirectional dari Transformers) memberikan skor mutakhir pada tolok ukur untuk NLP. Pada tahun 2019, BERT mengumumkan kekuatan mesin pencari perusahaan.

Google merilis BERT sebagai perangkat lunak sumber terbuka, menelurkan keluarga tindak lanjut dan memulai perlombaan untuk membangun LLM yang lebih besar dan lebih kuat.

Misalnya, Meta membuat versi yang disempurnakan yang disebut RoBERTa, dirilis sebagai kode sumber terbuka pada Juli 2017. Untuk pelatihan, ia menggunakan “data yang lebih banyak daripada BERT,” kata surat kabar itu, dan melompat ke depan di papan peringkat NLP. Sebuah scrum diikuti.

Parameter Penskalaan dan Pasar

Untuk kenyamanan, skor sering disimpan dengan jumlah parameter atau bobot LLM, ukuran kekuatan koneksi antara dua node dalam jaringan saraf. BERT memiliki 110 juta, RoBERTa memiliki 123 juta, kemudian BERT-Large menimbang 354 juta, membuat rekor baru, tetapi tidak lama.

Saat LLM berkembang menjadi aplikasi baru, ukuran dan persyaratan komputasinya bertambah.

Pada tahun 2020, para peneliti di OpenAI dan Universitas Johns Hopkins mengumumkan GPT-3, dengan 175 miliar parameter, dilatih pada kumpulan data dengan hampir satu triliun kata. Itu mendapat nilai bagus pada banyak tugas bahasa dan bahkan aritmatika tiga digit sandi.

“Model bahasa memiliki berbagai aplikasi yang bermanfaat bagi masyarakat,” tulis para peneliti.

Para Ahli Merasa ‘Terpesona’

Dalam beberapa minggu, orang-orang menggunakan GPT-3 untuk membuat puisi, program, lagu, situs web, dan lainnya. Baru-baru ini, GPT-3 bahkan menulis makalah akademis tentang dirinya sendiri.

“Saya hanya ingat saya terpesona oleh hal-hal yang bisa dilakukan, karena hanya menjadi model bahasa,” kata Percy Liang, profesor ilmu komputer Stanford, berbicara di podcast.

GPT-3 membantu memotivasi Stanford untuk menciptakan pusat yang sekarang dipimpin Liang, mengeksplorasi implikasi dari apa yang disebutnya model dasar yang dapat menangani berbagai macam tugas dengan baik.

Menuju Triliunan Parameter

Tahun lalu, NVIDIA mengumumkan Megatron 530B LLM yang dapat dilatih untuk domain dan bahasa baru. Ini memulai debutnya dengan alat dan layanan untuk melatih model bahasa dengan triliunan parameter.

“Model bahasa besar telah terbukti fleksibel dan mampu … mampu menjawab pertanyaan domain mendalam tanpa pelatihan atau pengawasan khusus,” kata Bryan Catanzaro, wakil presiden penelitian pembelajaran mendalam terapan di NVIDIA, saat itu.

Mempermudah pengguna untuk mengadopsi model yang kuat, layanan NVIDIA Nemo LLM memulai debutnya pada bulan September di GTC. Ini adalah layanan cloud yang dikelola NVIDIA untuk mengadaptasi LLM yang telah dilatih sebelumnya untuk melakukan tugas tertentu.

Transformers Mengubah Penemuan Obat

Kemajuan yang dibuat LLM dengan protein dan struktur kimia juga diterapkan pada DNA.

Para peneliti bertujuan untuk meningkatkan skala pekerjaan mereka dengan NVIDIA BioNeMo, kerangka kerja perangkat lunak dan layanan cloud untuk menghasilkan, memprediksi, dan memahami data biomolekuler. Bagian dari kumpulan kerangka kerja, aplikasi, dan model AI NVIDIA Clara Discovery untuk penemuan obat, ini mendukung pekerjaan dalam format data protein, DNA, dan kimia yang banyak digunakan.

NVIDIA BioNeMo menampilkan beberapa model AI yang telah dilatih sebelumnya, termasuk model MegaMolBART, yang dikembangkan oleh NVIDIA dan AstraZeneca.

Dalam makalah mereka tentang model dasar, peneliti Stanford memproyeksikan banyak kegunaan LLM dalam perawatan kesehatan.

LLM Meningkatkan Visi Komputer

Transformer juga membentuk kembali visi komputer karena LLM yang kuat menggantikan model AI konvolusi tradisional. Misalnya, para peneliti di Meta AI dan Dartmouth merancang TimeSformer, model AI yang menggunakan transformer untuk menganalisis video dengan hasil mutakhir.

Para ahli memperkirakan model seperti itu dapat menelurkan segala macam aplikasi baru dalam fotografi komputasi, pendidikan, dan pengalaman interaktif bagi pengguna ponsel.

Dalam pekerjaan terkait awal tahun ini, dua perusahaan merilis model AI yang kuat untuk menghasilkan gambar dari teks.

OpenAI mengumumkan DALL-E 2, model transformator dengan 3,5 miliar parameter yang dirancang untuk membuat gambar realistis dari deskripsi teks. Dan baru-baru ini, Stability AI, yang berbasis di London, meluncurkan Stability Diffusion,

Menulis Kode, Mengontrol Robot

LLM juga membantu pengembang menulis perangkat lunak. Tabnine — anggota NVIDIA Inception, sebuah program yang memelihara startup mutakhir — mengklaim itu mengotomatisasi hingga 30% dari kode yang dihasilkan oleh satu juta pengembang.

Mengambil langkah berikutnya, para peneliti menggunakan model berbasis transformator untuk mengajarkan robot yang digunakan dalam manufaktur, konstruksi, mengemudi otonom dan asisten pribadi.

Misalnya, DeepMind mengembangkan Gato, LLM yang mengajarkan lengan robot cara menumpuk balok. Model parameter 1,2 miliar telah dilatih pada lebih dari 600 tugas berbeda sehingga dapat berguna dalam berbagai mode dan lingkungan, baik bermain game atau menghidupkan chatbot.

The LLM Gato dapat menganalisis tindakan robot dan gambar serta teks.

“Dengan meningkatkan dan mengulangi pendekatan dasar yang sama ini, kami dapat membangun agen tujuan umum yang berguna,” kata para peneliti dalam sebuah makalah yang diposting pada bulan Mei.

Ini adalah contoh lain dari apa yang disebut oleh pusat Stanford dalam makalah Juli sebagai perubahan paradigma dalam AI. “Model dasar baru saja mulai mengubah cara sistem AI dibangun dan digunakan di dunia,” katanya.

Pelajari bagaimana perusahaan di seluruh dunia mengimplementasikan LLM dengan NVIDIA Triton untuk banyak kasus penggunaan.

Buat seperti itu kami https://dondebuscar.net/ sediakan web site ini pada para penggemar togel hongkong. Sebab kita senantiasa membagikan hasil https://thechirurgeonsapprentice.com/ hk tercepat serta terakurat alhasil para pemeran tidak butuh tunggu lama terhadap jam 23. 00 wib. Kemudian, dengan hasil pengeluaran hk yang kami bagikan terhadap para pemeran tentu saja hasil itu kami ambil langsung berasal dari website sah hongkongpools. Karena kita mempunyai koneksi berasal dari web site hongkongpools https://glutenfreeshanghai.com/ bersama tiap pemberitahuan hasil pengeluaran hk udah datang hingga bagan data hk yang diatas