Model Bahasa Besar Landmark Memprediksi Varian COVID
news

Model Bahasa Besar Landmark Memprediksi Varian COVID

Catatan editor: Posting ini diperbarui pada 17 November sesudahnya Pengumuman dari pemenang hadiah Gordon Bell.

Pemenang hadiah khusus Gordon Bell untuk penelitian COVID-19 berbasis komputasi kinerja tinggi telah mengajarkan model bahasa besar (LLM) istilah baru – urutan gen – yang dapat membuka wawasan dalam genomik, epidemiologi, dan rekayasa protein.

Diterbitkan pada bulan Oktober, karya inovatif ini merupakan kolaborasi lebih dari dua lusin peneliti akademis dan komersial dari Argonne National Laboratory, NVIDIA, University of Chicago, dan lainnya.

Tim peneliti melatih LLM untuk melacak mutasi genetik dan memprediksi varian yang menjadi perhatian pada SARS-CoV-2, virus penyebab COVID-19. Sementara sebagian besar LLM yang diterapkan pada biologi hingga saat ini telah dilatih pada kumpulan data molekul kecil atau protein, proyek ini adalah salah satu model pertama yang dilatih pada sekuens nukleotida mentah – unit DNA dan RNA terkecil.

“Kami berhipotesis bahwa berpindah dari data tingkat protein ke tingkat gen dapat membantu kami membangun model yang lebih baik untuk memahami varian COVID,” kata Arvind Ramanathan, ahli biologi komputasi di Argonne, yang memimpin proyek tersebut. “Dengan melatih model kami untuk melacak seluruh genom dan semua perubahan yang muncul dalam evolusinya, kami dapat membuat prediksi yang lebih baik tidak hanya tentang COVID, tetapi penyakit apa pun dengan data genomik yang cukup.”

Penghargaan Gordon Bell, yang dianggap sebagai Hadiah Nobel untuk komputasi kinerja tinggi, dipresentasikan pada konferensi SC22 oleh Association for Computing Machinery, yang mewakili sekitar 100.000 pakar komputasi di seluruh dunia. Sejak tahun 2020, grup tersebut telah memberikan hadiah khusus untuk penelitian luar biasa yang memajukan pemahaman tentang COVID dengan HPC.

Pelatihan LLM tentang Bahasa Empat Huruf

LLM telah lama dilatih tentang bahasa manusia, yang biasanya terdiri dari beberapa lusin huruf yang dapat disusun menjadi puluhan ribu kata, dan digabungkan menjadi kalimat dan paragraf yang lebih panjang. Bahasa biologi, di sisi lain, hanya memiliki empat huruf yang mewakili nukleotida – A, T, G dan C dalam DNA, atau A, U, G dan C dalam RNA – disusun dalam urutan yang berbeda sebagai gen.

Sementara lebih sedikit huruf mungkin tampak seperti tantangan yang lebih sederhana untuk AI, model bahasa untuk biologi sebenarnya jauh lebih rumit. Itu karena genom — terdiri dari lebih dari 3 miliar nukleotida pada manusia, dan sekitar 30.000 nukleotida pada virus corona — sulit untuk dipecah menjadi unit yang berbeda dan bermakna.

“Saat memahami kode kehidupan, tantangan utamanya adalah bahwa informasi pengurutan dalam genom cukup luas,” kata Ramanathan. “Makna urutan nukleotida dapat dipengaruhi oleh urutan lain yang jauh lebih jauh daripada kalimat atau paragraf berikutnya dalam teks manusia. Itu bisa mencapai setara dengan bab dalam sebuah buku. ”

Kolaborator NVIDIA pada proyek ini merancang metode difusi hierarkis yang memungkinkan LLM memperlakukan rangkaian panjang sekitar 1.500 nukleotida seolah-olah itu adalah kalimat.

“Model bahasa standar mengalami kesulitan menghasilkan urutan panjang yang koheren dan mempelajari distribusi yang mendasari varian yang berbeda,” kata rekan penulis makalah Anima Anandkumar, direktur senior penelitian AI di NVIDIA dan profesor Bren di departemen ilmu komputasi + matematika di Caltech. “Kami mengembangkan model difusi yang beroperasi pada tingkat detail lebih tinggi yang memungkinkan kami menghasilkan varian realistis dan menangkap statistik yang lebih baik.”

Memprediksi Varian COVID Yang Menjadi Kekhawatiran

Menggunakan data sumber terbuka dari Pusat Sumber Daya Bioinformatika Bakteri dan Virus, tim pertama-tama melatih LLM-nya pada lebih dari 110 juta sekuens gen dari prokariota, yang merupakan organisme bersel tunggal seperti bakteri. Kemudian menyempurnakan model menggunakan 1,5 juta urutan genom berkualitas tinggi untuk virus COVID.

Dengan melakukan prapelatihan pada kumpulan data yang lebih luas, para peneliti juga memastikan model mereka dapat digeneralisasikan ke tugas prediksi lain dalam proyek mendatang — menjadikannya salah satu model skala genom keseluruhan pertama dengan kemampuan ini.

Setelah menyempurnakan data COVID, LLM mampu membedakan urutan genom dari varian virus. Itu juga dapat menghasilkan urutan nukleotidanya sendiri, memprediksi potensi mutasi genom COVID yang dapat membantu para ilmuwan mengantisipasi varian yang menjadi perhatian di masa depan.

Dilatih dengan data genom SARS-CoV-2 selama satu tahun, model ini dapat menyimpulkan perbedaan antara berbagai jenis virus. Setiap titik di sebelah kiri sesuai dengan rangkaian virus SARS-CoV-2 yang diurutkan, diberi kode warna berdasarkan varian. Gambar di sebelah kanan memperbesar satu galur virus tertentu, yang menangkap sambungan evolusioner pada protein virus yang khusus untuk galur ini. Gambar milik Bharat Kale dari Argonne National Laboratory, Max Zvyagin dan Michael E. Papka.

“Sebagian besar peneliti telah melacak mutasi pada protein lonjakan virus COVID, khususnya domain yang berikatan dengan sel manusia,” kata Ramanathan. “Tetapi ada protein lain dalam genom virus yang sering mengalami mutasi dan penting untuk dipahami.”

Model ini juga dapat berintegrasi dengan model prediksi struktur protein populer seperti AlphaFold dan OpenFold, kata makalah itu, membantu para peneliti mensimulasikan struktur virus dan mempelajari bagaimana mutasi genetik memengaruhi kemampuan virus untuk menginfeksi inangnya. OpenFold adalah salah satu model bahasa terlatih yang disertakan dalam layanan NVIDIA BioNeMo LLM untuk pengembang yang menerapkan LLM ke aplikasi biologi dan kimia digital.

Pelatihan AI Supercharging Dengan Superkomputer yang Dipercepat GPU

Tim mengembangkan model AI-nya pada superkomputer yang ditenagai oleh GPU NVIDIA A100 Tensor Core — termasuk Polaris Argonne, Perlmutter dari Departemen Energi AS, dan sistem Selene internal NVIDIA. Dengan meningkatkan sistem yang kuat ini, mereka mencapai kinerja lebih dari 1.500 exaflop dalam pelatihan, menciptakan model bahasa biologis terbesar hingga saat ini.

“Saat ini kami bekerja dengan model yang memiliki hingga 25 miliar parameter, dan kami berharap ini akan meningkat secara signifikan di masa mendatang,” kata Ramanathan. “Ukuran model, panjang urutan genetik, dan jumlah data pelatihan yang diperlukan berarti kami benar-benar membutuhkan kompleksitas komputasi yang disediakan oleh superkomputer dengan ribuan GPU.”

Para peneliti memperkirakan bahwa melatih versi model mereka dengan 2,5 miliar parameter membutuhkan waktu lebih dari sebulan dengan sekitar 4.000 GPU. Tim, yang sudah menyelidiki LLM untuk biologi, menghabiskan waktu sekitar empat bulan untuk proyek tersebut sebelum merilis makalah dan kode secara publik. Halaman GitHub menyertakan instruksi bagi peneliti lain untuk menjalankan model pada Polaris dan Perlmutter.

Kerangka kerja NVIDIA BioNeMo, tersedia dalam akses awal di hub NVIDIA NGC untuk perangkat lunak yang dioptimalkan GPU, mendukung peneliti untuk menskalakan model bahasa biomolekuler besar di beberapa GPU. Sebagai bagian dari kumpulan alat penemuan obat NVIDIA Clara Discovery, kerangka kerja ini akan mendukung format data kimia, protein, DNA, dan RNA.

Temukan NVIDIA di SC22 dan tonton tayangan ulang alamat khusus di bawah ini:

Gambar di atas mewakili strain COVID yang diurutkan oleh LLM para peneliti. Setiap titik diberi kode warna berdasarkan varian COVID. Gambar milik Bharat Kale dari Argonne National Laboratory, Max Zvyagin dan Michael E. Papka.

Buat layaknya itu kita https://xjanddorothymkennedy.com/ menyediakan web ini terhadap para pecinta togel hongkong. Sebab kami senantiasa membagikan hasil https://maydongy.com hk tercepat serta terakurat alhasil para pemeran tidak perlu menunggu lama pada jam 23. 00 wib. Kemudian, bersama hasil pengeluaran hk yang kita bagikan pada para pemeran tentu saja hasil itu kami ambil langsung berasal dari situs sah hongkongpools. Karena kami membawa koneksi berasal dari web hongkongpools https://umavisaodomundo.com/ bersama tiap pemberitahuan hasil pengeluaran hk udah mampir sampai bagan information hk yang diatas