NVIDIA memperkenalkan Hopper, arsitektur perangkat keras barunya untuk mengubah pusat data menjadi pabrik AI
Processors

NVIDIA memperkenalkan Hopper, arsitektur perangkat keras barunya untuk mengubah pusat data menjadi pabrik AI

NVIDIA melakukannya lagi, tapi kali ini dengan twist — muncul untuk meminjam halaman dari buku pedoman kompetisi. Di NVIDIA GTC, yang telah menjadi salah satu peristiwa terpenting industri AI, perusahaan mengumumkan iterasi terbaru dari arsitektur dan produk perangkat kerasnya. Berikut rincian pengumuman dan apa artinya bagi ekosistem secara luas.

Hopper: Arsitektur GPU NVIDIA yang baru

GTC, yang dimulai pada hari Senin dan berlangsung hingga Kamis, menampilkan 900+ sesi. Lebih dari 200.000 pengembang, peneliti, dan ilmuwan data dari 50+ negara telah mendaftar untuk acara tersebut. Di GTC 2022 pembicara utamaPendiri dan CEO NVIDIA Jensen Huang mengumumkan banyak berita di pusat data dan komputasi kinerja tinggi, AI, kolaborasi desain dan kembar digital, jaringan, otomotif, robotika, dan perawatan kesehatan.

Framing Huang adalah bahwa “perusahaan sedang memproses, memperbaiki data mereka, membuat perangkat lunak AI … menjadi produsen intelijen.” Jika tujuannya adalah untuk mengubah pusat data menjadi ‘Pabrik AI’, seperti yang dikatakan NVIDIA, maka menempatkan Transformers di jantungnya adalah hal yang masuk akal.

Bagian tengah dalam pengumuman tersebut adalah Arsitektur GPU Hopper baru, yang oleh NVIDIA disebut sebagai “generasi komputasi akselerasi berikutnya.” Dinamakan untuk Grace Hopper, seorang ilmuwan komputer perintis AS, arsitektur baru ini menggantikan arsitektur NVIDIA Ampere, yang diluncurkan dua tahun lalu. Perusahaan juga mengumumkan GPU berbasis Hopper pertamanya, NVIDIA H100.

NVIDIA mengklaim bahwa Hopper membawa lompatan kinerja yang lebih besar dari pendahulunya, dan prestasi ini didasarkan pada enam terobosan inovasi. Mari kita membahasnya, membuat catatan singkat tentang bagaimana mereka dibandingkan dengan kompetisi.

Pertama, manufaktur. Dibangun dengan 80 miliar transistor menggunakan proses TSMC 4N mutakhir yang dirancang untuk kebutuhan komputasi NVIDIA yang dipercepat, H100 menghadirkan kemajuan besar untuk mempercepat AI, HPC, bandwidth memori, interkoneksi, dan komunikasi, termasuk konektivitas eksternal hampir 5 terabyte per detik. Pada tingkat manufaktur, pemula seperti Cerebras atau Graphcore juga telah mendorong batas-batas dari apa yang mungkin.

hopper-arch-h100-die-image.png

GPU NVIDIA H100, yang pertama menggunakan arsitektur Hopper baru

NVIDIA

Kedua, Multi-Instance GPU (MIG). Teknologi MIG memungkinkan satu GPU untuk dipartisi menjadi tujuh instans yang lebih kecil dan terisolasi sepenuhnya untuk menangani berbagai jenis pekerjaan. Arsitektur Hopper memperluas kemampuan MIG hingga 7x dari generasi sebelumnya dengan menawarkan konfigurasi multitenant yang aman di lingkungan cloud di setiap instans GPU. Run:AI, mitra NVIDIA, menawarkan sesuatu yang mirip dengan lapisan perangkat lunak, dengan nama pembagian GPU fraksional.

Ketiga, komputasi rahasia. NVIDIA mengklaim H100 adalah akselerator pertama di dunia dengan kemampuan komputasi rahasia untuk melindungi model AI dan data pelanggan saat sedang diproses. Pelanggan juga dapat menerapkan komputasi rahasia ke pembelajaran gabungan untuk industri sensitif privasi seperti layanan kesehatan dan keuangan, serta infrastruktur cloud bersama. Ini bukan fitur yang kita lihat di tempat lain.

Keempat, NVIDIA NVLink Generasi ke-4. Untuk mempercepat model AI terbesar, NVLink menggabungkan dengan NVLink Switch eksternal baru untuk memperluas NVLink sebagai jaringan skala-up di luar server, menghubungkan hingga 256 GPU H100 pada bandwidth 9x lebih tinggi dibandingkan generasi sebelumnya menggunakan NVIDIA HDR Quantum InfiniBand. Sekali lagi, ini khusus NVIDIA, meskipun pesaing sering memanfaatkan infrastruktur khusus mereka sendiri untuk menghubungkan perangkat keras mereka juga.

Kelima, instruksi DPX untuk mempercepat pemrograman dinamis. Pemrograman dinamis adalah metode optimasi matematika dan metode pemrograman komputer, awalnya dikembangkan pada 1950-an. Dalam hal optimasi matematis, pemrograman dinamis biasanya mengacu pada penyederhanaan keputusan dengan memecahnya menjadi urutan langkah keputusan dari waktu ke waktu. Pemrograman dinamis terutama merupakan optimasi atas rekursi biasa.

NVIDIA mencatat bahwa pemrograman dinamis digunakan dalam berbagai algoritme, termasuk pengoptimalan rute dan genomik, dan dapat mempercepat eksekusi hingga 40x dibandingkan dengan CPU dan hingga 7x dibandingkan dengan GPU generasi sebelumnya. Kami tidak mengetahui padanan langsung dalam kompetisi, meskipun banyak pemula chip AI juga memanfaatkan paralelisme.

Inovasi keenam adalah yang kami anggap paling penting: mesin Transformer baru. Sebagai catatan NVIDIA, transformer adalah pilihan model standar untuk pemrosesan bahasa alami, dan salah satu model pembelajaran mendalam paling penting yang pernah ditemukan. Mesin Transformer akselerator H100 dibuat untuk mempercepat jaringan ini sebanyak 6x dibandingkan generasi sebelumnya tanpa kehilangan akurasi. Ini layak untuk dianalisis lebih lanjut.

Mesin Transformer di jantung Hopper

Melihat judul utama mesin transformator baru di jantung NVIDIA H100, kami diingatkan akan pernyataan arsitek Intel Raja M. Koduri kepada Tiernan Ray dari ZDNet. Koduri mencatat bahwa percepatan perkalian matriks sekarang menjadi ukuran penting dari kinerja dan efisiensi chip, yang berarti bahwa setiap chip akan menjadi prosesor jaringan saraf.

Koduri sangat tepat tentu saja. Selain upaya Intel sendiri, inilah yang telah mendorong generasi baru desain chip AI dari berbagai pemula. Melihat NVIDIA mengacu pada mesin transformator membuat kami bertanya-tanya apakah perusahaan tersebut membuat desain ulang GPU-nya secara radikal. Bagaimanapun juga, GPU pada awalnya tidak dirancang untuk beban kerja AI, mereka hanya bagus dalam hal itu, dan NVIDIA memiliki pandangan ke depan dan kecerdasan untuk membangun ekosistem di sekitar mereka.

Namun, masuk lebih dalam ke analisis NVIDIA sendiri tentang arsitektur Hopper, gagasan tentang desain ulang radikal tampaknya terhalau. Sementara Hopper memang memperkenalkan streaming multiprocessor (SM) baru dengan banyak peningkatan kinerja dan efisiensi, sejauh itu saja. Itu tidak mengejutkan, mengingat beratnya ekosistem yang dibangun di sekitar GPU NVIDIA dan pembaruan besar-besaran serta potensi ketidakcocokan, desain ulang radikal akan diperlukan.

Meruntuhkan peningkatan di Hopper, memori tampaknya menjadi bagian besar darinya. Sebagai manajer produk Facebook untuk PyTorch, perpustakaan pelatihan pembelajaran mesin yang populer, mengatakan ZDNet, “Model terus menjadi lebih besar dan lebih besar, mereka benar-benar besar, dan sangat mahal untuk dilatih.” Model terbesar saat ini seringkali tidak dapat disimpan sepenuhnya di sirkuit memori yang menyertai GPU. Hopper hadir dengan memori yang lebih cepat, lebih banyak, dan dibagikan di antara SM.

Dorongan lain datang dari core tensor generasi keempat NVIDIA yang baru, yang 6x lebih cepat dari chip-to-chip dibandingkan dengan A100. Inti tensor adalah persis apa yang digunakan untuk perkalian matriks. Di H100, tipe data FP8 baru digunakan, menghasilkan komputasi 4 kali lebih cepat dibandingkan dengan opsi floating-point 16-bit generasi sebelumnya. Pada tipe data yang setara, masih ada speedup 2x.

h100-compute-improvement-summary-625x300.jpg

Ringkasan peningkatan komputasi H100

NVIDIA

Adapun yang disebut “mesin trafo baru”, ternyata ini adalah istilah yang digunakan NVIDIA untuk merujuk pada “kombinasi perangkat lunak dan teknologi NVIDIA Hopper Tensor Core kustom yang dirancang khusus untuk mempercepat pelatihan dan inferensi model trafo.”

NVIDIA mencatat bahwa mesin transformator secara cerdas mengelola dan secara dinamis memilih antara perhitungan FP8 dan 16-bit, secara otomatis menangani casting ulang dan penskalaan antara FP8 dan 16-bit di setiap lapisan untuk memberikan pelatihan AI hingga 9x lebih cepat dan inferensi AI hingga 30x lebih cepat percepatan pada model bahasa besar dibandingkan dengan A100 generasi sebelumnya.

Jadi meskipun ini bukan desain ulang yang radikal, kombinasi peningkatan kinerja dan efisiensi menghasilkan percepatan 6x dibandingkan dengan Ampere, seperti yang dijelaskan oleh blog teknis NVIDIA. Fokus NVIDIA pada peningkatan kinerja untuk model transformator sama sekali tidak salah tempat.

Model transformator adalah tulang punggung model bahasa yang digunakan secara luas saat ini, seperti BERT dan GPT-3. Awalnya dikembangkan untuk kasus penggunaan pemrosesan bahasa alami, keserbagunaannya semakin diterapkan pada visi komputer, penemuan obat, dan banyak lagi, seperti yang telah kami dokumentasikan dalam cakupan State of AI kami. Menurut metrik yang dibagikan oleh NVIDIA, 70% dari penelitian yang dipublikasikan di AI dalam 2 tahun terakhir didasarkan pada transformer.

Sisi perangkat lunak: kabar baik bagi pengguna Apache Spark

Tapi bagaimana dengan sisi perangkat lunak? Dalam pengumuman GTC sebelumnya, pembaruan tumpukan perangkat lunak adalah bagian penting dari berita. Dalam acara ini, sementara heuristik yang disetel NVIDIA yang secara dinamis memilih antara perhitungan FP8 dan FP16 adalah bagian penting dari mesin transformator baru secara internal, pembaruan pada tumpukan perangkat lunak yang menghadap eksternal tampaknya kurang penting dibandingkan.

Server Inferensi Triton NVIDIA dan kerangka kerja NeMo Megatron untuk melatih model bahasa besar mendapatkan pembaruan. Begitu juga Riva, Merlin, dan Maxin — SDK AI ucapan yang masing-masing mencakup model terlatih, kerangka kerja AI rekomendasi ujung-ke-ujung, dan SDK peningkatan kualitas audio dan video. Seperti yang disorot NVIDIA, ini digunakan oleh orang-orang seperti AT&T, Microsoft, dan Snapchat.

Ada juga 60 pembaruan SDK untuk Perpustakaan CUDA-X NVIDIA. NVIDIA memilih untuk menyoroti area yang sedang berkembang seperti simulasi sirkuit kuantum yang dipercepat (ketersediaan umum cuQuantum) dan penelitian lapisan fisik 6G (ketersediaan umum Sionna). Namun, bagi sebagian besar pengguna, kabar baiknya mungkin ada pada pembaruan di Akselerator RAPIDS untuk Apache Spark, yang mempercepat pemrosesan lebih dari 3x tanpa perubahan kode.

Meskipun ini tidak terlalu menonjol dalam pengumuman NVIDIA, kami pikir itu seharusnya. Percepatan 3x semalam tanpa perubahan kode untuk pengguna Apache Spark, dengan 80 persen Fortune 500 menggunakan Apache Spark dalam produksi, bukanlah berita kecil. Ini bukan pertama kalinya NVIDIA menunjukkan cinta kepada pengguna Apache Spark.

Secara keseluruhan, NVIDIA tampaknya mempertahankan momentumnya. Meskipun persaingan sangat ketat, dengan terobosan yang telah dilakukan NVIDIA, desain ulang radikal mungkin tidak benar-benar diperlukan.

Posted By : hongkong togel