Penyimpanan checkpoint sangat penting untuk pelatihan model AI, karena memastikan ketahanan, efisiensi operasional, dan kemampuan untuk melanjutkan atau menyempurnakan pelatihan dari status yang tersimpan. Namun, tuntutan beban kerja AI modern—yang ditandai dengan model yang semakin kompleks dan kumpulan data pelatihan yang luas—mendorong sistem penyimpanan hingga batas absolutnya.
Peran Checkpoint dalam Alur Kerja AI
Checkpointing dalam pelatihan AI adalah proses vital yang melibatkan penyimpanan berkala dari keadaan lengkap model selama siklus pelatihannya. Keadaan ini mencakup bobot dan parameter model, status pengoptimal, jadwal laju pembelajaran, dan metadata pelatihan. Dengan membuat snapshot komprehensif dari proses pelatihan pada interval tertentu, checkpointing menjamin kelangsungan pelatihan dan memungkinkan pemulihan jika terjadi gangguan.
Checkpoint biasanya ditangkap pada interval berbasis iterasi (misalnya, setiap seribu langkah pelatihan). Pelatihan model bahasa besar (LLM) modern—yang dapat berlangsung berminggu-minggu atau bahkan berbulan-bulan dan mengonsumsi sumber daya komputasi yang sangat besar—sangat bergantung pada checkpoint ini sebagai jaring pengaman terhadap potensi kegagalan. Misalnya, melatih model kelas GPT-4 dapat menghasilkan checkpoint mulai dari beberapa ratus gigabyte hingga beberapa terabyte, tergantung pada ukuran model dan konfigurasi pelatihan.
Proses Pelatihan yang Dihasilkan oleh DALL-E
Tujuan utama checkpointing melampaui fungsi pencadangan semata. Ini berfungsi sebagai mekanisme penting untuk ketahanan pelatihan, memungkinkan pelatihan untuk dilanjutkan dari status terakhir yang tersimpan daripada memulai kembali dari awal jika terjadi kegagalan sistem, pemadaman listrik, atau masalah perangkat keras. Selain itu, checkpoint sangat berharga untuk analisis model: mereka memungkinkan peneliti untuk memeriksa evolusi model pada tahap pelatihan yang berbeda dan berpotensi kembali ke status sebelumnya jika degradasi kinerja terdeteksi.
Dari perspektif penyimpanan, pola penulisan selama checkpointing sangat patut diperhatikan. Ketika checkpoint dipicu, sistem harus menulis volume data yang sangat besar dalam pola burst. Ini menciptakan profil I/O yang berbeda: periode aktivitas penyimpanan yang relatif rendah selama komputasi pelatihan, diikuti oleh operasi penulisan intensif dengan bandwidth tinggi selama checkpointing. Operasi penulisan ini biasanya sekuensial dan dapat sangat diuntungkan dari sistem penyimpanan yang dioptimalkan untuk penulisan sekuensial bandwidth tinggi.
Strategi paralelisme yang berbeda dalam pelatihan terdistribusi dapat berdampak signifikan pada perilaku checkpointing. Strategi ini memengaruhi kapan checkpointing terjadi selama pelatihan dan bagian mana dari model yang disimpan. Dalam pengaturan pelatihan terdistribusi modern, beberapa GPU dapat secara bersamaan menulis bagian yang berbeda dari lapisan yang sama, menciptakan pola I/O yang kompleks. Kemampuan penulisan paralel ini adalah kunci efisiensi tetapi memerlukan koordinasi yang cermat dan sistem penyimpanan yang kuat yang dapat menangani operasi penulisan bersamaan sambil mempertahankan konsistensi data. Hambatan apa pun dalam proses ini dapat menyebabkan penundaan pelatihan yang meluas.
Checkpointing yang lambat dapat menciptakan hambatan pelatihan yang signifikan, karena seluruh proses pelatihan harus dijeda saat checkpoint ditulis ke penyimpanan. Misalnya, dalam pengaturan pelatihan skala besar, jika checkpointing memakan waktu 30 menit setiap beberapa jam, ini dapat mengakibatkan beberapa jam downtime kumulatif selama seluruh periode pelatihan. Ini secara langsung memengaruhi efisiensi pelatihan dan meningkatkan biaya operasional—terutama di lingkungan cloud di mana sumber daya komputasi ditagih per jam.
Checkpointing yang lebih cepat juga memungkinkan tim untuk membuat checkpoint lebih sering, mengurangi potensi kehilangan data maksimum jika terjadi kegagalan. Ini memungkinkan pendekatan pelatihan yang lebih agresif dan siklus iterasi eksperimental yang lebih baik. Selain itu, waktu pemuatan checkpoint yang cepat memfasilitasi eksperimen yang lebih cepat dengan konfigurasi pelatihan dan arsitektur model yang berbeda, karena peneliti dapat lebih mudah memulihkan dari status sebelumnya untuk menguji pendekatan alternatif.
Kemampuan sistem penyimpanan untuk menangani operasi checkpoint ini secara efisien menjadi faktor penting dalam infrastruktur pelatihan secara keseluruhan. Solusi penyimpanan berkinerja tinggi yang dapat mengelola pola penulisan burst checkpointing dan operasi baca/tulis berkelanjutan dari pelatihan dapat secara signifikan mengurangi total waktu dan biaya pelatihan model bahasa besar. Dengan demikian, karakteristik kinerja subsistem penyimpanan—terutama kemampuannya untuk menangani penulisan sekuensial besar dan mempertahankan bandwidth tinggi yang konsisten—adalah pertimbangan penting saat merancang infrastruktur pelatihan LLM.
Untuk laporan ini, kami berusaha mengevaluasi kinerja SSD untuk checkpointing AI, menilai manfaat SSD Gen5 terbaru ketika kecepatan checkpoint sangat penting, dibandingkan dengan SSD QLC terbesar di pasaran—yang dapat menyimpan sejumlah besar checkpoint jika itu lebih bermanfaat bagi model yang sedang dilatih.
Kinerja Checkpoint – Benchmarking dengan DLIO
Untuk mengevaluasi kinerja dunia nyata Solidigm SSD di lingkungan pelatihan AI, kami menggunakan alat benchmark Data and Learning Input/Output (DLIO). Dikembangkan oleh Argonne National Laboratory, DLIO dirancang khusus untuk menguji pola I/O dalam beban kerja deep learning, memberikan wawasan tentang bagaimana sistem penyimpanan menangani checkpointing, penyerapan data, dan tantangan pelatihan model.

Menggunakan DLIO, kami bertujuan untuk mengukur throughput, latensi, dan keandalan drive dalam skenario checkpointing yang intensif. Meskipun pengujian ini dilakukan pada D5-P5336 61,44TB, data kinerja awal menunjukkan bahwa versi Solidigm D5-P5336 122TB menawarkan profil kinerja yang serupa. Kami juga menyertakan hasil dari D7-PS1010 berbasis TLC untuk menunjukkan keuntungan PCIe Gen5 dalam pengujian ini. Kami memilih kedua drive ini untuk menampilkan kedua perspektif tentang checkpoint: satu berfokus pada waktu checkpoint tercepat, dan yang lainnya pada penyimpanan jumlah checkpoint maksimum pada satu SSD.
Platform yang dipilih untuk pekerjaan ini adalah Dell PowerEdge R760 kami yang menjalankan Ubuntu 22.04.02 LTS. Kami menggunakan benchmark DLIO versi 2.0 dari rilis 13 Agustus 2024. Konfigurasi sistem kami diuraikan di bawah ini:
- 2 x Intel Xeon Gold 6430 (32-Core, 2.1GHz)
- 16 x 64GB DDR5-4400
- 480GB Dell BOSS SSD
- Kabel Serial Gen5 JBOF
- 7.68TB Solidigm D7-PS1010
- 61.44TB Solidigm D5-P5336
Untuk memastikan benchmarking kami mencerminkan skenario dunia nyata, kami mendasarkan pengujian kami pada arsitektur model LLAMA 3.1 405B, mengimplementasikan checkpointing melalui torch.save() untuk menangkap parameter model, status pengoptimal, dan status lapisan. Pengaturan kami mensimulasikan sistem 8-GPU, mengimplementasikan strategi paralelisme hibrida dengan pemrosesan paralel tensor 4-arah dan paralel pipeline 2-arah yang didistribusikan di delapan GPU. Konfigurasi ini menghasilkan ukuran checkpoint 1.636 GB, yang mewakili persyaratan pelatihan model bahasa besar modern.
Proses pengujian kami untuk beban kerja checkpoint DLIO terdiri dari mengisi setiap drive hingga tingkat pemanfaatan yang serupa. Untuk Solidigm D5-P5336 61,44TB, setiap pass mencakup 33 interval checkpoint, dengan total 54TB. D7-PS1010 7.68TB yang lebih kecil dengan nyaman memuat tiga interval checkpoint, dengan total jejak 4,9TB. Satu checkpoint tambahan dapat muat di D7-PS1010, meskipun itu membuatnya sedikit lebih tinggi dari yang kami inginkan.
Beban kerja checkpoint DLIO menghasilkan hasil yang menarik ketika kami membandingkan D5-P5336 61,44TB berbasis Gen4 QLC dengan D7-PS1010 7.68TB berbasis Gen5 TLC. Selama pass pertama, saat drive terisi, kami menyaksikan kesenjangan kinerja yang lebih lebar antara kedua model SSD. PS1010 Gen5 yang lebih cepat menyelesaikan setiap checkpoint rata-rata dalam 464 detik, dibandingkan dengan 623 detik dari P5336 Gen4. Pada pass kedua dan ketiga, kesenjangan menyempit menjadi 579 dan 587 detik untuk PS1010 dan 676 dan 680 detik untuk P5336.
Bagi bisnis yang ingin memiliki kesenjangan terkecil dalam interval checkpointing, PS1010 Gen5 berbasis TLC menawarkan keuntungan dalam waktu penyelesaian tercepat. Jika tujuannya adalah untuk menyimpan banyak checkpoint secara hemat biaya, P5336 Gen4 berbasis QLC dapat melakukan hal itu. Kami mengukur perbedaan waktu checkpoint rata-rata kurang dari 17% antara kedua drive selama pass kedua dan ketiga.
Bandwidth GPUDirect Storage
Meskipun DLIO menunjukkan kinerja flash dalam alur kerja AI, beban kerja sepenuhnya berbasis penulisan hingga checkpoint dipulihkan. Untuk memberikan gambaran yang lebih lengkap tentang Solidigm D7-PS1010 dan D5-P5336 dalam beban kerja AI, kami menyertakan pengukuran bandwidth baca menggunakan GDSIO.
Cara Kerja GPU Direct Storage
Secara tradisional, ketika GPU memproses data yang disimpan pada drive NVMe, data tersebut harus terlebih dahulu melewati CPU dan memori sistem sebelum mencapai GPU. Proses ini menimbulkan hambatan, karena CPU menjadi perantara, menambah latensi dan mengonsumsi sumber daya sistem yang berharga. GPU Direct Storage menghilangkan inefisiensi ini dengan memungkinkan GPU mengakses data langsung dari perangkat penyimpanan melalui bus PCIe. Jalur langsung ini mengurangi overhead yang terkait dengan pergerakan data, memungkinkan transfer data yang lebih cepat dan lebih efisien.
Beban kerja AI, terutama yang melibatkan deep learning, sangat intensif data. Pelatihan jaringan saraf besar memerlukan pemrosesan terabyte data, dan penundaan apa pun dalam transfer data dapat menyebabkan GPU yang kurang dimanfaatkan dan waktu pelatihan yang lebih lama. GPU Direct Storage mengatasi tantangan ini dengan memastikan bahwa data dikirim ke GPU secepat mungkin, meminimalkan waktu idle dan memaksimalkan efisiensi komputasi.
Seperti pengujian DLIO, tujuannya adalah untuk lebih memahami dan mengkarakterisasi perbedaan antara SSD Gen5 berkecepatan tinggi dan drive QLC berkapasitas tinggi. Tidak semua beban kerja AI sama, dan setiap drive menawarkan keuntungan yang berbeda, tergantung pada kebutuhan.
Matriks Konfigurasi Pengujian
Kami secara sistematis menguji setiap kombinasi parameter berikut dengan NVIDIA L4 di platform pengujian kami:
- Ukuran Blok: 1M, 128K, 64K, 16K, 8K
- Jumlah Thread: 128, 64, 32, 16, 8, 4, 1
- Jumlah Pekerjaan: 16
- Ukuran Batch: 16
Tampilan pertama kami adalah pada D5-P5336 berbasis QLC, yang mencapai puncaknya pada 4,2GiB/s menggunakan ukuran transfer 1M pada kedalaman IO 128. Efek ukuran blok menghasilkan peningkatan bandwidth yang substansial, naik dari 8K ke 1M. Keuntungan dari peningkatan kedalaman IO mulai berkurang pada 32, di mana beban kerja mulai stabil.
Selanjutnya, kami melihat PS-1010 Gen5, yang dapat diskalakan hingga 6,2GiB/s pada ukuran blok 1M dan kedalaman IO 128. Secara keseluruhan, kinerjanya lebih baik daripada P5336 berbasis Gen4, dengan beban kerja tertentu menunjukkan peningkatan yang substansial. Satu area peningkatan yang patut dicatat datang pada ukuran blok 128K, di mana pada kedalaman IO 64 dan 128, PS1010 menawarkan bandwidth baca dua kali lipat dari P5336.
Penting untuk dicatat bahwa kedua SSD diuji menggunakan NVIDIA L4. Sementara D5-P5336 Gen4 berada di atau mendekati batas atasnya, GPU NVIDIA model atas seperti H100 menunjukkan kinerja yang lebih tinggi dengan D7-PS1010. Kecepatan drive adalah faktor penentu utama bagi sebagian pelanggan, sementara yang lain memprioritaskan kepadatan keseluruhan.Solidigmmenyediakan solusi untukkeduanya, dengan penawaran SSD QLC dan TLC.Kesimpulan
Seiring dengan terus melonjaknya skala dan kompleksitas pelatihan AI, infrastruktur penyimpanan yang mendasarinya tidak hanya harus mengimbangi, tetapi juga harus mengatur tempo. Pengujian kami dengan dua SSD yang sangat berbeda menyoroti pentingnya menyelaraskan solusi penyimpanan dengan prioritas pelatihan tertentu—baik itu berarti meminimalkan latensi checkpoint atau memaksimalkan kepadatan checkpoint untuk skalabilitas yang hemat biaya.
Dalam evaluasi kami, kami menguji Solidigm D5-P5336 (61,44TB) dan D7-PS1010 (7,68TB) dalam kondisi pelatihan AI yang realistis, memanfaatkan benchmark DLIO dan alur kerja checkpointing LLM paralel hibrida yang ekstensif. Kami menangkap metrik yang mencerminkan kinerja penulisan checkpoint di berbagai putaran pengujian saat drive terisi, menggarisbawahi perbedaan kinerja dalam waktu penyelesaian antara D5-P5336 berbasis Gen4 QLC dan D7-PS1010 berbasis Gen5 TLC.
Sementara D7-PS1010 memberikan penulisan checkpoint tercepat, D5-P5336 menunjukkan efektivitas biaya dan keunggulan kapasitas yang menarik, dengan hanya sedikit kompromi kinerja. Kami lebih lanjut memeriksa bandwidth baca GPU Direct Storage (GDS) menggunakan GDSIO dengan GPU NVIDIA L4. Temuan kami menunjukkan Solidigm D5-P5336 memberikan bandwidth baca hingga 4,2GiB/s dengan ukuran transfer 1M, sementara D7-PS1010 memberikan peningkatan substansial menjadi 6,2GiB/s. Kinerja akan lebih mengesankan ketika memanfaatkan GPU yang lebih kuat, seperti NVIDIA L40s atau H100/H200.

Ke depan, kapasitas yang belum pernah terjadi sebelumnya dari SSD Solidigm D5-P5336 122TB siap untuk membentuk kembali pelatihan dan penerapan AI. Seiring dengan terus bertambahnya ukuran model dan persyaratan checkpointing, drive berkapasitas tinggi ini membuka tingkat efisiensi dan fleksibilitas baru, memungkinkan strategi pelatihan yang sebelumnya tidak dapat dicapai. Kepemimpinan Solidigm dalam solusi SSD berkapasitas tinggi memberdayakan organisasi untuk menyimpan lebih banyak data dan checkpoint pada lebih sedikit drive, sambil membantu masa depan infrastruktur mereka terhadap gelombang kompleksitas AI berikutnya.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Direktur Strategi Global
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Situs Web: www.qianxingdata.com/www.storagesserver.com
Fokus Bisnis:
Distribusi Produk ICT/Integrasi Sistem & Layanan/Solusi Infrastruktur
Dengan pengalaman distribusi TI 20+ tahun, kami bermitra dengan merek global terkemuka untuk memberikan produk yang andal dan layanan profesional.
“Menggunakan Teknologi untuk Membangun Dunia yang Cerdas”Penyedia Layanan Produk ICT Tepercaya Anda!