Sistem file paralel IBM Storage Scale mendukung manajemen cache KV terdistribusi yang dipasangkan dengan NVIDIA Dynamo, melayani skenario inferensi AI skala besar dengan beban kerja konteks besar.
IBM telah merilis Redbook resmi berjudulKonteks Tanpa Batas: Platform Cache KV Berkinerja Tinggi untuk Inferensi AI Berskala BesarStack terintegrasi menggabungkan Supermicro Petascale Storage Server, jaringan Ethernet NVIDIA Spectrum-X,dan IBM Storage Scale Erasure Coding Edition (ECE) untuk membangun tingkat penyimpanan bersama berkinerja tinggi untuk inferensi AISebagai dokumen teknis resmi yang diterbitkan oleh IBM ITSO (International Technical Support Organization), IBM Redbooks menawarkan hands-on,panduan penyebaran mendalam untuk produk infrastruktur IBM tingkat perusahaan.
Ditulis bersama oleh tim insinyur dari IBM, Supermicro dan NVIDIA, Redbook membahas titik nyeri inti dari beban kerja AI konteks panjang.Aplikasi pengambilan RAG dan pipa agen otonom menghasilkan data cache KV besar di dalam GPU HBMSetelah data cache diusir dari sumber daya HBM terbatas, perhitungan ulang berulang akan memicu peningkatan latensi yang parah, membuat penyimpanan cache KV permintaan silang yang persisten sangat diperlukan.
Solusi ini mengadopsi arsitektur cache KV hierarkis lima tingkat yang mencakup permintaan latensi dan kapasitas yang berbeda:
-
Lapisan G1: GPU node lokal HBM
-
Lapisan G2: Sistem node CPU DRAM
-
Lapisan G3: SSD lokal yang terhubung langsung
-
G3.5 Lapisan: Storage flash bersama tingkat pod, di depan oleh NVIDIA BlueField DPU dengan interkoneksi langsung ke DPU server GPU
-
Lapisan G4: External cross-Ethernet shared storage pool yang terhubung ke semua GPU compute server
Mencakup memori ujung-ke-ujung dan hierarki penyimpanan, pengaturan multi-tier ini memberikan latensi terus menerus dan gradien kapasitas.Pengusiran otomatis dan pengisian ulang data dinamis di seluruh tumpukan penyimpanan, beradaptasi secara fleksibel dengan pola akses beban kerja yang bervariasi dan anggaran biaya total infrastruktur.
Digunakan pada Supermicro Petascale Storage Server, Storage Scale ECE berfungsi sebagai lapisan G4 cold cache.termasuk keadaan percakapan multi-turn yang tidak aktif, data konteks agen bersama dan catatan kueri historis yang tidak memerlukan respon instan.
Menurut hasil tes yang tercatat di Redbook, arsitektur referensi siap produksi ini secara efektif mempercepat layanan inferensi AI generatif dan agentik.Dalam tes TTFT (Time To First Token) permintaan tunggal dibandingkan dengan server GPU mandiri tanpa cache KV Storage Scale eksternal, sistem terintegrasi mempertahankan TTFT stabil terlepas dari perubahan panjang yang cepat.56x mempercepatdi bawah 130k-token urutan input dan benar-benar menghilangkan inference latency fluktuasi yang disebabkan oleh panjang prompt diperpanjang.
Di bawah tekanan inferensi serentak multi-pengguna solusi mencapai peningkatan kinerja dramatis: permintaan throughput lonjakan dari 0,19 RPS untuk 4,26 RPS, menandai22x peningkatan throughputSementara itu, total waktu pemrosesan untuk 200 permintaan inferensi turun sebesar 95%, sangat meningkatkan efisiensi pemanfaatan GPU dan skalabilitas cluster inferensi secara keseluruhan.
Stack ini juga mempertahankan kinerja yang kuat di bawah tes stres tetangga berisik yang keras.Sistem terintegrasi masih berjalan stabil pada 3.6 RPS, menyelesaikan semua 200 permintaan kesimpulan dalam 55,56 detik.18x lebih tinggidibandingkan dengan arsitektur perhitungan ulang GPU-only.
Tim peneliti menyimpulkan dalam Redbook: Untuk perusahaan yang bertujuan memaksimalkan ROI pada investasi perangkat keras GPU yang mahal, arsitektur terintegrasi yang diverifikasi ini memberikan solusi yang mudah,pendekatan siap produksi untuk meningkatkan throughput kesimpulan, mengurangi latensi end-to-end, mendukung serangkaian layanan yang lebih tinggi, dan membangun infrastruktur inferensi AI skala besar yang lebih hemat biaya.
Kata kunci: SUPERMICRO, IBM Storage Scale, NVIDIA Dynamo
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Direktur Strategi Global
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Situs web: www.qianxingdata.com/www.storagesserver.com
Fokus Bisnis:
Distribusi Produk ICT/Integrasi Sistem & Layanan/Solusi Infrastruktur
Dengan 20+ tahun pengalaman distribusi TI, kami bermitra dengan merek global terkemuka untuk memberikan produk yang dapat diandalkan dan layanan profesional.
¢Menggunakan Teknologi untuk Membangun Dunia yang Cerdas ¢Penyedia Layanan Produk ICT yang Anda Percayai!