Lightbits Labs dan ScaleFlux telah mencapai100x sampai 280x peningkatan kinerjauntuk beban kerja cache KV dengan memanfaatkan perangkat lunak cache LightInferra untuk membaca data dari SSD penyimpanan komputasi ScaleFlux.
Kedua perusahaan memasok data KV cache ke GPU yang dikerahkan dalam lingkungan pusat data FarmGPU, dan akan menampilkan terobosan ini di konferensi GTC Nvidia yang akan datang.Sebuah cache KV menyimpan vektor token dalam memori bandwidth tinggi GPU (HBM)Setelah kapasitas HBM habis, blok data cache KV harus dihitung ulang, proses yang memakan waktu dan menurunkan pelatihan AI dan kecepatan kesimpulan.Perlambatan ini menjadi sangat jelas karena beban kerja AI meningkat, menyebabkan peningkatan tajam dalam jumlah token yang digunakan untuk menghasilkan vektor.
Perangkat lunak cache KV secara logis memperluas lapisan cache ke luar: pertama ke CPU x86 dan DRAMnya di server GPU, kemudian ke drive NVMe lokal di sistem x86 yang sama, dan selanjutnya ke SSD NVMe eksternal.Ekspansi bertingkat ini menghilangkan kebutuhan untuk menghitung kembali vektor tokenSementara NVMe SSD secara alami memiliki latensi akses yang lebih tinggi daripada HBM atau DRAM, mengambil vektor token yang dihitung sebelumnya jauh lebih cepat daripada menghitung kembali puluhan ribu dari nol.Lightbits dan ScaleFlux mengklaim solusi mereka secara drastis mempercepat pengambilan data cache KV dari SSD.
Arthur Rasmusson, Direktur Arsitektur AI di Lightbits Labs, menyatakan: "Kami mengubah memori inferensi dari cache reaktif menjadi lapisan data yang cerdas dan streaming".
Bagaimana caranya?
Dengan hanya mengambil data yang penting dan mengirimkannya ke GPU melalui RDMA kecepatan tinggi sebelum dibutuhkan, kami menghilangkan kemacetan yang secara tradisional membatasi kinerja konteks panjang.Hasilnya lebih rendah Time-to-First-Token (TTFT), throughput yang lebih stabil di bawah beban dunia nyata, dan pemanfaatan GPU yang efektif secara signifikan lebih tinggi.
Keith McKay, Direktur Senior Arsitektur Solusi dan Kemitraan Teknis di ScaleFlux berkomentar:Apa yang kami tunjukkan di GTC adalah pandangan awal tentang bagaimana penempatan data yang lebih cerdas dan manajemen keadaan perhatian yang terus menerus dapat membantu sistem inferensi tetap responsif saat jendela konteks tumbuh. Ini sangat banyak kolaborasi yang ingin kita bentuk bersama dengan operator nyata.
Baik Lightbits dan ScaleFlux bertujuan untuk mendorong operator cloud dan infrastruktur untuk mengadopsi perangkat lunak dan SSD mereka, menghilangkan waktu kosong GPU yang mahal.
Mari kita periksa pertama kontribusi ScaleFlux, kemudian pindah ke lapisan perangkat lunak Lightbits yang lebih canggih.
ScaleFlux menyediakan NVMe SSD dan Computational Storage Drives (CSD) yang dilengkapi dengan Hardware-based Write Reduction Technology (WRT).Didukung oleh kompresi dipercepat perangkat keras dan manajemen metadata SoC-driven, drive ini memberikan hingga empat kali lebih banyak kapasitas logis daripada penyimpanan fisik, sementara tetap sepenuhnya transparan untuk sistem host.Perusahaan ini adalah anggota dari Open Flash Platform (OFP) konsorsium, yang bekerja untuk mendefinisikan kembali infrastruktur data AI dengan padat, latensi rendah,sistem hemat energi menawarkan 10 kali kepadatan penyimpanan AI berbasis file konvensional dan hanya sepersepuluh konsumsi daya.
Membangun pada drive penyimpanan ini, Lightbits menambahkan prefetching cerdas dari data KV CachesebelumnyaGPU membutuhkannya, mencegah kemacetan yang disebabkan oleh kapasitas KV yang tidak cukup atau perhitungan ulang vektor token yang mahal.Perangkat lunak LightInferra menggunakan algoritma caching yang dioptimalkan KV Cache untuk menarik data yang diperlukan ke memori GPU pada kecepatan RDMA sebelum permintaan aktual.
Sekali lagi, bagaimana?
Perangkat lunak ini berjalan pada host x86 yang tertanam dalam server GPU dan melacak pola akses blok data KV Cache.itu mengoperasikan mesin Sub-Linear Sparse Attention Prefetch (SLSAP) untuk mengidentifikasi blok KV yang paling mungkin dibutuhkan selanjutnya.
Mesin ini menggabungkan hashing sensitif lokasi (LSH) dengan pemodelan penggunaan kembali statistik menganalisis lokasi akses historis dalam perhitungan perhatian untuk mencetak dan memprioritaskan blok KV,kemudian memilih mereka dengan kemungkinan tertinggi diminta oleh GPU.
Proses seleksi ini memanfaatkan kekurangannya yang melekat dalam akses data GPU: sebagian besar token hanya berhubungan secara berarti dengan subset kecil dari token sebelumnya.Solusi secara drastis mengurangi volume vektor token yang harus mengalir kembali ke GPU.
Algoritma kedua berfokus pada pola penggunaan kembali: token baru-baru ini, token semantik serupa,dan pola struktural yang umum dalam RAG atau skenario multi-turn chat sering digunakan kembali dan diprioritaskan sesuai.
LightInferra mengambil blok token ini terlebih dahulu dari DRAM server x86, atau dari SSD ScaleFlux eksternal jika diperlukan, kemudian pra-memuatnya ke HBM GPU melalui tautan RDMA.
Lightbits telah membandingkan pendekatan ini terhadap perhitungan ulang konten cache dari awal menggunakan beban kerja model bahasa besar, mengukur peningkatan Time-to-First-Token (TTFT).Angka akselerasi 100x sampai 280x yang dilaporkan berasal langsung dari hasil tes ini.

Tentu saja kami ingin melihat hasil benchmark membandingkan Lightbits-ScaleFlux KV Cache akselerasi
skema dengan akselerator KV Cache dari DDN, Hammerspace, VAST Data, WEKA dan lain-lain, tetapi mereka
tidak tersedia.
Ada grafik yang menunjukkan bagaimana LightInferra-ScaleFlux secara progresif meningkatkan TTFT regenerasi cache
sebagai ukuran model meningkat.

Semua data benchmark terkait disajikan dalam grafik skala log, disesuaikan terutama untuk para profesional ilmu komputer, tetapi bahasa yang sederhana membuat dampak dunia nyata jauh lebih mudah dipahami:Hasilnya adalah kinerja Time-to-First-Token (TTFT) yang berkelanjutan karena skala konteks dari 100k token ke 1 juta dan seterusnya.
Seperti Jonmichael Hands dari FarmGPU mengatakan, ketika percakapan 400k token dilanjutkan dan sistem harus meregenerasi seluruh KV cache dari awal,Itu berarti dua menit penuh waktu berjalan GPU dengan nol token yang dihasilkan. LightInferra mengubah model ekonomi sepenuhnya ̇ beban kerja yang sama menghasilkan token pertamanya dalam waktu kurang dari setengah detik, mengubah tingkat produk yang tidak layak menjadi yang menguntungkan.
Lightbits dan ScaleFlux telah merancang solusi bersama ini khusus untuk pertanian GPU neocloud generasi berikutnya, di mana kapsul GPU besar menjalankan ratusan atau bahkan ribuan beban kerja model AI serentak.Hampir setiap beban kerja ini akan mencapai batas kapasitas cache KV di GPU ′s high-bandwidth memory (HBM).
Di bawah pengaturan tradisional, tim menghadapi dua pilihan mahal: perlahan mengambil vektor token dari penyimpanan eksternal generik,atau proses yang jauh lebih memakan waktu untuk menghitung kembali vektor dari awal yang keduanya meninggalkan GPU duduk diam selama berjam-jam di akhirKombinasi LightInferra dan ScaleFlux menghilangkan titik nyeri industri yang melumpuhkan ini sepenuhnya.
CEO FarmGPU, Jonmichael Hands menambahkan: ¢Simpanan jaringan cepat dari Lightbits membuka banyak kasus penggunaan baru untuk kesimpulan konteks panjang.Dengan memasangkan layanan kami yang dikelola dengan penyimpanan kinerja tinggi Lightbits yang berjalan pada drive ScaleFlux NVMe, kita dapat mengurangi waktu untuk token pertama dan meningkatkan pemanfaatan GPU, secara drastis menurunkan total cost of ownership (TCO) untuk beban kerja inferensi.
Fokus Bisnis:
Distribusi Produk ICT/Integrasi Sistem & Layanan/Solusi Infrastruktur
Dengan 20+ tahun pengalaman distribusi TI, kami bermitra dengan merek global terkemuka untuk memberikan produk yang dapat diandalkan dan layanan profesional.
¢Menggunakan Teknologi untuk Membangun Dunia yang Cerdas ¢Penyedia Layanan Produk ICT yang Anda Percayai!