logo
Rumah Berita

berita perusahaan tentang Lightbits dan ScaleFlux mendemonstrasikan akselerasi KV Cache 100x hingga 280x

Sertifikasi
Cina Beijing Qianxing Jietong Technology Co., Ltd. Sertifikasi
Cina Beijing Qianxing Jietong Technology Co., Ltd. Sertifikasi
Ulasan pelanggan
Staf penjualan Beijing Qianxing Jietong Technology Co, Ltd sangat profesional dan sabar. Mereka dapat memberikan kutipan dengan cepat. Kualitas dan kemasan produk juga sangat baik. Kerjasama kami sangat lancar.

—— Festfing DV》LLC

Ketika saya sangat mencari CPU intel dan SSD Toshiba, Sandy dari Beijing Qianxing Jietong Technology Co., Ltd memberi saya banyak bantuan dan mendapatkan produk yang saya butuhkan dengan cepat. Saya sangat menghargai dia.

—— Kitty Yen

Sandy dari Beijing Qianxing Jietong Technology Co, Ltd adalah penjual yang sangat berhati-hati, yang dapat mengingatkan saya tentang kesalahan konfigurasi saat saya membeli server. Para insinyur juga sangat profesional dan dapat dengan cepat menyelesaikan proses pengujian.

—— Strelkin Mikhail Vladimirovich

Kami sangat senang dengan pengalaman kami bekerja dengan Beijing Qianxing Jietong. Kualitas produk sangat baik, dan pengiriman selalu tepat waktu. Tim penjualan mereka profesional, sabar, dan sangat membantu dengan semua pertanyaan kami. Kami sangat menghargai dukungan mereka dan berharap dapat menjalin kemitraan jangka panjang. Sangat direkomendasikan!

—— Ahmad Navid

Kualitas: Pengalaman yang baik dengan pemasok saya. MikroTik RB3011 sudah digunakan, tetapi dalam kondisi yang sangat baik dan semuanya bekerja dengan sempurna. Komunikasi cepat dan lancar,dan semua kekhawatiran saya segera ditangani. Penyedia yang sangat dapat diandalkan sangat direkomendasikan.

—— Geran Colesio

I 'm Online Chat Now
perusahaan Berita
Lightbits dan ScaleFlux mendemonstrasikan akselerasi KV Cache 100x hingga 280x
Lightbits Labs dan ScaleFlux telah mencapai100x sampai 280x peningkatan kinerjauntuk beban kerja cache KV dengan memanfaatkan perangkat lunak cache LightInferra untuk membaca data dari SSD penyimpanan komputasi ScaleFlux.

Kedua perusahaan memasok data KV cache ke GPU yang dikerahkan dalam lingkungan pusat data FarmGPU, dan akan menampilkan terobosan ini di konferensi GTC Nvidia yang akan datang.Sebuah cache KV menyimpan vektor token dalam memori bandwidth tinggi GPU (HBM)Setelah kapasitas HBM habis, blok data cache KV harus dihitung ulang, proses yang memakan waktu dan menurunkan pelatihan AI dan kecepatan kesimpulan.Perlambatan ini menjadi sangat jelas karena beban kerja AI meningkat, menyebabkan peningkatan tajam dalam jumlah token yang digunakan untuk menghasilkan vektor.

Perangkat lunak cache KV secara logis memperluas lapisan cache ke luar: pertama ke CPU x86 dan DRAMnya di server GPU, kemudian ke drive NVMe lokal di sistem x86 yang sama, dan selanjutnya ke SSD NVMe eksternal.Ekspansi bertingkat ini menghilangkan kebutuhan untuk menghitung kembali vektor tokenSementara NVMe SSD secara alami memiliki latensi akses yang lebih tinggi daripada HBM atau DRAM, mengambil vektor token yang dihitung sebelumnya jauh lebih cepat daripada menghitung kembali puluhan ribu dari nol.Lightbits dan ScaleFlux mengklaim solusi mereka secara drastis mempercepat pengambilan data cache KV dari SSD.

Arthur Rasmusson, Direktur Arsitektur AI di Lightbits Labs, menyatakan: "Kami mengubah memori inferensi dari cache reaktif menjadi lapisan data yang cerdas dan streaming".

Bagaimana caranya?


Dengan hanya mengambil data yang penting dan mengirimkannya ke GPU melalui RDMA kecepatan tinggi sebelum dibutuhkan, kami menghilangkan kemacetan yang secara tradisional membatasi kinerja konteks panjang.Hasilnya lebih rendah Time-to-First-Token (TTFT), throughput yang lebih stabil di bawah beban dunia nyata, dan pemanfaatan GPU yang efektif secara signifikan lebih tinggi.

Keith McKay, Direktur Senior Arsitektur Solusi dan Kemitraan Teknis di ScaleFlux berkomentar:Apa yang kami tunjukkan di GTC adalah pandangan awal tentang bagaimana penempatan data yang lebih cerdas dan manajemen keadaan perhatian yang terus menerus dapat membantu sistem inferensi tetap responsif saat jendela konteks tumbuh. Ini sangat banyak kolaborasi yang ingin kita bentuk bersama dengan operator nyata.

Baik Lightbits dan ScaleFlux bertujuan untuk mendorong operator cloud dan infrastruktur untuk mengadopsi perangkat lunak dan SSD mereka, menghilangkan waktu kosong GPU yang mahal.

Mari kita periksa pertama kontribusi ScaleFlux, kemudian pindah ke lapisan perangkat lunak Lightbits yang lebih canggih.

ScaleFlux menyediakan NVMe SSD dan Computational Storage Drives (CSD) yang dilengkapi dengan Hardware-based Write Reduction Technology (WRT).Didukung oleh kompresi dipercepat perangkat keras dan manajemen metadata SoC-driven, drive ini memberikan hingga empat kali lebih banyak kapasitas logis daripada penyimpanan fisik, sementara tetap sepenuhnya transparan untuk sistem host.Perusahaan ini adalah anggota dari Open Flash Platform (OFP) konsorsium, yang bekerja untuk mendefinisikan kembali infrastruktur data AI dengan padat, latensi rendah,sistem hemat energi menawarkan 10 kali kepadatan penyimpanan AI berbasis file konvensional dan hanya sepersepuluh konsumsi daya.

Membangun pada drive penyimpanan ini, Lightbits menambahkan prefetching cerdas dari data KV CachesebelumnyaGPU membutuhkannya, mencegah kemacetan yang disebabkan oleh kapasitas KV yang tidak cukup atau perhitungan ulang vektor token yang mahal.Perangkat lunak LightInferra menggunakan algoritma caching yang dioptimalkan KV Cache untuk menarik data yang diperlukan ke memori GPU pada kecepatan RDMA sebelum permintaan aktual.

Sekali lagi, bagaimana?


Perangkat lunak ini berjalan pada host x86 yang tertanam dalam server GPU dan melacak pola akses blok data KV Cache.itu mengoperasikan mesin Sub-Linear Sparse Attention Prefetch (SLSAP) untuk mengidentifikasi blok KV yang paling mungkin dibutuhkan selanjutnya.

Mesin ini menggabungkan hashing sensitif lokasi (LSH) dengan pemodelan penggunaan kembali statistik menganalisis lokasi akses historis dalam perhitungan perhatian untuk mencetak dan memprioritaskan blok KV,kemudian memilih mereka dengan kemungkinan tertinggi diminta oleh GPU.

Proses seleksi ini memanfaatkan kekurangannya yang melekat dalam akses data GPU: sebagian besar token hanya berhubungan secara berarti dengan subset kecil dari token sebelumnya.Solusi secara drastis mengurangi volume vektor token yang harus mengalir kembali ke GPU.

Algoritma kedua berfokus pada pola penggunaan kembali: token baru-baru ini, token semantik serupa,dan pola struktural yang umum dalam RAG atau skenario multi-turn chat sering digunakan kembali dan diprioritaskan sesuai.

LightInferra mengambil blok token ini terlebih dahulu dari DRAM server x86, atau dari SSD ScaleFlux eksternal jika diperlukan, kemudian pra-memuatnya ke HBM GPU melalui tautan RDMA.

Lightbits telah membandingkan pendekatan ini terhadap perhitungan ulang konten cache dari awal menggunakan beban kerja model bahasa besar, mengukur peningkatan Time-to-First-Token (TTFT).Angka akselerasi 100x sampai 280x yang dilaporkan berasal langsung dari hasil tes ini.

berita perusahaan terbaru tentang Lightbits dan ScaleFlux mendemonstrasikan akselerasi KV Cache 100x hingga 280x  0

Tentu saja kami ingin melihat hasil benchmark membandingkan Lightbits-ScaleFlux KV Cache akselerasi

skema dengan akselerator KV Cache dari DDN, Hammerspace, VAST Data, WEKA dan lain-lain, tetapi mereka

tidak tersedia.


Ada grafik yang menunjukkan bagaimana LightInferra-ScaleFlux secara progresif meningkatkan TTFT regenerasi cache

sebagai ukuran model meningkat.


berita perusahaan terbaru tentang Lightbits dan ScaleFlux mendemonstrasikan akselerasi KV Cache 100x hingga 280x  1


Semua data benchmark terkait disajikan dalam grafik skala log, disesuaikan terutama untuk para profesional ilmu komputer, tetapi bahasa yang sederhana membuat dampak dunia nyata jauh lebih mudah dipahami:Hasilnya adalah kinerja Time-to-First-Token (TTFT) yang berkelanjutan karena skala konteks dari 100k token ke 1 juta dan seterusnya.
Seperti Jonmichael Hands dari FarmGPU mengatakan, ketika percakapan 400k token dilanjutkan dan sistem harus meregenerasi seluruh KV cache dari awal,Itu berarti dua menit penuh waktu berjalan GPU dengan nol token yang dihasilkan. LightInferra mengubah model ekonomi sepenuhnya ̇ beban kerja yang sama menghasilkan token pertamanya dalam waktu kurang dari setengah detik, mengubah tingkat produk yang tidak layak menjadi yang menguntungkan.

Lightbits dan ScaleFlux telah merancang solusi bersama ini khusus untuk pertanian GPU neocloud generasi berikutnya, di mana kapsul GPU besar menjalankan ratusan atau bahkan ribuan beban kerja model AI serentak.Hampir setiap beban kerja ini akan mencapai batas kapasitas cache KV di GPU ′s high-bandwidth memory (HBM).

Di bawah pengaturan tradisional, tim menghadapi dua pilihan mahal: perlahan mengambil vektor token dari penyimpanan eksternal generik,atau proses yang jauh lebih memakan waktu untuk menghitung kembali vektor dari awal yang keduanya meninggalkan GPU duduk diam selama berjam-jam di akhirKombinasi LightInferra dan ScaleFlux menghilangkan titik nyeri industri yang melumpuhkan ini sepenuhnya.

CEO FarmGPU, Jonmichael Hands menambahkan: ¢Simpanan jaringan cepat dari Lightbits membuka banyak kasus penggunaan baru untuk kesimpulan konteks panjang.Dengan memasangkan layanan kami yang dikelola dengan penyimpanan kinerja tinggi Lightbits yang berjalan pada drive ScaleFlux NVMe, kita dapat mengurangi waktu untuk token pertama dan meningkatkan pemanfaatan GPU, secara drastis menurunkan total cost of ownership (TCO) untuk beban kerja inferensi.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Direktur Strategi Global
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Situs web:Untuk informasi lebih lanjut, lihat tabel di bawah ini.

Fokus Bisnis:
Distribusi Produk ICT/Integrasi Sistem & Layanan/Solusi Infrastruktur
Dengan 20+ tahun pengalaman distribusi TI, kami bermitra dengan merek global terkemuka untuk memberikan produk yang dapat diandalkan dan layanan profesional.
¢Menggunakan Teknologi untuk Membangun Dunia yang Cerdas ¢Penyedia Layanan Produk ICT yang Anda Percayai!
Pub waktu : 2026-03-18 11:34:46 >> daftar berita
Rincian kontak
Beijing Qianxing Jietong Technology Co., Ltd.

Kontak Person: Ms. Sandy Yang

Tel: 13426366826

Mengirimkan permintaan Anda secara langsung kepada kami (0 / 3000)