Berjalan di Oracle Cloud Infrastructure (OCI), WEKA NeuralMesh dan perangkat lunak Augmented Memory Grid memberikan throughput token 10 kali lebih tinggi, 10 kali lebih banyak pengguna serentak dan 7 kali lebih banyak token per GPU,dibandingkan dengan lingkungan OCI standar yang hanya bergantung pada DRAM lokal.
WEKA's Augmented Memory Grid memperluas memori server GPU untuk inferensi AI dengan memanfaatkan penyimpanan eksternal melalui NeuralMesh, mengubah sumber daya eksternal menjadi Cache KV berkinerja tinggi.Ini memberikan latensi mikrodetik dan multi-GB / s bandwidthNeuralMesh adalah sistem file AI berkinerja tinggi dari WEKA.Semua patokan divalidasi pada kelompok H100 OCI bare-metal 9 node dengan 100,000-token jendela konteks.
Pablo Salem, Direktur Senior Pengembangan Perangkat Lunak di OCI, berkomentar: "Beban kerja AI perusahaan terus memperluas jendela konteks dan meningkatkan pemanfaatan GPU ke batas baru.Patokan ini membuktikan solusi WEKA® menghilangkan kemacetan memori GPU pada OCI, memungkinkan beban kerja inferensi yang lebih besar dan lebih menuntut tanpa investasi perangkat keras GPU tambahan.
WEKA mencatat permintaan inferensi yang meningkat memperkuat ketidakefisiensi infrastruktur AI. penggusuran cache KV yang sering menciptakan overhead tersembunyi yang membuang siklus GPU, meningkatkan latensi,merugikan pengalaman pengguna dan meningkatkan biaya operasional per tokenUntuk beban kerja AI konteks panjang dan agentik dengan masukan 100,000-token-plus, overhead tersebut sangat merusak ekonomi unit penyebaran AI produksi.
Patokan ini dibangun pada 9 node, 72 GPU H100, jendela konteks 100.000 token dan ribuan pengguna serentak, dengan kesenjangan kinerja yang jelas ditunjukkan di bawah ini:
-
Kapasitas pengguna simultan: WEKA mendukung lebih dari 5.000 pengguna serentak, versus hanya 600 pada setup DRAM-only.memaksimalkan ROI pada perangkat keras GPU yang ada tanpa pembelian GPU tambahan.
-
Perputaran token: Tumpukan WEKA mencapai sekitar 2 juta token per detik, 10 kali lebih cepat dari dasar kurang dari 200.000 token / detik dari sistem DRAM saja.
-
Total volume pemrosesan token: Dalam uji coba satu jam dengan 2.400 pengguna serentak, WEKA memproses 5 miliar token, sementara pengaturan hanya DRAM hanya menangani 700 juta token.
Untuk alur kerja AI agentik, DRAM yang tidak cukup memicu perhitungan ulang GPU konstan setelah kejenuhan cache, meningkatkan biaya per token dan menurunkan ROI.WEKA sangat mengurangi biaya token keseluruhan untuk layanan produksi AI.
Untuk layanan AI real-time termasuk pencarian, rangkuman, bantuan kode dan agen multi-turn, throughput token mendefinisikan batas layanan untuk kapasitas pengguna,Kecepatan respons dan potensi pendapatan infrastrukturPerbaikan throughput 10x sepenuhnya membuka daya komputasi GPU asli di dalam kluster OCI.
Singkatnya, perangkat lunak ekspansi memori WEKA membantu platform cloud melayani lebih banyak pengguna, memproses lebih banyak token dan mengurangi biaya operasional secara efektif.
Liran Zvibel, CEO dari WEKA, mengatakan: "kinerja inferensi terhambat oleh memori efektif GPU yang tersedia. Hasil ini membuktikan peningkatan perangkat keras saja tidak dapat memperbaiki masalah ekonomi token AI.Keterbatasan sebenarnya adalah dinding memori lama yang membatasi kinerja GPUSolusi WEKA pada OCI meningkatkan kapasitas pemrosesan token secara drastis dengan mengoptimalkan total biaya kepemilikan.
OCI telah menerbitkan metodologi patokan lengkap, konfigurasi sistem dan hasil tes lengkap di blog AI & Data Science resminya.
NeuralMesh dengan Augmented Memory Grid sekarang tersedia secara umum untuk pelanggan WEKA dan terdaftar di Oracle Marketplace, dengan OCI bertindak sebagai mitra peluncuran cloud eksklusifnya.Perusahaan yang menjalankan kesimpulan konteks panjang pada OCI dapat menerapkan ini produksi-siap, arsitektur sepenuhnya divalidasi segera.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Direktur Strategi Global
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Situs web: www.qianxingdata.com/www.storagesserver.com
Fokus Bisnis:
Distribusi Produk ICT/Integrasi Sistem & Layanan/Solusi Infrastruktur
Dengan 20+ tahun pengalaman distribusi TI, kami bermitra dengan merek global terkemuka untuk memberikan produk yang dapat diandalkan dan layanan profesional.
¢Menggunakan Teknologi untuk Membangun Dunia yang Cerdas ¢Penyedia Layanan Produk ICT yang Anda Percayai!