logo
Rumah Kasus

WEKA Mengintegrasikan NeuralMesh dengan NVIDIA STX untuk Mengatasi Hambatan Memori Inferensi AI

Sertifikasi
Cina Beijing Qianxing Jietong Technology Co., Ltd. Sertifikasi
Cina Beijing Qianxing Jietong Technology Co., Ltd. Sertifikasi
Ulasan pelanggan
Staf penjualan Beijing Qianxing Jietong Technology Co, Ltd sangat profesional dan sabar. Mereka dapat memberikan kutipan dengan cepat. Kualitas dan kemasan produk juga sangat baik. Kerjasama kami sangat lancar.

—— Festfing DV》LLC

Ketika saya sangat mencari CPU intel dan SSD Toshiba, Sandy dari Beijing Qianxing Jietong Technology Co., Ltd memberi saya banyak bantuan dan mendapatkan produk yang saya butuhkan dengan cepat. Saya sangat menghargai dia.

—— Kitty Yen

Sandy dari Beijing Qianxing Jietong Technology Co, Ltd adalah penjual yang sangat berhati-hati, yang dapat mengingatkan saya tentang kesalahan konfigurasi saat saya membeli server. Para insinyur juga sangat profesional dan dapat dengan cepat menyelesaikan proses pengujian.

—— Strelkin Mikhail Vladimirovich

Kami sangat senang dengan pengalaman kami bekerja dengan Beijing Qianxing Jietong. Kualitas produk sangat baik, dan pengiriman selalu tepat waktu. Tim penjualan mereka profesional, sabar, dan sangat membantu dengan semua pertanyaan kami. Kami sangat menghargai dukungan mereka dan berharap dapat menjalin kemitraan jangka panjang. Sangat direkomendasikan!

—— Ahmad Navid

Kualitas: Pengalaman yang baik dengan pemasok saya. MikroTik RB3011 sudah digunakan, tetapi dalam kondisi yang sangat baik dan semuanya bekerja dengan sempurna. Komunikasi cepat dan lancar,dan semua kekhawatiran saya segera ditangani. Penyedia yang sangat dapat diandalkan sangat direkomendasikan.

—— Geran Colesio

I 'm Online Chat Now

WEKA Mengintegrasikan NeuralMesh dengan NVIDIA STX untuk Mengatasi Hambatan Memori Inferensi AI

April 10, 2026
WEKA telah mengumumkan integrasi platform NeuralMesh-nya dengan arsitektur referensi NVIDIA STX, menjadikan Augmented Memory Grid-nya sebagai blok bangunan utama untuk infrastruktur AI generasi mendatang. Solusi gabungan ini mengatasi salah satu hambatan paling signifikan dalam lingkungan inferensi skala besar: kendala memori yang secara langsung memengaruhi kinerja, total biaya kepemilikan, dan pertumbuhan yang dapat diskalakan.

Beroperasi melalui NeuralMesh, Augmented Memory Grid WEKA memperluas memori GPU dengan mengeksternalisasi dan mempertahankan cache kunci-nilai. Ketika diterapkan dengan NVIDIA STX, arsitektur ini memberikan penyimpanan memori konteks throughput tinggi untuk beban kerja AI agentik, mendukung penalaran konteks panjang di seluruh sesi, alat, dan alur kerja ujung ke ujung. Menurut perusahaan, konfigurasi yang menggabungkan sistem NVIDIA Vera Rubin NVL72, DPU BlueField-4, dan Ethernet Spectrum-X dapat meningkatkan throughput token memori konteks sebesar 4x hingga 10x. Platform ini juga diproyeksikan memberikan throughput baca minimal 320 GB/s dan tulis 150 GB/s, lebih dari dua kali lipat kinerja arsitektur penyimpanan AI tradisional.

kasus perusahaan terbaru tentang WEKA Mengintegrasikan NeuralMesh dengan NVIDIA STX untuk Mengatasi Hambatan Memori Inferensi AI  0

Infrastruktur Memori Menjadi Hambatan Inferensi


WEKA memusatkan integrasi ini pada tantangan dinding memori yang berkembang dalam penerapan AI modern. Dalam pipeline inferensi saat ini, memori GPU bandwidth tinggi yang terbatas memaksa penggusuran cache KV yang sering terjadi, yang menyebabkan penghitungan ulang berulang dan penurunan efisiensi operasional. Seiring meningkatnya konkurensi sistem, inefisiensi ini berlipat ganda, meningkatkan biaya infrastruktur dan mengurangi prediktabilitas kinerja.

Perusahaan mempromosikan infrastruktur cache KV bersama sebagai solusinya. Dengan mempertahankan konteks persisten di seluruh pengguna dan sesi, caching bersama menghilangkan pemrosesan yang berlebihan dan menstabilkan throughput token. NVIDIA STX menyediakan arsitektur referensi yang divalidasi untuk model ini, sementara WEKA menyediakan lapisan ekstensi penyimpanan dan memori.

Arsitektur NeuralMesh dan Augmented Memory Grid


NeuralMesh bertindak sebagai platform penyimpanan terdistribusi WEKA, yang dibangun untuk berintegrasi secara mulus di seluruh tumpukan NVIDIA STX. Ini memberikan layanan data berkinerja tinggi yang dioptimalkan untuk beban kerja AI, sementara Augmented Memory Grid berfungsi sebagai lapisan ekspansi memori khusus yang mengkonsolidasikan cache KV di luar memori GPU.

Desain ini memungkinkan lingkungan inferensi untuk mempertahankan sesi konteks panjang tanpa membebani sumber daya GPU. Dengan mempertahankan status cache dan memungkinkan penggunaan kembali di seluruh beban kerja, platform mempertahankan utilisasi tinggi dan kinerja yang konsisten seiring dengan peningkatan skala penerapan.

WEKA mencatat bahwa Augmented Memory Grid, yang pertama kali diungkapkan di GTC 2025 dan sekarang tersedia secara umum, telah divalidasi pada platform CPU NVIDIA Grace yang dipasangkan dengan DPU BlueField. Arsitektur ini memberikan peningkatan yang terukur dalam efisiensi inferensi, termasuk waktu-ke-token-pertama yang jauh lebih cepat, throughput token per-GPU yang lebih tinggi, dan kinerja yang stabil di bawah konkurensi yang meningkat. Offloading jalur data ke BlueField-4 juga mengurangi overhead CPU dan meringankan hambatan I/O.

Peningkatan Kinerja dan Efisiensi


Dalam lingkungan yang mirip produksi, platform ini direkayasa untuk meningkatkan responsivitas dan efisiensi infrastruktur. WEKA menyatakan bahwa Augmented Memory Grid dapat mengurangi waktu-ke-token-pertama sebesar 4x hingga 20x, sambil meningkatkan output token per-GPU hingga 6,5x. Peningkatan ini berasal dari tingkat hit cache KV yang lebih tinggi dan siklus penghitungan ulang yang lebih sedikit, memungkinkan sistem untuk mempertahankan kinerja seiring dengan perluasan ukuran konteks dan jumlah pengguna.

Firmus, penyedia infrastruktur AI, disorot sebagai pengguna awal yang memanfaatkan NeuralMesh dengan infrastruktur berbasis NVIDIA. Perusahaan melaporkan peningkatan throughput token dan latensi yang lebih rendah pada skala, dengan keuntungan yang berasal dari penggunaan GPU yang ada yang lebih efisien daripada penerapan perangkat keras tambahan.

Implikasi untuk Desain Infrastruktur AI


Integrasi ini menyoroti pergeseran dalam desain sistem AI, di mana strategi memori dan penyimpanan semakin menentukan kinerja keseluruhan dan efisiensi biaya. Seiring dengan perluasan beban kerja AI agentik dan pelebaran jendela konteks, pendekatan yang hanya menggunakan DRAM menjadi tidak berkelanjutan karena meningkatnya biaya penghitungan ulang dan GPU yang kurang dimanfaatkan.

WEKA memposisikan cache KV bersama yang persisten sebagai kemampuan mendasar untuk pabrik AI. Organisasi yang mengadopsi model ini dapat mencapai utilisasi GPU yang lebih tinggi, konsumsi energi yang lebih rendah per tugas inferensi, dan penskalaan yang lebih dapat diprediksi. Sebaliknya, lingkungan yang hanya mengandalkan memori GPU lokal kemungkinan akan menghadapi peningkatan biaya operasional dan penurunan pengembalian seiring dengan pertumbuhan beban kerja.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Direktur Strategi Global
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Situs Web: www.qianxingdata.com/www.storagesserver.com
Fokus Bisnis:
Distribusi Produk ICT/Integrasi & Layanan Sistem/Solusi Infrastruktur
Dengan pengalaman distribusi TI lebih dari 20 tahun, kami bermitra dengan merek global terkemuka untuk memberikan produk yang andal dan layanan profesional.
“Menggunakan Teknologi untuk Membangun Dunia yang Cerdas”Penyedia Layanan Produk ICT Tepercaya Anda!
Rincian kontak
Beijing Qianxing Jietong Technology Co., Ltd.

Kontak Person: Ms. Sandy Yang

Tel: 13426366826

Mengirimkan permintaan Anda secara langsung kepada kami (0 / 3000)