logo
Rumah Kasus

Ulasan NVIDIA DGX Spark Cluster: Inferensi Terdistribusi pada Dell, GIGABYTE, dan HP

Sertifikasi
Cina Beijing Qianxing Jietong Technology Co., Ltd. Sertifikasi
Cina Beijing Qianxing Jietong Technology Co., Ltd. Sertifikasi
Ulasan pelanggan
Staf penjualan Beijing Qianxing Jietong Technology Co, Ltd sangat profesional dan sabar. Mereka dapat memberikan kutipan dengan cepat. Kualitas dan kemasan produk juga sangat baik. Kerjasama kami sangat lancar.

—— Festfing DV》LLC

Ketika saya sangat mencari CPU intel dan SSD Toshiba, Sandy dari Beijing Qianxing Jietong Technology Co., Ltd memberi saya banyak bantuan dan mendapatkan produk yang saya butuhkan dengan cepat. Saya sangat menghargai dia.

—— Kitty Yen

Sandy dari Beijing Qianxing Jietong Technology Co, Ltd adalah penjual yang sangat berhati-hati, yang dapat mengingatkan saya tentang kesalahan konfigurasi saat saya membeli server. Para insinyur juga sangat profesional dan dapat dengan cepat menyelesaikan proses pengujian.

—— Strelkin Mikhail Vladimirovich

Kami sangat senang dengan pengalaman kami bekerja dengan Beijing Qianxing Jietong. Kualitas produk sangat baik, dan pengiriman selalu tepat waktu. Tim penjualan mereka profesional, sabar, dan sangat membantu dengan semua pertanyaan kami. Kami sangat menghargai dukungan mereka dan berharap dapat menjalin kemitraan jangka panjang. Sangat direkomendasikan!

—— Ahmad Navid

Kualitas: Pengalaman yang baik dengan pemasok saya. MikroTik RB3011 sudah digunakan, tetapi dalam kondisi yang sangat baik dan semuanya bekerja dengan sempurna. Komunikasi cepat dan lancar,dan semua kekhawatiran saya segera ditangani. Penyedia yang sangat dapat diandalkan sangat direkomendasikan.

—— Geran Colesio

I 'm Online Chat Now

Ulasan NVIDIA DGX Spark Cluster: Inferensi Terdistribusi pada Dell, GIGABYTE, dan HP

May 15, 2026
Dua ciri khas yang menonjol dari NVIDIA DGX Spark: memori terpadu 128GB dalam unit desktop seharga $4.000, dan jaringan kelas pusat data internal 200Gb. Fabric berkecepatan tinggi membedakannya dari workstation biasa, memungkinkan pengelompokan multi-node yang dulunya eksklusif untuk server yang dipasang di rak. Tinjauan ini mengukur inferensi terdistribusi pada varian Dell, GIGABYTE, dan HP Spark dalam cluster dua node 200GbE pada beragam model dan beban kerja. Ini juga menganalisis paralelisme pipa (PP), metode pemisahan alternatif yang mengungguli paralelisme tensor (TP) default NVIDIA.

kasus perusahaan terbaru tentang Ulasan NVIDIA DGX Spark Cluster: Inferensi Terdistribusi pada Dell, GIGABYTE, dan HP  0

Kain Jaringan 200Gb


Setiap Spark dilengkapi dua sangkar QSFP56 yang dipasangkan dengan ConnectX-7 SmartNIC terintegrasi. Dibatasi oleh bandwidth PCIe Gen5 x4, kecepatan jaringan yang dapat digunakan dibatasi hingga 200 Gb, dengan satu port cukup untuk bandwidth penuh; port kedua menawarkan fleksibilitas topologi. Tersedia tiga konfigurasi umum: tautan Spark-to-Spark 200Gb langsung, topologi ring bebas sakelar melalui port ganda 100Gb, dan pengelompokan hibrid dengan akses penyimpanan berkecepatan tinggi NVMe-oF. NVIDIA menjual desktop unit tunggal, cluster dua node yang tervalidasi, dan pengaturan empat node yang baru dirilis. Konfigurasi dual-Spark adalah yang paling praktis untuk inferensi gaya produksi dan menjadi fokus pengujian ini.

kasus perusahaan terbaru tentang Ulasan NVIDIA DGX Spark Cluster: Inferensi Terdistribusi pada Dell, GIGABYTE, dan HP  1

Dasar Pemikiran untuk Pengelompokan Spark


Manfaat utamanya adalah memperluas kapasitas model: dua Spark yang terhubung dapat menjalankan model dengan parameter 120B yang melebihi batas memori satu unit. Yang lebih penting lagi, platform ini berfungsi sebagai alat pendidikan yang terjangkau. NVIDIA merancang Spark bagi pemula untuk mempelajari alur kerja AI, dengan panduan resmi yang mencakup penerapan model, penyesuaian, dan pengembangan PyTorch/JAX. Cluster dual-node selanjutnya mengajarkan paralelisme multi-node dan analisis hambatan jaringan tanpa perangkat keras pusat data yang mahal. Khususnya, Spark tidak dioptimalkan untuk inferensi produksi. Dibatasi oleh bandwidth memori dan latensi antar-node, tautan 200GbE-nya lebih lambat dibandingkan koneksi PCIe internal. Cluster yang lebih besar mengalami penurunan kinerja yang parah, dengan throughput token yang rendah, sehingga membatasi mereka untuk penggunaan pendidikan daripada layanan komersial.

Pengujian Kinerja: PP vs TP


Pemilihan Strategi Paralelisme


NVIDIA menggunakan TP secara default, yang membagi setiap lapisan transformator menjadi dua GPU dengan pertukaran data yang sering dikurangi semua. Sebaliknya, PP membagi model berdasarkan lapisan, mentransfer aktivasi hanya satu kali antar node. Pada tautan 200GbE, PP meminimalkan komunikasi lintas node. Untuk model besar dengan ukuran batch tinggi, PP jauh mengungguli TP; TP hanya unggul dalam skenario obrolan latensi rendah permintaan tunggal.
Pengujian pada GPT-OSS-120B mengonfirmasi kesenjangan ini. Pada ukuran batch 128, PP mencapai 554,69 tok/dtk (2,20× lebih cepat dari TP) dalam beban kerja seimbang, 310,63 tok/dtk vs 164,99 tok/dtk dalam tugas pra-pengisian yang berat. TP hanya memimpin pada ukuran batch 1. Untuk model kecil seperti Llama-3.1-8B, TP mendominasi sebagian besar ukuran batch karena komputasi lapisan yang ringan, dengan PP menyalip TP hanya pada konkurensi tinggi.

Hasil Tolok Ukur Multi-Model (PP=2)


Seri GPT-OSS


Untuk GPT-OSS-120B, HP melampaui throughput puncak dalam beban kerja seimbang (504,88 tok/dtk) dan berat pra-pengisian (441,63 tok/dtk); GIGABYTE memimpin pengujian berat decode (494,37 tok/s). Untuk GPT-OSS-20B, Dell mendominasi skenario seimbang (976,77 tok/s) dan prefill-heavy (852,39 tok/s), sementara GIGABYTE memimpin tugas decode (945,55 tok/s).

Varian Llama 3.1 8B


Pada presisi BF16, Dell memimpin beban kerja yang seimbang (689,53 tok/s) dan berat decode (581,43 tok/s); GIGABYTE memenangkan pengujian pra-pengisian yang berat (539,27 tok/s). Pengoptimalan FP4 meningkatkan throughput secara tajam: GIGABYTE memimpin tugas-tugas yang seimbang (1458,86 tok/s) dan tugas-tugas yang berat sebelum diisi (954,23 tok/s). Untuk FP8, Dell mempertahankan keunggulan sempit dalam skenario seimbang (1105,42 tok/s) dan skenario decode-heavy (862,33 tok/s).

Model Mistral & Qwen


Mistral Small 3.1 24B memiliki kesenjangan minimal: GIGABYTE mencapai puncaknya pada 255,09 tok/s dalam beban kerja seimbang. Untuk Qwen3 Coder 30B (A3B Base), GIGABYTE memimpin tugas-tugas prefill-berat (1862,40 tok/s); Dell unggul dalam skenario decode. Di bawah kuantisasi FB8, GIGABYTE menduduki puncak throughput prefill-heavy (3088,62 tok/s), sementara Dell memimpin tugas decode (705,77 tok/s).

Ringkasan Output Puncak Sistem Percikan Ganda


Model
Skenario (BS – 64)
Output Puncak Dell
Output Puncak GIGABYTE
Output Puncak HP
GPT-OSS-120B
ISL/OSL yang setara
463,97 tok/dtk
497,26 tok/dtk
504,88 tok/dtk
GPT-OSS-120B
Isi Awal Berat
419,56 tok/dtk
417,34 tok/dtk
441,63 tok/dtk
GPT-OSS-120B
Dekode Berat
451,18 tok/dtk
494,37 tok/dtk
474,85 tok/dtk
GPT-OSS-20B
ISL/OSL yang setara
976,77 tok/dtk
952,31 tok/dtk
915,72 tok/dtk
GPT-OSS-20B
Isi Awal Berat
852,39 tok/dtk
802,37 tok/dtk
757,05 tok/dtk
GPT-OSS-20B
Dekode Berat
938,65 tok/dtk
945,55 tok/dtk
865,78 tok/dtk
Llama-3.1-8B-Instruksikan
ISL/OSL yang setara
689,53 tok/dtk
687,48 tok/dtk
618,87 tok/dtk
Llama-3.1-8B-Instruksikan
Isi Awal Berat
515,45 tok/dtk
539,27 tok/dtk
463,39 tok/dtk
Llama-3.1-8B-Instruksikan
Dekode Berat
581,43 tok/dtk
576,91 tok/dtk
531,07 tok/dtk
Llama-3.1-8B-FP4
ISL/OSL yang setara
1427,39 tok/dtk
1458,86 tok/dtk
1413,51 tok/dtk
Llama-3.1-8B-FP4
Isi Awal Berat
884,22 tok/dtk
954,23 tok/dtk
843,57 tok/dtk
Llama-3.1-8B-FP4
Dekode Berat
1008,98 tok/dtk
1007,23 tok/dtk
943,73 tok/dtk
Llama-3.1-8B-FP8
ISL/OSL yang setara
1105,42 tok/dtk
1089,85 tok/dtk
1076,68 tok/dtk
Llama-3.1-8B-FP8
Isi Awal Berat
759,50 tok/dtk
827,40 tok/dtk
725,51 tok/dtk
Llama-3.1-8B-FP8
Dekode Berat
862,33 tok/dtk
855,81 tok/dtk
800,78 tok/dtk
Mistral-Kecil-3.1-24B
ISL/OSL yang setara
249,77 tok/dtk
255,09 tok/dtk
239,09 tok/dtk
Mistral-Kecil-3.1-24B
Isi Awal Berat
216,01 tok/dtk
214,38 tok/dtk
197,92 tok/dtk
Mistral-Kecil-3.1-24B
Dekode Berat
238,44 tok/dtk
237,97 tok/dtk
221,41 tok/dtk


Kesimpulan


Unit Dell, GIGABYTE, dan HP Spark memberikan kesenjangan kinerja yang dapat diabaikan, dengan prospek spesifik batch yang kecil. Keputusan pembelian harus memprioritaskan desain sasis, kinerja termal, garansi, dan dukungan purna jual dibandingkan perbedaan benchmark yang sepele. Strategi paralelisme memberikan dampak yang jauh lebih besar dibandingkan variasi OEM: PP mengungguli TP untuk inferensi batch, sementara TP cocok untuk interaksi latensi rendah aliran tunggal. Rekomendasi TP NVIDIA selaras dengan posisi Spark sebagai perangkat pembelajaran interaktif, bukan infrastruktur produksi. Cluster Spark dual-node berfungsi sebagai platform pengajaran yang terjangkau untuk AI terdistribusi. Pengujian di masa depan akan mencakup klaster yang lebih besar dan pelatihan model kecil end-to-end, sambil menunggu penerapan switch lab 800Gb.

Beijing Qianxing Jietong Technology Co, Ltd.
Sandy Yang/Direktur Strategi Global
WhatsApp / WeChat: +86 13426366826
Surel: yangyd@qianxingdata.com
Situs web: www.qianxingdata.com/www.storagesserver.com
Fokus Bisnis:
Distribusi Produk TIK/Integrasi Sistem & Layanan/Solusi Infrastruktur
Dengan pengalaman distribusi TI selama lebih dari 20 tahun, kami bermitra dengan merek global terkemuka untuk menghadirkan produk yang andal dan layanan profesional.
“Menggunakan Teknologi untuk Membangun Dunia Cerdas”Penyedia Layanan Produk TIK Tepercaya Anda!
Rincian kontak
Beijing Qianxing Jietong Technology Co., Ltd.

Kontak Person: Ms. Sandy Yang

Tel: 13426366826

Mengirimkan permintaan Anda secara langsung kepada kami (0 / 3000)