Dua ciri khas yang menonjol dari NVIDIA DGX Spark: memori terpadu 128GB dalam unit desktop seharga $4.000, dan jaringan kelas pusat data internal 200Gb. Fabric berkecepatan tinggi membedakannya dari workstation biasa, memungkinkan pengelompokan multi-node yang dulunya eksklusif untuk server yang dipasang di rak. Tinjauan ini mengukur inferensi terdistribusi pada varian Dell, GIGABYTE, dan HP Spark dalam cluster dua node 200GbE pada beragam model dan beban kerja. Ini juga menganalisis paralelisme pipa (PP), metode pemisahan alternatif yang mengungguli paralelisme tensor (TP) default NVIDIA.
Kain Jaringan 200Gb
Setiap Spark dilengkapi dua sangkar QSFP56 yang dipasangkan dengan ConnectX-7 SmartNIC terintegrasi. Dibatasi oleh bandwidth PCIe Gen5 x4, kecepatan jaringan yang dapat digunakan dibatasi hingga 200 Gb, dengan satu port cukup untuk bandwidth penuh; port kedua menawarkan fleksibilitas topologi. Tersedia tiga konfigurasi umum: tautan Spark-to-Spark 200Gb langsung, topologi ring bebas sakelar melalui port ganda 100Gb, dan pengelompokan hibrid dengan akses penyimpanan berkecepatan tinggi NVMe-oF. NVIDIA menjual desktop unit tunggal, cluster dua node yang tervalidasi, dan pengaturan empat node yang baru dirilis. Konfigurasi dual-Spark adalah yang paling praktis untuk inferensi gaya produksi dan menjadi fokus pengujian ini.
Dasar Pemikiran untuk Pengelompokan Spark
Manfaat utamanya adalah memperluas kapasitas model: dua Spark yang terhubung dapat menjalankan model dengan parameter 120B yang melebihi batas memori satu unit. Yang lebih penting lagi, platform ini berfungsi sebagai alat pendidikan yang terjangkau. NVIDIA merancang Spark bagi pemula untuk mempelajari alur kerja AI, dengan panduan resmi yang mencakup penerapan model, penyesuaian, dan pengembangan PyTorch/JAX. Cluster dual-node selanjutnya mengajarkan paralelisme multi-node dan analisis hambatan jaringan tanpa perangkat keras pusat data yang mahal. Khususnya, Spark tidak dioptimalkan untuk inferensi produksi. Dibatasi oleh bandwidth memori dan latensi antar-node, tautan 200GbE-nya lebih lambat dibandingkan koneksi PCIe internal. Cluster yang lebih besar mengalami penurunan kinerja yang parah, dengan throughput token yang rendah, sehingga membatasi mereka untuk penggunaan pendidikan daripada layanan komersial.
Pengujian Kinerja: PP vs TP
Pemilihan Strategi Paralelisme
NVIDIA menggunakan TP secara default, yang membagi setiap lapisan transformator menjadi dua GPU dengan pertukaran data yang sering dikurangi semua. Sebaliknya, PP membagi model berdasarkan lapisan, mentransfer aktivasi hanya satu kali antar node. Pada tautan 200GbE, PP meminimalkan komunikasi lintas node. Untuk model besar dengan ukuran batch tinggi, PP jauh mengungguli TP; TP hanya unggul dalam skenario obrolan latensi rendah permintaan tunggal.
Pengujian pada GPT-OSS-120B mengonfirmasi kesenjangan ini. Pada ukuran batch 128, PP mencapai 554,69 tok/dtk (2,20× lebih cepat dari TP) dalam beban kerja seimbang, 310,63 tok/dtk vs 164,99 tok/dtk dalam tugas pra-pengisian yang berat. TP hanya memimpin pada ukuran batch 1. Untuk model kecil seperti Llama-3.1-8B, TP mendominasi sebagian besar ukuran batch karena komputasi lapisan yang ringan, dengan PP menyalip TP hanya pada konkurensi tinggi.
Hasil Tolok Ukur Multi-Model (PP=2)
Seri GPT-OSS
Untuk GPT-OSS-120B, HP melampaui throughput puncak dalam beban kerja seimbang (504,88 tok/dtk) dan berat pra-pengisian (441,63 tok/dtk); GIGABYTE memimpin pengujian berat decode (494,37 tok/s). Untuk GPT-OSS-20B, Dell mendominasi skenario seimbang (976,77 tok/s) dan prefill-heavy (852,39 tok/s), sementara GIGABYTE memimpin tugas decode (945,55 tok/s).
Varian Llama 3.1 8B
Pada presisi BF16, Dell memimpin beban kerja yang seimbang (689,53 tok/s) dan berat decode (581,43 tok/s); GIGABYTE memenangkan pengujian pra-pengisian yang berat (539,27 tok/s). Pengoptimalan FP4 meningkatkan throughput secara tajam: GIGABYTE memimpin tugas-tugas yang seimbang (1458,86 tok/s) dan tugas-tugas yang berat sebelum diisi (954,23 tok/s). Untuk FP8, Dell mempertahankan keunggulan sempit dalam skenario seimbang (1105,42 tok/s) dan skenario decode-heavy (862,33 tok/s).
Model Mistral & Qwen
Mistral Small 3.1 24B memiliki kesenjangan minimal: GIGABYTE mencapai puncaknya pada 255,09 tok/s dalam beban kerja seimbang. Untuk Qwen3 Coder 30B (A3B Base), GIGABYTE memimpin tugas-tugas prefill-berat (1862,40 tok/s); Dell unggul dalam skenario decode. Di bawah kuantisasi FB8, GIGABYTE menduduki puncak throughput prefill-heavy (3088,62 tok/s), sementara Dell memimpin tugas decode (705,77 tok/s).
Ringkasan Output Puncak Sistem Percikan Ganda
|
Model
|
Skenario (BS – 64)
|
Output Puncak Dell
|
Output Puncak GIGABYTE
|
Output Puncak HP
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
ISL/OSL yang setara
|
463,97 tok/dtk
|
497,26 tok/dtk
|
504,88 tok/dtk
|
|
GPT-OSS-120B
|
Isi Awal Berat
|
419,56 tok/dtk
|
417,34 tok/dtk
|
441,63 tok/dtk
|
|
GPT-OSS-120B
|
Dekode Berat
|
451,18 tok/dtk
|
494,37 tok/dtk
|
474,85 tok/dtk
|
|
GPT-OSS-20B
|
ISL/OSL yang setara
|
976,77 tok/dtk
|
952,31 tok/dtk
|
915,72 tok/dtk
|
|
GPT-OSS-20B
|
Isi Awal Berat
|
852,39 tok/dtk
|
802,37 tok/dtk
|
757,05 tok/dtk
|
|
GPT-OSS-20B
|
Dekode Berat
|
938,65 tok/dtk
|
945,55 tok/dtk
|
865,78 tok/dtk
|
|
Llama-3.1-8B-Instruksikan
|
ISL/OSL yang setara
|
689,53 tok/dtk
|
687,48 tok/dtk
|
618,87 tok/dtk
|
|
Llama-3.1-8B-Instruksikan
|
Isi Awal Berat
|
515,45 tok/dtk
|
539,27 tok/dtk
|
463,39 tok/dtk
|
|
Llama-3.1-8B-Instruksikan
|
Dekode Berat
|
581,43 tok/dtk
|
576,91 tok/dtk
|
531,07 tok/dtk
|
|
Llama-3.1-8B-FP4
|
ISL/OSL yang setara
|
1427,39 tok/dtk
|
1458,86 tok/dtk
|
1413,51 tok/dtk
|
|
Llama-3.1-8B-FP4
|
Isi Awal Berat
|
884,22 tok/dtk
|
954,23 tok/dtk
|
843,57 tok/dtk
|
|
Llama-3.1-8B-FP4
|
Dekode Berat
|
1008,98 tok/dtk
|
1007,23 tok/dtk
|
943,73 tok/dtk
|
|
Llama-3.1-8B-FP8
|
ISL/OSL yang setara
|
1105,42 tok/dtk
|
1089,85 tok/dtk
|
1076,68 tok/dtk
|
|
Llama-3.1-8B-FP8
|
Isi Awal Berat
|
759,50 tok/dtk
|
827,40 tok/dtk
|
725,51 tok/dtk
|
|
Llama-3.1-8B-FP8
|
Dekode Berat
|
862,33 tok/dtk
|
855,81 tok/dtk
|
800,78 tok/dtk
|
|
Mistral-Kecil-3.1-24B
|
ISL/OSL yang setara
|
249,77 tok/dtk
|
255,09 tok/dtk
|
239,09 tok/dtk
|
|
Mistral-Kecil-3.1-24B
|
Isi Awal Berat
|
216,01 tok/dtk
|
214,38 tok/dtk
|
197,92 tok/dtk
|
|
Mistral-Kecil-3.1-24B
|
Dekode Berat
|
238,44 tok/dtk
|
237,97 tok/dtk
|
221,41 tok/dtk
|
Kesimpulan
Unit Dell, GIGABYTE, dan HP Spark memberikan kesenjangan kinerja yang dapat diabaikan, dengan prospek spesifik batch yang kecil. Keputusan pembelian harus memprioritaskan desain sasis, kinerja termal, garansi, dan dukungan purna jual dibandingkan perbedaan benchmark yang sepele. Strategi paralelisme memberikan dampak yang jauh lebih besar dibandingkan variasi OEM: PP mengungguli TP untuk inferensi batch, sementara TP cocok untuk interaksi latensi rendah aliran tunggal. Rekomendasi TP NVIDIA selaras dengan posisi Spark sebagai perangkat pembelajaran interaktif, bukan infrastruktur produksi. Cluster Spark dual-node berfungsi sebagai platform pengajaran yang terjangkau untuk AI terdistribusi. Pengujian di masa depan akan mencakup klaster yang lebih besar dan pelatihan model kecil end-to-end, sambil menunggu penerapan switch lab 800Gb.
Beijing Qianxing Jietong Technology Co, Ltd.
Sandy Yang/Direktur Strategi Global
WhatsApp / WeChat: +86 13426366826
Surel: yangyd@qianxingdata.com
Situs web: www.qianxingdata.com/www.storagesserver.com
Fokus Bisnis:
Distribusi Produk TIK/Integrasi Sistem & Layanan/Solusi Infrastruktur
Dengan pengalaman distribusi TI selama lebih dari 20 tahun, kami bermitra dengan merek global terkemuka untuk menghadirkan produk yang andal dan layanan profesional.
“Menggunakan Teknologi untuk Membangun Dunia Cerdas”Penyedia Layanan Produk TIK Tepercaya Anda!
Sandy Yang/Direktur Strategi Global
WhatsApp / WeChat: +86 13426366826
Surel: yangyd@qianxingdata.com
Situs web: www.qianxingdata.com/www.storagesserver.com
Fokus Bisnis:
Distribusi Produk TIK/Integrasi Sistem & Layanan/Solusi Infrastruktur
Dengan pengalaman distribusi TI selama lebih dari 20 tahun, kami bermitra dengan merek global terkemuka untuk menghadirkan produk yang andal dan layanan profesional.
“Menggunakan Teknologi untuk Membangun Dunia Cerdas”Penyedia Layanan Produk TIK Tepercaya Anda!



