Rumah Kasus

Ulasan NVIDIA DGX Spark Cluster: Inferensi Terdistribusi pada Dell, GIGABYTE, dan HP

Semua produk

Server Penyimpanan Rak
(165)

Huawei Fusion Server
(31)

Server Dell Poweredge
(59)

Server H3C
(31)

Sakelar Datacom
(96)

Perangkat WLAN
(21)

Router Nirkabel Cerdas
(10)

Harddisk HDD
(78)

SSD Hard Drive Internal
(16)

Kartu Grafis Geforce
(27)

Prosesor CPU INTEL
(20)

RAM Memori Server
(6)

Server Penyimpanan yang Diperbaharui
(6)

Modul Pemancar SFP
(4)

sakelar saluran serat
(42)

Sertifikasi

Ulasan pelanggan

Staf penjualan Beijing Qianxing Jietong Technology Co, Ltd sangat profesional dan sabar. Mereka dapat memberikan kutipan dengan cepat. Kualitas dan kemasan produk juga sangat baik. Kerjasama kami sangat lancar.

—— Festfing DV》LLC

Ketika saya sangat mencari CPU intel dan SSD Toshiba, Sandy dari Beijing Qianxing Jietong Technology Co., Ltd memberi saya banyak bantuan dan mendapatkan produk yang saya butuhkan dengan cepat. Saya sangat menghargai dia.

—— Kitty Yen

Sandy dari Beijing Qianxing Jietong Technology Co, Ltd adalah penjual yang sangat berhati-hati, yang dapat mengingatkan saya tentang kesalahan konfigurasi saat saya membeli server. Para insinyur juga sangat profesional dan dapat dengan cepat menyelesaikan proses pengujian.

—— Strelkin Mikhail Vladimirovich

Kami sangat senang dengan pengalaman kami bekerja dengan Beijing Qianxing Jietong. Kualitas produk sangat baik, dan pengiriman selalu tepat waktu. Tim penjualan mereka profesional, sabar, dan sangat membantu dengan semua pertanyaan kami. Kami sangat menghargai dukungan mereka dan berharap dapat menjalin kemitraan jangka panjang. Sangat direkomendasikan!

—— Ahmad Navid

Kualitas: Pengalaman yang baik dengan pemasok saya. MikroTik RB3011 sudah digunakan, tetapi dalam kondisi yang sangat baik dan semuanya bekerja dengan sempurna. Komunikasi cepat dan lancar,dan semua kekhawatiran saya segera ditangani. Penyedia yang sangat dapat diandalkan sangat direkomendasikan.

—— Geran Colesio

I 'm Online Chat Now

Ulasan NVIDIA DGX Spark Cluster: Inferensi Terdistribusi pada Dell, GIGABYTE, dan HP

May 15, 2026

Dua ciri khas yang menonjol dari NVIDIA DGX Spark: memori terpadu 128GB dalam unit desktop seharga $4.000, dan jaringan kelas pusat data internal 200Gb. Fabric berkecepatan tinggi membedakannya dari workstation biasa, memungkinkan pengelompokan multi-node yang dulunya eksklusif untuk server yang dipasang di rak. Tinjauan ini mengukur inferensi terdistribusi pada varian Dell, GIGABYTE, dan HP Spark dalam cluster dua node 200GbE pada beragam model dan beban kerja. Ini juga menganalisis paralelisme pipa (PP), metode pemisahan alternatif yang mengungguli paralelisme tensor (TP) default NVIDIA.

Kain Jaringan 200Gb

Setiap Spark dilengkapi dua sangkar QSFP56 yang dipasangkan dengan ConnectX-7 SmartNIC terintegrasi. Dibatasi oleh bandwidth PCIe Gen5 x4, kecepatan jaringan yang dapat digunakan dibatasi hingga 200 Gb, dengan satu port cukup untuk bandwidth penuh; port kedua menawarkan fleksibilitas topologi. Tersedia tiga konfigurasi umum: tautan Spark-to-Spark 200Gb langsung, topologi ring bebas sakelar melalui port ganda 100Gb, dan pengelompokan hibrid dengan akses penyimpanan berkecepatan tinggi NVMe-oF. NVIDIA menjual desktop unit tunggal, cluster dua node yang tervalidasi, dan pengaturan empat node yang baru dirilis. Konfigurasi dual-Spark adalah yang paling praktis untuk inferensi gaya produksi dan menjadi fokus pengujian ini.

Dasar Pemikiran untuk Pengelompokan Spark

Manfaat utamanya adalah memperluas kapasitas model: dua Spark yang terhubung dapat menjalankan model dengan parameter 120B yang melebihi batas memori satu unit. Yang lebih penting lagi, platform ini berfungsi sebagai alat pendidikan yang terjangkau. NVIDIA merancang Spark bagi pemula untuk mempelajari alur kerja AI, dengan panduan resmi yang mencakup penerapan model, penyesuaian, dan pengembangan PyTorch/JAX. Cluster dual-node selanjutnya mengajarkan paralelisme multi-node dan analisis hambatan jaringan tanpa perangkat keras pusat data yang mahal. Khususnya, Spark tidak dioptimalkan untuk inferensi produksi. Dibatasi oleh bandwidth memori dan latensi antar-node, tautan 200GbE-nya lebih lambat dibandingkan koneksi PCIe internal. Cluster yang lebih besar mengalami penurunan kinerja yang parah, dengan throughput token yang rendah, sehingga membatasi mereka untuk penggunaan pendidikan daripada layanan komersial.

Pengujian Kinerja: PP vs TP

Pemilihan Strategi Paralelisme

NVIDIA menggunakan TP secara default, yang membagi setiap lapisan transformator menjadi dua GPU dengan pertukaran data yang sering dikurangi semua. Sebaliknya, PP membagi model berdasarkan lapisan, mentransfer aktivasi hanya satu kali antar node. Pada tautan 200GbE, PP meminimalkan komunikasi lintas node. Untuk model besar dengan ukuran batch tinggi, PP jauh mengungguli TP; TP hanya unggul dalam skenario obrolan latensi rendah permintaan tunggal.

Pengujian pada GPT-OSS-120B mengonfirmasi kesenjangan ini. Pada ukuran batch 128, PP mencapai 554,69 tok/dtk (2,20× lebih cepat dari TP) dalam beban kerja seimbang, 310,63 tok/dtk vs 164,99 tok/dtk dalam tugas pra-pengisian yang berat. TP hanya memimpin pada ukuran batch 1. Untuk model kecil seperti Llama-3.1-8B, TP mendominasi sebagian besar ukuran batch karena komputasi lapisan yang ringan, dengan PP menyalip TP hanya pada konkurensi tinggi.

Hasil Tolok Ukur Multi-Model (PP=2)

Seri GPT-OSS

Untuk GPT-OSS-120B, HP melampaui throughput puncak dalam beban kerja seimbang (504,88 tok/dtk) dan berat pra-pengisian (441,63 tok/dtk); GIGABYTE memimpin pengujian berat decode (494,37 tok/s). Untuk GPT-OSS-20B, Dell mendominasi skenario seimbang (976,77 tok/s) dan prefill-heavy (852,39 tok/s), sementara GIGABYTE memimpin tugas decode (945,55 tok/s).

Varian Llama 3.1 8B

Pada presisi BF16, Dell memimpin beban kerja yang seimbang (689,53 tok/s) dan berat decode (581,43 tok/s); GIGABYTE memenangkan pengujian pra-pengisian yang berat (539,27 tok/s). Pengoptimalan FP4 meningkatkan throughput secara tajam: GIGABYTE memimpin tugas-tugas yang seimbang (1458,86 tok/s) dan tugas-tugas yang berat sebelum diisi (954,23 tok/s). Untuk FP8, Dell mempertahankan keunggulan sempit dalam skenario seimbang (1105,42 tok/s) dan skenario decode-heavy (862,33 tok/s).

Model Mistral & Qwen

Mistral Small 3.1 24B memiliki kesenjangan minimal: GIGABYTE mencapai puncaknya pada 255,09 tok/s dalam beban kerja seimbang. Untuk Qwen3 Coder 30B (A3B Base), GIGABYTE memimpin tugas-tugas prefill-berat (1862,40 tok/s); Dell unggul dalam skenario decode. Di bawah kuantisasi FB8, GIGABYTE menduduki puncak throughput prefill-heavy (3088,62 tok/s), sementara Dell memimpin tugas decode (705,77 tok/s).

Ringkasan Output Puncak Sistem Percikan Ganda

Model	Skenario (BS – 64)	Output Puncak Dell	Output Puncak GIGABYTE	Output Puncak HP
GPT-OSS-120B	ISL/OSL yang setara	463,97 tok/dtk	497,26 tok/dtk	504,88 tok/dtk
GPT-OSS-120B	Isi Awal Berat	419,56 tok/dtk	417,34 tok/dtk	441,63 tok/dtk
GPT-OSS-120B	Dekode Berat	451,18 tok/dtk	494,37 tok/dtk	474,85 tok/dtk
GPT-OSS-20B	ISL/OSL yang setara	976,77 tok/dtk	952,31 tok/dtk	915,72 tok/dtk
GPT-OSS-20B	Isi Awal Berat	852,39 tok/dtk	802,37 tok/dtk	757,05 tok/dtk
GPT-OSS-20B	Dekode Berat	938,65 tok/dtk	945,55 tok/dtk	865,78 tok/dtk
Llama-3.1-8B-Instruksikan	ISL/OSL yang setara	689,53 tok/dtk	687,48 tok/dtk	618,87 tok/dtk
Llama-3.1-8B-Instruksikan	Isi Awal Berat	515,45 tok/dtk	539,27 tok/dtk	463,39 tok/dtk
Llama-3.1-8B-Instruksikan	Dekode Berat	581,43 tok/dtk	576,91 tok/dtk	531,07 tok/dtk
Llama-3.1-8B-FP4	ISL/OSL yang setara	1427,39 tok/dtk	1458,86 tok/dtk	1413,51 tok/dtk
Llama-3.1-8B-FP4	Isi Awal Berat	884,22 tok/dtk	954,23 tok/dtk	843,57 tok/dtk
Llama-3.1-8B-FP4	Dekode Berat	1008,98 tok/dtk	1007,23 tok/dtk	943,73 tok/dtk
Llama-3.1-8B-FP8	ISL/OSL yang setara	1105,42 tok/dtk	1089,85 tok/dtk	1076,68 tok/dtk
Llama-3.1-8B-FP8	Isi Awal Berat	759,50 tok/dtk	827,40 tok/dtk	725,51 tok/dtk
Llama-3.1-8B-FP8	Dekode Berat	862,33 tok/dtk	855,81 tok/dtk	800,78 tok/dtk
Mistral-Kecil-3.1-24B	ISL/OSL yang setara	249,77 tok/dtk	255,09 tok/dtk	239,09 tok/dtk
Mistral-Kecil-3.1-24B	Isi Awal Berat	216,01 tok/dtk	214,38 tok/dtk	197,92 tok/dtk
Mistral-Kecil-3.1-24B	Dekode Berat	238,44 tok/dtk	237,97 tok/dtk	221,41 tok/dtk

Kesimpulan

Unit Dell, GIGABYTE, dan HP Spark memberikan kesenjangan kinerja yang dapat diabaikan, dengan prospek spesifik batch yang kecil. Keputusan pembelian harus memprioritaskan desain sasis, kinerja termal, garansi, dan dukungan purna jual dibandingkan perbedaan benchmark yang sepele. Strategi paralelisme memberikan dampak yang jauh lebih besar dibandingkan variasi OEM: PP mengungguli TP untuk inferensi batch, sementara TP cocok untuk interaksi latensi rendah aliran tunggal. Rekomendasi TP NVIDIA selaras dengan posisi Spark sebagai perangkat pembelajaran interaktif, bukan infrastruktur produksi. Cluster Spark dual-node berfungsi sebagai platform pengajaran yang terjangkau untuk AI terdistribusi. Pengujian di masa depan akan mencakup klaster yang lebih besar dan pelatihan model kecil end-to-end, sambil menunggu penerapan switch lab 800Gb.

Beijing Qianxing Jietong Technology Co, Ltd.
Sandy Yang/Direktur Strategi Global
WhatsApp / WeChat: +86 13426366826
Surel: yangyd@qianxingdata.com
Situs web: www.qianxingdata.com/www.storagesserver.com
Fokus Bisnis:
Distribusi Produk TIK/Integrasi Sistem & Layanan/Solusi Infrastruktur
Dengan pengalaman distribusi TI selama lebih dari 20 tahun, kami bermitra dengan merek global terkemuka untuk menghadirkan produk yang andal dan layanan profesional.
“Menggunakan Teknologi untuk Membangun Dunia Cerdas”Penyedia Layanan Produk TIK Tepercaya Anda!

PREV: ORICO X50 Review: Thunderbolt 5 Kecepatan dalam Lapisan SSD Portable

NEXT: Seagate IronWolf Pro 32TB Ulasan: Kapasitas Top-of-Stack untuk Multi-Bay NAS

Rincian kontak

Beijing Qianxing Jietong Technology Co., Ltd.

Kontak Person: Ms. Sandy Yang

Tel: 13426366826

Ulasan NVIDIA DGX Spark Cluster: Inferensi Terdistribusi pada Dell, GIGABYTE, dan HP

Server Penyimpanan Rak

Huawei Fusion Server

Server Dell Poweredge

Server H3C

Sakelar Datacom

Perangkat WLAN

Router Nirkabel Cerdas

Harddisk HDD

SSD Hard Drive Internal

Kartu Grafis Geforce

Prosesor CPU INTEL

RAM Memori Server

Server Penyimpanan yang Diperbaharui

Modul Pemancar SFP

sakelar saluran serat

Ulasan NVIDIA DGX Spark Cluster: Inferensi Terdistribusi pada Dell, GIGABYTE, dan HP

Kain Jaringan 200Gb

Dasar Pemikiran untuk Pengelompokan Spark

Pengujian Kinerja: PP vs TP

Pemilihan Strategi Paralelisme

Hasil Tolok Ukur Multi-Model (PP=2)

Seri GPT-OSS

Varian Llama 3.1 8B

Model Mistral & Qwen

Ringkasan Output Puncak Sistem Percikan Ganda

Kesimpulan

Server Penyimpanan Rak

12 Bays 1U Rackmount Server Lenovo ThinkSystem SR630 Rack Server

Server Penyimpanan Rak ThinkSystem SR250 V2 4SFF Prosesor Intel Xeon E-2378G

Server Penyimpanan Rak Intel C621A Inspur NF5180M6 1U Rack Mount Server

Huawei Fusion Server

FusionServer 5288 V6 4U Rack Server 32 DDR4 DIMM 44 Hard Disk 3,5 Inci

Ultra High Density Huawei Fusion Server 1U Network Storage Server 1288H V5

Generasi Baru OceanStor 5310 Huawei Rack Server Hybrid Flash Storage