logo
Rumah Kasus

AMD Instinct MI355X Mencapai MLPerf Inference v6.0 Keuntungan dengan Lebih dari 1 Juta Token Per Detik dan Mendukung ROC Skalable

Sertifikasi
Cina Beijing Qianxing Jietong Technology Co., Ltd. Sertifikasi
Cina Beijing Qianxing Jietong Technology Co., Ltd. Sertifikasi
Ulasan pelanggan
Staf penjualan Beijing Qianxing Jietong Technology Co, Ltd sangat profesional dan sabar. Mereka dapat memberikan kutipan dengan cepat. Kualitas dan kemasan produk juga sangat baik. Kerjasama kami sangat lancar.

—— Festfing DV》LLC

Ketika saya sangat mencari CPU intel dan SSD Toshiba, Sandy dari Beijing Qianxing Jietong Technology Co., Ltd memberi saya banyak bantuan dan mendapatkan produk yang saya butuhkan dengan cepat. Saya sangat menghargai dia.

—— Kitty Yen

Sandy dari Beijing Qianxing Jietong Technology Co, Ltd adalah penjual yang sangat berhati-hati, yang dapat mengingatkan saya tentang kesalahan konfigurasi saat saya membeli server. Para insinyur juga sangat profesional dan dapat dengan cepat menyelesaikan proses pengujian.

—— Strelkin Mikhail Vladimirovich

Kami sangat senang dengan pengalaman kami bekerja dengan Beijing Qianxing Jietong. Kualitas produk sangat baik, dan pengiriman selalu tepat waktu. Tim penjualan mereka profesional, sabar, dan sangat membantu dengan semua pertanyaan kami. Kami sangat menghargai dukungan mereka dan berharap dapat menjalin kemitraan jangka panjang. Sangat direkomendasikan!

—— Ahmad Navid

Kualitas: Pengalaman yang baik dengan pemasok saya. MikroTik RB3011 sudah digunakan, tetapi dalam kondisi yang sangat baik dan semuanya bekerja dengan sempurna. Komunikasi cepat dan lancar,dan semua kekhawatiran saya segera ditangani. Penyedia yang sangat dapat diandalkan sangat direkomendasikan.

—— Geran Colesio

I 'm Online Chat Now

AMD Instinct MI355X Mencapai MLPerf Inference v6.0 Keuntungan dengan Lebih dari 1 Juta Token Per Detik dan Mendukung ROC Skalable

April 15, 2026
AMD telah mengumumkan hasil benchmark MLPerf Inference v6.0, memposisikan GPU Instinct MI355X sebagai platform inferensi yang sangat dapat diskalakan yang mampu mendukung node tunggal, multi-node,dan penyebaran heterogen. Selain peningkatan kinerja, pengajuan memperkenalkan beban kerja baru, menunjukkan cluster-scale throughput melebihi 1 juta token per detik,dan memvalidasi reproduksi kinerja yang konsisten di seluruh ekosistem mitra yang berkembang.

CDNA 4 Tujuan Arsitektur Inferensi Kapasitas Tinggi


Instinct MI355X dibangun di atas arsitektur CDNA 4 AMD, memanfaatkan desain chiplet proses dual TSMC: compute dies (XCD) menggunakan node 3nm, sementara I / O dies menggunakan teknologi FinFET 6nm.Paket multi-chiplet mengintegrasikan 185 miliar transistor dan mendukung format data FP4 dan FP6 yang penting untuk inferensi model besar yang efisienSetiap GPU dilengkapi dengan hingga 288GB memori HBM3E (memberikan 8 TB / detik bandwidth memori), memungkinkan dukungan untuk model hingga 520 miliar parameter pada satu perangkat.AMD menekankan bahwa kombinasi kepadatan komputasi dan kapasitas memori menghilangkan kebutuhan untuk partisi model yang berlebihan, keuntungan utama untuk beban kerja inferensi skala besar.

Tersedia dalam konfigurasi UBB8, platform ini menawarkan opsi pendingin udara dan pendingin cair langsung, selaras dengan beragam persyaratan penyebaran pusat data.MI355X memiliki 1400W TBP (Thermal Design Power) dengan pendingin cair, memberikan kinerja yang lebih tinggi dari rekan udara-dingin, MI350X.

Multinode Throughput Melampaui 1 Juta Token Per Detik


Sebuah prestasi yang luar biasa dari ronde MLPerf v6.0 adalah cluster-scale throughput AMD yang melebihi 1 juta token per detik.AMD mencapai tonggak ini dengan Llama 2 70B di kedua skenario Server dan Offline, serta dengan GPT-OSS-120B dalam mode Offline.

kasus perusahaan terbaru tentang AMD Instinct MI355X Mencapai MLPerf Inference v6.0 Keuntungan dengan Lebih dari 1 Juta Token Per Detik dan Mendukung ROC Skalable  0

AMD MLPerf 1M token per grafik detik

Hasil ini mencerminkan pergeseran industri yang berkembang ke arah mengevaluasi kinerja inferensi di tingkat kelompok, daripada per akselerator individu.Total throughput dan time-to-serve telah menjadi metrik utama untuk menentukan kesiapan produksi dalam penyebaran AI skala besar.

AMD juga menunjukkan efisiensi skala yang luar biasa. untuk Llama 2 70B, konfigurasi 11 node, 87 GPU mencapai lebih dari 1 juta token per detik di skenario Offline, Server, dan Interaktif,dengan efisiensi skala-out berkisar dari 93% hingga 98%Untuk GPT-OSS-120B, 12-node, 94-GPU cluster memberikan throughput yang sama dengan lebih dari 90% efisiensi skala ̇ membuktikan kinerja diterjemahkan secara efektif sebagai penyebaran berkembang di luar satu sistem.

Keuntungan Generasi dan Kinerja Kompetitif Single-Node


AMD melaporkan peningkatan generasi yang signifikan, dengan Instinct MI355X memberikan kinerja 3,1 kali lebih baik pada Llama 2 70B Server dibandingkan dengan Instinct MI325X generasi sebelumnya, mencapai 100,282 token per detik. Peningkatan ini berasal dari peningkatan arsitektur CDNA 4 dan optimasi perangkat lunak ROCm. Skor offline meningkat sebesar 4,4x dan skor Server sebesar 4,8x dibandingkan dengan putaran MLPerf sebelumnya,terutama didorong oleh kuantisasi FP4 – fitur utama dari MI355X yang membuka throughput yang lebih tinggi untuk beban kerja AI.

Hasil inferensi AMD vs grafik generasi sebelumnya

Dalam perbandingan node tunggal terhadap platform NVIDIA, MI355X menunjukkan daya saing yang kuat.mencapai hampir paritas dalam kinerja ServerMI355X memberikan 92% dari kinerja Offline, 93% dari kinerja Server, dan melebihi dengan 4% di mode Interaktif.MI355X juga menawarkan efisiensi biaya yang superior, memberikan 40% lebih banyak token per dolar dibandingkan dengan NVIDIA B200.

Pemberdayaan Model Pertama Kali Memperluas Cakupan


MLPerf Inference v6.0 memperkenalkan beberapa beban kerja baru, dan AMD menggunakan putaran ini untuk menampilkan kemampuan model cepat.mencapai hasil kompetitif terhadap sistem NVIDIA baik dalam skenario Offline maupun Server.

AMD juga mengirimkan hasil untuk Wan-2.2 teks-ke-video generasi, menandai masuknya ke multimodal dan generative video inference.Hasilnya setara dengan platform yang adaPenyesuaian pasca-penyerahan lebih meningkatkan kinerja, menyoroti ruang untuk pengoptimalan sebagai tumpukan perangkat lunak matang.

Penambahan ini menggarisbawahi komitmen AMD untuk memperluas melampaui patokan LLM tradisional untuk mendukung beban kerja AI yang muncul di berbagai kasus penggunaan.

Perangkat Lunak ROCm Mampu Scaling dan Inferensi Heterogen


AMD mengkreditkan banyak kinerja dan skalabilitas MI355X ke tumpukan perangkat lunak ROCm. Peningkatan utama termasuk eksekusi FP4 yang dioptimalkan, komunikasi GPU-to-GPU yang ditingkatkan untuk kesimpulan terdistribusi,dan dukungan untuk distribusi beban kerja yang dinamis di lingkungan heterogen yang penting untuk penyebaran GPU campuran.

AMD MLPerf hasil kesimpulan naluri mI355x grafis
Sebuah submission heterogen yang dikembangkan oleh Dell dan MangoBoost menggunakan tiga model AMD Instinct GPU: MI300X, MI325X, dan MI355X.521 token per detik di Llama 2 70B Server dan 151,843 token per detik di Llama 2 70B Offline. khususnya, platform MI355X terletak di laboratorium Dell di AS,sementara sistem MI300X dan MI325X berada di Korea menunjukkan kemampuan untuk mengkoordinasikan sistem terdistribusi di lokasi geografis.

Pertumbuhan dan Reproduksi ekosistem


Ekosistem mitra AMD telah diperluas secara signifikan dalam putaran MLPerf ini, dengan sembilan perusahaan mengirimkan hasil di beberapa generasi Instinct GPU.Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro, dan Red Hat yang mencerminkan adopsi industri luas dari solusi inferensi AMD.

Sumbangan mitra sangat selaras dengan hasil internal AMD, biasanya dalam 4% dan dalam beberapa kasus dalam 1%.Konsistensi ini menegaskan bahwa kinerja MI355X dapat direproduksi di seluruh platform OEM dan cloud, mengurangi risiko penyebaran dan meningkatkan kepercayaan pada hasil kinerja dunia nyata.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Direktur Strategi Global
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Situs web: www.qianxingdata.com/www.storagesserver.com
Fokus Bisnis:
Distribusi Produk ICT/Integrasi Sistem & Layanan/Solusi Infrastruktur
Dengan 20+ tahun pengalaman distribusi TI, kami bermitra dengan merek global terkemuka untuk memberikan produk yang dapat diandalkan dan layanan profesional.
¢Menggunakan Teknologi untuk Membangun Dunia yang Cerdas ¢Penyedia Layanan Produk ICT yang Anda Percayai!
Rincian kontak
Beijing Qianxing Jietong Technology Co., Ltd.

Kontak Person: Ms. Sandy Yang

Tel: 13426366826

Mengirimkan permintaan Anda secara langsung kepada kami (0 / 3000)