Poin Penting
- Throughput yang Belum Pernah Ada Sebelumnya dalam Satu Node: R7725xd mempertahankan bandwidth internal lebih dari 300 GB/s dan 160 GB/s melalui NVMe-oF RDMA, menyaingi kluster penyimpanan multi-node di dalam sasis 2U.
- Arsitektur Gen5 Sejati, Tanpa Sakelar, Tanpa Fan-Out: Semua 24 SSD Micron 9550 PRO menerima jalur PCIe Gen5 x4 khusus langsung dari kompleks CPU, memungkinkan penskalaan line-rate tanpa persaingan.
- Didukung oleh AMD EPYC Seri 9005: Prosesor AMD EPYC 9575F Ganda menyediakan jumlah jalur, bandwidth memori, dan topologi NUMA yang diperlukan untuk I/O konkurensi tinggi yang berkelanjutan.
- Dirancang untuk AI, Analitik, dan Beban Kerja Padat Checkpoint: Sistem ini menghilangkan hambatan I/O yang menghentikan pipeline GPU modern, memungkinkan pengiriman data bandwidth tinggi yang berkelanjutan.
- PEAK:AIO Membuka Paralelisme Penuh: Tumpukan perangkat lunak PEAK:AIO menjaga struktur antrean tetap jenuh di bawah beban, memberikan kinerja perusahaan dengan rasio dolar-per-GB yang menarik.
Bagian penyimpanan iDRAC 10 menyajikan gambaran umum lengkap semua disk fisik yang terpasang di R7725xd. Panel ringkasan menampilkan jumlah tingkat tinggi dari semua drive yang terhubung, disertai dengan diagram lingkaran visual yang mengilustrasikan status drive. Dalam konfigurasi ini, 24 SSD NVMe aktif dan melaporkan sebagai siap, dengan dua perangkat boot tambahan hadir di sistem, terpisah dari bank NVMe depan utama.
Di sebelah kanan, Panel Ringkasan Disk memecahnya menjadi disk fisik dan disk virtual apa pun yang terkait. Karena R7725xd menggunakan arsitektur NVMe langsung tanpa pengontrol RAID tradisional, semua drive dilaporkan sebagai Non-RAID dan dapat dialamatkan secara individual, sejajar dengan desain sistem untuk kumpulan NVMe besar dan platform SDS.
Di bawah ringkasan status, area Peristiwa Penyimpanan yang Baru Dicatat mencantumkan log penyisipan untuk setiap SSD PCIe, yang diatur berdasarkan bay dan slot. Catatan ini mengonfirmasi deteksi yang tepat di semua bay drive dan membantu mengidentifikasi masalah apa pun dengan pemasangan, pengkabelan, atau aktivitas hot-swap. Untuk penerapan skala besar, log ini berguna saat melacak penyediaan drive atau memverifikasi bahwa kapasitas telah diisi seperti yang diharapkan.
Tangkapan layar terakhir menunjukkan tampilan perangkat NVMe terperinci di dalam iDRAC10. Setiap drive NVMe yang terpasang di sistem terdaftar dengan status, kapasitas, dan lokasi bay-nya. Memilih drive individual membuka rincian lengkap karakteristiknya.
Dalam contoh ini, panel informasi drive menampilkan string model lengkap, protokol perangkat, faktor bentuk, dan pengaturan PCIe yang dinegosiasikan. Perangkat NVMe berjalan pada kecepatan tautan 32 GT/s dengan koneksi x4 yang dinegosiasikan, mengonfirmasi bahwa drive beroperasi pada bandwidth penuh pada backplane PCIe Gen5 sistem. Bagian informasi juga melaporkan persentase daya tahan, status cadangan yang tersedia, dan jenis protokol, membantu administrator memantau ekspektasi kesehatan dan siklus hidup drive.
Pelaporan drive granular ini berharga dalam konfigurasi NVMe kepadatan tinggi di mana lebar tautan, kecepatan yang dinegosiasikan, dan kesehatan media secara langsung memengaruhi perilaku beban kerja dan kinerja penyimpanan.
Secara keseluruhan, antarmuka iDRAC 10 memberikan tampilan yang jelas dan berpusat pada perangkat keras dari arsitektur penyimpanan NVMe R7725xd, memungkinkan validasi mudah kesehatan tautan, status drive, dan integritas sistem secara sekilas.
Kinerja Dell PowerEdge R7725xd
Sebelum pengujian, sistem kami dikonfigurasi dengan muatan yang seimbang namun berkinerja tinggi. Sistem ini dilengkapi dengan dua prosesor AMD EPYC 9575F, masing-masing memiliki 64 inti frekuensi tinggi, dan dipasangkan dengan 24 DIMM DDR5 32GB yang beroperasi pada 6400 MT/s. Untuk penyimpanan, sasis sepenuhnya dilengkapi dengan 24 SSD NVMe U.2 Micron 9550 PRO 15,36TB, masing-masing terhubung melalui tautan PCIe Gen5 x4 khusus. Ini memberikan total kapasitas mentah 368,64 TB, dan drive Micron 9550 PRO memberikan kecepatan baca sekuensial hingga 14.000 MB/s dan kecepatan tulis sekuensial hingga 10.000 MB/s. Jaringan ditangani oleh empat adaptor Broadcom BCM57608 yang menyediakan total delapan port 200Gb, bersama dengan NIC OCP BCM57412 yang menawarkan dua port 10-gigabit tambahan.
Spesifikasi Sistem Pengujian
- CPU: 2x Prosesor Frekuensi Tinggi 64-Core AMD EPYC 9575F
- Memori: 24x 32GB DDR5 @ 6400MT/s
- Penyimpanan: 24x drive U.2 Micron 9550 PRO 15,36TB (terhubung pada 4x jalur PCIe Gen5 masing-masing); mendukung hingga drive 128TB saat ini dengan kapasitas lebih tinggi yang akan datang
- Jaringan: 4x Broadcom BCM57608 2x200G NIC, 1x BCM57412 2x10Gb OCP NIC
- Sakelar: Dell PowerSwitch Z9664
Benchmark Kinerja FIO
Untuk mengukur kinerja penyimpanan PowerEdge R7725xd, kami menggunakan metrik standar industri dan alat FIO. Di bagian ini, kami fokus pada benchmark FIO berikut:
- 4K Acak – 1M
- 4K Sekuensial – 1M
FIO – Lokal – Bandwidth
Saat menguji akses lokal ke 24 drive NVMe PCIe Gen5 di dalam Dell PowerEdge R7725xd, sistem menunjukkan persis seperti yang Anda harapkan dari platform di mana setiap drive terhubung ke CPU menggunakan tautan PCIe Gen5 x4 penuh. Tanpa lapisan jaringan yang terlibat, ini adalah throughput murni internal dari tata letak penyimpanan Gen5 Dell dan bandwidth PCIe platform AMD EPYC yang bekerja tanpa batasan.
Bacaan sekuensial dimulai pada 184 GB/s dengan blok 4K dan meningkat pesat seiring bertambahnya ukuran blok. Dari 512K hingga 1M, server mempertahankan 312 hingga 314 GB/s yang konsisten, yang merupakan indikasi kuat tentang seberapa baik sistem dapat mengagregasi semua 24 × 4 jalur Gen5 ke dalam bandwidth baca berkelanjutan tanpa hambatan tahap pengontrol.
Tulis sekuensial mengikuti kurva yang berbeda tetapi tetap berada dalam kisaran yang diharapkan. Dimulai pada 149 GB/s, hasil naik melalui pertengahan-100-an dan mencapai 182 GB/s pada 1 juta. Ini sejajar dengan perilaku tulis SSD Micron 9550 PRO dan overhead yang melekat pada tulis NVMe paralel tinggi di banyak perangkat independen.
Kinerja baca acak adalah sorotan lain. Sistem mencapai kecepatan hampir 300 GB/s pada ukuran blok terkecil, sedikit menurun di kisaran menengah, dan kemudian pulih ke atas 200-an dan bawah 300-an pada ukuran blok yang lebih besar. Pada 1M, baca acak mencapai maksimum 318 GB/s, menunjukkan kemampuan platform untuk mendistribusikan operasi campuran secara merata di semua 24 drive.
Tulis acak datang pada tingkat yang lebih rendah, yang khas untuk metadata yang tersebar dan tugas alokasi tulis di seluruh set NVMe yang luas. Hasil tetap dalam kisaran 140 hingga 160 GB/s untuk sebagian besar pengujian dan menurun hingga sedikit di bawah 100 GB/s pada 1 M.
FIO – Lokal – IOPS
Saat memeriksa sisi IOPS, R7725xd menunjukkan kinerja blok kecil yang kuat, dengan tingkat permintaan mencapai puluhan juta sebelum ukuran blok yang lebih besar menggeser beban kerja ke profil yang didorong oleh bandwidth.
Pada 4K, baca mencapai 44,9 juta IOPS dan tulis mencapai 36,3 juta. Baca acak mencapai tingkat yang lebih tinggi lagi pada 71,4 juta IOPS, menunjukkan kemampuan sistem untuk mendistribusikan beban kerja antrean tinggi secara efisien di semua drive. Nilai-nilai ini secara alami menurun seiring bertambahnya ukuran blok, tetapi progresnya tetap konsisten melalui rentang 8K, 16K, dan 32K.
Pada blok 16K dan 32K, baca menetap pada 17,4 juta dan 8,35 juta IOPS, dengan baca acak yang sangat mirip pada 16,5 juta dan 8,15 juta. Tulis mengikuti pola yang diharapkan, melacak lebih rendah tetapi tetap stabil di kedua pola akses sekuensial dan acak.
Saat kita beralih ke 64K dan di atasnya, pengujian beralih dari IOPS murni ke skenario yang lebih terikat bandwidth. IOPS turun ke kisaran jutaan rendah dan akhirnya ke ratusan ribu. Pada ukuran blok 1M, IOPS baca mencapai sekitar 300K, tulis sekitar 174K, dan operasi acak berakhir di kisaran yang sama.
Secara keseluruhan, hasil IOPS lokal dengan jelas menunjukkan kemampuan sistem untuk mempertahankan beban kerja kedalaman antrean yang sangat tinggi pada blok kecil, dengan penskalaan yang dapat diprediksi saat transfer tumbuh dan bandwidth menjadi faktor dominan.
PEAK:AIO: Mengapa Dell PowerEdge R7725xd Cocok untuk Beban Kerja Ini
PEAK:AIO dirancang untuk lingkungan yang menuntut akses yang sangat cepat dan latensi rendah ke kumpulan data besar, biasanya untuk pelatihan AI, pipeline inferensi, pemodelan keuangan, dan analitik waktu nyata. Platform ini unggul dalam penyimpanan NVMe padat, bandwidth PCIe yang seimbang, dan latensi yang dapat diprediksi pada skala. Untuk memenuhi persyaratan ini, perangkat keras yang mendasarinya harus memberikan throughput berkelanjutan sambil mempertahankan kinerja yang konsisten dan berulang di bawah beban berat bersamaan.
Di sinilah Dell PowerEdge R7725xd selaras secara alami dengan PEAK:AIO. Arsitektur sistem dirancang untuk memaksimalkan sumber daya PCIe Gen5, mengekspos bandwidth penuh dari 24 bay NVMe U.2 yang terpasang di depan langsung ke CPU, tanpa mengandalkan pengontrol RAID tradisional. Tata letak ini memberikan PEAK:AIO paralelisme dan profil latensi yang diharapkan dari pipeline data berbasis NVMe modern. Konfigurasi sistem membagi SSD NVMe menjadi dua grup RAID0.
Dalam skenario yang diuji, kami menggunakan dua sistem klien yang terhubung ke R7725xd, masing-masing dilengkapi dengan NIC Broadcom BCM57608 2x 200G. Itu menciptakan total empat tautan 200G yang memberi daya pada setiap klien, mendorong R7725xd ke dalam konfigurasi berkinerja tinggi yang realistis yang mencerminkan apa yang dilihat oleh penerapan PEAK:AIO dalam produksi. Tingkat bandwidth jaringan ini memberi kami ruang untuk sepenuhnya menekankan subsistem NVMe, topologi PCIe, dan interkoneksi CPU tanpa hambatan pada lapisan NIC.
Hasilnya adalah platform yang selaras secara efektif dengan beban kerja PEAK:AIO. R7725xd menyediakan kapasitas NVMe padat, throughput PCIe Gen5, prosesor AMD EPYC 9005 ganda untuk paralelisme, dan kemampuan jaringan untuk mempertahankan penyerapan data multi-klien pada ratusan gigabit per klien. Semua karakteristik ini adalah dasar untuk mencapai ekspektasi kinerja PEAK:AIO.
PEAK:AIO – NVMe-oF RDMA – Bandwidth
Memeriksa hasil bandwidth NVMe-oF RDMA pada PowerEdge R7725xd dengan PEAK:AIO, tren keseluruhan persis seperti yang kami harapkan dari sistem dengan bandwidth PCIe dan jaringan sebanyak ini. Seiring bertambahnya ukuran blok, throughput meningkat pesat hingga stabil di dekat batas praktis platform.
Pada ukuran blok kecil, kinerja dimulai pada kisaran pertengahan 20GB/s untuk baca dan tulis, yang normal karena transfer 4K dan 8K lebih menekan jalur IOPS daripada jalur throughput. Begitu kita masuk ke blok 16K dan 32K, pipeline terbuka. Bacaan melonjak menjadi sekitar 154 GB/s pada 32K dan terus naik hingga kisaran 160 GB/s, yang tepat di mana kami mengharapkan pengaturan dual-klien melalui empat tautan 200 Gb/s berada.
Kinerja baca acak hampir sama persis dengan sekuensial. PEAK:AIO melakukan pekerjaan yang baik dalam menjaga antrean perintah tetap terisi, sehingga bandwidth baca acak pada dasarnya mengikuti bandwidth baca sekuensial hingga ke atas, stabil di sekitar 159 hingga 161 GB/s dari 32K hingga 1M. Ini menunjukkan bahwa tumpukan penyimpanan tidak menjadi hambatan di bawah pola akses campuran, dan topologi PCIe R7725xd mendistribusikan beban secara merata di 24 drive NVMe Gen5.
Kinerja tulis mengikuti kurva yang serupa, meskipun puncaknya sedikit lebih rendah daripada baca. Tulis sekuensial tetap dalam kisaran 140 hingga 148 GB/s melalui blok berukuran sedang, menurun menjadi sekitar 117 GB/s pada 128K tetapi pulih seiring bertambahnya ukuran blok. Tulis acak berperilaku berbeda dan datar mendekati 110-117 GB/s, yang normal untuk beban kerja antrean campuran yang memperkenalkan overhead tambahan.
Poin penting dari bagian ini adalah bahwa R7725xd tidak kesulitan mempertahankan bandwidth yang sangat tinggi melalui NVMe-oF, bahkan dengan beberapa klien yang mendorong sistem hingga batasnya. Setelah ukuran blok mencapai 32K atau lebih tinggi, server secara konsisten menjenuhkan bandwidth jaringan dan penyimpanannya yang tersedia. Inilah jenis kinerja yang dirancang untuk diekstraksi oleh PEAK:AIO, menjadikan hasil ini validasi kuat atas kemampuan platform untuk diskalakan dalam kondisi dunia nyata.
PEAK AIO – NVMe-oF RDMA IOPS
Di sisi IOPS, PowerEdge R7725xd menunjukkan kinerja blok kecil yang kuat, meskipun kami awalnya mengamati angka yang lebih rendah dari yang diharapkan; masalah ini diharapkan akan diatasi dengan dukungan driver jaringan yang ditingkatkan di masa mendatang. Bahkan dengan itu, tren penskalaan keseluruhan tampak persis seperti perilaku NVMe-oF RDMA biasanya ketika ukuran blok meningkat.
Pada ukuran blok terkecil, sistem dapat memberikan lebih dari 6 juta IOPS di seluruh beban kerja sekuensial dan acak. Baca, tulis, baca acak, dan tulis acak semuanya berada dalam kisaran yang sama pada 4K dan 8K, menunjukkan bahwa klien front-end, infrastruktur PCIe, dan drive NVMe itu sendiri tidak kesulitan mengimbangi tingkat permintaan.
Seiring bertambahnya ukuran blok, penurunan IOPS yang diharapkan mulai terjadi. Pada 32K, baca mencapai sekitar 4,7 juta IOPS, sementara tulis sedikit tertinggal di sekitar 4,4 juta. Tulis acak mengalami pukulan terbesar di sini, turun menjadi sekitar 3,3 juta IOPS, yang sejajar dengan antrean tambahan dan overhead CPU yang diperkenalkan oleh pola akses campuran.
Beralih ke blok besar, IOPS terus menurun secara linier yang dapat diprediksi. Pada saat kita mencapai transfer 256K dan 512K, throughput menjadi metrik dominan, dan IOPS secara alami turun ke ratusan ribu pertengahan. Pada ukuran blok 1M, semua beban kerja menyatu ke 140K-153K IOPS, konsisten dengan angka bandwidth yang kami lihat di bagian sebelumnya.
Kinerja GPUDirect Storage
Salah satu pengujian yang kami lakukan pada R7725xd adalah pengujian Magnum IO GPUDirect Storage (GDS). GDS adalah fitur yang dikembangkan oleh NVIDIA yang memungkinkan GPU melewati CPU saat mengakses data yang disimpan pada drive NVMe atau perangkat penyimpanan berkecepatan tinggi lainnya. Alih-alih merutekan data melalui CPU dan memori sistem, GDS memungkinkan komunikasi langsung antara GPU dan perangkat penyimpanan, secara signifikan mengurangi latensi dan meningkatkan throughput data.
Cara Kerja GPUDirect Storage
Secara tradisional, ketika GPU memproses data yang disimpan pada drive NVMe, data tersebut harus terlebih dahulu melewati CPU dan memori sistem sebelum mencapai GPU. Proses ini menimbulkan hambatan, karena CPU menjadi perantara, menambah latensi dan mengonsumsi sumber daya sistem yang berharga. GPUDirect Storage menghilangkan inefisiensi ini dengan memungkinkan GPU mengakses data langsung dari perangkat penyimpanan melalui bus PCIe. Jalur langsung ini mengurangi overhead pergerakan data, memungkinkan transfer data yang lebih cepat dan lebih efisien.
Beban kerja AI, terutama yang melibatkan pembelajaran mendalam, sangat padat data. Pelatihan jaringan saraf besar membutuhkan pemrosesan terabyte data, dan penundaan apa pun dalam transfer data dapat menyebabkan GPU yang kurang dimanfaatkan dan waktu pelatihan yang lebih lama. GPUDirect Storage mengatasi tantangan ini dengan memastikan data dikirim ke GPU secepat mungkin, meminimalkan waktu idle dan memaksimalkan efisiensi komputasi.
Selain itu, GDS sangat bermanfaat untuk beban kerja yang melibatkan streaming kumpulan data besar, seperti pemrosesan video, pemrosesan bahasa alami, atau inferensi waktu nyata. Dengan mengurangi ketergantungan pada CPU, GDS mempercepat pergerakan data dan membebaskan sumber daya CPU untuk tugas lain, selanjutnya meningkatkan kinerja sistem secara keseluruhan.
Di luar bandwidth mentah, GPUDirect dengan NVMe-oF (TCP/RDMA) juga memberikan I/O latensi ultra-rendah. Ini memastikan GPU tidak pernah kekurangan data, menjadikan sistem ini ideal untuk inferensi AI waktu nyata, pipeline analitik, dan pemutaran video.
GDSIO Baca Sekuensial
Saat memeriksa PEAK:AIO dengan satu klien menggunakan GDSIO, throughput baca menunjukkan pola penskalaan yang jelas seiring bertambahnya ukuran blok dan jumlah utas. Klien tunggal ini terhubung melalui dua tautan 400G, membatasi potensi totalnya hingga 90 GB/s.
Pada ukuran blok terkecil dan jumlah utas rendah, kinerja sederhana, dengan baca 4K dimulai sekitar 189 MiB/s pada satu utas. Segera setelah kami meningkatkan paralelisme utas, sistem merespons segera, mendorong 691MiB/s pada empat utas dan menembus kisaran multi-GiB/s saat kami melangkah ke blok yang lebih besar.
Ukuran blok menengah menunjukkan sensitivitas terkuat terhadap jumlah utas. Pada 32K, throughput tumbuh dari 1,3 GiB/s pada satu utas menjadi hampir 20 GiB/s pada 64 utas, dengan hanya sedikit penurunan setelah itu. Pola serupa muncul pada 64K dan 128K, di mana sistem beralih dari GiB/s tunggal rendah pada paralelisme rendah ke lebih dari 30 GiB/s saat beban kerja diskalakan.
Setelah kita mencapai ukuran blok yang lebih besar, throughput mulai stabil karena sistem mendekati batas kinerjanya untuk satu klien. Pada 1 MiB, kinerja naik dari 11GiB/s pada satu utas menjadi sekitar 88GiB/s pada jumlah utas tinggi. Transfer 5 MiB dan 10 MiB menunjukkan dataran tinggi yang sama, mencapai puncaknya sekitar 89–90GiB/s terlepas dari apakah pengujian berjalan pada 64, 128, atau 256 utas.
GDSIO Tulis Sekuensial
Di sisi tulis, perilaku penskalaan mengikuti pola yang serupa dengan baca, tetapi dengan kinerja yang sedikit lebih rendah di sebagian besar ukuran blok, yang diharapkan untuk beban kerja tulis sekuensial. Pada ukuran blok terkecil, throughput dimulai pada 165 MiB/s untuk satu utas pada 4K dan meningkat secara stabil seiring bertambahnya paralelisme. Pada empat utas, itu tumbuh menjadi sedikit di atas 619MiB/s sebelum naik melewati 1GiB/s pada delapan utas.
Ukuran blok menengah menunjukkan peningkatan yang lebih kuat seiring bertambahnya jumlah utas. Pada 32K, throughput dimulai dari sedikit di bawah 1 GiB/s dan diskalakan hingga lebih dari 21 GiB/s pada tingkat utas yang lebih tinggi. Rentang 64K dan 128K melanjutkan tren, beralih dari GiB/s tunggal rendah ke GiB/s pertengahan-30 dan 50 GiB/s saat beban kerja menjadi lebih paralel.
Transfer yang lebih besar adalah saat sistem menetap pada batas throughput tulis alaminya. Pada 1 MiB, kinerja naik dari 13,3GiB/s pada satu utas menjadi sedikit di bawah 90GiB/s pada jumlah utas tinggi. Pengujian 5 MiB dan 10 MiB mengikuti pola yang serupa, dengan hasil mencapai puncaknya sekitar 90 GiB/s terlepas dari apakah sistem berjalan pada 64, 128, atau 256 utas.
Mendefinisikan Ulang Kinerja di Era Gen5
Sandy Yang/Direktur Strategi Global
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Situs Web: www.qianxingdata.com/www.storagesserver.com
Fokus Bisnis:
Distribusi Produk ICT/Integrasi Sistem & Layanan/Solusi Infrastruktur
Dengan pengalaman distribusi TI lebih dari 20 tahun, kami bermitra dengan merek global terkemuka untuk memberikan produk yang andal dan layanan profesional.
“Menggunakan Teknologi untuk Membangun Dunia yang Cerdas”Penyedia Layanan Produk ICT Tepercaya Anda!



