| Spesifikasi NVIDIA L4 | |
|---|---|
| FP 32 | 30.3 teraFLOP |
| TF32 Tensor Core | 60 teraFLOP |
| FP16 Tensor Core | 121 teraFLOP |
| BFLOAT16 Tensor Core | 121 teraFLOP |
| FP8 Tensor Core | 242.5 teraFLOP |
| Inti Tensor INT8 | 242.5 TOPs |
| Memori GPU | 24GB GDDR6 |
| GPU Memory Bandwidth | 300GB/s |
| Daya Desain Termal Maksimal (TDP) | 72W |
| Faktor Bentuk | PCIe berprofil rendah 1 slot |
| Interkoneksi | PCIe Gen4 x16 |
| Grafik Spesifikasi | L4 |
Tentu saja dengan harga L4 di suatu tempat di dekat $ 2500, A2 datang di sekitar setengah harga, dan tua (tetapi masih cukup mampu) T4 tersedia untuk di bawah $ 1000 digunakan,Pertanyaan yang jelas adalah apa perbedaan antara ketiga GPU inferensi ini.
| Spesifikasi NVIDIA L4, A2 dan T4 | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| FP 32 | 30.3 teraFLOP | 4.5 teraFLOP | 8.1 teraFLOP |
| TF32 Tensor Core | 60 teraFLOP | 9 teraFLOP | N/A |
| FP16 Tensor Core | 121 teraFLOP | 18 teraFLOP | N/A |
| BFLOAT16 Tensor Core | 121 teraFLOP | 18 teraFLOP | N/A |
| FP8 Tensor Core | 242.5 teraFLOP | N/A | N/A |
| Inti Tensor INT8 | 242.5 TOPs | 36 TOPS | 130 TOPS |
| Memori GPU | 24GB GDDR6 | 16GB GDDR6 | 16GB GDDR6 |
| GPU Memory Bandwidth | 300GB/s | 200GB/s | 320+ GB/s |
| Daya Desain Termal Maksimal (TDP) | 72W | 40-60W | 70W |
| Faktor Bentuk | PCIe berprofil rendah 1 slot | ||
| Interkoneksi | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
| Grafik Spesifikasi | L4 | A2 | T4 |
Satu hal yang harus dipahami ketika melihat tiga kartu ini adalah bahwa mereka tidak persis generasi satu-ke-satu pengganti, yang menjelaskan mengapa T4 masih tetap, bertahun-tahun kemudian,pilihan populer untuk beberapa kasus penggunaan. A2 keluar sebagai pengganti untuk T4 sebagai pilihan bertenaga rendah dan lebih kompatibel (x8 vs x16 mekanik).dengan A2 mengelilingi di antara yang mungkin atau mungkin tidak mendapatkan diperbarui di beberapa titik di masa depan.
MLPerf Inference 3.1 Kinerja
MLPerf adalah konsorsium pemimpin AI dari akademisi, penelitian, dan industri yang didirikan untuk menyediakan benchmark perangkat keras dan perangkat lunak AI yang adil dan relevan.Patokan ini dirancang untuk mengukur kinerja perangkat keras pembelajaran mesin, perangkat lunak, dan layanan pada berbagai tugas dan skenario.
Tes kami berfokus pada dua patokan MLPerf khusus: Resnet50 dan BERT.
- Resnet50: Ini adalah jaringan saraf konvolutional yang digunakan terutama untuk klasifikasi gambar.
- BERT (Bidirectional Encoder Representations from Transformers): Patokan ini berfokus pada tugas pemrosesan bahasa alami,menawarkan wawasan tentang bagaimana sistem bekerja dalam memahami dan memproses bahasa manusia.
Kedua tes ini sangat penting untuk mengevaluasi kemampuan perangkat keras AI dalam skenario dunia nyata yang melibatkan pemrosesan gambar dan bahasa.
Mengevaluasi NVIDIA L4 dengan tolok ukur ini sangat penting dalam membantu memahami kemampuan GPU L4 dalam tugas AI tertentu.Hal ini juga menawarkan wawasan tentang bagaimana konfigurasi yang berbeda (singleInformasi ini sangat penting bagi para profesional dan organisasi yang ingin mengoptimalkan infrastruktur AI mereka.
Model berjalan di bawah dua mode utama: Server dan Offline.
- Mode Offline: Mode ini mengukur kinerja sistem ketika semua data tersedia untuk diproses secara bersamaan.di mana sistem memproses satu set data besar dalam satu batchMode offline sangat penting untuk skenario di mana latensi bukan perhatian utama, tetapi throughput dan efisiensi.
- Server Mode: Sebaliknya, mode server mengevaluasi kinerja sistem dalam skenario yang meniru lingkungan server dunia nyata, di mana permintaan datang satu per satu.mengukur seberapa cepat sistem dapat merespons setiap permintaanHal ini penting untuk aplikasi real-time, seperti server web atau aplikasi interaktif, di mana respon segera diperlukan.
1 x NVIDIA L4 Dell PowerEdge XR7620
Sebagai bagian dari review terbaru Dell PowerEdge XR7620, dilengkapi dengan NVIDIA L4 tunggal, kami membawanya ke tepi untuk menjalankan beberapa tugas, termasuk MLPerf.
Konfigurasi sistem pengujian kami mencakup komponen berikut:
- 2 x Xeon Gold 6426Y 16 inti 2.5GHz
- 1 x NVIDIA L4
- 8 x 16GB DDR5
- 480GB BOSS RAID1
- Server Ubuntu 22.04
- Pengemudi NVIDIA 535
| Dell PowerEdge XR7620 1x NVIDIA L4 | Skor |
|---|---|
| Resnet50 Server | 12,204.40 |
| Resnet50 Offline | 13,010.20 |
| BERT K99 Server | 898.945 |
| BERT K99 Offline | 973.435 |
Kinerja dalam skenario server dan offline untuk Resnet50 dan BERT K99 hampir identik, menunjukkan bahwa L4 mempertahankan kinerja yang konsisten di berbagai model server.
1, 2 & 4 NVIDIA L4 ¢ ¢ Dell PowerEdge T560
Konfigurasi unit review kami mencakup komponen berikut:
- 2 x Intel Xeon Gold 6448Y (32-core/64-thread masing-masing, TDP 225 watt, 2,1-4,1GHz)
- 8 x 1.6TB Solidigm P5520 SSD dengan kartu PERC 12 RAID
- 1-4x GPU NVIDIA L4
- 8 x 64GB RDIMM
- Server Ubuntu 22.04
- Pengemudi NVIDIA 535
| Dell PowerEdge T560 1x NVIDIA L4 | Skor |
|---|---|
| Resnet50 Server | 12,204.40 |
| Resnet50 Offline | 12,872.10 |
| Bert K99 Server | 898.945 |
| Bert K99 Offline | 945.146 |
Dalam tes kami dengan dua L4 di Dell T560, kami mengamati skala hampir linier dalam kinerja untuk kedua Resnet50 dan BERT K99 patokan.Skala ini adalah bukti efisiensi GPU L4 dan kemampuan mereka untuk bekerja secara tandem tanpa kerugian yang signifikan karena overhead atau inefisiensi.
| Dell PowerEdge T560 2x NVIDIA L4 | Skor |
|---|---|
| Resnet50 Server | 24,407.50 |
| Resnet50 Offline | 25,463.20 |
| BERT K99 Server | 1,801.28 |
| BERT K99 Offline | 1,904.10 |
Skala linier yang konsisten yang kami saksikan dengan dua GPU NVIDIA L4 meluas secara mengesankan ke konfigurasi yang menampilkan empat unit L4. This scaling is particularly noteworthy as maintaining linear performance gains becomes increasingly challenging with each added GPU due to the complexities of parallel processing and resource management.
| Dell PowerEdge T560 4x NVIDIA L4 | Skor |
|---|---|
| Resnet50 Server | 48,818.30 |
| Resnet50 Offline | 51,381.70 |
| BERT K99 Server | 3,604.96 |
| BERT K99 Offline | 3,821.46 |
Hasil ini hanya untuk tujuan ilustratif, dan bukan hasil MLPerf yang kompetitif atau resmi.
Selain memvalidasi skalabilitas linier GPU NVIDIA L4, tes kami di laboratorium menjelaskan implikasi praktis dari penyebaran unit ini dalam skenario operasional yang berbeda.Misalnya, konsistensi dalam kinerja antara server dan mode offline di semua konfigurasi dengan GPU L4 mengungkapkan keandalan dan fleksibilitas mereka.
Aspek ini sangat relevan untuk perusahaan dan lembaga penelitian di mana konteks operasional sangat bervariasi. our observations on the minimal impact of interconnect bottlenecks and the efficiency of GPU synchronization in multi-GPU setups provide valuable insights for those looking to scale their AI infrastructure. wawasan ini melampaui hanya angka acuan, menawarkan pemahaman yang lebih dalam tentang bagaimana perangkat keras tersebut dapat digunakan secara optimal dalam skenario dunia nyata,membimbing keputusan arsitektur yang lebih baik dan strategi investasi dalam infrastruktur AI dan HPC.
NVIDIA L4 Performance Aplikasi
Kami membandingkan kinerja NVIDIA L4 baru dengan NVIDIA A2 dan NVIDIA T4 yang sebelumnya.kami mengerahkan ketiga model di dalam server di laboratorium kami, dengan Windows Server 2022 dan driver NVIDIA terbaru, memanfaatkan seluruh suite pengujian GPU kami.
Kartu ini diuji pada Dell Poweredge R760 dengan konfigurasi berikut:
- 2 x Intel Xeon Gold 6430 (32 Core, 2.1GHz)
- Windows Server 2022
- Pengemudi NVIDIA 538.15
- ECC dinonaktifkan pada semua kartu untuk pengambilan sampel 1x
Saat kita memulai pengujian kinerja antara kelompok tiga GPU perusahaan ini, penting untuk mencatat perbedaan kinerja unik antara model A2 dan T4 sebelumnya.Ketika A2 dirilis, ia menawarkan beberapa perbaikan yang signifikan seperti konsumsi daya yang lebih rendah dan beroperasi pada slot PCIe Gen4 x8 yang lebih kecil, bukan slot PCIe Gen3 x16 yang lebih besar yang dibutuhkan T4 yang lebih tua.Di luar kelelawar itu memungkinkan untuk slot ke dalam lebih banyak sistem, terutama dengan jejak yang lebih kecil diperlukan.
Blender OptiX 4.0
Blender OptiX adalah aplikasi pemodelan 3D open-source. tes ini dapat dijalankan untuk CPU dan GPU, tapi kami hanya melakukan GPU seperti kebanyakan tes lainnya di sini.Benchmark ini dijalankan menggunakan Blender Benchmark CLI utilitas. Skor adalah sampel per menit, dengan lebih tinggi adalah lebih baik.
| Blender 4.0 (Lebih tinggi lebih baik) |
NVIDIA L4 | NVIDIA A2 | Nvidia T4 |
|---|---|---|---|
| GPU Blender CLI Monster | 2,207.765 | 458.692 | 850.076 |
| GPU Blender CLI Junkshop | 1,127.829 | 292.553 | 517.243 |
| GPU Blender CLI Classroom | 1,111.753 | 262.387 | 478.786 |
Blackmagic RAW Speed Test
Kami menguji CPU dan GPU dengan Blackmagic RAW Speed Test yang menguji kecepatan pemutaran video. ini lebih merupakan tes hibrida yang mencakup kinerja CPU dan GPU untuk dekoding RAW dunia nyata.Ini ditampilkan sebagai hasil yang terpisah tapi kita hanya fokus pada GPU di sini, jadi hasil CPU dihilangkan.
| Blackmagic RAW Speed Test (Lebih tinggi lebih baik) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Cinebench 2024 GPU
Maxon's Cinebench 2024 adalah benchmark rendering CPU dan GPU yang memanfaatkan semua core dan thread CPU.Skor Lebih Tinggi Lebih Baik.
| Cinebench 2024 (Lebih tinggi lebih baik) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPU | 15,263 | 4,006 | 5,644 |
GPU PI
GPUPI 3.3.3 adalah versi utilitas benchmarking ringan yang dirancang untuk menghitung π (pi) hingga miliaran desimal menggunakan percepatan perangkat keras melalui GPU dan CPU.Ini memanfaatkan kekuatan komputasi OpenCL dan CUDA yang mencakup kedua unit pemrosesan pusat dan grafisKami menjalankan CUDA hanya pada semua 3 GPU dan angka di sini adalah waktu perhitungan tanpa waktu pengurangan ditambahkan.
| Waktu Perhitungan GPU PI dalam detik (Lebih rendah lebih baik) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPUPI v3.3 1B | 3.732s | 19.799s | 7.504s |
| GPUPI v3.3 32B | 244.380s | 1,210.801s | 486.231s |
Sementara hasil sebelumnya hanya melihat satu iterasi dari setiap kartu, kami juga memiliki kesempatan untuk melihat penyebaran 5x NVIDIA L4 di dalam Dell PowerEdge T560.
| Waktu Perhitungan GPU PI dalam detik (Lebih rendah lebih baik) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) dengan 5x NVIDIA L4 |
|---|---|
| GPUPI v3.3 1B | 0sec 850ms |
| GPUPI v3.3 32B | 50 detik 361ms |
Octanebench
OctaneBench adalah utilitas benchmarking untuk OctaneRender, renderer 3D lainnya dengan dukungan RTX mirip dengan V-Ray.
| Octane (Lebih Tinggi Lebih Baik) | ||||
| Pemandangan | Kernel | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
| Interior | Saluran informasi | 15.59 | 4.49 | 6.39 |
| Pencahayaan langsung | 50.85 | 14.32 | 21.76 | |
| Pelacakan jalur | 64.02 | 18.46 | 25.76 | |
| Ide | Saluran informasi | 9.30 | 2.77 | 3.93 |
| Pencahayaan langsung | 39.34 | 11.53 | 16.79 | |
| Pelacakan jalur | 48.24 | 14.21 | 20.32 | |
| ATV | Saluran informasi | 24.38 | 6.83 | 9.50 |
| Pencahayaan langsung | 54.86 | 16.05 | 21.98 | |
| Pelacakan jalur | 68.98 | 20.06 | 27.50 | |
| Kotak | Saluran informasi | 12.89 | 3.88 | 5.42 |
| Pencahayaan langsung | 48.80 | 14.59 | 21.36 | |
| Pelacakan jalur | 54.56 | 16.51 | 23.85 | |
| Skor Total | 491.83 | 143.71 | 204.56 | |
GPU Geekbench 6
Geekbench 6 adalah benchmark cross-platform yang mengukur kinerja sistem secara keseluruhan. Ada pilihan tes untuk benchmarking CPU dan GPU. Skor yang lebih tinggi lebih baik.Kami hanya melihat hasil GPU.
Anda dapat menemukan perbandingan dengan sistem yang Anda inginkan di Geekbench Browser.
| Geekbench 6.1.0 (Lebih Tinggi Lebih Baik) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Geekbench GPU OpenCL | 156,224 | 35,835 | 83,046 |
Luxmark
LuxMark adalah alat benchmarking lintas platform OpenCL dari mereka yang memelihara mesin rendering 3D sumber terbuka LuxRender.Untuk ulasan ini, kami menggunakan versi terbaru, v4alpha0. di LuxMark, lebih tinggi lebih baik ketika datang ke skor.
| Luxmark v4.0alpha0 GPU OpenCL (Lebih tinggi lebih baik) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Bangku Hall | 14,328 | 3,759 | 5,893 |
| Bangku Makanan | 5,330 | 1,258 | 2,033 |
GROMACS CUDA
Kami juga mengkompilasi GROMACS, sebuah perangkat lunak dinamika molekuler, khusus untuk CUDA.penting untuk mempercepat simulasi komputasi.
Proses ini melibatkan pemanfaatan nvcc, NVIDIA's CUDA compiler,bersama dengan banyak iterasi dari bendera optimasi yang tepat untuk memastikan bahwa biner yang benar disetel ke arsitektur server. Penggabungan dukungan CUDA dalam kompilasi GROMACS memungkinkan perangkat lunak untuk secara langsung berinteraksi dengan perangkat keras GPU, yang dapat secara drastis meningkatkan waktu komputasi untuk simulasi yang kompleks.
Tes: Interaksi Protein Khusus di Gromacs
Memanfaatkan file input yang disediakan komunitas dari Discord kami yang beragam, yang berisi parameter dan struktur yang disesuaikan untuk studi interaksi protein tertentu,Kami memulai simulasi dinamika molekulerHasilnya luar biasa, sistem mencapai kecepatan simulasi 170.268 nanodetik per hari.
| GPU | Sistem | ns/hari | waktu inti (s) |
|---|---|---|---|
| NVIDIA A4000 | Whitebox AMD Ryzen 5950x | 84.415 | 163,763 |
| RTX NVIDIA 4070 | Whitebox AMD Ryzen 7950x3d | 131.85 | 209,692.3 |
| 5x NVIDIA L4 | Dell T560 w/ 2x Intel Xeon Gold 6448Y | 170.268 | 608,912.7 |
Lebih dari AI
Sandy Yang/Direktur Strategi Global
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Situs web: www.qianxingdata.com/www.storagesserver.com
Fokus Bisnis:
Distribusi Produk ICT/Integrasi Sistem & Layanan/Solusi Infrastruktur
Dengan 20+ tahun pengalaman distribusi TI, kami bermitra dengan merek global terkemuka untuk memberikan produk yang dapat diandalkan dan layanan profesional.
¢Menggunakan Teknologi untuk Membangun Dunia yang Cerdas ¢Penyedia Layanan Produk ICT yang Anda Percayai!



