IBM telah meluncurkan arsitektur penyimpanan yang sadar konten (CAS) yang menyematkan pemrosesan data AI langsung di dalam lapisan penyimpanan. Pendekatan ini disesuaikan untuk alur kerja generasi yang ditingkatkan pengambilan (RAG), karena mengintegrasikan vektorisasi dokumen ke dalam sistem penyimpanan itu sendiri—mengurangi kebutuhan akan pipeline pra-pemrosesan eksternal.
CAS mentransfer fungsi RAG utama—penyematan dokumen melalui metode berbasis model bahasa besar (LLM)—ke dalam infrastruktur penyimpanan. Hal ini memungkinkan perusahaan untuk memproses dan mengindeks data di lokasi yang ada, menyelaraskan sistem penyimpanan dengan beban kerja yang digerakkan oleh AI dan meminimalkan pergerakan data di berbagai tingkatan infrastruktur. IBM memposisikan ini sebagai cara untuk menyederhanakan penerapan sambil meningkatkan kinerja dan meningkatkan lokalitas data untuk aplikasi AI.
Basis Data Vektor dalam Skala
Inti dari implementasi CAS IBM adalah basis data vektor yang dioptimalkan untuk pencarian semantik. Basis data vektor mendukung pencarian tetangga terdekat perkiraan (ANN), memungkinkan sistem AI untuk mengambil potongan data yang relevan berdasarkan metrik kesamaan seperti kesamaan kosinus atau jarak L2. Kemampuan ini sangat mendasar untuk RAG, di mana kueri pengguna dikonversi menjadi vektor dan dicocokkan dengan data perusahaan yang terindeks untuk memberikan respons yang sadar konteks.
Bagan CAS IBM Sumber: IBM
IBM Research, bekerja sama dengan Samsung dan NVIDIA, memamerkan sistem prototipe yang mampu diskalakan hingga 100 miliar vektor pada satu server. Sistem ini mencapai lebih dari 90 persen recall dan presisi, dengan latensi kueri rata-rata di bawah 700 milidetik. Skala ini melayani lingkungan perusahaan di mana kumpulan data dapat mencakup miliaran file dan, setelah terindeks penuh, tumbuh hingga ratusan miliar vektor.
Integrasi Pipeline RAG
RAG menjadi pendekatan yang disukai untuk AI perusahaan, karena meningkatkan akurasi keluaran tanpa perlu melatih ulang model. Ini bekerja dengan melengkapi prompt dengan data spesifik perusahaan yang diambil dari basis data vektor.
Pipeline dimulai dengan penyerapan data, di mana dokumen seperti PDF dan presentasi diurai, dibagi menjadi beberapa bagian, dan dikonversi menjadi penyematan. Penyematan ini disimpan dalam basis data vektor yang mengatur data untuk pencarian kesamaan yang efisien. Selama kueri, masukan pengguna disematkan dan dicocokkan dengan vektor yang disimpan, dengan konten yang relevan diteruskan ke model bahasa sebagai konteks. Mekanisme pembumian ini mengurangi halusinasi dan meningkatkan kepercayaan pada keluaran yang dihasilkan AI.
CAS IBM mengintegrasikan seluruh pipeline ini langsung ke dalam penyimpanan, mengkonsolidasikan penyerapan, pengindeksan, dan pengambilan di dekat data.
Mengatasi Tantangan Skala dan Biaya
Sistem penyimpanan perusahaan sudah beroperasi pada skala petabyte. Ketika diperluas ke CAS, setiap file dapat menghasilkan ratusan vektor, dengan cepat memperluas ukuran kumpulan data. Basis data vektor tradisional biasanya diskalakan di banyak server, menimbulkan biaya tambahan dan kompleksitas operasional. Pengindeksan dan pengindeksan ulang kumpulan data besar juga menjadi tugas yang memakan waktu.
Pendekatan IBM berfokus pada peningkatan kepadatan vektor dan pengurangan overhead pengindeksan untuk membatasi penyebaran infrastruktur. Arsitektur memisahkan penyimpanan vektor dan indeks dari komputasi kueri, memungkinkan penskalaan independen sumber daya penyimpanan dan komputasi. Hal ini dimungkinkan oleh IBM Storage Scale dan sistem file paralel berkinerja tinggi.
Arsitektur Penyimpanan dan Perangkat Keras
Implementasi CAS memanfaatkan IBM Storage Scale System 6000 (ESS 6000), platform all-flash yang dirancang untuk AI dan beban kerja berkinerja tinggi. Sistem ini mendukung hingga 48 drive NVMe per selubung 4U, dengan kapasitas drive individu berkisar dari 7 TB hingga 60 TB. Sistem ini mengintegrasikan konektivitas PCIe Gen5, 400 Gb InfiniBand, atau 200 Gb Ethernet, memberikan throughput baca hingga 340 GB/s dan tulis 175 GB/s per node, bersama dengan hingga 7 juta IOPS.
Platform ini juga mendukung NVIDIA GPUDirect Storage, memfasilitasi jalur data langsung antara penyimpanan dan GPU, serta DPU BlueField-3 untuk membebaskan tugas jaringan dan pemrosesan data.
Samsung PM9D3a PCIe Gen5 NVMe SSD menyediakan penyimpanan berkapasitas tinggi dan throughput tinggi. Berdasarkan V-NAND TLC generasi kedelapan, drive ini menawarkan hingga 30,72 TB per perangkat, dengan kecepatan baca sekuensial hingga 12 GB/s dan kecepatan tulis hingga 6,8 GB/s. Penggunaan SSD perusahaan yang tersedia secara komersial memungkinkan arsitektur untuk diskalakan menggunakan komponen standar.
Pengindeksan Hierarkis dan Akselerasi GPU
Untuk mengatasi pengindeksan dalam skala besar, IBM mengembangkan model pengindeksan hierarkis yang terdiri dari beberapa sub-indeks yang dapat dioptimalkan secara independen. Struktur ini memungkinkan pembaruan inkremental dan pengindeksan ulang lokal tanpa mengganggu seluruh kumpulan data, meningkatkan ketersediaan dan efisiensi operasional.
Akselerasi GPU secara drastis mengurangi waktu pengindeksan dibandingkan dengan pendekatan CPU saja. Tugas yang memakan waktu berjam-jam pada CPU dapat diselesaikan dalam hitungan menit menggunakan GPU NVIDIA. Dalam pengujian, membangun indeks untuk 100 miliar vektor memakan waktu 4 hari dengan 6 GPU NVIDIA H200, dibandingkan dengan perkiraan 120 hari pada sistem CPU dual-socket.
Seluruh kumpulan data, termasuk vektor dan indeks, mengonsumsi sekitar 153 TiB penyimpanan. Pemuatan dan partisi data awal memakan waktu sembilan hari. Sistem yang dihasilkan memberikan latensi kueri rata-rata 694ms dengan recall 90%, divalidasi terhadap perhitungan kebenaran dasar brute-force.
Peta Jalan
IBM dan NVIDIA terus mengoptimalkan platform, berfokus pada pengurangan latensi pengindeksan dan kueri. Target saat ini termasuk mengindeks 100 miliar vektor atau lebih dalam satu hari, memotong waktu penyerapan data dari sembilan hari menjadi satu hari, dan menurunkan latensi kueri ke kisaran 50-100 milidetik sambil mempertahankan recall 90 persen.
Mengintegrasikan pengindeksan vektor ke dalam sistem file standar bertujuan untuk menyederhanakan penerapan dan menurunkan hambatan adopsi AI perusahaan. Dengan menyematkan kemampuan RAG langsung ke dalam penyimpanan, IBM memposisikan CAS sebagai lapisan dasar untuk infrastruktur yang didukung AI.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Direktur Strategi Global
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Situs Web: www.qianxingdata.com/www.storagesserver.com
Fokus Bisnis:
Distribusi Produk TIK/Integrasi Sistem & Layanan/Solusi Infrastruktur
Dengan pengalaman distribusi TI lebih dari 20 tahun, kami bermitra dengan merek-merek global terkemuka untuk memberikan produk yang andal dan layanan profesional.
“Menggunakan Teknologi untuk Membangun Dunia yang Cerdas”Penyedia Layanan Produk TIK Tepercaya Anda!
Sandy Yang/Direktur Strategi Global
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Situs Web: www.qianxingdata.com/www.storagesserver.com
Fokus Bisnis:
Distribusi Produk TIK/Integrasi Sistem & Layanan/Solusi Infrastruktur
Dengan pengalaman distribusi TI lebih dari 20 tahun, kami bermitra dengan merek-merek global terkemuka untuk memberikan produk yang andal dan layanan profesional.
“Menggunakan Teknologi untuk Membangun Dunia yang Cerdas”Penyedia Layanan Produk TIK Tepercaya Anda!



