NVIDIA Volta là thế hệ kiến trúc GPU đầu tiên của NVIDIA tích hợp Tensor Core, một đơn vị xử lý chuyên biệt cho các phép nhân ma trận trong học sâu (deep learning). Nhờ đó, NVIDIA Volta không chỉ cải thiện hiệu năng tính toán song song mà còn giúp tăng tốc đáng kể quá trình huấn luyện các mô hình AI, đặc biệt với cơ chế mixed precision FP16/FP32.

Trong bài viết này, chúng ta sẽ cùng tìm hiểu kiến trúc NVIDIA Volta, những cải tiến kỹ thuật nổi bật, cũng như lý do vì sao nó được xem là cốt lõi quan trọng trong hành trình phát triển của AI hiện nay.

Tóm tắt nội dung

🚀 NVIDIA Volta là kiến trúc GPU tập trung vào AI và HPC, với nhiều cải tiến quan trọng về Tensor Core, bộ nhớ và truyền tải dữ liệu, giúp tăng hiệu năng xử lý và khả năng mở rộng hệ thống.

🧠 Nền tảng kiến trúc: GV100 với 21,1 tỷ transistor, sản xuất trên tiến trình 12 nm FFN, tối ưu cho tính toán hiệu năng cao
⚙️ SM (Streaming Multiprocessor): thiết kế lại giúp tăng hiệu suất xử lý song song và cải thiện hiệu suất trên mỗi watt
🔥 Tensor Cores: thành phần chuyên dụng cho deep learning, tăng tốc phép nhân ma trận và cải thiện mạnh hiệu năng training/inference
💾 Bộ nhớ L1 & Shared Memory: hợp nhất thành một khối 128 KB/SM, giảm độ trễ và tăng băng thông truy xuất
🔗 Truyền tải dữ liệu: NVLink thế hệ 2, MPS và Unified Memory giúp tối ưu kết nối GPU–CPU và mở rộng hệ thống đa GPU
📊 Hiệu năng thực tế: thể hiện rõ qua các biến thể Tesla V100 và Quadro GV100 với sự khác biệt về băng thông, điện năng và mục tiêu sử dụng
🏁 Ý nghĩa kiến trúc: Volta đặt nền tảng cho GPU AI hiện đại, chuyển trọng tâm từ đồ họa sang tính toán trí tuệ nhân tạo và HPC

1. Đặc điểm kỹ thuật và cải tiến cốt lõi của kiến trúc Volta

Volta là vi kiến trúc GPU được NVIDIA phát triển nhằm giải quyết các giới hạn hiệu năng trong học sâu (deep learning) và tính toán hiệu năng cao (HPC), đặc biệt là những “nút thắt cổ chai” liên quan đến xử lý song song và dữ liệu ma trận.

Điểm quan trọng của NVIDIA Volta không nằm ở việc mở rộng sức mạnh đồ họa truyền thống, mà ở việc thay đổi cấu trúc phần cứng bên trong GPU để tối ưu cho các phép tính tính toán chuyên sâu.

kiến trúc Volta — NVIDIA Volta giải quyết các giới hạn hiệu năng trong deep learning và HPC

Những cải tiến này được thể hiện rõ qua 5 thành phần kiến trúc cốt lõi dưới đây:

1.1 Nền tảng kiến trúc

Nền tảng phần cứng của NVIDIA Volta được xây dựng trên GPU GV100, với các thông số chính như sau:

Tiến trình sản xuất: 12 nm FFN (FinFET NVIDIA) do TSMC sản xuất, được tinh chỉnh để kiểm soát điện áp và duy trì hiệu năng xử lý.
Mức độ tích hợp: 21,1 tỷ bóng bán dẫn (transistor).
Diện tích khuôn chip (Die size): 815 mm², đạt giới hạn vạch chuẩn (reticle limit) của công nghệ quang khắc.
GPU trung tâm: GV100 (Volta architecture flagship chip)

1.2 Bộ xử lý đa luồng (SM)

Cấu trúc Bộ xử lý đa luồng (Streaming Multiprocessor – SM) trên NVIDIA Volta được thiết kế lại nhằm tăng hiệu quả xử lý song song và cải thiện hiệu suất trên mỗi đơn vị năng lượng. Các điểm chính bao gồm:

Thiết kế SM tối ưu: Giúp cải thiện hiệu suất năng lượng hơn 50% so với thế hệ Pascal trong cùng mức tiêu thụ điện.
Tăng khả năng xử lý song song: Hỗ trợ nhiều luồng (threads), warps và blocks ở trạng thái “in-flight” (đang hoạt động) hơn tại cùng một thời điểm.
Mở rộng số lượng SM: Cấu hình đầy đủ của NVIDIA Volta đạt tối đa 84 SM, gia tăng trực tiếp khả năng xử lý tổng thể của GPU.
Tối ưu hiệu suất tổng thể: Cải thiện khả năng phân phối và quản lý luồng xử lý (Independent Thread Scheduling) trong các tác vụ tính toán song song.

1.3 Tensor Cores

Tensor Cores là thành phần nổi bật nhất trong kiến trúc NVIDIA Volta, được thiết kế chuyên biệt để tăng tốc các phép toán ma trận trong học sâu (deep learning). Đây cũng là yếu tố tạo ra khác biệt rõ rệt giữa Volta và các thế hệ GPU trước đó.

Mục đích thiết kế: tối ưu cho phép nhân ma trận trong deep learning
Số lượng trên GPU Tesla V100: 640 Tensor Cores (tương đương 8 Tensor Cores mỗi SM)
Cơ chế vận hành: xử lý ma trận 4×4, đầu vào sử dụng định dạng FP16 và kết quả tích lũy ở FP16 hoặc FP32
Hiệu suất tính toán: đạt tới khoảng 125 TFLOPS cho tác vụ Tensor operations
Hiệu quả thực tế:
- tốc độ huấn luyện (training) nhanh hơn tới 12 lần so với kiến trúc Pascal (P100).
- tốc độ suy luận (inference) nhanh hơn khoảng 6 lần so với kiến trúc Pascal (P100).

1.4 Bộ nhớ cache L1 và Shared Memory

Kiến trúc NVIDIA Volta thay đổi cách quản lý bộ nhớ đệm nhằm tối ưu băng thông nội bộ và giảm độ trễ truy xuất dữ liệu trong quá trình xử lý song song. Các cải tiến chính gồm:

Cấu trúc hợp nhất bộ nhớ

NVIDIA Volta kết hợp bộ nhớ đệm dữ liệu L1 (L1 data cache) và bộ nhớ dùng chung (shared memory) thành một khối tài nguyên thống nhất
Mỗi Streaming Multiprocessor (SM) được trang bị 128 KB bộ nhớ dùng chung

Cải tiến bộ nhớ đệm L1

Cơ chế hợp nhất giúp tăng băng thông truy xuất và giảm độ trễ so với các thế hệ GPU trước
Lần đầu tiên hỗ trợ write-caching, giúp cải thiện hiệu suất ghi dữ liệu trong quá trình xử lý

Bộ nhớ Shared Memory

Cho phép điều chỉnh linh hoạt dung lượng giữa cache và shared memory theo nhu cầu tính toán
Giúp giảm độ phức tạp khi lập trình và tối ưu hiệu năng ứng dụng dễ dàng hơn

1.5 Phương thức truyền tải dữ liệu

Để giải quyết bài toán nghẽn băng thông khi xử lý khối lượng dữ liệu AI lớn, kiến trúc NVIDIA Volta tích hợp các tiêu chuẩn truyền tải và quản lý bộ nhớ nội bộ với các thông số cụ thể như sau:

NVIDIA NVLink (thế hệ thứ hai)

Cải tiến kết nối trực tiếp giữa GPU–GPU và CPU–GPU
Số lượng NVLink tăng từ 4 (Pascal) lên 6 link trên Volta
Tổng băng thông đạt khoảng 300 GB/s
Tốc độ truyền tải tăng lên 25 Gbps (so với 20 Gbps trước đó)
Hỗ trợ thêm CPU mastering, cho phép CPU tham gia điều phối dữ liệu trực tiếp
Bổ sung cơ chế cache coherence, giúp đảm bảo tính nhất quán bộ nhớ trong hệ thống đa CPU (ví dụ IBM Power)

Volta Multi-Process Service (MPS)

Được tăng tốc bằng phần cứng để cải thiện khả năng chạy nhiều tiến trình trên cùng một GPU
Tăng mức hỗ trợ từ 16 client (Pascal) lên tối đa 48 client
Cải thiện cách ly không gian địa chỉ (address space isolation) giữa các tiến trình
Nâng cao chất lượng dịch vụ (QoS) khi nhiều ứng dụng cùng sử dụng GPU
Giảm độ trễ khi gửi lệnh, đồng thời tăng hiệu quả trong các tác vụ inference

Unified Memory và ATS (Address Translation Services)

Unified Memory được bổ sung Access Counters để theo dõi tần suất truy cập dữ liệu
Hệ thống tự động di chuyển dữ liệu đến bộ xử lý truy cập nhiều nhất, tối ưu hiệu suất truy xuất
ATS cho phép GPU truy cập trực tiếp bảng phân trang bộ nhớ của CPU (page tables)
Giúp giảm chi phí sao chép dữ liệu và cải thiện hiệu quả chia sẻ bộ nhớ giữa CPU và GPU

Tham khảo: NVIDIA là gì?

2. So sánh thông số Volta trên các dòng card V100

Dù được tùy biến thành nhiều phiên bản để phù hợp với từng hạ tầng, tất cả các dòng card trên đều dùng chung một cấu hình lõi tiêu chuẩn của vi xử lý GV100 bao gồm:

Kiến trúc GPU: Volta GV100
Cấu trúc lõi: 80 SM, 5120 nhân CUDA (FP32), 2560 nhân CUDA (FP64) và 640 nhân Tensor.
Bộ nhớ đệm L2: 6 MB.

Bảng so sánh thông số Volta trên các dòng card V100

Thông số	Tesla V100 SXM2 (16/32GB)	Tesla V100 PCI-E (16/32GB)	Tesla V100S PCI-E (32GB)	Quadro GV100 (32GB)
Chip GPU	Volta GV100	Volta GV100	Volta GV100	Volta GV100
Tensor Performance	125 TFLOPS	112 TFLOPS	130 TFLOPS	118.5 TFLOPS
INT8	62.8 TOPS	56.0 TOPS	65 TOPS	59.3 TOPS
FP16	31.4 TFLOPS	28 TFLOPS	32.8 TFLOPS	29.6 TFLOPS
FP32	15.7 TFLOPS	14.0 TFLOPS	16.4 TFLOPS	14.8 TFLOPS
FP64	7.8 TFLOPS	7.0 TFLOPS	8.2 TFLOPS	7.4 TFLOPS
Bộ nhớ HBM2	16GB / 32GB	32GB	32GB	32GB
Băng thông bộ nhớ	900 GB/s	1,134 GB/s	870 GB/s	—
Bộ nhớ đệm L2	6 MB	6 MB	6 MB	6 MB
Kết nối	NVLink 2.0 (6 link) + PCIe 3.0	PCIe 3.0	NVLink 2.0 (4 link) + PCIe 3.0	NVLink 2.0
Băng thông NVLink (2 chiều)	300 GB/s	32 GB/s	200 GB/s	—
SM (Streaming Multiprocessor)	80	80	80	80
CUDA Cores (FP32)	5120	5120	5120	5120
CUDA Cores (FP64)	2560	2560	2560	2560
Xung nhịp GPU Boost	1530 MHz	~1380 MHz	—	—
TDP	300W	250W	~250W	—
Làm mát	Thụ động	Chủ động	Chủ động	Thụ động
Tính năng chính	Server/HPC	Server	Hiệu năng cao	Workstation

Có thể thấy các phiên bản V100 đều dựa trên cùng kiến trúc GV100, tuy nhiên khác nhau chủ yếu ở băng thông, cơ chế kết nối (NVLink/PCIe) và mức tiêu thụ điện năng. Trong đó, bản SXM2 thường được tối ưu cho hệ thống HPC và AI training, trong khi bản PCIe và Quadro hướng đến tính linh hoạt và workstation.

Xem thử: Bảng giá thuê GPU V100

3. Tổng kết

Kiến trúc NVIDIA Volta đánh dấu bước chuyển từ GPU đồ họa truyền thống sang nền tảng tính toán chuyên biệt cho AI và HPC. Thay vì chỉ mở rộng số lượng CUDA cores, NVIDIA Volta tập trung vào tái thiết kế các thành phần xử lý và luồng dữ liệu để tối ưu cho workload học sâu.

Hiệu năng tính toán: NVIDIA Volta đạt mức hiệu năng Tensor lên tới hơn 100 TFLOPS, với 21,1 tỷ transistor tích hợp trên kiến trúc GV100, đáp ứng các tác vụ deep learning quy mô lớn
Tensor Cores: giới thiệu đơn vị xử lý chuyên biệt cho phép tăng tốc phép nhân ma trận, cải thiện rõ rệt throughput trong training và inference so với Pascal
Kiến trúc SM và năng lượng: cải tiến Streaming Multiprocessor giúp tăng hiệu suất trên mỗi watt và tối ưu khả năng xử lý song song
Bộ nhớ và kết nối: sử dụng HBM2 kết hợp NVLink thế hệ 2 giúp mở rộng băng thông và giảm nghẽn khi scale nhiều GPU
Mô hình lập trình: cải tiến trong CUDA execution model (như scheduling và synchronization) giúp tối ưu hiệu quả khai thác phần cứng
Hệ thống triển khai: NVIDIA Volta được tích hợp trong các nền tảng như DGX, phục vụ huấn luyện mô hình AI lớn trong môi trường thực tế

Tổng thể, NVIDIA Volta không chỉ là một thế hệ GPU mới mà là một kiến trúc chuyển hướng, đặt trọng tâm vào hiệu quả tính toán AI và khả năng mở rộng hệ thống thay vì chỉ tăng sức mạnh đồ họa thuần túy.

Các thế hệ kiến trúc khác