Phân biệt kiến trúc GPU của Nvidia: Pascal, Turing và Ampere

Kiến trúc GPU của Nvidia hiện nay được chia thành các thế hệ như Pascal, Turing và Ampere. Trong bài viết, VinaHost đã thực hiện so sánh các thế hệ, qua đó giúp người đọc phân biệt tính năng cấu hình của từng phân khúc để đưa ra quyết định đầu tư phù hợp với nhu cầu công việc hoặc giải trí.

Giới thiệu chung về kiến trúc GPU Nvidia

Vai trò của kiến trúc GPU trong hiệu năng đồ họa và tính toán

Trong ngành công nghiệp đồ họa, kiến trúc GPU Nvidia đóng vai trò tối quan trọng trong việc xử lý các tác vụ đồ họa phức tạp và mang lại hình ảnh chân thực. Nhờ các kiến trúc này, khả năng xử lý đồ họa real-time, mô phỏng vật lý, ánh sáng và kết cấu đều được nâng cao rõ rệt. Đồng thời, chúng còn giúp tăng cường khả năng tính toán song song, đặc biệt trong lĩnh vực AI và HPC, nơi mà tính toán số lượng lớn dữ liệu diễn ra liên tục.

Kiến trúc GPU của Nvidia
Giải thích về kiến trúc GPU

Nhiều năm qua, kiến trúc GPU Nvidia đã trở thành trái tim của các dòng sản phẩm cao cấp như GeForce, Quadro và Tesla, góp phần định hình tiêu chuẩn mới về hiệu năng và hiệu quả năng lượng. Mỗi phiên bản mới không những nâng cao hiệu suất mà còn tích hợp các công nghệ mới nhằm tối ưu trải nghiệm người dùng và khả năng ứng dụng, từ game chơi mượt đến ứng dụng khoa học phức tạp.

Sự phát triển theo từng thế hệ: Pascal, Turing, Ampere

Qua từng thời kỳ, kiến trúc GPU Nvidia đã liên tục ghi nhận các đột phá về mặt kiến trúc, công nghệ vật lý và công năng. Thế hệ Pascal là nền tảng của sự sáng tạo ban đầu, mang lại hiệu năng vượt trội so với các đối thủ, với nhiều cải tiến về bộ nhớ, năng lượng và khả năng xử lý. Tiếp theo, Turing xuất hiện, giới thiệu các công nghệ tiên tiến về ray tracing thời gian thực và AI với lõi Tensor, mở ra khả năng đồ họa chân thực và ứng dụng AI tích hợp.

pascal-turing-ampere
So sánh Pascal – Turing – Ampere

Ampere là bước tiến mang tính cách mạng, nâng cao mọi mặt từ số lượng lõi CUDA, Tensor cho đến khả năng xử lý Ray Tracing. Ngoài ra, kiến trúc này còn tạo ra bước nhảy vọt về hiệu quả năng lượng, tích hợp PCIe 4.0, xử lý tốt hơn các công nghệ mới như AV1, HDR và khả năng encode/decode video chất lượng cao, mở ra tiềm năng trong các lĩnh vực sản xuất, game và AI.

Dưới đây là so sánh chi tiết!

Tiêu chí 1: So sánh thành phần của GPU

Các thành phần cấu thành một GPU Nvidia là nền tảng cho các khả năng xử lý và tối ưu hóa của toàn bộ hệ thống. Mỗi thế hệ đều có những bước tiến mới trong các thành phần như chuẩn kết nối, bộ xử lý, bộ nhớ đệm và các cụm xử lý đồ họa. Sự khác biệt này phản ánh rõ quá trình nâng cấp liên tục, đồng thời thúc đẩy hiệu năng tổng thể của GPU.

Công nghệ tích hợp ngày càng hiện đại, từ đó giúp GPU không những trở nên mạnh mẽ hơn mà còn tiết kiệm năng lượng và tăng khả năng mở rộng.

Thành phầnPascal GP104Turing TU104Ampere GA104
Chuẩn kết nối PCIeGen 3Gen 3Gen 4
GigaThread Engine
Loại bộ nhớ được hỗ trợGDDR5GDDR6GDDR6
Bộ điều khiển bộ nhớ8 x 32-bit (tổng 256-bit)8 x 32-bit (tổng 256-bit)8 x 32-bit (tổng 256-bit)
Băng thông bộ nhớ320 GB/s448 GB/s448 GB/s
Dung lượng L2 Cache2048 KB4096 KB4096 KB
Cụm xử lý đồ họa (GPCs) trên mỗi GPU45 hoặc 6 (tùy SKU)6

Bảng so sánh các thành phần chính của GPU

Phân tích chi tiết:

  • Chuẩn kết nối PCIe: Pascal và Turing sử dụng PCIe Gen 3, trong khi Ampere nâng cấp lên PCIe Gen 4, mang lại gấp đôi băng thông truyền dữ liệu so với thế hệ trước. Đây là yếu tố then chốt cho các ứng dụng yêu cầu xử lý dữ liệu lớn và truyền tải tốc độ cao.
  • GigaThread Engine: Là nòng cốt giúp kiểm soát luồng xử lý dữ liệu một cách hiệu quả trong GPU, được tối ưu hóa liên tục qua các thế hệ để nâng cao khả năng xử lý đa nhiệm.
  • Bộ điều khiển bộ nhớ: Chuyển đổi từ GDDR5 sang GDDR6 giúp tăng đáng kể băng thông (từ 320 GB/s lên 448 GB/s), giảm tiêu thụ điện năng và tối ưu cho các tác vụ đa dạng từ gaming đến AI.
  • L2 Cache: Dung lượng cache tăng gấp đôi từ Pascal (2048 KB) lên Turing và Ampere (4096 KB) giúp giảm thiểu độ trễ truy cập dữ liệu và nâng cao hiệu suất xử lý tổng thể.
  • Cụm xử lý đồ họa GPCs: Số lượng GPCs tăng từ 4 trong Pascal lên 6 trong Ampere giúp mở rộng đáng kể khả năng xử lý song song, nâng cao hiệu năng và khả năng mở rộng của GPU.

Tiêu chí 2: So sánh cấu trúc trong Cụm xử lý đồ họa GPCs

Trong các kiến trúc GPU Nvidia, GPCs đóng vai trò trung tâm trong việc phân phối các luồng xử lý và quản lý các thành phần con như ROPs, TPCs và SMs. Việc so sánh các thành phần này tại từng thế hệ không chỉ giúp hiểu rõ về thiết kế mà còn thể hiện hướng đi của NVIDIA trong tối ưu hóa kiến trúc nội bộ.

Sự thay đổi trong cấu trúc GPCs từ Pascal sang Turing rồi tới Ampere đặc biệt khi các ROPs trở nên tích hợp vào GPC, giúp giảm thiểu bottleneck và nâng cao khả năng xử lý pixel. Tổ chức lại cấu trúc này còn giúp tối ưu luồng dữ liệu, giảm năng lượng tiêu thụ, đồng thời mở rộng khả năng xử lý.

Thành phầnPascal GP104Turing TU104Ampere GA104
Phân vùng ROP (Raster Operator Partitions)64 đơn vị (liên kết với bộ điều khiển bộ nhớ và L2 cache)64 đơn vị (liên kết với bộ điều khiển bộ nhớ và L2 cache)96 đơn vị (tích hợp trực tiếp vào GPC)
Cụm xử lý kết cấu (TPC) trên mỗi GPC544
TPC trên mỗi GPU2020 hoặc 24 (tùy SKU)24
Bộ xử lý đa luồng (SM) trên mỗi TPC122
SM tối đa trên mỗi GPU (tùy thuộc SKU thực tế)204848

Bảng so sánh cấu trúc bên trong GPCs

Phân tích chi tiết:

  • Phân vùng ROP: Trong Pascal và Turing, các đơn vị ROP được liên kết với bộ điều khiển bộ nhớ và L2 cache. Ampere đã tích hợp ROPs trực tiếp vào từng GPC và tăng số lượng lên 96 đơn vị, giúp loại bỏ các điểm nghẽn (bottleneck) trong quá trình xử lý pixel và nâng cao hiệu suất rendering.
  • Cụm xử lý kết cấu (TPC): Pascal có 5 TPC trên mỗi GPC, trong khi Turing và Ampere giảm xuống còn 4 TPC nhưng với tổ chức hiệu quả hơn. Tổng số TPC trên toàn GPU tăng từ 20 (Pascal) lên 24 (Ampere).
  • Bộ xử lý đa luồng (SM): Từ Turing trở đi, mỗi TPC chứa 2 SM thay vì 1 SM như Pascal, dẫn đến số lượng SM tối đa tăng từ 20 (Pascal) lên 48 (Turing/Ampere), nâng cao đáng kể khả năng xử lý song song.
  • Tối ưu hóa kiến trúc: Việc tái cấu trúc GPCs trong Ampere không chỉ tăng số lượng các đơn vị xử lý mà còn cải thiện luồng dữ liệu nội bộ, giảm độ trễ và tăng thông lượng tổng thể của hệ thống GPU.

Tiêu chí 3: So sánh kiến trúc vật lý

Cấu trúc vật lý của GPU không chỉ thể hiện qua số bóng bán dẫn hay kích thước chip mà còn phản ánh khả năng xử lý, tiêu thụ năng lượng và các kết nối ngoại vi. Các bước tiến về công nghệ chế tạo từ 16nm của Pascal xuống 8nm của Ampere mang lại nhiều lợi ích cho cả hiệu năng lẫn tiết kiệm năng lượng.

Trong đó, việc tích hợp nhiều bóng bán dẫn hơn cho phép xử lý đa dạng các tác vụ hơn, trong khi tiêu thụ điện năng được kiểm soát tốt hơn. Hỗ trợ các cổng kết nối như DisplayPort và HDMI ngày càng nâng cao cũng đồng nghĩa với khả năng xuất hình ảnh chất lượng cao, độ phân giải lớn, phù hợp các nhu cầu đa dạng từ GPU server, gaming, xem phim cho đến chuyên nghiệp.

Đặc điểmPascal GP104Turing TU104Ampere GA104
Quy trình sản xuất16 nm12 nm8 nm
Số lượng bóng bán dẫn7.2 tỷ13.6 tỷ17.4 tỷ
Công suất điện tối đa TGP (Watts)180W215W – 230W220W
Cổng xuất DisplayPort1.2 được chứng nhận
4K @ 60Hz
(sẵn sàng 1.4)
1.4a
4K @ 240Hz
8K @ 60Hz
1.4a
4K @ 240Hz + HDR
8K @ 60Hz + HDR
Cổng xuất HDMI2.0b
4K @ 60Hz
8K @ 30Hz
2.0b
4K @ 60Hz
8K @ 30Hz
2.1
4K @ 240Hz + HDR
8K @ 60Hz + HDR
NVENC (mã hóa phần cứng)Thế hệ thứ 4Thế hệ thứ 7
Hỗ trợ HEVC B-Frame
Thế hệ thứ 7
NVDEC (giải mã phần cứng)Thế hệ thứ 3Thế hệ thứ 4Thế hệ thứ 5 với hỗ trợ AV1

Bảng so sánh đặc điểm vật lý và công nghệ sản xuất

Phân tích chi tiết:

  • Quy trình sản xuất: Thu nhỏ kích thước bóng bán dẫn từ 16nm (Pascal) xuống 8nm (Ampere) cho phép tích hợp nhiều bóng hơn trong cùng diện tích, đồng thời cải thiện hiệu suất và giảm tiêu thụ năng lượng. Mật độ bóng tăng từ 7.2 tỷ lên 17.4 tỷ thể hiện sự phức tạp và mạnh mẽ vượt trội của Ampere.
  • Công suất tiêu thụ: Mặc dù công suất TGP tăng nhẹ (từ 180W lên 220W), nhưng hiệu suất trên mỗi watt được cải thiện đáng kể nhờ quy trình sản xuất tiên tiến và tối ưu hóa kiến trúc.
  • Khả năng xuất hình ảnh: Ampere hỗ trợ HDMI 2.1 và DisplayPort 1.4a với HDR, cho phép xuất video 4K @ 240Hz hoặc 8K @ 60Hz với dải động cao (HDR), đáp ứng nhu cầu chuyên nghiệp và giải trí cao cấp.
  • Công nghệ mã hóa/giải mã: NVENC thế hệ thứ 7 trong Turing và Ampere hỗ trợ HEVC B-Frame, trong khi NVDEC thế hệ thứ 5 của Ampere thêm hỗ trợ codec AV1 hiệu quả, giúp streaming và sản xuất video chất lượng cao với băng thông thấp hơn.

Tiêu chí 4: So sánh các thành phần trong Bộ xử lý đa luồng

Trong kiến trúc GPU Nvidia, bộ xử lý đa luồng (SM) là trung tâm xử lý các luồng dữ liệu, ảnh hưởng trực tiếp đến khả năng xử lý song song và hiệu năng toàn hệ thống. Mỗi thế hệ đều có các nâng cấp rõ rệt nhằm tối ưu hoá khả năng này, từ đó đáp ứng tốt các tác vụ như game, đồ hoạ, AI và tính toán khoa học.

Không chỉ tăng số lượng lõi CUDA, các công nghệ mới còn giúp xử lý các tác vụ phức tạp như AI inference, ray tracing hay xử lý dữ liệu lớn. Việc tối ưu bộ nhớ, warp scheduling và tích hợp các tính năng mới giúp GPU Nvidia ngày càng trở thành công cụ không thể thiếu cho nhu cầu cao cấp.

Thành phầnPascal GP104Turing TU104Ampere GA104
Lõi CUDA trên mỗi SM (FP32/INT32)128 lõi FP32 hoặc INT3264 lõi FP32 và 64 lõi INT3264 lõi FP32 chuyên dụng,
64 lõi FP32 hoặc INT32
Tổng lõi CUDA trên GPU (FP32)2560 lõi
(20 SM × 128 lõi/SM)
3072 lõi
(48 SM × 64 lõi/SM)
3072 hoặc 6144 lõi FP
(64 hoặc 128 lõi/SM)
Khả năng xử lý đồng thời của lõi SMLõi có thể xử lý FP32 hoặc INT32, không thực thi đồng thời trong mỗi phân vùngMột phân vùng FP32, một phân vùng INT32, thực thi đồng thời FP và INTMột phân vùng FP32 và một phân vùng FP32 hoặc INT32, có thể thực thi đồng thời FP và INT
Shared Memory/L1 Cache trên mỗi SM64 KB Shared Memory
(Texture/L1 tách biệt)
96 KB Shared Memory128 KB Shared Memory
Tổng Shared Memory/L1 Cache1280 KB4608 KB
(48 SM × 96KB/SM)
6144 KB
(48 SM × 128KB/SM)
Quản lý bộ nhớInstruction cache riêng và buffer mỗi phân vùng; hai L1 cache; shared memoryL0 Instruction Cache mới mỗi phân vùng; L1/Shared Memory kết hợp (như Volta)Cấu trúc tương tự Turing, nhưng bộ nhớ lớn hơn
Warp Scheduler và Dispatch UnitWarp scheduler + 2 dispatcher unitsWarp scheduler + dispatch unit; lập lịch luồng độc lập với độ chi tiết sub-warp (như Volta)Warp scheduler + dispatch unit (như Volta/Turing)
Ray Tracing CoresKhông cóThế hệ 1, 1 RT core/SMThế hệ 2, 1 RT core/SM
(Thế hệ 2 có hiệu suất gấp đôi thế hệ 1)
Tensor CoresKhông có320 lõi Tensor thế hệ 2
(Thế hệ 1 ra mắt trên Volta)
184 lõi Tensor thế hệ 3
(Thế hệ 3 có hiệu suất gấp đôi thế hệ 2)

Bảng so sánh các thành phần trong Streaming Multiprocessor (SM)

Phân tích chi tiết:

  • Lõi CUDA và xử lý đồng thời: Pascal có 128 lõi/SM có thể xử lý FP32 hoặc INT32 nhưng không đồng thời. Turing tách thành hai datapath riêng biệt cho phép xử lý đồng thời. Ampere tiến thêm một bước với một datapath FP32 chuyên dụng và một datapath linh hoạt có thể xử lý cả FP32 hoặc INT32, tối ưu hóa việc sử dụng lõi dựa trên nhu cầu workload.
  • Shared Memory/L1 Cache: Dung lượng tăng từ 64 KB (Pascal) lên 128 KB (Ampere) mỗi SM. Từ Turing, Nvidia đã hợp nhất shared memory, texture caching và memory load caching thành một đơn vị, mang lại gấp đôi băng thông và dung lượng cho L1.
  • Ray Tracing Cores: Không có trong Pascal, được giới thiệu lần đầu trong Turing (thế hệ 1). Ampere sử dụng RT cores thế hệ 2 với hiệu suất gấp đôi, đồng thời cho phép RT cores và CUDA cores chạy đồng thời, nâng cao hiệu quả rendering photorealistic.
  • Tensor Cores: Giới thiệu lần đầu trong Volta/Turing để tăng tốc AI. Ampere sử dụng Tensor cores thế hệ 3 với hiệu suất cao hơn 2-4 lần tùy workload, hỗ trợ thêm các kiểu dữ liệu mới như TF32 và BF32, cùng tính năng Fine-Grained Structured Sparsity để tối ưu inference.
  • Warp Scheduling: Từ Volta/Turing, NVIDIA đã giới thiệu independent thread scheduling với độ chi tiết sub-warp, cho phép các thread phân kỳ linh hoạt hơn và đảm bảo sử dụng tối ưu các lõi xử lý. Ampere kế thừa toàn bộ các cải tiến này.

Thông tin được tham khảo tại: https://wolfadvancedtechnology.com/nvidia-gpu-architecture/

Các công nghệ nổi bật tích hợp trong các kiến trúc mới

Trong các kiến trúc GPU Nvidia mới như Turing và Ampere, các công nghệ đột phá là chìa khóa đem lại giá trị vượt trội.

Ray tracing thời gian thực, tích hợp lõi Tensor cho AI, cùng bộ nhớ GDDR6 tốc độ cao chính là những điểm sáng. Ngoài ra, Ampere còn phát triển thêm các công nghệ chuyển đổi như PCIe 4.0, hỗ trợ độ phân giải siêu cao và công cụ mã hoá/video decoding tiên tiến như NVENC, NVDEC.

Các công nghệ này không chỉ giúp nâng cao hiệu quả xử lý hình ảnh, mà còn tối ưu hiệu năng trong các ứng dụng xử lý dữ liệu lớn, chuyển đổi số, hoặc các tác vụ AI cần độ chính xác cao. Ưu điểm lớn của chúng chính là khả năng xử lý đa nhiệm, giảm thời gian chờ đợi, tối đa hoá hiệu quả vận hành trong các trung tâm dữ liệu hoặc phòng nghiên cứu.

Tổng kết

Trong hành trình phát triển của mình, kiến trúc GPU Nvidia đã có bước tiến vượt bậc qua từng thế hệ, từ Pascal, Turing đến Ampere. Các cải tiến về kiến trúc vật lý (từ 16nm xuống 8nm), công nghệ bộ nhớ (GDDR5 lên GDDR6), khả năng xử lý song song (tăng từ 20 lên 48 SM), ray tracing (từ không có đến thế hệ 2) và AI (Tensor cores thế hệ 3) đều hướng tới mục tiêu tạo ra những sản phẩm vượt trội, phù hợp mọi nhu cầu từ giải trí, sáng tạo cho đến khoa học.

nvidia-gpu-architecture

Dựa trên dữ liệu so sánh chi tiết từ ba kiến trúc Pascal GP104, Turing TU104 và Ampere GA104, chúng ta thấy rõ xu hướng phát triển: tăng mật độ bóng bán dẫn (từ 7.2 tỷ lên 17.4 tỷ), cải thiện băng thông bộ nhớ (từ 320 GB/s lên 448 GB/s), tích hợp công nghệ mới (RT cores, Tensor cores) và tối ưu hóa kiến trúc nội bộ (ROPs tích hợp vào GPC, xử lý đồng thời FP32/INT32). Hiểu rõ hơn về kiến trúc GPU Nvidia là gì giúp chúng ta nhận thức rõ về công nghệ đang định hình tương lai này.

Tương lai của kiến trúc GPU Nvidia còn hứa hẹn nhiều bước tiến đột phá hơn nữa, không ngừng mở rộng khả năng và nâng cao hiệu quả để đáp ứng ngày càng cao các tiêu chuẩn trong ngành công nghiệp AI, HPC và đồ họa chất lượng cao. Mỗi thế hệ GPU đều là một minh chứng rõ rệt cho sự sáng tạo và khả năng đổi mới của Nvidia, góp phần đưa công nghệ xử lý song song lên một tầm cao mới, mở ra những khả năng chưa từng có cho các ứng dụng từ gaming, chuyên nghiệp đến nghiên cứu khoa học.

Bài viết liên quan
Bình luận
Subscribe
Notify of
guest
0 Góp ý
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Tổng lượt truy cập: lượt xem