Nvidia multi instance gpu (MIG) là giải pháp này giúp tối ưu hóa hiệu suất sử dụng GPU, công nghệ MIG của NVIDIA hiện nay cho phép phân tách 1 GPU thành tối đa 7 phiên bản GPU con hoạt động song song với các tác vụ riêng biệt.

Giải pháp ảo hóa GPU này đặc biệt hiệu quả trong các môi trường AI, machine learning và đa người dùng. Trong bài viết này, VinaHost sẽ giúp bạn hình dung rõ hơn NVIDIA Multi Instance GPU là gì và cách triển khai công nghệ này một cách hiệu quả.

Tóm tắt nhanh về NVIDIA Multi-Instance GPU (MIG)

MIG mode là tính năng tính toán và cô lập các phiên bản ảo hóa trên một GPU vật lý nhất định. MIG được hỗ trợ trên các GPU từ kiến trúc Ampere đến các thế hệ cao hơn như Blackwell và Hopper để giải quyết các vấn đề:

GPU công suất lớn nhưng workload nhỏ 👉 gây lãng phí tài nguyên
Nhiều người dùng hoặc ứng dụng dùng chung GPU 👉 tranh chấp tài nguyên
Khó đảm bảo hiệu năng ổn định và cô lập trong môi trường Cloud & AI

🧩 Quy trình kích hoạt & chia phân vùng Nvidia MIG:

🔌 Kích hoạt chế độ MIG: Kiểm tra trạng thái bằng nvidia-smi và bật MIG thủ công với lệnh nvidia-smi -i 0 -mig 1.
🧠 Lựa chọn MIG Profile phù hợp: Mỗi profile (ví dụ 1g.10gb, 3g.40gb) xác định lượng tài nguyên tính toán và bộ nhớ cho từng phân vùng.
📋 Liệt kê profile và vị trí khả dụng: Dùng nvidia-smi mig -lgip để xem các profile hỗ trợ và -lgipp để kiểm tra placement trên GPU.
✂️ Chia GPU thành các phân vùng MIG: Tạo GPU Instance bằng nvidia-smi mig -cgi <Profile_IDs> -C, đồng thời tự động tạo Compute Instance sẵn sàng cho workload.
🔗 Gán phân vùng cho ứng dụng / container: Xác minh bằng nvidia-smi mig -lgi, lấy UUID qua nvidia-smi -L và gán cho Docker bằng biến môi trường NVIDIA_VISIBLE_DEVICES.

💡 Nếu bạn muốn khai thác GPU linh hoạt, đa người dùng và tối ưu chi phí trong môi trường AI & Cloud, MIG chính là giải pháp không thể bỏ qua

1. NVIDIA MIG Là Gì?

Multi Instance GPU có thể dịch sang tiếng việt với cái tên GPU đa nhân bản. Đây là công nghệ do nhà sản xuất GPU số 1 thế giới – NVIDIA phát triển, với chức năng phân chia một GPU vật lý thành nhiều phiên bản GPU logic độc lập.

Mỗi phiên bản MIG hoạt động như một GPU riêng biệt, có tài nguyên phần cứng được phân bổ cố định và không chia sẻ với các phiên bản khác.

NVIDIA MIG là gì — NVIDIA Multi Instance GPU là công nghệ cho phép phân chia một GPU vật lý thành nhiều phiên bản GPU logic độc lập

Cụ thể, mỗi instance MIG GPU được cấp phát:

Lõi tính toán (SMs)
Bộ nhớ băng thông cao (HBM)
Bộ nhớ đệm (cache)
Băng thông bộ nhớ riêng

Nhờ cơ chế cách ly ở mức phần cứng, các workload chạy trên các instance khác nhau không ảnh hưởng lẫn nhau, giúp đảm bảo hiệu năng ổn định và chất lượng dịch vụ (QoS) cho từng tác vụ.

2. So sánh MIG với vGPU truyền thống

Khi triển khai chia sẻ tài nguyên GPU trong môi trường đa người dùng, NVIDIA MIG Instance và vGPU truyền thống là hai phương án phổ biến, tuy nhiên chúng khác nhau rõ rệt về kiến trúc, mức độ cách ly và hiệu năng. Dưới đây là bảng so sánh chi tiết:

Tiêu chí	NVIDIA Multi Instance GPU	vGPU truyền thống
Cơ chế chia GPU	Chia GPU ở mức phần cứng	Chia GPU ở mức phần mềm / hypervisor
Mức độ cách ly	Cách ly hoàn toàn giữa các instance	Cách ly không tuyệt đối, có chia sẻ tài nguyên
Phân bổ tài nguyên	Tài nguyên cố định cho từng instance	Tài nguyên linh hoạt, có thể overcommit
Lõi tính toán (SMs)	Phân bổ riêng cho từng MIG instance	Chia sẻ SMs giữa các vGPU
Bộ nhớ GPU	Bộ nhớ HBM riêng, không chia sẻ	Bộ nhớ GPU chia sẻ
Băng thông bộ nhớ	Được đảm bảo cho từng instance	Có thể bị ảnh hưởng khi tải cao
Chất lượng dịch vụ (QoS)	Đảm bảo QoS ở mức phần cứng	QoS phụ thuộc vào hypervisor
Hiệu năng	Hiệu năng ổn định, dự đoán được	Hiệu năng có thể dao động
Độ trễ	Thấp và ổn định	Có thể tăng khi nhiều vGPU hoạt động
Khả năng mở rộng	Tối đa 7 instance/GPU (tùy model)	Mở rộng linh hoạt theo cấu hình phần mềm
Loại workload phù hợp	AI inference, HPC, batch job, multi-tenant	VDI, đồ họa, workload chia sẻ linh hoạt
Hỗ trợ GPU	Ampere, Hopper™, Blackwell	Nhiều dòng GPU NVIDIA
Môi trường triển khai	Bare metal, container, Kubernetes	Virtual machine, VDI, cloud truyền thống
Độ phức tạp vận hành	Trung bình (cần cấu hình MIG)	Cao (license, hypervisor, driver)
Chi phí	Không cần license vGPU	Cần license NVIDIA vGPU

Đánh giá chung

MIG GPU phù hợp khi cần hiệu năng ổn định, cách ly chặt chẽ và QoS đảm bảo, đặc biệt trong môi trường AI, HPC và multi-tenant.
vGPU truyền thống phù hợp hơn với các hệ thống VDI, đồ họa hoặc workload cần chia sẻ linh hoạt, chấp nhận sự biến động hiệu năng.

3. Tính năng của công nghệ Multi Instance GPU

3.1. Phân vùng độc lập tài nguyên

NVIDIA Multi Instance GPU dựa trên cơ chế chia GPU ở mức phần cứng, trong đó mỗi instance được cấp phát các thành phần tài nguyên riêng biệt. Bao gồm: Lõi tính toán riêng; Bộ nhớ GPU riêng; Băng thông bộ nhớ riêng.

Nhờ cơ chế này:

Các workload có thể chạy song song trên cùng một GPU
Không xảy ra xung đột hay tranh chấp tài nguyên
Tác vụ này không ảnh hưởng đến hiệu năng của tác vụ khác

Cách phân vùng ở mức phần cứng giúp MIG GPU đảm bảo hiệu năng ổn định cho từng workload, đặc biệt phù hợp với môi trường đa người dùng hoặc hệ thống chạy nhiều loại tác vụ khác nhau.

3.2. Tối ưu hóa hiệu suất và tiết kiệm chi phí đầu tư

NVIDIA Multi Instance giúp tận dụng tối đa hiệu năng của GPU bằng cách phân bổ tài nguyên phù hợp với từng loại workload, thay vì để GPU bị sử dụng không hết công suất. Nhờ vậy MIG GPU giúp:

Giảm số lượng GPU vật lý cần đầu tư
Tối ưu chi phí phần cứng trong trung tâm dữ liệu
Nâng cao hiệu quả sử dụng tài nguyên trên cùng một hạ tầng

3.3. Cấu hình linh hoạt theo nhu cầu thực tế

NVIDIA Multi Instance GPU cho phép quản trị viên cấu hình và phân bổ tài nguyên GPU một cách linh hoạt, phù hợp với từng nhu cầu sử dụng cụ thể thay vì áp dụng một cấu hình cố định cho mọi workload. Hệ thống GPU thích ứng tốt hơn với môi trường đa người dùng và đa mục đích.

4. Quy Trình Kích Hoạt Và Chia Phân Vùng MIG

Để khai thác hiệu quả NVIDIA Multi Instance, quản trị viên cần thực hiện đúng quy trình kích hoạt và phân chia GPU thành các phân vùng MIG phù hợp với nhu cầu sử dụng.

Bước 1: Kích hoạt chế độ MIG trên GPU (H100/A100)

Theo mặc định, tính năng MIG GPU trên các GPU NVIDIA như A100 hoặc H100 chưa được bật. Vì vậy, trước khi tạo các phân vùng MIG, bạn cần kích hoạt chế độ này.

1. Kiểm tra trạng thái MIG hiện tại

Kết nối vào máy chủ GPU với quyền quản trị và chạy lệnh:

nvidia-smi -i 0

Trong kết quả trả về, kiểm tra cột MIG M. Nếu hiển thị Disabled, điều đó có nghĩa là MIG chưa được kích hoạt trên GPU.

2. Bật chế độ MIG

Để kích hoạt MIG cho GPU có chỉ số 0, sử dụng lệnh:

sudo nvidia-smi -i 0 -mig 1

Sau khi thực thi, hệ thống sẽ bật chế độ MIG cho GPU tương ứng.

3. Xác minh trạng thái MIG

Kiểm tra lại trạng thái MIG bằng lệnh:

nvidia-smi -i 0 --query-gpu=pci.bus_id,mig.mode.current --format=csv

Nếu kết quả hiển thị Enabled, MIG đã được kích hoạt thành công.

Bước 2: Lựa chọn và liệt kê các MIG Profile phù hợp

Sau khi kích hoạt chế độ MIG, bước tiếp theo là xác định các MIG Profile khả dụng để chọn cấu hình phù hợp với từng workload. MIG Profile xác định mức tài nguyên GPU được cấp phát cho mỗi MIG instance.

1. Ý nghĩa của MIG Profile

MIG Profile thường có định dạng:

<ng>.<memory>

Ví dụ:

1g.10gb → 1 GPU slice và 10GB bộ nhớ GPU
3g.40gb → 3 GPU slice và 40GB bộ nhớ GPU

Profile càng lớn thì tài nguyên tính toán (SMs), bộ nhớ và băng thông càng nhiều, phù hợp với các workload nặng hơn như AI training hoặc HPC.

2. Liệt kê các MIG Profile khả dụng

Để xem các MIG Profile được hỗ trợ trên GPU (A100/H100), sử dụng lệnh:

nvidia-smi mig -lgip

Lệnh này hiển thị danh sách các profile có thể tạo trên GPU, bao gồm ID profile, dung lượng bộ nhớ và số instance tối đa có thể tạo.

3. Kiểm tra vị trí (placement) của MIG Profile

Trong trường hợp cần tạo nhiều instance MIG, bạn có thể kiểm tra vị trí phân vùng GPU bằng lệnh:

nvidia-smi mig -lgipp

Thông tin placement cho biết profile có thể được đặt ở những GPU slice nào, giúp tránh xung đột khi cấu hình nhiều MIG instance trên cùng một GPU.

Bước 3: Thực hiện chia nhỏ GPU thành các phân vùng (Slices)

Sau khi chọn MIG Profile phù hợp, bước tiếp theo là tạo các GPU Instance (GI) để chia GPU vật lý thành nhiều phân vùng MIG.

1. Cú pháp tạo phân vùng MIG

Lệnh cơ bản để tạo các phân vùng MIG:

sudo nvidia-smi mig -cgi <Profile_IDs> -C

Trong đó:

-cgi (Create GPU Instance): chỉ định các MIG Profile sẽ được tạo
<Profile_IDs>: danh sách ID profile, phân tách bằng dấu phẩy
-C: tự động tạo Compute Instance (CI) cho mỗi GPU Instance

2. Ví dụ cấu hình MIG

Ví dụ sau chia một GPU H100 thành 4 phân vùng MIG gồm:

1 instance 3g.40gb (Profile ID: 9)
3 instance 1g.10gb (Profile ID: 19)

sudo nvidia-smi mig -cgi 9,19,19,19 -C

Sau khi chạy lệnh, hệ thống sẽ:

Tạo các GPU Instance (GI) theo profile đã chỉ định
Đồng thời tạo Compute Instance (CI) nhờ cờ -C

Nhờ đó, các MIG instance có thể chạy workload CUDA ngay lập tức.

3. Vai trò của cờ -C

Cờ -C giúp:

Tự động tạo Compute Instance cho mỗi GPU Instance
Cho phép chạy CUDA, container hoặc AI workload ngay sau khi tạo MIG
Tránh việc phải tạo Compute Instance thủ công

⚠️ Lưu ý

Chỉ kích hoạt MIG GPU là chưa đủ để chạy workload.
Một GPU Instance phải Compute Instance thì mới thể được sử dụng bởi ứng dụng CUDA hoặc AI framework.

Bước 4: Xác minh và gán UUID cho ứng dụng/Container

Sau khi tạo các phân vùng MIG GPU, bước tiếp theo là xác định UUID của từng MIG device và gán chúng cho ứng dụng hoặc container.

1. Lấy UUID của các thiết bị MIG

Mỗi MIG instance được hệ thống gán một UUID duy nhất để định danh khi cấp phát cho ứng dụng.

Sử dụng lệnh sau để liệt kê các thiết bị MIG GPU:

nvidia-smi -L

Kết quả sẽ hiển thị:

GPU vật lý
Danh sách các MIG device
UUID tương ứng của từng phân vùng

Ví dụ:

GPU 0: NVIDIA H100
MIG 1g.10gb Device 0: (UUID: MIG-xxxxxxxx)
MIG 3g.40gb Device 1: (UUID: MIG-yyyyyyyy)

2. Gán MIG cho Docker container

Khi chạy ứng dụng trong Docker, bạn có thể chỉ định container sử dụng một MIG instance cụ thể bằng biến môi trường NVIDIA_VISIBLE_DEVICES.

Ví dụ:

sudo docker run --runtime=nvidia \
-e NVIDIA_VISIBLE_DEVICES=<MIG-UUID> \
nvidia/cuda:11.0.3-base-ubuntu20.04 nvidia-smi

Cách này đảm bảo:

Container chỉ truy cập đúng phân vùng MIG được cấp phát
Tránh xung đột tài nguyên giữa các workload

Duy trì tính cô lập và hiệu năng ổn định

5. Cấu Hình MIG Trên Các Thế Hệ GPU Mới Nhất (Hopper & Blackwell)

Cùng với sự phát triển của các kiến trúc GPU mới, NVIDIA không chỉ nâng cấp hiệu năng phần cứng mà còn hoàn thiện và mở rộng vai trò của Multi Instance GPU (MIG). Trên các thế hệ Hopper và Blackwell, MIG GPU trở thành nền tảng cốt lõi để triển khai hạ tầng AI linh hoạt, đa người dùng và tối ưu chi phí.

MIG trên kiến trúc Hopper (NVIDIA H100)

Trên kiến trúc Hopper, MIG GPU không đơn thuần là công cụ chia nhỏ GPU, mà là cơ chế tổ chức tài nguyên ở cấp độ hạ tầng. Một GPU H100 có thể được phân chia thành tối đa 7 instance MIG, mỗi instance hoạt động như một GPU độc lập với mức độ cách ly phần cứng hoàn chỉnh.

Mỗi MIG GPU instance trên H100 được cấp phát riêng:

Tài nguyên tính toán (Streaming Multiprocessors – SMs)
Bộ nhớ HBM dung lượng lớn
Cache và băng thông bộ nhớ
Các engine tăng tốc chuyên biệt cho AI và HPC

MIG trên kiến trúc Blackwell

MIG trên Blackwell mang lại 4 giá trị nổi bật

Mức độ cô lập và kiểm soát tài nguyên cao hơn: MIG GPU trên Blackwell được tối ưu để đảm bảo mỗi instance duy trì hiệu năng ổn định ngay cả khi GPU vận hành ở cường độ rất cao.
Hiệu suất mạnh hơn cho từng phân vùng MIG: Nhờ kiến trúc mới, mỗi MIG instance trên Blackwell có thể xử lý workload AI phức tạp hơn, bao gồm LLM inference và training phân tán.
Tối ưu cho AI đa người dùng và đa tenant: MIG GPU trở thành nền tảng lý tưởng cho cloud AI, nơi nhiều khách hàng cùng khai thác GPU nhưng vẫn đảm bảo cách ly và QoS nghiêm ngặt.
Tối đa hóa hiệu quả đầu tư hạ tầng AI: Blackwell + MIG giúp doanh nghiệp mở rộng năng lực tính toán AI mà không cần tăng tương ứng số lượng GPU vật lý.

So sánh MIG giữa Hopper và Blackwell

Tiêu chí	Hopper (H100)	Blackwell (B200)
Kiến trúc	Hopper	Blackwell
Tối ưu AI	AI Training + Inference	Generative AI + LLM
Hiệu suất MIG	Cao	Cao hơn
Khả năng chia tài nguyên	Linh hoạt	Linh hoạt nâng cao
Workload phù hợp	AI/HPC truyền thống	AI thế hệ mới
Khả năng đa người dùng	Tốt	Rất tốt

6. Những Lưu Ý Quan Trọng Khi Quản Trị Hệ Thống MIG

Bên cạnh việc cấu hình và khai thác MIG GPU, quá trình vận hành thực tế đòi hỏi quản trị viên phải nắm rõ một số đặc điểm và giới hạn của công nghệ này để đảm bảo hệ thống hoạt động ổn định, linh hoạt và dễ kiểm soát trong dài hạn.

Cấu hình không được lưu lại sau khi hệ thống hoặc GPU bị reset

Điều này có nghĩa là toàn bộ các GPU Instance (GI) và Compute Instance (CI) đã tạo trước đó sẽ bị xóa, và GPU sẽ quay về trạng thái ban đầu. Để đảm bảo cấu hình MIG GPU được tự động thiết lập lại sau mỗi lần reboot, quản trị viên có thể áp dụng các giải pháp sau:

Sử dụng công cụ mig-parted (NVIDIA MIG Partition Editor):

Cho phép định nghĩa sẵn cấu trúc phân vùng MIG dưới dạng file cấu hình
Hỗ trợ áp dụng lại toàn bộ cấu hình MIG chỉ với một lệnh
Phù hợp với môi trường sản xuất và triển khai quy mô lớn

Kết hợp với systemd để tự động hóa:

Tạo một service systemd chạy mig-parted hoặc các lệnh nvidia-smi mig khi hệ thống khởi động
Đảm bảo GPU luôn được chia phân vùng đúng cấu hình mong muốn mà không cần thao tác thủ công

Quy trình xóa phân vùng để thay đổi cấu hình

Trong quá trình vận hành, khi nhu cầu sử dụng GPU thay đổi, quản trị viên có thể cần xóa các phân vùng MIG hiện có để tạo lại cấu hình mới. Việc này phải được thực hiện đúng thứ tự để tránh lỗi và đảm bảo GPU quay về trạng thái sẵn sàng cấu hình lại.

Bước 1: Xóa Compute Instance (CI)

Trước tiên, cần hủy các Compute Instance đang tồn tại bằng lệnh:

sudo nvidia-smi mig -dci

Bước 2: Xóa GPU Instance (GI)

Sau khi đã xóa CI, tiếp tục xóa các GPU Instance bằng lệnh:

sudo nvidia-smi mig -dgi

Lệnh này sẽ:

Xóa toàn bộ các phân vùng MIG đã được tạo
Đưa GPU về trạng thái chưa phân vùng, sẵn sàng cho cấu hình mới

⚠️ Lưu ý:

Không thể xóa GPU Instance khi vẫn còn Compute Instance đang tồn tại
Tất cả workload đang chạy trên MIG sẽ bị dừng khi thực hiện các lệnh trên
Nên kiểm tra trạng thái MIG bằng nvidia-smi mig -lgi trước và sau khi thao tác

7. Tổng kết

NVIDIA Multi Instance GPU (MIG) mang đến giải pháp quản trị GPU hiện đại, cho phép chia nhỏ GPU vật lý thành nhiều phân vùng độc lập với hiệu năng ổn định và mức độ cô lập ở cấp độ phần cứng. Nhờ khả năng phân bổ tài nguyên linh hoạt, MIG đặc biệt phù hợp cho các hệ thống AI, cloud và trung tâm dữ liệu, giúp tối ưu hiệu suất đồng thời tiết kiệm chi phí đầu tư.