NVIDIA 데이터 센터 GPU의 비교 분석

NVIDIA는 최근에 2024년에 출시된 AI 컴퓨팅 플랫폼에 강력한 신규 기능을 추가한 NVIDIA HGX™ H200 GPU를 발표했습니다. Gcore는 A100 및 H100 GPU가 Gcore의 AI GPU 클라우드 인프라를 강화하고 Q1-2024의 AI GPU 구성에 L40S GPU를 추가할 예정이기 때문에 H200 GPU의 발표에 흥분하고 있습니다. 따라서, Gcore는 이를 기회로 현재 세대인 A100과 H100, 새로운 세대인 L40S, 곧 출시될 H200을 포함하여 NVIDIA GPU의 비교 분석을 공유하기로 결정했습니다.

A100 대 H100 대 L40S 대 H200 비교

NVIDIA A100, H100, L40S, H200은 해당 회사 라인업에서 가장 고급이고 강력한 GPU 중 일부를 나타냅니다. 이 GPU들은 전문가, 기업 및 데이터 센터 애플리케이션을 위해 특별히 설계되었으며, 계산 작업, AI 및 데이터 처리를 위해 최적화된 아키텍처와 기술을 갖추고 있습니다. 이들이 주요 기술 사양에서 어떻게 비교되는지 살펴보겠습니다.

사양	A100	H100	L40S	H200
아키텍처	암페어	호퍼	Ada Lovelace	호퍼
출시년도	2020	2022	2023	2024
FP64	9.7 TFLOPS	34 TFLOPS	데이터 없음	34 TFLOPS
FP64 텐서 코어	19.5 TFLOPS	67 TFLOPS	데이터 없음	67 TFLOPS
FP32	19.5 TFLOPS	67 TFLOPS	91.6 TFLOPS	67 TFLOPS
TF32 텐서 코어	312 TFLOPS	989 TFLOPS	183 \| 366* TFLOPS	989 TFLOPS*
BFLOAT16 텐서 코어	624 TFLOPS	1,979 TFLOPS	362.05 \| 733* TFLOPS	1,979 TFLOPS*
FP16 텐서 코어	624 TFLOPS	1,979 TFLOPS	362.05 \| 733* TFLOPS	1,979 TFLOPS*
FP8 텐서 코어	해당 없음	3,958 TFLOPS	733 \| 1,466* TFLOPS	3,958 TFLOPS*
INT8 텐서 코어	1248 TOPS	3,958 TOPS	733 \| 1,466* TFLOPS	3,958 TFLOPS*
INT4 텐서 코어	데이터 없음	데이터 없음	733 \| 1,466* TFLOPS	데이터 없음
GPU 메모리	80 GB HBM2e	80 GB	ECC 포함 48GB GDDR6	141GB HBM3e
GPU 메모리 대역폭	2,039 Gbps	3.35 Tbps	864 Gbps	4.8 Tbps
디코더	해당 없음	7 NVDEC 7 JPEG	해당 없음	7 NVDEC 7 JPEG
최대 열 설계 전력(TDP)	400W	최대 700W(구성 가능)	350W	최대 700W(구성 가능)
다중 인스턴스 GPU	최대 7 MIGs @ 10 GB	최대 7 MIGs @ 10 GB	없음	최대 7 MIGs @16.5 GB
형상 계수	SXM	SXM	4.4“ (H) x 10.5” (L), 이중 슬롯	SXM**
상호 연결	NVLink: 600 GB/s PCIe Gen4: 64 GB/s	NVLink: 900GB/s PCIe Gen5: 128GB/s	PCIe Gen4 x16: 64GB/s 양방향	NVIDIA NVLink®: 900GB/s PCIe Gen5: 128GB/s
서버 옵션	NVIDIA HGX™ A100-파트너 및 NVIDIA 인증 시스템은 4, 8 또는 16개의 GPU NVIDIA DGX™ A100을 지원하며 8개의 GPU를 갖추고 있습니다.	NVIDIA HGX H100 파트너 및 NVIDIA 인증 시스템은 4 또는 8개의 GPU NVIDIA DGX H100을 지원하며 8개의 GPU를 갖추고 있습니다.	데이터 없음	NVIDIA HGX™ H200 파트너 및 NVIDIA 인증 시스템은 4 또는 8개의 GPU를 갖추고 있습니다.
NVIDIA AI 기업	포함	부가 기능	데이터 없음	부가 기능
CUDA® Cores	6,912	16,896	18,176	데이터 없음

* 희소성 있음
** 예비 사양 변경될 수 있습니다.
출처: https://resources.nvidia.com/l/en-us-gpu

위의 비교를 기반으로 하면, H200이 사용 사례 전반에서 이전 및 현재 세대의 NVIDIA 데이터 센터 GPU를 능가할 것으로 기대됩니다. 현재 세대인 H100은 H200과 매우 유사한 다중 정밀도 컴퓨팅 성능을 가지고 있어서 두 GPU가 밀접하게 경쟁합니다. H200은 개선 사항을 제공하지만, H100도 여전히 최고의 옵션으로 유지됩니다. A100의 경우, 후속 제품과 비교할 때 성능이 가장 낮지만 여전히 특정 작업에 대해서 견고한 성능을 제공합니다.

L40S는 A100 및 H100과 다르게 3세대 RT 코어(142)와 212 TFLOPS의 RT 코어 성능, 568개의 4세대 텐서 코어를 포함하고 있습니다. 그러나 아직 H200의 이러한 매개변수에 대해서 충분한 정보가 없으므로 L40S와 H200가 어떻게 비교될지는 정확히 알려지지 않았습니다.

NVIDIA GPU 한 눈에 살펴보기

각 GPU를 차례로 살펴보고 특징, 성능 및 활용할 수 있는 사용 사례에 대해서 알아보겠습니다.

NVIDIA A100

NVIDIA A100 GPU는 2020년에 처음으로 Ampere 아키텍처를 탑재한 GPU였습니다. 2022년에 H100이 출시되기 전까지 A100은 선도적인 GPU 플랫폼이었습니다. AI를 위한 개선된 텐서 코어, 병렬 처리를 위한 증가된 CUDA 코어 수, 향상된 메모리, 2 Tbps로 사상 최고의 메모리 대역폭을 갖춘 A100은 이전 세대와 비교하여 상당한 성능 향상을 제공했습니다. A100은 단일 A100 GPU를 더 작고 독립적인 GPU로 분할하여 클라우드 및 데이터 센터 환경에서 자원 할당과 효율성을 극대화하는 다중 인스턴스 GPU(MIG)를 지원합니다.

최신 모델이 개발됨에 따라 성능 측면에서 앞서지는 못하지만, A100 GPU는 강력한 텐서 코어와 높은 계산 처리량으로 딥러닝 및 AI 학습 작업의 일부로 복잡한 신경망을 훈련시키기에 여전히 훌륭한 선택입니다. A100은 음성 인식, 이미지 분류, 추천 시스템, 데이터 분석 및 대용량 데이터 처리, 과학적인 계산 및 시뮬레이션, 유전체 시퀀싱과 약물 발견을 포함한 고성능 컴퓨팅(HPC) 작업과 같은 AI 추론 작업에서 유용하게 사용됩니다.

NVIDIA H100

NVIDIA H100 GPU는 가장 요구가 많은 AI 워크로드와 대규모 데이터 처리 작업을 처리할 수 있습니다. H100에는 AI 훈련 및 추론 속도를 현격히 향상시키는 차세대 텐서 코어가 포함되어 있습니다. H100은 이중 정밀(FP64), 단일 정밀(FP32), 반정밀FP16), 정수(INT8) 계산 작업을 지원합니다.

H100은 A100보다 상당한 성능 향상을 제공하며 다음과 같은 이점을 포함합니다.

6배 더 빠르고, FP8용으로 4 TFLOP의 성능을 발휘할 수 있습니다.
50% 메모리 증가 — 최대 3 Tbps의 HBM3 고대역 메모리를 사용하여 외부 연결이 최대 5 Tbps에 도달하게 됩니다.
새로운 변압기 엔진으로 인해 최대 6배 빠른 모델 변압기 훈련이 가능합니다.

H100은 A100과 유사한 사용 사례 및 성능 기능을 다루지만, H100 GPU는 변압기 아키텍처 및 더 복잡한 과학적인 시뮬레이션을 사용하는 대규모 AI 모델을 처리할 수 있습니다. H100 GPU는 고급 대화형 AI 및 실시간 번역과 같은 실시간 및 반응적인 AI 애플리케이션에서 유용하게 사용할 수 있습니다.

NVIDIA L40S

L40S는 2023년 4분기에 출시(즉시 Gcore의 인프라에 통합)된 NVIDIA의 가장 강력한 GPU 중 하나입니다. 이는 생성형 AI, 대규모 언어 모델(LLM) 추론 및 훈련, 3D 그래픽, 렌더링, 비디오 및 과학적인 시뮬레이션과 같은 차세대 데이터 센터 워크로드를 처리하기 위해서 설계되었습니다.

NVIDIA L40S는 A100 및 H100과 같은 이전 세대 GPU와 비교하여 최대 5배 높은 추론 성능과 최대 2배 빠른 실시간 레이 트레이싱(RT) 성능을 제공합니다. ECC(오류 수정 코드)를 포함한 GDDR6 메모리의 48GB는 고성능 컴퓨팅 환경에서 데이터 무결성을 유지하는 데 중요한 역할을 합니다. 또한, 이 GPU에는 복잡한 계산 작업을 처리하는 데 중요한 병렬 프로세서인 18,000개 이상의 CUDA 코어가 장착되어 있습니다.

NVIDIA H200

NVIDIA H200은 2024년 2분기에 선보일 예정인 NVIDIA의 최신 GPU입니다. 이것은 NVIDIA H100 텐서 코어 GPU와 비교하여 용량이 거의 두 배이면서 메모리 대역폭도 1.4배 빠른 4.8 Tbps의 HBM3e 메모리 141GB를 제공하는 최초의 GPU입니다. 후자는 고성능 컴퓨팅에서 관련이 있으며, CPU와 비교하여 최대 110배 빠른 결과 시간을 가져옵니다. Llama2 70B 추론을 처리할 때 추론 속도는 H100 GPU의 두 배입니다.

H200는 에지 컴퓨팅 및 사물인터넷(IoT) 애플리케이션에서 인공지능 사물(AIoT)의 중요한 역할을 할 것으로 예상됩니다. H200에서는 1,750억 개 이상의 매개변수를 갖는 가장 큰 모델에 대한 LLP 교육 및 추론과 생성형 AI 및 HPC 애플리케이션을 포함한 애플리케이션 워크로드에서 가장 높은 GPU 성능을 기대할 수 있습니다.

결론

초기 사양 및 예비 성능 벤치마크를 기반으로 하면, NVIDIA HGX™ H200은 총 성능, 에너지 절약 및 TCO(총 소유 비용) 측면에서 A100 및 H100 GPU에 비해 상당한 발전으로 보입니다. 이러한 비교 가이드가 사용자들이 딥 러닝 및 AI, HPC, 그래픽 또는 데이터 센터 또는 에지에서 가상화 문제를 해결하기 위한 이상적인 솔루션으로 적합한 NVIDIA 데이터 센터 GPU를 선택하는 데 도움이 되기를 바랍니다.

Gcore는 A100 및 H100 GPU를 기반으로 한 베어 메탈 서버 및 가상 머신을 위한 다양한 AI GPU 구성을 제공합니다. 또한, 당사의 관리형 Kubernetes 플랫폼을 사용하면 A100 및 H100 GPU를 사용하는 베어 메탈 서버 및 가상 머신을 워커 노드로 활용할 수 있습니다. 곧 최신 L40S GPU를 기반으로 한 더 많은 AI GPU 구성을 추가할 예정이니 업데이트 소식을 기대해 주십시오!

AI GPU 사용

NVIDIA A100 대 H100 대 L40S 대 H200의 비교 분석

A100 대 H100 대 L40S 대 H200 비교