지난 글에서 NVIDIA GTC 2024에서 발표된 새로운 아키텍처, Blackwell에 대해 살펴봤다. 그리고 이 Blackwell 아키텍처 기반 GPU인 B200의 특징과 함께, NVIDIA 자체 CPU, Grace가 통합된 슈퍼칩, GB200을 말미에 언급했었다. 이번 글에서는 이 GB200 슈퍼칩이 장착된 시스템, 그리고 그 시스템의 AI 학습 및 추론 성능에 대해 알아보자.
GB200 슈퍼칩으로 구성하는 강력한 AI 시스템
GB200 슈퍼칩을 2개 장착한 GB200 Compute Node
지난 글에서 소개한 B200의 경우 HGX B200 폼팩터로 서버 제조사들에게 제공되어 그들이 가진 규격의 메인보드와 각종 부품, 그리고 케이스와 함께 랙 서버로 만들어진다. 그런데 GB200 Compute Node는 이런 서버와는 다르다. GB200 Compute Node 하나에 GB200 슈퍼칩 2개를 장착했고, 각각의 GB200 슈퍼칩이 CPU를 거치지 않고 서로 빠르게 데이터를 주고받을 수 있게하는 기술인 RDMA를 위해 업계 최고 성능의 NIC인 ConnectX-800G 인피니밴드 NIC 3개를, 그리고 Grace CPU와 Blackwell GPU가 연산에만 집중할 수 있도록 데이터 처리 및 전송만을 전담해주는 BlueField-3 DPU 1개를 추가로 장착했다.
※ RDMA(Remote direct memory access) : CPU를 거치지 않고 메모리 간 데이터를 전송하는 기술로 NVIDIA는 GPU Direct RDMA라는 CPU를 배제하고 스토리지와 GPU 메모리를 직접 연결해서 더욱 빠르게 데이터 전송을 가능케 하는 기술을 사용한다.
※ DPU(Data Processing Unit) : 데이터 패킷 처리와 전송을 가속하기 위한 전용 프로세서로 CPU와 GPU가 데이터 전송에 관여하지 않고 연산에만 집중할 수 있도록 하며, NVIDIA는 인피니밴드 NIC와 DPU를 함께 활용하여 데이터를 더욱 빠르게 전송할 수 있는 환경을 구축했다.
NVIDIA는 이렇게 제작된 GB200 Compute Node 총 18개를 하나의 랙에 넣어 GB200 NVL72라는 거대한 GPU 시스템을 만들었다. GB200 Compute Node 1개에 Grace CPU 2개, B200 GPU 4개가 있고, 이게 18개니 GB200 NVL72는 36개의 Grace CPU와 72개의 B200 GPU를 갖춘 엄청난 시스템이 된 것이다.
그런데 B200이 72개면 그냥 GB200 72라고 명명해도 될 것 같은데 중간에 NVL이라는 단어가 붙었다. NVL은 NVIDIA의 GPU가 서로 직접 데이터를 주고받을 수 있게 하기 위해 NVIDIA가 만든 네트워크 프로토콜인 NVLink의 약자로, 72개의 B200 GPU가 NVLink로 서로 연결되어 있다는 것을 의미한다.
GB200 Compute Node들을 서로 연결하는 NVLink Switch

GB200 NVL72에 사용된 5세대 NVLink는 GPU와 GPU를 서로 연결하는 포트로 100GB/s의 대역폭을 갖췄으며, 이전 세대인 H100 GPU에 적용된 NVLink 4세대의 50GB/s 대비 2배나 향상됐다. GPU 당 최대 18개까지 연결할 수 있고, 덕분에 NVLink로 연결된 B200 GPU들은 서로간에 1.8TB/s로 데이터를 주고받을 수 있다.
그리고 이 GPU간의 연결은 NVLink 포트를 8개를 갖춘 NVLink Switch가 담당한다. 데이터 전송 속도 향상을 위해 2개의 NVLink Switch 전용 칩을 장착한 NVLink Switch Node는 총 14.4TB/s의 대역폭을 지원하고 있다.
그리고, 이 NVLink Switch Node 9개가 모여 NVLink Switch System을 이룬다. NVLink Switch Node 하나에 NVLink Switch 칩이 2개씩 있으니 총 18개의 NVLink으로 연결되는 것이다. 즉, GPU들의 데이터 전송 목적으로만 작동하는 NVLink Switch 칩을 다수 장착한, 거대한 GPU 전용 네트워크 스위치 시스템인 셈이다.
게다가, NVLink Switch Node 1개 당 8개의 포트가 있어서 9 x 8 = 72포트를 갖춘 NVLink Switch System이 되었다. 앞서 봤던 GB200 NVL72의 72는 B200 GPU 72, 그리고, 이 72개의 GPU를 연결할 NVLink 포트 수 72라고 보면 된다.
단일 랙으로 1조 개 파라미터 LLM 추론이 가능한 GB200 NVL72
GB200 NVL72는 하나의 랙에 GB200 18개, 그리고 NVLink Switch 9개가 장착된 거대한 멀티 GPU 시스템이다. 단일 랙으로 1조 개의 파라미터가 있는 LLM과 같은 생성형 AI에 딱 맞는 시스템이 탄생한 것. OpenAI의 GPT-3는 175B개, 1,750억개의 파라미터를 가지고 있다고 알려져있고 GPT-4는 정확히 밝혀지지는 않았지만 GPT-3의 10배 수준인 1.8조개 라는 이야기가 있다. 그리고 Google Gemini는 1조개에 달하며 네이버 하이퍼클로바 X는 파라미터 수를 비공개 했지만 3~4천억개 수준으로 추정하고 있다.
여기서 중요한 것은 LLM의 성능, 즉 얼마나 방대한 데이터를 토대로 정확하고 자연스러운 답변을 제공해 줄 수 있느냐는 학습하는 파라미터 수에 달렸는다는 것이다. LLM과 같은 생성형 AI 간의 경쟁이 치열해 질수록 학습해야 할 파라미터 수는 계속 증가해 나갈 것이고, 그에 따라 요구되는 GPU 컴퓨팅 자원도 더 많아질 것으로 쉽게 예측할 수 있다. 그래서 NVIDIA의 GB200 NVL72와 같은 대형 GPU 시스템이 더욱 주목받게 되지 않을까? 하나의 랙으로 구성한 시스템이 데이터센터에서 상면공간도 그만큼 덜 차지할 것이고, 거대한 AI 인프라의 구축 및 운영 효율성 측면에서도 훨씬 나은 선택이 될 것이니 말이다. 물론 전력과 냉각 성능도 그만큼 받쳐줘야 함은 물론이다.
더욱 거대한 AI 인프라가 필요하다면? DGX GB200 SuperPOD

그런데, 사실 몇 천억개의 파라미터도 GB200 NVL72보다 훨씬 더 낮은 GPU 시스템으로 학습할 수 있다. 단지 시간이 많이 걸릴 뿐이다. 문제는, 생성형 AI의 경쟁력은 얼마나 많은 파라미터를 얼마나 빠른 시간 내에 학습하느냐에 달렸다는 것. 우리 회사는 1년 걸려 학습한 결과물을 경쟁사는 1달만에 학습을 끝낸다면, 경쟁사와 경쟁 자체가 안될테니 말이다. 그래서 기업들이 더 거대한 GPU 인프라를 요구하는 것도 어찌보면 자연스러운 결과라고 할 수 있다.
NVIDIA는 이러한 수요에 대응하고자 GB200 NVL72 랙을 다수 연결해 더 큰 GPU 시스템을 구성했다. NVIDIA DGX SuperPod with DGX GB200 Systems인데, GB200 NVL72 랙 8대를 인피니밴드 네트워크로 연결한 슈퍼 컴퓨터다.
이 랙 간의 연결에 동원된 제품은 두 가지로 나뉜다. 하나는 인피니밴드로 연결하기 위한 Quantum-X800 InfiniBand Switch이고, 다른 하나는 이더넷 네트워크로 연결할 수 있는 Spectrum-X800 Ethernet Switch다.. 스위치 대역폭은 800GB/s이며, NVLink 대역폭 900GB/s 보다 조금 낮은 수준. 그래서, DGX GB200 SuperPod의 성능은 GB200 NVL72 랙의 수만큼 성능이 향상되지는 않는다는 것을 알아두자.
대량의 GPU 발열을 잡기 위해 설계된 Liquid Cooling System
GPU 서버를 운영하는 기업의 가장 큰 고민 중 하나는 발열이다. GPU에서 내뿜는 열이 CPU나 다른 부품들보다 월등하게 높기에, 72개의 GPU가 연결된 GB200 NVL72만 해도 엄청난 열을 뿜어낸다. 그런데 이 랙을 또 여러개 연결한 DGX SuperPod이라면? 발열을 잡기 위한 특단의 대책이 필요할거다. 그래서 NVIDIA가 선택한 방식은 Liquid Cooling, 수랭 방식으로 열을 식히기로 결정했다.
일반적인 서버, 그리고 이 서버들이 모여있는 데이터센터는 공랭 방식으로 열을 식힌다. 하지만 GPU 서버, 특히 GB200 NVL72처럼 GPU 수가 엄청나게 많은 시스템이라면 기존의 공랭 방식으로는 감당하기 어려운데, 일반적인 공랭식 냉각은 랙당 20KW가 최대치라고 알려져 있다.
그런데, 지난 글에서 B200 GPU의 TDP가 1,000W라고 했었다. 그래서 B200 GPU 8개가 장착된 HGX B200의 GPU TDP만 8,000W에 달한다. GB200의 TDP는 2개의 B200 GPU에 Grace CPU까지 합쳐져 2,700W라고 알려져 있는데, GB200 Compute Node 1개에 GB200이 2개 들어가니 5,400W이고 GB200 NVL72는 GB200 Compute Node가 18개니 5,400KW x 18 = 97,200W = 97.2KW가 된다. 여기에 9개의 NVLink Switch Node와 다른 부품들까지 더해진 GB200 NVL72 랙 하나의 전력 소모량은 최소 100KW를 넘을 것으로 예상할 수 있다.
여기서 문제는, 앞서 언급한 것처럼 공랭식 냉각은 랙 당 20KW가 한계라는 것이다. 2020년대에 들어서 랙 당 전력 밀도가 20KW 이상인 랙으로 구성된 데이터센터를 하이퍼스케일 데이터센터라고 부르는데, GB200 NVL72 랙은 이런 하이퍼스케일 데이터센터의 랙 당 전력 밀도보다 5배나 높은 100KW이다. 일반적인 데이터센터는 물론 하이퍼스케일 데이터센터에서도 GB200 NVL72, 그리고 DGX GB200 SuperPod을 공랭식 냉각으로는 감당하기 어렵다는 것이다.
그래서 NVIDIA는 이미 H100 기반의 DGX SuperPod때부터 수랭식 냉각을 사용해 왔다. 이번 GB200 기반의 DGX SuperPod 역시 수랭식 냉각으로 총 8개의 GB200 NVL72 랙 8개로 구성된 DGX SuperPod의 열을 효율적으로 관리한다. 이러한 고밀도 AI 인프라를 운영하려는 기업이 데이터센터를 선택할 때 고전력 뿐만 아니라, 이렇게 수랭 기반의 냉각 시설도 충분히 갖춘 곳인지도 고려해야 할 것이다.
32,000개 GPU로 구현한 NVIDIA AI Factory

지금부터는 다소 현실감이 떨어지는 이야기가 될 수도 있을 것 같다. GTC 2024 키노트 세션에서 젠슨 황 CEO는 32,000개의 GB200 GPU로 구성된 AI Factory를 소개했다. 앞서 봤던 GB200 NVL72 랙이 GPU가 72개이고 DGX SuperPod이 랙이 5개니까 SuperPod 하나 당 GPU가 360개다. 360 / 32,000 = 88.9니까 약 90개 정도의 DGX SuperPod으로 구성된 데이터센터라고 보면 되겠다.

32,000개의 B200 GPU로 구성된 AI Factory의 성능은 645 exaFLOPS의 AI 성능, 13PB의 메모리, 58PB/s의 NVLink 대역폭, 16.4 petaFLOPS의 네트워크 컴퓨팅 성능을 발휘할 수 있다고 한다. 그런데 숫자가 너무 커서 감이 잘 안올 수 있다. 너무 숫자가 거대하니까 다소 황당하게 느껴지기까지 한다. 그래서 좀 더 현실적으로 가늠해볼 수 있는 숫자를 살펴보자.

젠슨 황 CEO의 발표에 따르면, NVIDIA H100 GPU 8,000개로 구성된 데이터센터는 총 15,000,000W, 15MW의 전력을 소모하며 GPT-MoE-1.8T, 1.8조개의 파라미터를 학습하는 데에 90일이 걸린다고 한다.
※ GPT-MoE : GPT-4에 적용된 파라미터 학습 기법으로 Mixture of Experts, 다수의 전문가들이 모여 하나의 큰 목표를 달성하는 것을 의미한다. LLM에서는 언어 모델을 담당 분야 별로 쪼개어 학습시킨 다음 이 모델들을 연결해 하나의 거대한 언어 모델을 만드는 형태로 활용되고 있다.
그런데 이 GPT-MoE-1.8T를 90일동안 학습시키는 데에 GB200 NVL72 시스템을 동원하면 4,000,000W = 4MW의 전력을 소모하는 2,000개 GPU만 있으면 된다고 한다. H100 기반 시스템과 비교해서 GPU 수와 전력 소모량이 거의 1/4로 줄어든 셈이다. 만약 동일하게 8,000개의 B200 GPU 학습한다면? 90일이 아닌 23일이면 끝낼 수 있다.
그런데 앞서 본 것처럼 GPU가 32,000개라면? 2조개에 가까운 파라미터를 학습하는 데에 고작 6일도 안걸린다.(B200 GPU 8,000개 = 23일, B200 GPU 32,000개 = 23일의 1/4인 6일) 이 정도 규모의 GPU가 갖춰진 데이터센터라면 매일 매일 새로운 AI 모델을 학습시켜 내놓을 수 있을 것이다. 정말 AI 공장이 될 수 있지 않을까?
여기까지 Blackwell 아키텍처와 GPU에 대해 자세히 정리했다. 그런데, 아직 끝이 아닙니다. 이제 이 엄청난 AI 인프라의 성능을 살펴볼 차례다. Blackwell 아키텍처 기반의 GPU가 이전 세대 GPU들 대비 AI 학습 및 추론, 즉 AI 성능에 있어서 얼마나 큰 성장을 이뤄냈는지 알아보자.
Hopper vs Blackwell AI 성능 비교

먼저 NVIDIA Blackwell GPU와 이전 세대 GPU들의 사양을 보자. 빼곡한 숫자 중에서 색깔로 표기한 부분 위주로 보면 된다. 메모리 유형이 H200부터 이번 GB200까지는 모두 HBM3e이고 H100은 HBM3, A100은 HBM2 이다. H200은 H100의 메모리 강화 버전으로 보면 된다. 표의 FP 부동 소수점 연산과 INT 정수 연산, Tensor Flow 성능의 경우 Blackwell GPU는 Peta 단위, Hopper GPU와 Ampere GPU는 Tera 단위라는 것을 보면 얼마나 성능 차이가 큰 지 알 수 있다. 그리고 GPU들을 연결하는 NVLink 성능도 꽤 차이가 나는 것도 확인하실 수 있다. 그와 동시에 전력 소모량도 엄청나게 늘어난 것이 보인다.
하지만 이 표로는 성능 차이가 얼마나 나는지 눈에 잘 들어오지 않는다. 이전 세대인 A100과 H100을 Blackwell GPU들과 얼마나 성능 차이가 나는지 %로 표시하더라도 표 형태는 집중하기 어려워 보인다. 그래서, 지금부터는 그래프 위주로 살펴보자.

먼저 왼쪽 그래프부터 보면, 앞서 간단히 언급했던 GPT-MoE-1.8T 실시간 토큰 처리량이 H100 GPU 8개를 사용한 HGX H100보다 GB200 NVL72가 30배 더 높은 것을 확인할 수 있다. 이 그래프를 토대로 HGX H100과 HGX B200의 성능 차이를 아래와 같이 유추해볼 수 있겠다.
- GB200 NVL72의 B200 GPU는 72개 -> HGX H100 GPU 수량인 8개에 맞추기 위해 9로 나눔
- GB200 NVL72가 기록한 초당 토큰 처리량인 116을 9로 나누면 12.9 -> HGX H100의 3.5 대비 2.7배 뛰어남
그 다음 오른쪽 그래프를 보면 학습 속도가 HGX H100 대비 GB200 NVL72가 4배 빠르다고 한다. 학습 속도의 경우 단순 GPU 성능 외에도 영향을 줄 수 있는 변수가 워낙 많기 때문에 단순히 앞서 봤던 토큰 처리량처럼 9를 나눠서 생각하면 안되고요. Hopper 아키텍처의 1세대 트랜스포머 엔진 대비 Blackwell 아키텍처에 적용된 2세대 트랜스포머 엔진의 AI 학습 성능이 크게 향상되었고, NVLink, InfiniBand 네트워킹과 같은 네트워크 성능 향상분까지 가미되어 4배의 속도 증가를 이뤄냈다고 이해하면 되겠다.

이번에 볼 성능은 에너지 효율이다. H100 GPU대비 GB200 NVL72 랙이 25배나 효율이 좋다는 것으로 보인다. 그래프가 좀 오해할 수 있게 되어있는데, H100 GPU 하나와 GB200 NVL72의 에너지 효율을 비교한게 아니다. 하나의 거대한 랙에 HGX H100 GPU 보드 9개를 설치해 H100 GPU 수량을 GB200 NVL72와 같은 72개로 맞췄고, 이 HGX H100으로 구성된 랙 100개와 공랭식 냉각방식이 적용된 인프라가 GB200 NVL72 랙 8개와 수냉식 냉각방식을 적용한 인프라와 동일한 성능을 보인다는 것으로 이해하면 된다.
※ 출처 : NVIDIA Blakwell Architecture Technical Brief 18페이지 Figure 7, 이 자료의 설명에는 HGX H100으로 구성된 100개의 랙에 공랭식이 적용된 인프라가 HGX B200으로 구성된 8개 랙에 공랭식이 적용된 인프라와 동일한 성능을 보인다고 하는데, 설명이 잘못된 것인지 차트의 표기가 잘못된 것인지 확인이 필요하다. NVIDIA GB200 NVL72 소개 페이지의 설명은 GB200 NVL72 랙에 수랭식이 적용된 인프라가 H100 GPU가 적용된 인프라 대비 효율이 25배 좋다는 것으로 기재되어 있다.

다음은 DGX-SuperPod 성능 비교다. 이전 세대인 DGX H100보다 DGX B200이 GPT-MoE-1.8T 실시간 토큰 처리량은 15배, 그리고 학습 시간은 3배 빠르다고 한다. NVIDIA의 설명에 따르면 좌측의 그래프의 경우 8개의 DGX H100과 1개의 DGX B200의 GPU 성능이 동일한 것으로 나타났다.(그럼 15배가 아닌 12.5배인데 왜 15배라고 하는 것인지는 잘 모르겠다.) 우측의 그래프는 동일하게 400G InfiniBand 네트워크 상에서 DGX B200이 3배 더 빠르다고 설명하고 있는데, 아마도 트랜스포머 엔진 성능의 차이가 크게 작용하지 않았을까 싶다.
여기까지 GTC 2024 키노트 세션에서 새롭게 발표된 Blackwell 아키텍처 기반의 시스템과 AI 성능에 대해 자세히 알아봤다. 사실 GTC 2024 키노트 세션에서 발표된 내용 중 Blackwell GPU에 대한 내용은 1/3 정도다. 하지만 먼저 언급된 이유가 있지 않을까? 이렇게 뛰어난 성능의 거대한 인프라가 있어야만 가능한 것들이 있다. 그 이야기를 다음 글에서 풀어보겠다.
끝!