AI의 패러다임이 바뀌고 있다. 이전엔 “얼마나 잘 만들어내느냐”가 중요했지만, 이제는 “얼마나 잘 추론하느냐”가 경쟁력이 된 것. ChatGPT가 등장하며 생성형 AI가 급부상했고, 초거대 기업들은 더 많은 데이터를 학습시키기 위해 GPU를 무한정 쏟아부었다. 그리고, NVIDIA는 그 중심에 있어왔다. 하지만 최근, 이 흐름에 변화가 생겼다. 이제는 학습보다 추론, 다시 말해 AI가 더 똑똑한 답을 더 빠르고 효율적으로 내놓는 추론 AI가 핵심이 된 것이다.
AI 모델은 점차 경량화되고, 기업들은 OpenAI 같은 모델을 기반으로 API를 활용해 자신들만의 서비스를 구축한다. 이 과정에서 ‘추론 최적화’가 가장 중요한 기술 요소로 떠올랐고, 글로벌 CSP들은 추론용 자체 칩 개발에 나섰다. 국내에서도 추론 특화 스타트업들이 주목받고 있다. 그리고 또 하나, AI가 스스로 의도를 파악하고 문제를 해결하는 ‘Agentic AI’도 부상하고 있는 중이다. 이제 AI는 단순히 문장을 만들어내는 것을 넘어, 능동적으로 사고하고 행동하는 존재로 진화 중이라는 것. 그렇다면 학습에 최적화된 H100으로 AI 시장을 지배해온 NVIDIA는 어떻게 대응할까? 지난 3월 17일 열린 GTC 2025에서, 그 해답이 드디어 공개됐다.
그래서 이번 글에서는 지난 GTC 2025의 키노트 세션에서 젠슨 황 CEO가 발표한 내용 중 몇 가지 내용을 정리하면서 ‘추론’의 시대로 접어들고 있는 AI 트렌드의 흐름속에서 NVIDIA가 내놓은 비장의 무기는 무엇인지 살펴보려 한다.
Reasoning: 단순 생성에서 벗어나 ‘생각하고 판단하는’ 추론 AI의 시작
기존의 AI vs Reasoning AI
“기존의 생성형 AI들은 어떻게 동작했던걸까?”
예를 들어, 이런 문제가 주어졌다고 가정해보자. ‘결혼식에 300명을 어떻게 앉혀야 할까?’ 꽤 복잡한 문제다. 다양한 조건, 친분 관계, 결혼식장의 제약 사항이 모두 고려돼야 하니까 말이다. 예전의 LLM(Large Language Model)은 이런 질문에 대해 학습한 방대한 데이터를 바탕으로 가장 확률이 높은 답변을 한 번에 생성했다.
간단한 질의에는 빠르게 답을 내놓으며 잘 작동하지만, 문제의 맥락을 깊이 이해하고 여러 시나리오를 검토해야 하는 상황에서는 딱히 인상적이지 않은, 뜬구름 잡는 듯한, 안하니만 못한 뻔한 말만 늘어놓았죠. 쉽게 말하면, 빠르지만 얕은 사고를 하는 셈이다. 그래서 때로는 엉뚱하거나 현실성이 부족한 답이 나오기도 했죠. ChatGPT 초창기에 이런 경험 많이 해봤을거다.
“그럼 Reasoning AI는 어떻게 다른건데?”
그 동안 AI 업계에서 추론은 Inference라고 불러왔다. Inference는 이미 알고 있거나 확인된 정보로부터 논리적인 결론을 도출하는 행위를 뜻한다. 우리가 사용하는 ChatGPT와 같은 생성형 AI들이 이런 형태로 답을 내놨던 것. 그런데, 이번 GTC 2025에서 NVIDIA는 인상적인 시연 장면을 보여줬다. 같은 문제를 올해 초 공개되어 세간을 놀라게 한, 중국의 Deepseek R1 모델에게 줬는데, 놀라운 일이 벌어졌다.
- R1은 문제를 받고
- 다양한 시나리오를 직접 가정하고 검토하며
- 스스로 “내가 제대로 풀었나?”를 질문하고 테스트한 뒤
- 최종적으로 가장 납득할만한 답을 선택했다.
즉, 단순 생성이 아닌 “이해하고 → 판단하고 → 검증하는” 일련의 ‘사고 과정’을 실제로 수행한 것. 이게 바로 젠슨 황 CEO가 주장하는 Reasoning AI의 핵심이다. Reasoning은 사고능력, 추리라는 뜻도 가지고 있는데, DeepSeek R1은 이런 과정을 거치며 사용자가 훨씬 더 만족할 만한 대답을 도출해냈다. 단번에 대답을 내놓는 생성형 AI에서 한 단계 더 진화하여, AI가 마치 사람처럼 한번 더 검증한 다음 대답을 내놓는다는 것으로 이해하면 된다.
하지만, 이러한 변화에는 대가가 따르는 법

앞서 언급했던 “결혼식에 300명 하객을 어떻게 앉혀야 할까?”라는 질문에 예전 LLM은 이 문제를 439개의 토큰을 사용해서 빠르게 처리했지만, 정확도가 낮아 결과적으로 “439개의 낭비된 토큰”이 됐다. 반면 R1은 같은 문제를 풀기 위해 8,559개의 토큰을 사용했고, 연산량도 엄청났다. 즉, 훨씬 똑똑하지만, 훨씬 더 많은 자원을 쓰는 AI라는 뜻이다.
하지만 앞으로 기업이 AI에게 원하는 건 단순히 “빠른 응답”이 아니라, 진짜로 업무에 도움이 되는, 정교한 사고가 가능한 AI다. 그리고 그 변곡점에 지금 우리가 서 있는 것이라고 할 수 있다. 따라서,
- 예전의 AI는 “빠르고 얕게” 답했다면,
- 새로운 AI는 “느리지만 깊이 있게” 생각한다.
- 이 새로운 시대의 AI는 더 많은 연산 능력, 더 정교한 메모리 관리, 그리고 무엇보다도 ‘사고를 위한 시간’을 필요로 한다는 것이다.
그럼 이러한, 보다 정교해 진 추론 능력을 선보인 R1과 같은 Reasoning AI 중심의 시대를 위한 인프라는 어떻게 진화해야 할까? 그에 대한 NVIDIA의 해답은 Blackwell이다.
Hopper에서 Blackwell로, 추론 AI 시대를 위한 진화
Hopper vs Blackwell 아키텍처 간단 비교

“Blackwell이 그렇게 좋다던데, 뭐가 얼마나 달라진 거야?”
기존 Hopper 아키텍처와 Blackwell 아키텍처의 차이는 생각보다 엄청나게 크다. 단순히 성능만 오른 게 아니고, 구조부터 연결 방식, 정밀도, 운영체제까지 거의 모든 요소가 추론 중심 시대에 맞게 재설계된 것. 아래의 표를 보자
구분 | Hopper (H100 기준) | Blackwell (B200 기준) |
---|---|---|
성능 | 이전 세대 대비 최대 추론 성능 4배 향상 | 추론 성능 최대 30배 향상, 운영 비용 25배 절감 |
구조 | GPU 1개 단독 구성 | GPU 2개를 1패키지로 통합 |
연결 방식 | NVLink 4세대 + NVSwitch 3세대(대표 구성: 8개 GPU) | NVLink 5세대 + NVLink Switch (최대 576개 GPU 연결) |
클러스터 구성 | H100 NVL (8개 GPU) | NVL72 (72개 Blackwell GPU를 연결한 클러스터) |
연산 정밀도 | FP64, FP32, TF32, BF16, FP16,INT8 / INT4, FP8 | Hopper에서 지원하는 연산 정밀도 + FP4 지원 (에너지 효율↑) |
일단 위 표를 보면 추론 성능 30배 향상이 눈에 띈다. 아키텍처 차원의 성능 향상도 있겠지만, GPU 2개를 1개의 패키지로 통합한 것이 크게 작용한 것. 표 마지막 항목인 ‘연산 정밀도’에 주목하자. Blackwell 아키텍처에서는 FP4를 지원하기 시작했다. 그럼, 기존의 Hopper에서도 지원했었던 다양한 연산 정밀도는 어떤 용도로 사용됐을까? 아래의 표를 보자.
연산 정밀도 | Hopper (H100) | Blackwell (B100/B200/B300 등) | 용도 및 특징 |
---|---|---|---|
FP64 | 지원 | 지원 | 고정밀 과학 연산용 |
FP32 | 지원 | 지원 | 범용 연산 |
TF32 | 지원 | 지원 | AI 학습용 고속 정밀도 |
BF16 | 지원 | 지원 | AI 학습/추론 |
FP16 | 지원 | 지원 | 훈련 안전성에 초점을 맞춘 범용 용도 |
INT8/INT4 | 지원 | 지원 | 초경량 모델 추론용 |
FP8 | 지원 | 지원 | Hopper에서 처음 도입됨, 고속 학습/추론 |
FP4 | 미지원 | Blackwell부터 지원 | 성능/전력 효율 향상, 추론에만 활용 |
여기서 주목해야 할 것은 FP4다. 앞서 언급했던, 추론 시대로의 변화를 위해 Blackwell부터 적용된 FP4는 추론 속도와 전력 효율을 극단적으로 끌어올리는 데에 주안점을 두고 있는 것. 그래서 NVIDIA는 FP4가 기존의 FP16 및 FP8 연산 정밀도 대비 최대 30배의 성능 향상을 이끌어냈다고 발표한 것으로 이해하면 된다. 여기서 말하는 성능은 Watt 대비 처리량을 뜻한다.
※ 여기서 잠깐, 정밀도 = 정확도?
그런데, FP4의 정확도가 FP16과 FP8보다 다소 떨어지긴 하지만, 정밀도는 낮은 편이다. 여기서 말하는 정밀도는 정확도가 아니다. 즉, AI의 대답이 정확하지 않다는 것이 아니라는 것. 숫자를 표현할 때 사용할 수 있는 비트 수가 4비트이기 때문에 표현할 수 있는 숫자의 종류가 FP16, FP8보다 적다. 그래서 아주 정밀한 수치 계산이 필요한 경우에는 부정확한 결과가 나올 수도 있다.
하지만 우리가 일상적으로 사용하는 AI 모델의 추론 결과에는 이 정도 정밀도로도 충분하며, 디코딩 단계처럼 AI 모델이 내부적으로 연산을 반복하지 않고 입력에 대한 결과만 빠르게 출력해야 할 경우에는 FP4로도 충분하기 때문에 NVIDIA는 FP4를 활용해 대량의 결과를 빠르게 출력하는 방법을 선택한 것이다. 그리고 정밀도를 줄이게 되면 처리 속도 향상에 더해 메모리 사용량도 줄어들어 에너지 효율이 획기적으로 향상된다.
이제, Blackwell에서 처음 적용된 FP4가 가지는 의미를 이해 했으리라 본다.
대규모 AI 클러스터에서 효율성을 챙기기 위한 NVIDIA의 포석, NVL72
“NVL72? NVLink 72개를 연결했다는 거야?”
그런 의미는 아니다. 일단 NVLink가 뭔지부터 짚고 넘어가자. NVLink는 하나의 시스템에서 다수의 NVIDIA GPU를 연결하기 위해 NVIDIA가 만든, PCIe보다 더 빠른 고속 통신 인터커넥트 기술이다. NVIDIA 고유의 인터페이스라고 보면 된다. GPU들이 서로 데이터를 주고 받음으로써 마치 거대한 하나의 GPU처럼 동작하게 만들어주는데, 여기에 NVLink Switch와 NVLink 도메인이라는 개념을 추가해 보자.
- NVLink : NVIDIA GPU 간 고속 데이터 전송을 위한 전용 인터페이스
- NVLink Switch : GPU와 GPU를 NVLink로 연결하는 전용 칩
- NVLink Domain : NVLink로 연결되어 마치 하나의 GPU 처럼 동작할 수 있는 GPU 범위

이전 세대인 Hopper 아키텍처 기반의 서버(DGX H100 또는 HGX H100)는 한 보드에 8개의 H100 GPU가 NVLink로 연결되어 있다. 이때 GPU 간 통신 대역폭은 900GB/s에 달한다. 하지만 서버 간 GPU 통신은 다르다. 보드 바깥의 다른 서버와는 InfiniBand 네트워크를 통해 연결되는데, 이때 사용되는 NVIDIA ConnectX-7 어댑터의 최대 대역폭은 400GB/s에 불과하다.
즉, 같은 서버 내 GPU끼리는 빠르게(900GB/s) 통신할 수 있지만, 다른 서버의 GPU와 통신할 때는 절반 이하 속도(400GB/s)로 떨어지는 병목 현상이 발생하는 것이다. 이게 바로 ‘서버 스케일’을 넘는 추론 작업에서 성능이 급격히 저하되는 이유 중 하나라고 볼 수 있다.
그래서 NVIDIA는 Blackwell 아키텍처에서 NVLink Switch를 더욱 업그레이드해서 이러한 문제를 해결했다. 아래의 표를 보자.
구분 | Hopper (DGX H100, HGX H100) | Blackwell (GB200 NVL72) |
---|---|---|
GPU 구성 | 1 보드에 H100 8개 | 1 보드에 B200 2개 (총 4개 Blackwell GPU) |
연결 구조 | NVLink Switch 칩 4개로 내부 8개 GPU를연결해서 1대 서버 구성 | NVLink Switch 보드 9장으로 총 18장 GB200 보드를연결해서 1대 랙 시스템 구성 |
총 GPU 수 | 1 서버 = 8 GPU | 1 랙 = 72 GPU (GB200 NVL72) |
최대 연결 수 | 8개 GPU | 576개 GPU (NVLink 도메인) |
NVLink 대역폭 | 900GB/s | 1,800GB/s |
Blackwell 아키텍처에서 NVLink는 5세대로, NVLink Switch는 4세대로 발전한다. 그 결과 위 표 오른쪽과 같이 NVL72, 총 72개의 Blackwell GPU를 NVLink로 연결할 수 있게 됐다는 것이 첫 번째 특징인데, 좀 더 풀어서 설명하면,
- B200은 2개의 Blackwell GPU 다이를 하나로 통합해 패키징한 GPU칩
- GB200 슈퍼칩에는 Grace CPU 칩 1개와 B200 GPU 칩 2개가 장착됨
- GB200 슈퍼칩 컴퓨트 트레이(1U)에는 GB200 슈퍼칩 2개가 장착됨 = 2x Grace CPU, 4x Blackwell GPU
- NVLink Switch 트레이(1U)는1 Switch 칩 2개 장착, Switch 칩 1개 = GB200 슈퍼칩 1개 연결
- NVLink Switch 트레이 1대가 2장의 GB200 보드 연결
- 1개 랙에 GB200 슈퍼칩 컴퓨트 트레이 18대, NVLink Switch 트레이 9대가 장착되어 모든 GPU가 NVLink로 연결
- GB200 슈퍼칩 컴퓨트 트레이 18대 = 4x GPU x 18 = 72x GPU → 그래서 NVL72

이전 세대인 Hopper에서는 1개의 보드에 8개의 H100 GPU, 4개의 NVLink Switch 칩이 장착되어 서로 NVLink로 연결해 준다. 이게 H100 HGX 보드다. NVIDIA DGX H100 혹은 서버 제조사들이 제공하는 H100 HGX 서버에 이런 보드가 1개 들어있다. 그리고 보통 이런 서버의 크기는 8U정도 되며, 하나의 랙에 4대 정도의 서버가 장착된다. 그리고 이 서버들은 서로 NVIDIA ConnectX-7 Quantum-2 InfiniBand 네트워킹 어댑터를 거쳐 인피니밴드 네트워크로 연결된다.
여기서 문제가 발생한다. Hopper 아키텍처의 NVLink 대역폭은 900GB/s이지만 인피니밴드 네트워킹 어댑터의 대역폭은 400GB/s에 불과한 것. 그래서 1대의 DGX H100 서버나 HGX H100 서버의 8개 H100 GPU들은 서로 900GB/s로 통신하지만, 다른 서버의 H100 GPU와는 최대 400GB/s로 통신해야 하는 것이다.

그래서, NVIDIA는 하나의 랙만으로 Blackwell GPU 72개가 NVLink로 연결되어 서로 1,800GB/s로 통신하는 초고성능 단일 시스템을 완성했다. 그리고 위 표에서 최대 GPU 연결 수가 Blackwell 아키텍처의 4세대 NVLink Switch는 576개로 늘어난 것 기억하는가? GB200 NVL72 랙을 최대 8개까지 NVLink로 연결해서 총 576개의 GPU가 단일 NVLink 도메인 내에서 함께 동작할 수 있는 엄청난 성능의 AI 클러스터를 만들 수 있다는 것이다. 이 정도 되면 정말 젠슨 황 CEO의 주장처럼 AI Factory라고 해도 손색이 없어 보인다.
“근데 왜 이렇게까지 하는 거야? 너무 과한것 아닌가?”
아니, 절대 과하지 않다. 우리가 지금 다루고 있는 건 단순한 ‘글쓰기 AI’가 아니다. 이제 AI는 질문을 받으면 바로 답을 내는 게 아니라, 먼저 문제를 이해하고, 정보를 수집하고, 여러 가능성을 검토하고, 스스로 계획을 세운 뒤 답을 내는 단계까지 왔다. 이걸 “Reasoning 중심의 추론 AI”라고 하는 것이다.
그러니까, AI가 예전처럼 단순하게 답을 ‘생성’만 해도 되는 시대가 아니다. 이제는 ‘머리를 써야 하는 AI’, 다시 말해 진짜 똑똑한 AI가 필요한 것. 그리고 그런 AI가 똑똑하게 작동하려면, 기존보다 훨씬 많은 연산량을 빠르게 처리할 수 있는 인프라가 있어야 한다. Blackwell은 바로 그걸 위한 아키텍처다.
젠슨 황 CEO는 “추론 시대에 맞는 아키텍처는 Hopper가 아니라 Blackwell이다.” 라고 말했다. 왜 이렇게 말한 것인지 이제 이해가 가리라 생각한다 게다가 NVIDIA는 Blackwell 아키텍처라는 하드웨어 차원의 발전 뿐만 아니라, 보다 AI 연산을 효율적으로 수행할 수 있는 소프트웨어 영역까지 영향력을 넓히고 있다. 그게 무엇인지, 이어서 살펴보자.
끝!