지난 글에서 GTC 2025에서 발표된 AI 인프라의 운영 효율성을 더욱 끌어올리기 위한 소프트웨어 이야기를 잠깐 했었다. 그런데, 사실 소프트웨어, NVIDIA Dynamo가 이번 GTC 2025의 핵심은 아니다. 주인공은 바로 NVIDIA가 제시한 차세대 AI 인프라 로드맵이다. Hopper에서 Blackwell까지 2년이 걸렸던 그들의 로드맵이 이제 1년 주기로 앞당겨진다. 그리고 이를 바탕으로 젠슨 황 CEO는 그가 천명했던 ‘AI 팩토리’가 허황된 이야기가 아님을 증명해 나가고 있다. 이를 뒷받침할 수 있는 강력한 AI 인프라, 그 이야기를 해보겠다.
젠슨 황 CEO의 예견처럼, 정말 AI 팩토리 시대가 올까?
사실 미래가 어떻게 될 지는 확언하기 어렵지만, 지금 당장 느껴지는 변화를 생각하면, 진짜 AI 팩토리 시대가 올 것 같긴 하다. 지난 글에서 살펴봤던 추론 AI 시대로의 전환, 그리고 급증하는 연산 요구량을 충족하기 위한 Blackwell 아키텍처와 전용 OS Dynamo까지, 우리는 NVIDIA가 AI 팩토리 시대를 맞이하기 위해 하나씩 착착 준비해 나가고 있는 것을 확인했다. 이러한 AI 팩토리는
- 수천 개의 GPU를 초고속 네트워크로 연결하고
- 수십~수백만 개의 요청을 동시에 처리해야 하며
- 초당 수백만 개의 토큰을 생성할 수 있어야 한다.
이 모든 게 가능한 인프라가 바로 AI 팩토리고, 하나의 거대한 AI 생산 라인이라고 보면 된다.
누가 더 빠르게, 더 많이, 더 효율적으로 AI를 돌릴 수 있느냐가 중요해졌다
요즘 AI 서비스의 수익 구조는 토큰 단가 기준이다. 예를 들어, ChatGPT도 GPT-4o 기준으로 출력 텍스트 100만 토큰당 $10로 API 가격을 책정했다. 즉, 초당 더 많은 토큰을 처리할 수 있다면, 같은 전력으로 더 많은 수익을 낼 수 있다는 뜻이다.
이런 관점에서 보면,
- GPU를 얼마나 많이 연결할 수 있느냐
- 연결된 GPU들이 얼마나 빠르게 협업하느냐
- 운영체제 수준에서 이를 얼마나 똑똑하게 관리하느냐
이 모든 것이 AI 팩토리의 ‘생산성’을 결정짓는 핵심 요소가 된다. 그래서 요즘 AI 인프라는 그냥 서버 몇 대 붙여놓는 수준이 아니다. 고성능 GPU, 초고속 연결, 전용 OS, 효율적인 전력 설계까지, AI 팩토리는 말 그대로 미래의, 차세대 데이터센터의 모습이라고 볼 수 있지 않을까?
NVIDIA 차세대 AI 인프라 첫 번째 주자, B300
AI 추론 효율 향상을 위해 한번 더 진화한 Blackwell, B300
“왜 B300이 또 나온거지? B200으로 충분했던 것 아냐?
B200도 역대급 GPU이긴 했지만 NVIDIA는 그렇게 판단하지 않은 것 같다. 사실 지난 GTC 2024에서 공개된 B200은 AI 인프라의 ‘왕의 귀환’이었다. 무려 6800억 개의 파라미터를 처리하고, 두 개의 Blackwell GPU를 한 패키지에 담은 그 괴물 GPU는, AI 학습과 추론 모두에서 NVIDIA의 기술력을 재확인시켰기 때문이다.
그런데, AI는 지금, 또 한 번의 변곡점을 지나고 있다. 생성만 잘하는 AI는 이젠 부족하다. 스스로 읽고, 생각하고, 판단하고, 결정하는 Reasoning AI, Agentic AI가 대세로 떠오르고 있기 때문이다.
이건 단순한 연산력 싸움이 아니다. 더 빠른 추론, 더 낮은 지연시간, 더 높은 에너지 효율이라는, ‘운영 효율’이 성패를 가르는 싸움이라고 할 수 있다. 그래서 NVIDIA는 B200보다 더 똑똑한 추론용 GPU, Blackwell Ultra, 코드명 B300의 등장시킴으로써 한발 더 나아가려고 한다.
B200 vs B300, 얼마나 성능이 향상됐을까?

“B300이 나오게 된 배경은 알겠어. 그럼 B300은 얼마나 성능이 향상된거야?”
엄~청 많~이 향상됐다 라고 할 순 없겠고, 거두절미하고 아래 표 부터 보자.
구분 | B200 | B300 (Blackwell Ultra) |
---|---|---|
아키텍처 | Blackwell | Blackwell Ultra |
GPU 구성 | Blackwell GPU 2개 | Blackwell Ultra GPU 2개 |
연산 성능(FP4 기준) | 10 PFLOPS | 15 PFLOPS |
HBM3E 메모리 | 192GB | 288GB |
TDP | HGX B200 1,000W / GB200 1,200W | HGX B300 1,200W / GB300 1,400W |
운영체제 | 리눅스 기반 OS (Ubuntu 등) | NVIDIA Dynamo 포함 |
대상 시스템 | GB200 NVL72 등 | GB300 NVL16, 72 / DGX-B300 등 |
가장 큰 차이점은 GPU 아키텍처가 Blackwell에서 Blackwell Ultra로 진화했다는 것이다. GPU 전력이 겨우 200W, 20% 늘어났지만 FP4 연산 성능 50% 향상된 것이 눈에 띄고, 메모리도 96GB가 늘어났다. 그리고 B200과 달리 GB300 NVL16 구성도 가능해 졌으며, 지난 글에서 자세히 소개한 전용 OS인 Dynamo를 사용한다. B300은 B200보다 더 똑똑하고, 빠르며, 더 효율적인 추론을 위해 진화한 GPU라고 할 수 있겠다.
B300은 어떤 시스템에 사용될까?

“B300이 사용된 라인업은 어떤 것들이 있어?”
NVIDIA는 자신들의 GPU를 서버 제조사에게 GPU 단품 혹은 HGX 보드에 GPU 8개씩 장착해서 보드 채로 납품하는 HGX 플랫폼도 제공하지만, 자체적으로 설계한 DGX 시스템이 주력이다. 그리고 이번 GTC 2025에서 NVIDIA는 B300을 탑재한 다양한 DGX 시스템을 공개했는데, 어떤 것들이 있는지 간단히 알아보자.
제품명 | 주요 용도 | 구성 | 특징 및 용도 |
---|---|---|---|
DGX Spark | 개인개발자용 | GB10 칩1 x Grace CPU(20core)+ Blackwell GPU | – 초소형 개발자 키트 – FP4 1 PFLOPS 추론 성능 – 저전력 (< 500W) |
DGX Station | 고급워크스테이션 | GB300 칩1 x Grace CPU(72core)+ 1 x Blackwell Ultra GPU | – 데스크탑형 AI 워크스테이션 – FP4 20 PFLOPS 추론 성능 – 강력한 연구용 장비 |
DGX B300 | 데이터센터서버 | 2 x Intel Xeon CPU+ 8 x B300 칩 | – 본격 AI 학습 및 추론을 위한 서버- FP4 144 PFLOPS 추론 성능 – DGX H100 대비 학습 4배, 추론 11배 |
GB300 NVL72 | 플래그십AI 팩토리 랙 | GB300 슈퍼칩 18개 = 36 x Grace CPU + 72 x Blackwell Ultra GPU | – 단일 NVLink 도메인에 72 GPU – 동기화된 슈퍼 GPU처럼 동작 – 초대형 추론/Agentic AI 클러스터 |
※ PFLOPS : petaFLOPS = 1초에 1,000 teraFLOPS(TFLOPS) 연산 수행
여기서 주목할 것은 DGX Spark와 DGX Station이다. DGX Spark는 Apple Mac Mini 크기의, 성인 남성 손바닥에 올릴 수 있을 정도의 아담한 크기를 자랑하는 AI 개발자를 위한 제품이며, DGX Station은 개인 사무실이나 연구소에서 책상위에 두고 사용할 수 있는 워크스테이션이다. DGX B300은 이미 잘 알고 계실 NVIDIA가 자체 설계한 DGX 서버이며 , GB300 NVL72는 본격적인 AI 팩토리를 위한 하나의 거대한 랙이라고 보면 된다.
그런데, 여기서 끝이 아니다. Blackwell Ultra 다음 세대의 라인업이 GTC 2025에서 공개됐는데, 그 내용을 이어서 살펴보자.
NVIDIA 차세대 AI 인프라 두 번째 주자, Vera Rubin & Rubin Ultra
초대형 AI 팩토리를 위한 궁극의 스케일업 인프라
“이렇게 AI가 빠르게 발전하면, 더 큰 AI 팩토리가 필요해 지는 것 아냐?”
맞다. 사실 Hopper부터 Blackwell만 보더라도 3년 남짓한 시간에 엄청나게 발전했다. 그만큼 AI의 발전 속도가 빠르기 때문에 NVIDIA도 이를 뒷받침할 수 있는 인프라 개발에 박차를 가하고 있는 것인데, 이 속도가 더 빨리지고 있다. Reasoning AI, Agentic AI때문이다.
다행히 NVIDIA도 이를 잘 인지하고 있는 것 같다. 그래서 젠슨 황 CEO는 Blackwell Ultra에 이어서 곧바로 차세대 인프라 로드맵을 공개했는데, 바로 Vera Rubin과 Rubin Ultra이다. 각각 어떤 특징을 가지고 있는지 살펴보자.
Vera Rubin: Grace Blackwell의 뒤를 잇는 차세대 아키텍처

Vera Rubin은 GB200, GB300으로 대표되는 Grace Blackwell을 잇는 차세대 AI 인프라 아키텍처다. Vera가 Grace 후속 CPU, Rubin이 Blackwell 후속 GPU이며, 2026년 하반기에 출시될 예정이다.
NVIDIA는 이 두 아키텍처 이름을 천문학자인 베라 루빈(Vera Rubin)의 이름에서 따왔는데, 그녀는 ‘우주를 보는 방식을 바꾼 사람’으로 유명하다. NVIDIA도 자신들의 인프라 아키텍처를 명명하면서 AI 인프라의 우주를 새로 설계하겠다는 포부를 드러낸 것으로 볼 수 있다.
그럼 GB300과 비교해 Vera Rubin은 얼마나 진화했을까? 아래의 표를 보자.
항목 | GB300 NVL72 | Vera Rubin NVL144 |
---|---|---|
출시 시기 | 2025년 후반기 | 2026년 하반기 예정 |
GPU 아키텍처 | Blackwell Ultra (B300) | Rubin (차세대 아키텍처) |
CPU 아키텍처 | Grace 72 Cores / 144 Threads | Vera (Grace 후속) 88 Cores / 176 Threads |
GPU 수량 | 72개 | 144개(2배) |
FP4 추론 성능 | 1.1 EF | 3.6 EF(3.3배) |
HBM 메모리 | HBM3E 40TB | HBM4 75TB(1.6배) |
NVLink 대역폭 | NVLink 5 130TB/s | NVLink 6 260TB/s (2배) |
NIC (네트워크) | NVIDIA CX8 14.4TB | NVIDIA CX9 28.8TB/s(2배) |
올해 하반기에 출시될 GB300 NVL72도 어마어마한 성능인데 Vera Rubin NVL144는 성능 향상폭이 2배가 넘는다. CPU, GPU 모두 큰 성능 향상을 이뤄냈는데, 한 가지 참고할 것이, NVL144의 144는 Ruin GPU 수가 144개라는 것이다. 그런데 Vera Rubin NVL144도 하나의 랙 시스템이다. 앞서 소개한 GB300 NVL72, 지난 글의 GB200 NVL72와 동일하다. 그럼 어떻게 GPU 수가 144개가 된 것일까? 아래 표를 보자.
항목 | 구성 설명 | GPU 계산 방식 |
---|---|---|
1개 GB200 슈퍼칩 보드 | – Grace CPU 다이 : 1개 – Blackwell GPU 칩 : 2개 (각각 2개의 GPU 다이 포함) → 총 GPU 다이 4개 | GPU 2개 (칩 기준) |
1개 GB200 슈퍼칩 트레이 (보드 2개) | – Grace CPU 다이 : 2개 – Blackwell GPU 칩 : 4개 – Blackwell GPU 다이 : 8개 | GPU 4개 (칩 기준) |
1대 GB200 NVL72 랙 (트레이 18개) | – Grace CPU 다이 : 36개 – Blackwell GPU 칩 : 72개 – Blackwell GPU 다이 : 144개 | GPU 72개 (칩 기준) |
Rubin GPU 역시 Blackwell과 마찬가지로 2개의 GPU 다이가 하나로 패키징된 형태다. 젠슨 황 CEO는 그 동안 이렇게 2개의 GPU 다이를 하나의 GPU로 계산하면서 여러 착오가 발생했다며, 앞으로는 무조건 GPU 다이 수 만큼 총 GPU 수를 계산하겠다고 밝혔다.
즉, Vera Rubin NVL144 역시 GB300 NVL72와 같은 하나의 랙이고 구성은 동일하지만, 2개의 GPU 다이가 하나로 패키징 된 GPU 칩을 더 이상 1개의 GPU로 세지 않고 2개로 계산하겠다는 것이다. 그래서 NVL72가 아닌 NVL144가 된 것. Vera Rubin에서 뭔가 설계가 바뀌어서 GB300 NVL72보다 더 많은 GPU를 우겨 넣은 것이 아니니 오해는 금물이다.
Rubin Ultra: 하나의 랙 안에 576개의 GPU를 집적한 초 고밀도 AI 시스템

2024년 B200에서 2025년 B300으로 Blackwell 아키텍처가 Blackwell Ultra로 발전했다고 앞서 언급했는데, Rubin 역시 Rubin Ultra로 진화한다. 그럼 아마도 나중에 B300처럼 R300이 되지 않을까? 가장 큰 특징은 기존의 Blackwell과 Rubin의 2개 GPU 다이를 하나로 패키징한 칩이 아닌, 4개의 GPU 다이를 하나로 패키징한 것. 그래서 기존의 Vera Rubin 대비 GPU 칩 하나 당 다이 수는 2배가 된 4개가 된다.
그런데 숫자가 좀 이상하다. GPU 다이 수가 2배가 됐으면 NVL288이 돼야 하는데 왜 NVL576일까? 힌트는 Rubin Ultra 랙에 있다. 아래 이미지를 보자.

위와 같이, 왼쪽의 Vera Rubin NVL144의 랙은 종전의 GB200, GB300 NVL72와 같이 1U 크기의 컴퓨트 트레이가 가로로 랙에 꽂힌 형태다. 그런데 오른쪽의 Rubin Ultra NVL576은 컴퓨트 트레이가 세로로 훨씬 더 많이 꽂힌 것으로 보이는데, 아직 공식 자료가 나오진 않았지만, 추측컨데 블레이드 서버처럼 컴퓨트 트레이를 세로 형태로 랙에 장착하면서 기존보다 2배 더 많은 컴퓨트 트레이를 랙에 꽂은 것이 아닐까 싶다. 그래서 아래와 같이 된다.
- Vera Rubin NVl144 : 1대 트레이 = 4개 GPU 칩 -> 8개 GPU 다이 / 18대 트레이 = 8 x 18 = 144
- Rubin Ultra NVL576 : 1대 트레이 = 4개 GPU 칩 -> 16개 GPU 다이 / 36대 트레이 = 16 x 36 = 576
그래서, 다시 GB300 NVL72와 비교해 보면 아래 표와 같다.
항목 | GB300 NVL72 | Rubin Ultra NVL576 |
---|---|---|
출시 시기 | 2025년 하반기 | 2027년 하반기 |
GPU 아키텍처 | Blackwell Ultra (B300) | Rubin Ultra (R300) |
GPU 수량 | 72개(Rubin 계산식이면 144개) | 576개 |
GPU 칩 당 GPU 다이 수 | 2개 | 4개(2배) |
FP4 추론 성능 | 1.1 EF | 15 EF(14배) |
HBM 메모리 | HBM3E 40TB | HBM4E 365TB(8배) |
NVLink 대역폭 | NVLink 5 130TB/s | NVLink 7 1.5PB/s (12배) |
NIC (네트워크) | NVIDIA CX8 14.4TB | NVIDIA CX9 115.2TB/s(8배) |
※ EF : exaFLOPS = 1초에 1,000 petaFLOPS 연산 수행
Rubin Ultra NVL576의 가장 큰 특징은 1개의 GPU 칩에 집적한 GPU 다이가 2개에서 4개로 늘어났고, 컴퓨트 트레이가 가로가 아닌 세로로, 블레이드 형태로 꽂히게 바뀌어 기존보다 2배 더 많은 트레이를 장착할 수 있는 랙이라는 것이 아닐까 싶다. GB300 NVL72도 엄청났는데 Vera Rubin에 이어 Rubin Ultra까지, 1년 마다 성장 폭이 너무 큰 것 아닌가 라는 생각도 든다. 그런데, 이렇게 성장해야 하는 이유는, 다들 잘 알거다. AI의 발전 속도가 너무도 빠르기 때문이다. 그럼, 비용은 어떡하지? 엄청나게 증가하는 것 아닐까?

위 이미지를 보면 Hopper의 성능을 1로 봤을 때 Blackwell은 68, Rubin은 900이다. 그런데 비용은? Hopper가 1일때 Blackwell은 0.13, Rubin은 0.03밖에 안된다. 더 높은 성능을 발휘하는 데에 들어가는 비용을 어마어마하게 아낀 것. 이렇게 비용을 절약할 수 있는 요인은 효율화이고, 그 효율화를 NVIDIA는 스케일 업 방식에서 찾았다.
생각해 보자. AI 인프라에 소요되는 전력량은 엄청나게 많다. 그리고 엄청난 열을 식히기 위해 많은 냉각 시설도 필요할테지. 인프라 규모가 거대해 질 수록 수냉도 필수가 될거다. 그런데, 인프라가 많아질 수록 차지하는 상면 공간도 늘어나니, 전력과 냉각 비용은 곱절로 계속 늘어날 것. AI 팩토리 운영 효율화에 스케일 아웃은 답이 아니라는 거다.
그래서 NVIDIA는 먼저 스케일 업, 시스템을 더욱 고밀도로 효율화하는 방식을 택했다. 이렇게 스케일 업을 충분히 한 다음에 스케일 아웃을 하면 성능과 비용을 모두 잡을 수 있지 않을까? 시스템 당 몇십억 짜리에 가성비를 논하는 것은 좀 웃기지만, Vera Rubin, Rubin Ultra로 진화하면서 실제로 가성비가 좋아지고 있는 것은 사실이니까 말이다.

여기서 우리가 주목해야 할 것은, 단순히 AI의 발전에 따라 그에 따른 AI 인프라도 함께 발전해 나가고 있다는 사실 그 자체만은 아니다. 이런 인프라 발전의 더 큰 의미는 NVIDIA가 AI 인프라의 로드맵을 매년 예고형으로 발표하고 있다는 점이 아닐까? 2022년 Hopper -> 2024년 Blackwell -> 2025년 Blackwell Ultra -> 2026년 Rubin -> 2027년 Rubin Ultra -> 2028년은 아직 공개하지 않은 Feyman이다. 아마 내년 GTC 2026에서 자세히 발표할 듯 싶다.
이렇게 NVIDIA는 1년 단위의 로드맵 계획을 선제적으로 공표함으로써 이런 메시지를 내고 있는 게 아닐까? “AI가 얼마나 발전하든 다 우리 손 안에 있으니까, 인프라는 걱정하지 말고 AI 모델 고도화에만 힘써주렴” 덕분에 기업도 자신들의 AI 인프라 투자 계획을 세울 때 좀 더 확신을 가지고 과감하게 투자할 수 있을 것이다. 예측 가능한 로드맵이 있으니까.
그런데, NVIDIA는 여기서 멈추지 않는다. 이러한 거대한 AI 인프라를 실제 어떻게 써먹을 수 있는지도 제시했는데, 가상 세계와 현실 세계를 유기적으로 연결하는 플랫폼에 대한 이야기다. 본인은 사실 NVIDIA가 진짜 하고 싶은 것은 이것인 것 같다고 지난 GTC 2024 리뷰 글에서도 밝혔었다. 어떤 내용인지 다음 글에서 자세히 살펴보자.
끝!