지난 글에서 NVIDIA GB200 슈퍼칩 기반의 시스템들은 어떤 것들이 있고 성능은 어느 정도인지 대략적으로 살펴봤다. 그런데, 사실 지난 세대 아키텍처인 Hopper 기반 GPU를 탑재한 HGX H100이나 DGX H100도 엄청난 성능의 서버들이고, Blackwell 아키텍처 기반의 DGX B200, GB200 NVL72 더 엄청난 성능을 자랑한다. 여기서 한 가지 궁금증이 생긴다. ‘이렇게까지 NVIDIA가 GPU 성능 업그레이드에 목매는 이유가 있어? 이런 엄청난 성능이 진짜 필요하긴 한거야?’ 라는 궁금증 말이다. 그래서 이번 글에서는 왜 NVIDIA가 이렇게까지 GPU 기반 AI 인프라 성능 향상에 집중하는지, 생성형 AI 시대를 위해 NVIDIA가 준비하고 있는 것들은 무엇인지 살펴보자.
생성형 AI 시대에는 더 거대한 인프라가 필수다
생성형 AI에 필요한 컴퓨팅 자원이 급격하게 증가하고 있다고?
위 이미지는 GTC 2024 키노트 세션 초반에 젠슨 황 CEO가 화면에 띄운 차트다. 2012년 AlexNet이라는 딥러닝 네트워크가 발표된 후 많은 AI 모델들이 지속적으로 발표되었는데, 이 모델들을 훈련시키기 위해 요구되는 컴퓨팅 자원도 지속적으로 증가했다. 하지만 그 증가폭은 제법 완만한 편이었다.
그런데 2017년에 발표된 Google의 트랜스포머 모델이 판을 완전히 바꿔버렸다. 문장 속 단어와 같은 순차 데이터의 관계를 추적해 맥락과 의미를 학습하는 신경망 모델인 트랜스포머 모델은 자연어 처리에 최적화 된 모델인데, 이 모델을 기반으로 GPT-1, GPT-2, 그리고 2022년 11월 세상을 놀라게 한 GPT-3 기반의 ChatGPT가 탄생했다. 위 이미지의 녹색 그래프를 보면, 트랜스포머 모델 이후로 AI 훈련에 요구되는 컴퓨팅 자원이 가파르게 증가했다. 즉, 컴퓨팅 자원만 받쳐준다면 AI의 성능이 폭발적으로 성장할 수 있다는 것.
차세대 아키텍처 주기는 이제 겨우 1년, 그만큼 생성형 AI 발전 속도가 빠르다는 방증이다

그래서 NVIDIA는 Ampere 아키텍처 이후 2년 텀으로 발표하려 했던 새로운 GPU 아키텍처 발표 시기를 앞당긴 것 같다. 작년 말에 공개된 NVIDIA의 데이터센터 GPU 로드맵을 보면 2022년 말 Hopper 아키텍처가 발표되고 2023년에 H100 GPU가 출시되었는데, 2024년 초에 Blackwell 아키텍처가 발표되고 올해 말 출시를 앞두고 있는 것을 알 수 있다. 그리고 내년에 다시 1년만에 새로운 아키텍처를 발표할 것이라고 예고한 것이 주목된다. 게다가 GPU 뿐만 아니라 다수의 GPU를 고속으로 연결할 네트워크 인프라도 2배씩 성능이 향상될 것이라고 한다.
사실 Blackwell GPU는 이전 세대인 Hopper GPU와 동일한 4nm 공정으로 제조되었다. 물론 Hopper GPU의 TSMC N4 공정보다 Blackwell GPU의 TSMC N4P 공정이 6% 높은 성능을 보인다고 하는데, TSMC의 3nm 공정인 N3 최신 공정은 아니다. 즉, GPU 칩을 제조하는 미세 공정에 있어 큰 변화는 없지만, GPU 다이를 2개 연결하고 GPU 간 병목 현상을 줄이기 위해 네트워크 단에 더 집중하는 것으로 이번 Blackwell 아키텍처를 설계한 것이 아닌가 하는 생각이 든다. 비슷한 성능을 내는 다이를 2개 집적하고, 네트워크 대역폭을 크게 향상시켜 GPU 성능을 끌어올린 것.
NVIDIA가 이렇게 AI 인프라 성능 향상에 목매는 이유는 하나다. 이미 쟁취한 패권을 더욱 공고히 다지겠다는 것. 다른 후발 주자들이 감히 따라잡겠다는 의지마저 꺾겠다는 자신감이 아닌가 싶다. 물론, 그렇다고 마냥 NVIDIA의 상황이 좋다고만은 할 순 없다. 그 이야기는 다음 글에서 좀 더 다루겠다.
AI 인프라 외에 NVIDIA가 준비하고 있는 것들
AI 대중화를 위한 NVIDIA의 강력한 소프트웨어 생태계, NIM과 Omniverse
지난 글에서 본 것과 같이, GPU 기반 병렬 컴퓨팅 인프라가 계속 발전한다면 생성형 AI의 공장이 되겠다는 NVIDIA의 목표를 달성하기 위한 하드웨어 기반은 마련된 셈이다. 그런데 하드웨어가 마련됐다 하더라도 이 하드웨어를 활용할 소프트웨어가 있어야 강력한 하드웨어가 제대로 빛을 발할 수 있다. NVIDIA 입장에서도 자신들의 하드웨어를 보다 많은 기업들, 연구원들이 사용하기를 바랄테니까 말이다. 그래서 나온 것이 NIM, Nvidia Inference Microservice라고 생각한다.
NIM은 NVIDIA가 자체적으로 그리고 여러 기업들과 협력해서 사전에 검증하고 훈련시킨 AI 모델을 컨테이너에 넣어 어느 인프라에서든 쉽게 가져다가 활용할 수 있는 마이크로서비스다. 기업들이 AI 모델을 스스로 코딩하고, 그 모델에 방대한 데이터를 집어 넣어 훈련시킬 필요 없이, 기업은 이미 NVIDIA가 만들어 놓은 다양한 업종과 분야에서 활용할 수 있는 다수의 AI 모델을 가져다가 사용하면 되는 것. 즉, AI 모델 개발이라는 대단히 높은 산에 손쉽게 올라갈 수 있는 케이블카를 NVIDIA가 설치해서 무료로 운영하고 있다고 봐도 되지 않을까?
NIM으로 AI 기반 서비스 개발의 문턱이 낮아짐으로써 AI 개발의 대중화가 이루어진다면 무슨 일이 벌어질까? 그렇다. AI 모델을 학습하고 추론시킬 AI 인프라가 더 많이 필요해 질 것이다. 그 인프라를 자체 구축할 계획이라면 NVIDIA의 최신 아키텍처 기반 GPU를, 그게 아니라면 NVIDIA DGX Cloud나 CSP가 제공하는 Cloud의 GPU 자원을 활용하면 된다.
CSP(Cloud Service Provider, AWS와 Microsoft, Google 글로벌 Top 3)들도 AI 개발의 대중화에 따른 수요를 흡수하기 위해 NVIDIA로 부터 최신 GPU를 대량으로 구매하고 있는데, 이러한 요인 덕분에 NVIDIA의 주가는 더 올라갈 가능성이 있다고 봐도 되지 않을까? 하지만 이건 지극히 개인적인 의견일 뿐, 투자 권유가 아니라는 것을 참고해 주기 바란다.
그리고 AI의 발전은 디지털 트윈에도 긍정적인 영향을 끼친다. GTC 2024 키노트 세션 중반에 젠슨 황 CEO는 지구를 디지털 트윈하고 싶다는 목표를 이야기 했는데, 사실적인 3D 가상 환경에서 다양한 3D 도구들로 제작한 에셋들을 가져와 마음껏 시뮬레이션할 수 있는 Omniverse라는 솔루션이 생성형 AI와 만나 더욱 발전했다. 이제 Omniverse 사용자들은 시뮬레이션을 위한 환경변수 값을 Omniverse에서 사용되는 고유 언어인 USD(Universal Scene Description)를 사용하지 않고 그냥 영어로, 마치 ChatGPT에 물어보듯 프롬프트에 물어보면 된다.
이 Omniverse는 당연히 NVIDIA GPU 인프라에서만 구동되며, NVIDIA의 GPU 인프라를 구비하지 못한 기업이라면 Microsoft Azure에서 호스팅되어 운영되는 Omniverse Cloud를 이용하면 된다. 기업들이 실제 제품 혹은 건축물을 제작하기 전에 Omniverse Cloud에서 먼저 가상의 환경을 구축하고 검증해 보려는 수요가 늘어난다면? Microsoft는 Azure 데이터센터에 더 많은 NVIDIA의 GPU를 설치할 것으로 예상할 수 있다. 그럼 NVIDIA의 매출도 더욱 늘어날거다. 클라우드에서도 NVIDIA의 입지가 더욱 탄탄해 진다는 얘기다.
NVIDIA가 바라보는 AI 발전의 종착지, 휴머노이드 로봇
만약 AI가 계속 발전해 나간다면, 그 종착지는 어디일까? 인간과 닮은 휴머노이드 로봇이라고 생각한다. NVIDIA도 AI의 미래는 로봇이라고 보고 있는 것인지는 잘 모르겠지만, 키노트 세션의 후반부는 로봇 프로젝트에 대한 내용으로 채워졌다. NVIDIA에 따르면, 위와 같이 AI 모델 훈련은 NVIDIA DGX 인프라에서, 가상 환경에서의 시뮬레이션 및 검증, 테스트는 NVIDIA OVX(Omniverse 기반의 디지털 트윈을 위한 인프라)에서 한 다음, 이렇게 만들어 진 결과물을 NVIDIA AGX라는 로봇에 적용되는 전용 하드웨어 플랫폼에 적용해 스스로 생각하고 행동하는 자율운영 로봇을 만들 수 있다.
그 결과 이런게 가능해 진다. 키노트 세션 마지막을 장식한 이 작은 로봇은 스타워즈 시퀄 시리즈의 마스코트라고 할 수 있는 BB-8을 만들어 낸 디즈니의 작품이다. 물론 아직 영화 속 BB-8 정도는 아니었지만 현재와 같은 발전 속도라면 그렇게 멀지 않은 시일 내에 3PO나 R2D2, BB-8과 같은 똑똑한 로봇을 볼 수 있게 되지 않을까?
이러한 휴머노이드 로봇의 두뇌는 생성형 AI다. 생성형 AI를 만들려면 거대한 컴퓨팅 자원이 필요하고, 보다 많은 사람들이 생성형 AI를 만들고자 한다면 더 많은 컴퓨팅 자원이 필요할 것이다. NVIDIA는 이미 업계에서 가장 강력한 GPU 기반 병렬 컴퓨팅 인프라를 만들었고 계속 발전시켜 나가고 있으며, 생성형 AI 개발 대중화를 위해 NIM과 Omniverse 솔루션을, 그리고 로봇을 위한 범용 AI 모델인 GR00T Foundation Model을 제공하고 있다.
지금까지 GTC 2024 키노트 세션을 정리했다. 핵심 내용만 아주 간단히 요약하면, AI 성능을 끌어올리고 싶어 -> 더 많은 컴퓨팅 자원이 필요해 -> 짜잔! NVIDIA가 더 뛰어난 성능의 GPU를 만들었어요! -> NIM과 Omniverse, GR00T Foundation Model로 생성형 AI 모델 개발의 저변 확대 -> 컴퓨팅 자원 수요 증가 -> NVIDIA가 더 뛰어난 GPU 인프라 개발 이라는 순환 구조가 계속 반복된다는 것이다. 이것이 소보로빵이 생각하는, 생성형 AI 시대에 NVIDIA의 역할이 더욱 중요해 지는 이유다. 사실 이미 많은 분들이 이러한 이유로 NVIDIA가 앞으로도 승승장구할 것이라고 생각하고 있을 것으로 생각된다.
그런데, NVIDIA의 앞날은 마냥 창창하기만 할까? 복병은 없을까? 아직 이렇다할 거대한 움직임은 보이지 않는다만, 조금씩 NVIDIA의 파이를 갉아먹으려는 움직임이 포착되고 있다. 그 이야기를 다음 글에서 만나보자.
끝!