Intel AI GPU #1 : Intel은 왜 AI GPU 시장에서 주목받지 못했을까?

지난 글 말미에, AI는 CPU만으로는 한계가 명확하다는 것을 언급했었다. 결국 CPU는 순차처리에 강하다는 것이 핵심이라는 것, 기억할거다. 그래서 이번 글에서는 AI의 핵심 부품, GPU에 대해 알아보려 한다. 그 중에서도 Intel AI GPU에 대해 집중적으로 파헤처보겠다.

Intel은 컨슈머 시장에서 오랫동안 줄곧 CPU 비즈니스만 해왔고 GPU는 CPU에 탑재한 내장 그래픽 정도만 있었다. NVIDIA와 AMD가 치열하게 경쟁했던 GPU 시장을 Intel은 크게 관심을 두지 않았었지만, CPU 시장에서의 Intel의 위세는 실로 엄청났다고 할 수 있다. 반면 컨슈머 시장의 GPU, 게이밍 GPU 시장에서 2010년대 후반 NVIDIA GTX 10 시리즈 출시 이후 Intel과 AMD는 영 힘을 못썼다. 그리고 지금까지도 게이밍 GPU 시장에서 NVIDIA는 독주나 다름없는 1강 체제를 공고히 다져왔다.

NVIDIA의 성장세가 어마어마하다
<이미지 출처: https://www.downtownjoshbrown.com>

이러한 NVIDIA의 위세는 데이터센터 GPU 시장까지 이어지고 있다. 일찌감치 NVIDIA Tesla GPU로 서버용 GPU 시장을 개척해왔던 NVIDIA는 2023년 ChatGPT를 필두로 한 생성형 AI, LLM의 붐으로 이제 기업 가치가 전 세계에서 가장 높은 수준의 기업으로 성장한 것이다. OpenAI가 열어젖힌 AI 시장을 NVIDIA가 다 먹어버릴 기세다.​

자고로 바다에 물고기가 가득하면 금새 소문이 나서 낚시꾼은 물론이요 그물망을 갖춘 통통배들도 전국에서 몰려들기 십상이다. 이렇게 물반 고기반인 것 처럼 보이는 AI 인프라 시장에 AMD가 먼저 NVIDIA에 도전장을 내밀었고, Intel도 경쟁에 합세하는 모양새로 보인다. 그래서 이번 글을 포함해 앞으로 총 3회에 걸쳐 Intel이 어떻게 AI 가속기 시장에 뛰어들었는지, Intel의 AI 가속기는 어느 정도 수준이고, 과연 경쟁에서 살아남을 수 있을 지 가늠해 보자.


ChatGPT가 쏘아올린 공은 매우 크다
<이미지 출처: Shearwater, Unlocking the Potential of AI and ML in Shaping the Future of Work>

ChatGPT가 쏘아올린 너무나도 큰 공으로 인해 작년부터 모든 IT 이슈는 AI가 죄다 빨아드리고 있는 형국이다. 이에 맞물려 AI에 대한 기업들의 관심이 폭발적으로 증가하면서, AI 기반 워크로드를 원활하게 처리할 수 있는 데이터센터가 요구되고 있다. 과거 오랫동안 데이터센터는 대규모 데이터를 안정적으로 처리하는 데에 집중해 왔다면, AI 시대의 데이터센터는 이전과는 비교도 할 수 없을 만큼의 엄청난 데이터를 매우 빠르게 처리할 수 있는 역량을 필요로 한다. 많은 데이터를 빨리 학습하는 것이 AI의 경쟁력을 가르는 열쇠이기 때문이다.​

이런 상황에서 주목받은 것이 데이터센터 GPU, AI 가속기다. AI의 학습과 추론을 도와준다, 가속시켜준다고 해서 이런 데이터센터 GPU를 AI 가속기라고 부른다. 그런데, 문제가 발생했다. CPU 보다 병렬 처리에 강점이 있는 GPU를 탑재한, 소위 GPU 서버들이 데이터센터에 입점하게 됐고, 그러면서 이전에는 생각지도 못했던 문제들이 하나 둘 씩 드러나고 있는 것이다. 대표적인 문제점이 GPU의 높은 가격으로 인한 너무나도 비싼 구축 비용, 그리고 CPU보다 배 이상 높은 전력을 소비하는 GPU가 서버 한 대에 몇장 씩 장착되고, 아예 8장씩 꽂아서 사용하는 AI 가속기의 등장에 데이터센터의 전력이 부족해 진 것이 새로운 문제로 떠오르고 있다.

NVIDIA가 만든 삽을 빅테크 기업들이 사서 AI 금광을 캐러 가고 있다
<이미지 출처: Secret sauce investing, Nvidia and the AI Landscape>

하지만, 그럼에도 불구하고 AI라는 거대한 파도는 거스를 수 없는 대세가 되었다. 그래서 NVIDIA는 전 세계의 기업과 개인들에게 컴퓨팅 자원과 저장 공간, 나아가 AI 기반 서비스를 제공하려는 OpenAI, Meta, AWS, Microsoft, Google과 같은 통칭 하이퍼스케일러들에게 AI 광산에서 빠르게 좋은 AI를 캐낼 수 있는 AI 전용 삽을 대량으로 공급해 오고 있다는 것은 독자 여러분도 잘 알고 있는 사실이다. 그리고 Intel도 이 AI 광산에 딱 알맞은 또 하나의 삽을 들고 빅테크 기업들에게 구애를 보내고 있는데, 그럼, Intel은 어떻게 이 AI 삽을, AI 가속기를 만들게 된 걸까?


Habana Labs 창업자
<이미지 출처: Intel, Intel Acquires Artificial Intelligence Chipmaker Habana Labs>

Intel은 2019년 AI 하드웨어 전문 기업인 이스라엘의 Habana Labs를 인수하며 AI 가속기 시장에 본격적으로 진입했다. 사실 Intel의 AI 시장 진출은 이보다 몇년 전인 2016년 8월로 거슬러 올라간다. 당시 미국에서 가장 핫한 AI 반도체 기업인 Nervana Systems를 인수해 자사의 AI 부서로 편입시키고, 이후 2019년에 AI 학습 및 추론 전용 반도체인 Nervana NNP(Neural Network Processors)를 발표한 것이다. 

그런데 이 NNP의 성능이 Intel의 기대만큼은 아니었던 것인지, 아니면 시장의 반응이 그다지 좋지 않았던 것인지는 확실치 않지만, Intel은 돌연 2019년 12월에 Habana Labs의 인수를 발표하고, 이듬해 2020년 2월, Nervana NNP 개발을 중단하겠다고 발표한다. Habana Labs의 AI 학습 및 추론을 위한 AI 가속기인 Gaudi(가우디)의 성능이 그만큼 뛰어났기에, 차라리 이쪽에 집중하는 것이 낫겠다라고 판단한 것이 아닌가 싶다만, 어찌됐든 Intel은 미래의 AI 인프라는 NNP가 아닌 GPU 중심이 되는 쪽으로 배팅한 모양새다.

이 Habana Labs가 가진 Gaudi의 핵심 기술은 Tensor Processing Core(TPC)로, NVIDIA나 AMD가 만들어왔던 범용 GPU와는 다른 접근 방식을 취하고 있다. 어떤 차이가 있냐면,

  • AI에 특화된 연산 구조를 가졌다

TPC는 범용 GPU와 달리 AI 학습 및 추론에 최적화된 연산 아키텍처를 기반으로 설계되었다. 그래서 행렬 연산(MATOPS)을 가속, 빨리 처리해 주며, 딥러닝 모델 학습과 추론에서 효율성을 높이는 데에 중점을 둔 아키텍처라고 할 수 있다.

  • 저전력 고효율 설계다

NVIDIA, AMD의 범용 GPU가 고정밀도 연산(FP32, FP64)을 주로 지원하는 반면, Gaudi의 TPC는 AI 워크로드에 보다 적합하다고 평가받는 저정밀도 연산(FP16, BF16)을 활용하여 전력 소모를 줄이고 성능 효율성을 높이는 쪽으로 설계되었다.

Gaudi vs V100 ResNet-50 성능
<이미지 출처: TechCrunch, Habana Labs launches its Gaudi AI training processor>

이러한 특징을 가지고 있는 Gaudi는 당시 NVIDIA의 데이터센터 GPU인 V100보다 AI 성능이 3.8배나 높다고 발표했다. GPU 당 성능이 3.8배 높다는 것은 아니다. 위 표를 보면 NVIDIA V100의 경우 프로세서의 수가 늘어나는 것 만큼 초당 이미지 학습량이 비례해서 증가하지 않는 반면, Gaudi는 선형적으로 쭉쭉 늘어나서 프로세서 수가 650개 정도 되었을 때의 학습량이 3.8배 정도 벌어진 것을 확인할 수 있다. 

당시 Habana Labs측의 주장에 따르면, NVIDIA GPU는 다수의 GPU를 연결하기 위해 NVLink라는 고유의 인터커넥트 기술을 사용했는데, GPU가 16개를 넘어가는 순간부터 병목 현상이 생겨 성능이 생각보다 늘어나지 않는다고 한다. 하지만 Gaudi는 표준 이더넷 프로토콜 기반 RoCE v2 규격의 NIC를 장착했다. 그래서 100G 이더넷 스위치로 128개의 가우디를 연결해도 병목 현상이 없는 하나의 거대한 AI 인프라를 구축할 수 있다고 주장한 것이다. 어찌됐든 설계상의 이점을 통해 성능 병목을 제거, NVIDIA V100보다 동일 프로세서 기준 3.8배에 달하는 이미지 학습량을 달성했다는 것이 Habana Labs의 발표였다.

Gaudi 2 vs NVIDIA A100 MLPERT ResNet-50 학습 시간
Gaudi 2 vs NVIDIA A100 MLPERT BERT 학습 시간
<이미지 출처: Intel, Intel Newsroom / Second-Gen Habana Gaudi2 Outperforms Nvidia A100>

그리고, 2022년 5월에 등장한 Intel Gaudi 2 역시 위와 같이 8개의 가속기로 구성한 AI 인프라에서의 ResNET-50 이미지 학습 시간과 Transformer 모델 기반의 NLP(자연어) 처리 모델인 BERT 학습 시간에서 모두 당시 NVIDIA의 최상위 데이터센터 GPU인 A100을 제쳤다. 이쯤 되면 한 가지 의문이 생긴다. Gaudi 2의 성능이 이렇게나 뛰어난데, 그럼 왜 Gaudi 2는 주목을 받지 못했던 것일까? 사실 소보로빵도 작년에 처음 Gaudi라는 AI 가속기를 접했다. 그럼, 왜 대중들은 AI 가속기 하면 NVIDIA를 떠올리고 Intel Gaudi는 잘 알지 못했던 걸까? 


ChatGPT 덕분에 널리 알려진 LLM
<이미지 출처: Forbes, What Does ChatGPT Really Mean For Businesses?>

2022년 11월 30일, 듣도 보도 못한 신생 회사에서 발표한 챗봇 하나가 전 세계를 들썩이게 만들었다. 바로 OpenAI의 ChatGPT인데, 이 챗봇은 OpenAI가 개발한 GPT(Generative Pre-trained Transformer)라는 언어 모델을 기반으로 동작하는 챗봇으로, 기존의 그 어떤 챗봇보다 뛰어난 성능을 보여줬다. 개똥같이 말해도 찰떡같이 알아듣고 척척 대답해주는 ChatGPT의 신통방통한 성능 덕분에 대중의 관심은 온통 ChatGPT와 GPT 모델로 이어진 것이다.

사실 GPT 모델은 2017년 Google이 발표한 Transformer 딥러닝 아키텍처를 뿌리로 두고 있다. 이 Transformer 모델에서 파생된 BERT와 GPT는 둘 다 언어 모델이지만, 성격이 좀 다르다. BERT(Bidirectional Encoder Representations from Transformers)는 양방향으로 문맥을 이해하는 데 강점이 있어 자연어 분석, 감정 분석 등에 주로 활용된다. 반면, GPT(Generative Pre-trained Transformer)는 자동 회귀 방식으로 텍스트를 생성하는 데 특화되어 있다. 그래서 ChatGPT와 같은 모델을 생성형 AI라고 부르는 것이다. ChatGPT의 등장 이후, 대중의 관심은 자연스럽게 GPT 모델과 LLM(Large Language Model)으로 쏠렸다.

LLM은 얼마나 거대한 모델일까?
<이미지 출처: Microsoft Open Source, Large Language Model (LLM)>

그리고 OpenAI가 개발한 GPT는 통칭 LLM(Large Language Model)이라고 불리우는, 수천억 개의 파라미터를 학습해야 하는 모델이다. 이렇게 많은 수의 파라미터를, 데이터를 학습하기 위해 중요한 것이 바로 메모리 용량인데, OpenAI가 ChatGPT를 처음 출시했을 당시 사용된 모델은 GPT-3.5다. GPT 3.5는 OpenAI가 2020년 6월에 1,750억개의 파라미터로 구성된 언어모델인 GPT-3를 파인튜닝한 모델로 알려져있으며, 2022년 11월 오픈베타를 시작한 ChatGPT에 적용되었다. 여기서 1,750억개라는 숫자에 주목하자. GPT의 이름은 Generative Pre-trained Transformer다. 사전 학습된 생성형 트랜스포머라고 할 수 있다. 사전에 데이터를 학습하고, 그 결과를 토대로 새로운 데이터를 생성해 내는 모델인 것인데, 1,750억개나 되는 데이터를 학습했다는 의미다. 

OpenAI가 개발한 GPT 모델은 수천억 개의 파라미터로 구성된 대규모 언어 모델로, 파라미터의 수가 많다는 것은 그만큼 많은 데이터를 학습할 수 있는 역량을 갖췄다라고 이해할 수 있다. 파라미터는 마치 뇌의 신경망과 같은 역할을 하는데, 파라미터의 수가 많으면 모델이 거대하다는 의미가 되고, 모델이 거대하다는 것은 그만큼 많은 데이터를 학습할 수 있다는 의미가 된다. 따라서, 일반적으로 파라미터 수가 많은 모델일 수록 많은 데이터를 학습해 보다 똑똑할 가능성이 높은 것이다. 하지만 무조건 파라미터 수가 많다고 좋은 것은 아니다. 중요한 것은 좋은 데이터를 잘 학습해야 하는 것.

SK 하이닉스의 자랑, HBM
<이미지 출처: SK하이닉스, SK하이닉스 뉴스룸>

일단 파라미터 수가 많은 거대 모델의 경우 이를 수용할 수 있는 많은 메모리 용량이 필요하다. 파라미터를 AI 모델이 학습하려면 데이터를 메모리에 올려야 한다. 그리고 메모리 용량이 많으면 한 번에 학습할 수 있는 데이터의 양도 그만큼 늘어나게 된다. 메모리 용량이 많다 = 한번에 많은 데이터를 학습할 수 있다 = 대량의 데이터 학습 시간을 줄일 수 있다 라는 것이다.

그럼 여기서 NVIDIA A100과 당시 경쟁하던 Intel Gaudi 2의 메모리 사양을 확인해 보자. NVIDIA A100은 HBM2e 80GB를, Intel Gaudi 2 역시 HBM2e를 96GB나 장착했다. Intel Gaudi 2의 메모리 용량이 16GB나 더 많다. 그럼 GPT와 같은 LLM 학습에는 Intel Gaudi 2가 더 유리할텐데, 하지만 OpenAI는 GPT 학습에 NVIDIA A100을 선택했다. 정확한 수가 공개되지 않았지만, 수량이 1만대는 훨씬 넘고 2만대에 육박한다는 추정도 있었다. 그럼, OpenAI는 왜 메모리 용량이 더 많은 Intel Gaudi 2를 배제하고 NVIDIA A100을 선택했을까? 여러가지 이유가 있겠지만, 소보로빵은 NVIDIA CUDA의 영향이 크다고 본다.


NVIDIA는 CUDA 교육에 일찍부터 집중했다
<이미지 출처: NVIDIA, NVIDIA Deep Learning Institute>

CUDA(Compute Unified Device Architecture)는 NVIDIA가 개발한 GPU 병렬 처리 연산을 지원하는 소프트웨어 플랫폼으로, C, C++ 같은 범용 프로그래밍 언어를 사용해 GPU를 딥러닝, AI 연구, 과학 연산 등 다양한 분야에서 활용할 수 있도록 지원한다. 이 CUDA 덕분에 GPU가 GPGPU(General-Purpse computing on Graphic Processing Unit)가 될 수 있었다.

즉, AI 학습 및 추론에 GPU를 사용해 병렬 처리를 할 수 있는 길을 CUDA가 열어준 것이다. NVIDIA는 CUDA를 2007년에 발표한 이후 꾸준히 발전시켜 왔는데, 미국의 주요 대학 CS(Computer Science) 학과에서도 CUDA를 활용한 병렬 프로그래밍 과목을 개설하도록 적극적으로 지원했다고 알려져 있다.

 

TensorFlow의 GPU 지원 페이지, NVIDIA CUDA가 기본 사항이다.
<이미지 출처: TensorFlow, GPU 지원 페이지>

그런데, 현재 AI 개발자들은 주로 TensorFlow나 PyTorch와 같은 프레임워크를 사용하여 개발한다. 이들 프레임워크는 기본적으로 NVIDIA GPU를 지원하며, NVIDIA GPU를 활용하려면 CUDA Toolkit을 설치해야 한다. 심지어 프레임워크 설치 시 기본값으로 권장되고 있다.(TensorFlow 설치 가이드 참고) 이렇게 TensorFlow 및 PyTorch와 같은 프레임워크는 CUDA를 통해 NVIDIA GPU를 활용해서 AI 연산을 가속화할 수 있어 AI 개발에 NVIDIA GPU와 CUDA가 주요 선택지로 자리 잡게 되었다.

물론, OpenCL과 같은 오픈소스 플랫폼, AMD의 ROCm, Intel의 HabanaLabs에서 제공하는 SynapseAI와 같이 NVIDIA GPU가 아닌 다른 AI 가속기를 사용할 수 있도록 지원하는 대안들도 존재한다. AI 개발에 반드시 NVIDIA GPU를 활용하지 않아도 된다는 것이다. 하지만, 현재까지 CUDA의 비중이 가장 높은 것을 넘어 거의 절대적이라는 것은 부정할 수 없다.​

그리고, 앞서 언급했던 ChatGPT가 NVIDIA A100로 학습했다는 사실이 밝혀지면서 LLM에는 NVIDIA GPU가 필수다 라는 인식이 퍼졌다. 그래서 ChatGPT와 경쟁하기 위한 LLM을 개발하려는 하이퍼스케일러들을 비롯해 다양한 AI 테크 기업들은 앞다투어 NVIDIA GPU를 사들였다. ChatGPT로 촉발된 LLM에 대한 대중의 높은 관심, 그리고 NVIDIA가 CUDA에 오랜 기간 투자해 온 결실이 맺어져 현재와 같은 AI 가속기 시장에서 NVIDIA의 독주 상태가 완성된 것이라고 할 수 있다.

다음 글에서는 Intel의 최신 AI 가속기, Gaudi 3의 특징과 사양을 중심으로, 과연 Gaudi 3가 NVIDIA GPU와 비교해서 어느 정도의 경쟁력을 갖췄는지 따져보겠다.

끝!

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다