AntStreet+2.46%
KOSPI6,615.03 2.15%
KOSDAQ1,226.18 1.86%
KOSPI200995.33 2.41%
USD/KRW1,475.60
S&P 500713.94 0.77%
NASDAQ663.88 1.91%
DOW492.21 0.16%
BTC/KRW115,570,000 0.93%

TPU vs GPU (구글 vs 엔비디아)

선반영2026-04-23조회 0좋아요 0
ALPHABET INCGOOGNAS매수
+1.90%
작성가
335.95
현재가
342.32
목표가
1,000
PER
31.1
PBR
9.78
EPS
11
Semiconductor · AI Infrastructure

TPU 해부학 — 구글이 GPU 대신 선택한 길, 그리고 한국 메모리의 자리

2026년 4월, 구글이 7세대 TPU '아이언우드(Ironwood)'를 외부 고객에게 정식으로 공급하기 시작했다. 칩 한 장의 성능만 놓고 보면 엔비디아의 최신 B200과 거의 비슷하다. 하지만 TPU와 GPU는 처음부터 다른 목표로 만들어진 칩이다. 이 글은 그 차이가 무엇이고, 왜 결국 삼성과 SK하이닉스 이야기로 이어지는지에 대한 정리다.

1. TPU는 GPU가 아니다 — 조립 라인처럼 설계된 칩

엔비디아 GPU 안에는 연산을 담당하는 '코어'가 수천 개 들어 있다. 각 코어가 서로 다른 일을 받아서 한꺼번에 처리한다. 그래서 유연하다. 게임 그래픽, 과학 계산, AI 학습까지 뭐든 다 돌릴 수 있다.

TPU는 설계 철학이 다르다. 마치 공장 조립 라인처럼, 계산기들을 256×256 크기의 격자로 쫙 깔아놓았다. 데이터가 위에서 아래로, 왼쪽에서 오른쪽으로 흘러가면 격자 위의 모든 계산기가 동시에 곱하고 더한다. 이 구조를 '시스톨릭 어레이(Systolic Array)'라고 부른다. 딥러닝의 본질은 결국 어마어마한 양의 곱셈과 덧셈이다. TPU는 이 한 가지 일에만 집중하도록 만들어졌다.

입력 데이터 가중치 결과값 실제 아이언우드는 256×256 격자 — 한 번에 6만 5천여 개의 계산을 동시에 처리

결과는 분명하다. GPU는 뭐든 할 수 있지만 AI 작업에 가장 알뜰하지는 않다. TPU는 AI 작업만 잘하지만, 그 안에서는 같은 전기로 훨씬 많은 계산을 뽑아낸다. 아이언우드는 직전 세대 '트릴리움' 대비 두 배, 초창기 TPU 대비 약 서른 배 효율이 좋아졌다.

아이언우드 (TPU v7) 주요 스펙

  • 연산 성능: 4.6 PFLOPS / 칩 (엔비디아 B200과 비슷)
  • 메모리(HBM): 192 GB (HBM3E 8 스택), 대역폭 초당 7.37 TB
  • 한 덩어리 최대 규모: 9,216개 칩 연결, 총 42.5 ExaFLOPS
  • 칩 간 연결 속도: 초당 9.6 Tb (양방향)
  • 제조: TSMC · 설계 파트너는 브로드컴(Broadcom)

2. 진짜 해자는 소프트웨어 — CUDA와 XLA 사이

하드웨어 차이보다 더 무거운 건 소프트웨어 생태계다.

엔비디아의 진짜 무기는 'CUDA'라는 소프트웨어 플랫폼이다. 전 세계 AI 연구자들이 쓰는 거의 모든 개발 도구(파이토치, 텐서플로우 등)가 CUDA 위에서 자연스럽게 돌아간다. 연구자, 문서, 사례가 전부 엔비디아 기준으로 쌓여 있다. 이게 엔비디아의 진짜 해자다.

TPU는 다르다. 구글이 만든 'XLA'라는 번역기를 거쳐야 돌아간다. 구글이 밀어온 개발 도구(JAX, 텐서플로우)에서는 편하지만, 가장 많이 쓰이는 파이토치에서는 별도로 다리를 놓아야 한다. 연구자가 실험적으로 이리저리 바꿔 쓰기도 불편하다. 모든 코드를 미리 다 짜서 번역기에 넣어야 한다.

요약하면, TPU의 효율은 '구글 생태계 안에서의 효율'이다. 바깥에서는 배우기도, 쓰기도 어렵다. 앤트로픽(Claude 만드는 회사)처럼 구글 출신 엔지니어가 많은 곳만 TPU를 제대로 활용한다. 구글이 지금까지 TPU를 자기 클라우드에서만 빌려줬던 이유이기도 하다. 칩만 덜렁 팔아서는 살 사람이 없다.

3. 규모의 경제학 — 9,216개 vs 72개

칩 한 장씩 비교하면 아이언우드와 B200은 거의 비슷하다. 계산 능력도, 탑재 메모리도 비슷하다(둘 다 192GB).

진짜 차이는 "몇 개의 칩을 하나의 덩어리로 묶을 수 있는가"에서 드러난다. 엔비디아의 최신 시스템인 NVL72는 GPU 72개를 한 덩어리로 묶는다. 구글의 아이언우드는 칩 9,216개를 한 덩어리로 묶는다. 128배 차이다.

엔비디아 GB200 NVL72 72 칩 한 덩어리의 한계 ×128 단일 덩어리 기준 구글 아이언우드 슈퍼팟 9,216 칩 한 덩어리로 묶임

GPT나 클로드 같은 거대 AI 모델을 훈련할 때는 이 차이가 결정적이다. 엔비디아 시스템 118대를 억지로 이어 붙여야 아이언우드 한 덩어리와 비슷해진다. 반도체 분석 기관 세미애널리시스(SemiAnalysis)에 따르면, 이 구조 덕분에 아이언우드의 총 운영비용이 엔비디아 GB200보다 약 44% 저렴하다. 외부 고객이 빌려 쓸 때도 30% 안팎 싸다.

앤트로픽이 TPU 100만 대를 계약한 이유가 여기에 있다(40만 대는 직접 구매, 60만 대는 구글 클라우드에서 임대). 브랜드 선호가 아니라 비용 계산의 문제다.

4. HBM — 한국 메모리가 필연적으로 걸리는 지점

TPU 칩 한 장에는 고성능 메모리(HBM)가 8개 붙어 있다. 구글이 TPU를 많이 찍어낼수록 HBM 수요도 비례해서 늘어난다는 뜻이다.

아이언우드 패키지 — HBM 8개 배치 HBM HBM HBM HBM 연산 칩 1 96 GB HBM 담당 연산 칩 2 96 GB HBM 담당 HBM HBM HBM HBM 칩 1장당 HBM 8개 × 2026년 예상 출하 430만대 = 거대한 메모리 수요

구글은 2026년에 TPU 430만 대, 2028년에는 3,500만 대 이상을 찍어낼 계획이다. 2026년 투자 예산만 2025년의 두 배, 최대 1,850억 달러다. 이 엄청난 양의 TPU에 모두 HBM이 붙어야 한다. 그리고 그 HBM의 대부분을 한국의 두 회사가 만든다.

2025~2026 구글 TPU향 HBM 공급 구도

  • 삼성전자 · 구글이 쓰는 HBM의 60% 이상을 공급 중. 차세대 HBM4 평가도 통과해 2026년 8세대 TPU에서는 더 큰 비중을 차지할 전망.
  • SK하이닉스 · 엔비디아 쪽 주력 공급사 자리를 지키는 중. 구글향은 상반기 위주로 공급하고 하반기엔 삼성에 자리를 내줌.
  • 마이크론 · 생산 용량이 한국 두 회사의 3분의 1 수준. 엔비디아 물량 대느라 여력이 부족.

그림이 깔끔해진다. SK하이닉스는 엔비디아 라인을 지키고, 삼성은 엔비디아 경쟁에서 밀린 자리를 TPU라는 뒷문으로 되찾고 있다. 엔비디아 한 곳에만 쏠려 있던 AI 메모리 수요가, 구글 TPU가 커지면서 두 축으로 갈라지는 중이다.

5. 투자자가 읽어야 할 것

그럼 TPU가 GPU를 대체할까? 그건 아니다. TPU는 엔비디아를 밀어내는 칩이 아니라, 엔비디아의 독주를 "같이 달리는 두 번째 주자"로 바꾸는 칩이다. 엔비디아의 90%대 시장 점유율이 당장 흔들리지는 않을 것이다. 하지만 구글, 아마존 같은 거대 클라우드 업체들이 자기들만의 전용 칩을 쓰기 시작한 흐름은 이미 되돌리기 어렵다.

이 흐름의 수혜자는 세 층이다. 첫째, TPU를 함께 설계해주는 회사들(브로드컴, 미디어텍, 협의 중인 마벨). 둘째, 칩을 실제로 찍어내는 TSMC. 셋째, HBM을 공급하는 한국 메모리 기업들. 한국 투자자가 국내에서 직접 베팅할 수 있는 건 마지막 하나뿐이다.

리스크도 솔직히 적어둔다. 구글은 아이언우드 발표와 함께 자체 메모리 칩을 설계하기 시작했다고 밝혔다. 언제 나올지, 어디서 만들지는 아직 공개되지 않았다. 당장의 위협은 아니지만, 장기적으로 메모리 3사(삼성·하이닉스·마이크론)의 과점 구조를 흔들 수 있는 씨앗은 심어진 셈이다.

엔비디아 이야기만 반복되던 AI 반도체 판에 이제 축이 하나 더 생겼다. 아이언우드는 이번 달 외부 공급이 시작됐고, 다음 세대 TPU는 2027년 TSMC의 최신 2나노 공정에서 나온다. 시계는 이미 돌아가고 있다.

댓글 0

댓글이 없습니다