들어가며

AI 모델을 학습시키거나 서빙하려면 결국 GPU가 필요하다. 그리고 2026년 현재, 가장 많이 쓰이는 데이터센터 GPU는 여전히 NVIDIA H100이다. OpenAI, Anthropic, Meta 할 것 없이 주요 AI 연구소 대부분이 H100 클러스터 위에서 LLM을 훈련시킨다.

문제는 가격이다. H100 한 장을 직접 사면 $25,000~$40,000(약 3,400만~5,500만 원). 8장 노드를 구성하면 하드웨어만 $200,000을 훌쩍 넘긴다. 전력, 냉각, 네트워킹, 랙 비용까지 합치면 초기 투자만으로 수억 원이다.

그래서 대부분의 팀은 클라우드에서 H100을 빌려 쓴다. 그런데 같은 H100인데 어디서 빌리느냐에 따라 시간당 비용이 최대 5배 이상 차이난다. 이 글에서는 2026년 4월 기준 H100 클라우드 비용을 프로바이더별로 비교하고, 워크로드 유형별 최적 전략을 정리한다.


1. H100 스펙 요약 — 왜 이 GPU인가

본격적인 비용 비교에 앞서, H100이 왜 표준이 됐는지 간단히 짚고 넘어가자.

NVIDIA H100 SXM5 (80GB)
├─ 아키텍처: Hopper (GH100, 800억 트랜지스터, TSMC 4nm)
├─ VRAM: 80GB HBM3, 3,350 GB/s 대역폭
├─ FP16 성능: 989 TFLOPS
├─ 핵심 기능: Transformer Engine (FP8 자동 전환)
├─ NVLink: 900 GB/s (SXM 버전)
├─ TDP: 700W
└─ A100 대비: 트랜스포머 학습 3~6배 빠름

H100의 핵심은 Transformer Engine이다. FP8과 FP16 사이를 연산 단위로 자동 전환해서, LLM 학습 시 A100 대비 3~6배 처리량 향상을 달성한다. 80GB HBM3 메모리로 FP16 기준 30B급 모델, 4/8bit 양자화 시 70B급 모델까지 단일 GPU에서 처리 가능하다.

SXM vs PCIe — 반드시 알아야 할 차이

항목                                            H100                                                  SXM5H100 PCIe
NVLink 대역폭 900 GB/s 없음 (PCIe 5.0 = 128 GB/s)
학습 성능 기준 (1x) 약 30~40% 느림
적합 용도 멀티 GPU 학습 단일 GPU 추론
가격 더 비쌈 더 저렴

멀티 GPU 학습이 목적이라면 반드시 SXM 버전을 선택해야 한다. PCIe 버전은 GPU 간 통신 병목이 심해 8장 이상 스케일링 시 효율이 급격히 떨어진다.


2. 2026년 4월 H100 클라우드 가격 비교

하이퍼스케일러 (AWS, GCP, Azure)

프로바이더        인스턴스                              GPU 수               온디맨드                    (per GPU/hr)비고
AWS p5.48xlarge 8 × H100 ~$3.90 2025년 6월 44% 인하 후 가격
GCP a3-highgpu 8 × H100 ~$3.00 컴포넌트별 과금 구조
Azure NC H100 v5 1 × H100 ~$6.98 리전별 $7~$10+

하이퍼스케일러는 GPU 자체 비용 외에 숨겨진 비용이 크다:

  • 데이터 이그레스: $0.08~$0.12/GB (학습 체크포인트 100GB 내보내기 = $8~12)
  • 스토리지: $0.10~$0.30/GB/월
  • 네트워킹 부가 비용: 전용 대역폭, VPC 피어링 등
  • 이런 부대 비용이 전체 청구서의 20~40%를 추가할 수 있다

전문 GPU 클라우드 (Specialized Providers)

프로바이더              온디맨드 (per GPU/hr)                       스팟/                                   마켓플레이스특징
Lambda Labs $2.49~$2.99 예약 시 $1.89 ML 특화, 안정적 업타임
RunPod $2.49 (PCIe) / $3.29 (SXM) $1.49 (스팟) 분 단위 과금, 무료 이그레스
CoreWeave ~$6.16 예약 시 할인 InfiniBand 클러스터, 대규모 학습
Vast.ai $1.65~$1.87 $1.07+ (마켓플레이스) P2P 마켓플레이스, 최저가
Northflank $2.74 스팟 지원 BYOC, 올인클루시브 가격
TensorDock $1.99~$2.25 스팟 $1.91+ KVM 격리, 윈도우 지원

가격 추이 — 어떻게 여기까지 왔나

2023년 하반기: $7.50~$11.00/hr  ← 극심한 공급 부족, 대기 명단
2024년 중반:   $3.00~$5.00/hr   ← 공급 개선, 신규 프로바이더 진입
2025년 초반:   $2.50~$4.00/hr   ← 시장 성숙, 경쟁 심화
2025년 6월:    AWS 44% 인하      ← 가격 전쟁 촉발
2026년 4월:    $2.00~$4.15/hr   ← 안정기 (온디맨드 기준)
2026년 하반기:  $1.50~$2.50/hr   ← 예상 (B200 본격 출하 영향)

H100 출시 초기 대비 64~75% 가격이 하락했다. 주요 원인은 TSMC의 CoWoS 패키징 용량 확대, 장기 예약 계약 만료에 따른 유휴 용량 시장 유입, 그리고 B200(Blackwell) 세대의 등장이다.


3. 실제 워크로드별 비용 시뮬레이션

숫자만 나열하면 감이 잡히지 않으니, 실제 시나리오별로 계산해보자.

시나리오 1: LLaMA 70B 파인튜닝 (LoRA/QLoRA)

필요 GPU: 1 × H100 80GB (QLoRA 4bit)
예상 소요: 24~72시간

├─ Lambda Labs ($2.99/hr):  $72 ~ $215
├─ RunPod ($2.49/hr):       $60 ~ $179
├─ AWS ($3.90/hr):          $94 ~ $281
├─ Azure ($6.98/hr):        $168 ~ $503
└─ Vast.ai ($1.65/hr):      $40 ~ $119

QLoRA 파인튜닝 하나에 프로바이더 선택만으로 최대 4배 비용 차이가 발생한다.

시나리오 2: 13B 모델 처음부터 학습 (Pre-training)

필요 GPU: 8 × H100 SXM
예상 소요: ~500시간 (데이터 규모에 따라 변동)

├─ Lambda Labs: 8 × $2.99 × 500 = $11,960
├─ RunPod SXM: 8 × $3.29 × 500  = $13,160
├─ AWS:        8 × $3.90 × 500  = $15,600
├─ GCP:        8 × $3.00 × 500  = $12,000
└─ Azure:      8 × $6.98 × 500  = $27,920

시나리오 3: 프로덕션 추론 서빙 (24/7)

필요 GPU: 2 × H100
월간 시간: 730시간

├─ RunPod ($2.49/hr):  2 × $2.49 × 730 = $3,635/월
├─ Lambda ($2.99/hr):  2 × $2.99 × 730 = $4,365/월
├─ AWS ($3.90/hr):     2 × $3.90 × 730 = $5,694/월
├─ Azure ($6.98/hr):   2 × $6.98 × 730 = $10,191/월
└─ 연간 차이:  RunPod vs Azure = 약 $78,672 절감

24/7 프로덕션에서는 연간 약 1억 원 이상 차이가 날 수 있다. 이 수준이면 프로바이더 마이그레이션에 들어가는 엔지니어링 비용을 충분히 상쇄하고도 남는다.


4. 구매 vs 렌탈 — 손익 분기점

H100을 직접 구매하는 것이 유리한 경우는 없을까?

구매 비용 (1 GPU 기준)
├─ H100 SXM5: ~$30,000
├─ 서버 섀시 + 네트워킹: ~$5,000 (GPU당 배분)
├─ 전력 + 냉각: ~$60/월/GPU
├─ 호스팅/코로케이션: ~$200/월/GPU
└─ 총 월간 유지비: ~$260/월

렌탈 비용 (클라우드 $2.50/hr 기준)
├─ 하루 8시간 사용: $20/일 = $600/월
├─ 하루 16시간 사용: $40/일 = $1,200/월
└─ 24시간 사용: $60/일 = $1,825/월
일 사용시간클라우드 월비용구매 월비용 (감가 42개월 + 유지비)손익분기
8시간 $600 ~$974 클라우드 유리
16시간 $1,200 ~$974 구매 유리
24시간 $1,825 ~$974 구매 압도적 유리

하루 12시간 이상 꾸준히 사용한다면 직접 구매가 경제적이다. 다만 이 계산에는 고장 리스크, H200/B200 세대 교체에 따른 감가 가속, 초기 구축 인력 비용 등이 빠져 있다. 대부분의 팀에게는 18개월 미만 프로젝트라면 클라우드가 안전한 선택이다.


5. 비용 최적화 전략 — 같은 작업, 절반의 비용

전략 1: 하이브리드 멀티 클라우드

┌─────────────────────────────────────────┐
│           워크로드별 프로바이더 분리           │
├─────────────────────────────────────────┤
│ 학습 (60~80% of 비용)                     │
│   → Lambda Labs / CoreWeave / RunPod    │
│   → H100 $2.49~$2.99/hr                │
├─────────────────────────────────────────┤
│ 추론 (서버리스)                            │
│   → RunPod Serverless                   │
│   → 초 단위 과금, 트래픽 없으면 $0           │
├─────────────────────────────────────────┤
│ 모델 레지스트리 / 데이터                     │
│   → AWS S3                              │
│   → 내구성 + 접근 패턴 최적화               │
├─────────────────────────────────────────┤
│ 프로덕션 서빙 (SLA 필요)                    │
│   → AWS / GCP 예약 인스턴스               │
│   → 컴플라이언스 + 99.99% 업타임            │
└─────────────────────────────────────────┘

학습은 전체 GPU 지출의 60~80%를 차지한다. 이 부분만 전문 프로바이더로 옮겨도 전체 비용을 40~50% 절감할 수 있다.

전략 2: 스팟 인스턴스 활용

스팟(Spot) / 프리엠터블(Preemptible) 인스턴스는 유휴 용량을 할인된 가격에 제공하되, 언제든 회수될 수 있다.

온디맨드 대비 절감률: 40~70%
적합: 체크포인트 지원 학습, 배치 추론, 하이퍼파라미터 탐색
부적합: 실시간 추론 API, 중단 불가 워크로드

핵심은 체크포인트 전략이다. 매 N 스텝마다 모델 상태를 저장해두면, 인스턴스가 회수되어도 마지막 체크포인트부터 재개할 수 있다. 스팟 인스턴스에서 3번 중단되더라도, 온디맨드 대비 전체 비용이 여전히 낮은 경우가 대부분이다.

전략 3: 과금 단위 확인

의외로 큰 차이를 만드는 것이 **과금 단위(Billing Granularity)**다.

프로바이더과금 단위
RunPod 분 단위
AWS 시간 단위 (최소 1시간)
Paperspace 시간 단위 (최소 1시간)
Lambda Labs 초 단위

10분짜리 실험을 시간 단위 과금 프로바이더에서 50번 돌리면 50시간 요금이 청구되지만, 분 단위 과금이면 약 8.3시간 요금만 나간다. 실험과 개발 단계에서는 분/초 단위 과금이 40% 이상 절약될 수 있다.

전략 4: 정말 H100이 필요한가?

모든 작업에 H100이 필요한 것은 아니다.

H100이 필요한 경우:
  ✅ 13B+ 파라미터 모델 학습
  ✅ 70B+ 모델 프로덕션 추론 (높은 처리량)
  ✅ 시간이 중요한 대규모 학습 잡

A100으로 충분한 경우:
  ✅ 10B 이하 모델 학습/파인튜닝
  ✅ 예산 제약이 큰 팀
  ✅ 긴급하지 않은 학습 ($1.29~$2.50/hr로 30~50% 절감)

RTX 4090으로 충분한 경우:
  ✅ Stable Diffusion 추론
  ✅ 소규모 실험 / 프로토타이핑
  ✅ 7B 이하 모델 파인튜닝 ($0.29~$0.60/hr)

6. 프로바이더 선택 가이드

모든 상황에 맞는 단일 최적 프로바이더는 없다. 워크로드 성격에 따라 달라진다.

하이퍼스케일러를 써야 하는 경우

  • 기존 인프라가 AWS/GCP/Azure 생태계에 깊이 결합되어 있을 때
  • HIPAA, FedRAMP, SOC 2 등 컴플라이언스 인증이 필수일 때
  • 99.99% SLA, 세밀한 IAM, 보장된 용량이 필요할 때
  • 다운타임 비용이 GPU 절감액을 초과할 때

전문 프로바이더를 써야 하는 경우

  • 순수 GPU 컴퓨트 — 학습, 배치 추론, 실험
  • 이그레스 비용이 부담될 때 (RunPod, Lambda = 무료 이그레스)
  • 스타트업 / 연구팀으로 예산이 제한적일 때
  • 분/초 단위 과금이 중요한 반복 실험 단계

의사결정 플로우

Q1. 컴플라이언스(HIPAA, SOC2 등)가 필수인가?
  ├─ Yes → AWS / GCP / Azure
  └─ No → Q2로

Q2. 24/7 프로덕션 서빙인가?
  ├─ Yes → Lambda Labs (안정성) 또는 하이퍼스케일러 예약
  └─ No → Q3로

Q3. 중단 허용 가능한가? (체크포인트 있음)
  ├─ Yes → RunPod 스팟 ($1.49) 또는 Vast.ai ($1.07+)
  └─ No → RunPod 온디맨드 ($2.49) 또는 Lambda ($2.99)

Q4. 월 예산은?
  ├─ < $1,000 → Vast.ai / TensorDock / RTX 4090 고려
  ├─ $1,000~$10,000 → RunPod / Lambda
  └─ > $10,000 → CoreWeave / 하이퍼스케일러 볼륨 협상

7. 앞으로의 전망 — H200, B200, 그리고 가격의 미래

H100은 2023년 출시 이후 3년차에 접어들었다. 후속 세대가 이미 시장에 진입하고 있다.

H100 (Hopper)  ── 80GB HBM3, 3,350 GB/s   ← 현재 주력
H200 (Hopper)  ── 141GB HBM3e, 4,800 GB/s  ← 같은 칩, 메모리 업그레이드
B200 (Blackwell) ── 192GB HBM3e, FP16 2.3배  ← 완전한 세대 교체
Rubin          ── 2026~2027 예정            ← 다다음 세대

B200이 본격 출하되면 H100은 "이전 세대" 취급을 받게 되고, 추가적인 10~20% 가격 하락이 예상된다. 2026년 하반기에는 H100 온디맨드 가격이 $1.50~$2.50/hr 수준까지 내려올 가능성이 높다.

하지만 역설적으로, 지금이 H100을 쓰기 가장 좋은 시점이기도 하다. 3년간 축적된 벤치마크, 튜닝 가이드, 라이브러리 호환성 — 모든 것이 검증된 상태다. B200은 더 빠르지만 배포 툴링이 아직 성숙하지 않았고, 가격도 H100 대비 프리미엄이 붙어 있다.


마치며

H100 클라우드 비용은 "어디서 빌리느냐"가 "무엇을 하느냐"만큼 중요하다. 같은 H100, 같은 워크로드인데 프로바이더 선택만으로 연간 수천만 원~수억 원의 차이가 발생한다.

핵심 요약:

  1. 하이퍼스케일러 온디맨드는 대부분의 경우 비효율적이다. 컴플라이언스가 필수가 아니라면 전문 프로바이더를 먼저 검토하자.
  2. 학습과 추론을 분리하면 각각에 최적화된 프로바이더와 인스턴스를 선택할 수 있다.
  3. 스팟 인스턴스 + 체크포인트는 비용을 40~70% 줄이는 가장 확실한 방법이다.
  4. H100이 정말 필요한지 먼저 확인하자. 많은 워크로드는 A100이나 4090으로도 충분하다.
  5. 2026년 하반기 B200 본격 출하 시 추가 가격 하락이 예상되므로, 장기 예약 계약은 신중하게.

GPU 비용은 AI 프로젝트 성패를 좌우하는 변수 중 하나다. 기술만큼 비용 전략에도 시간을 투자할 가치가 있다.


참고 자료


2026년 4월 기준 가격입니다. 클라우드 GPU 가격은 리전, 사용량, 계약 조건에 따라 변동됩니다. 실제 프로비저닝 전에 각 프로바이더의 최신 요금표를 반드시 확인하세요.

LIST

+ Recent posts