'Platform' 카테고리의 글 목록

Platform

그래파나(Grafana)의 진화: 복잡한 네트워크를 한눈에, 'Mapgl NodeGraph' 플러그인 소개

르무엘 2026. 4. 22. 19:28

2026. 4. 22. 19:28

1. 도입부
IT 인프라가 복잡해질수록 네트워크의 연결 상태를 한눈에 파악하는 것이 중요해집니다. 오늘은 Grafana에서 네트워크 토폴로지를 아주 직관적이고 강력하게 시각화해 주는 'Mapgl Grafana NodeGraph' 플러그인의 핵심 기능 5가지를 소개해 드립니다.
2. 주요 기능 소개
간편한 노드 연결 확인: 'Swap target-source' 기능을 통해 소스와 대상을 즉시 전환하며 연결된 노드 리스트를 빠르게 확인할 수 있습니다.
상세 데이터 차트 제공: 특정 노드를 선택하는 것만으로 해당 노드와 관련된 상세 차트와 데이터를 즉시 불러와 분석할 수 있습니다.
유연한 경로 설정: 보조 지표(Secondary metric)를 활용해 네트워크 경로를 직접 경로로 전환하는 등 상황에 맞는 최적의 뷰를 제공합니다.
스마트한 조건부 시각화: 설정한 임계값(Thresholds)에 따라 라벨, 색상, 아이콘, 선 두께가 자동으로 변경됩니다. 특히 클러스터 내에서 이러한 색상별 항목 수를 자동으로 집계해 주어 상태 파악이 매우 쉽습니다.
깔끔한 맵 관리와 협업: 복잡하게 얽힌 에지(Edge)들을 채널에 맞춰 정렬(Snap)하여 맵을 가독성 있게 유지할 수 있습니다. 또한, 개별 링크 대신 채널 경로를 편집하거나 에지에 직접 메모를 남겨 팀원들과 공유할 수 있습니다.
3. 마무리
네트워크 모니터링의 효율을 높이고 싶다면 Mapgl Grafana NodeGraph 플러그인을 활용해 보세요. 복잡한 데이터 속에서 길을 잃지 않고 인프라를 완벽하게 제어할 수 있습니다.
참고 영상: Top 5 features of network topology Mapgl Grafana plugin

LIST

'Platform > Infra(DevOps)' 카테고리의 다른 글

HBM과 HBF — AI 시대의 메모리 아키텍처를 관통 (0)	2026.04.08
Spring Boot 메모리 문제를 해결하려는 새로운 접근 (0)	2026.03.12
왜 Kubernetes와 Docker는 Java가 아니라 Go로 만들어졌을까 (0)	2026.03.12
왜 DevOps 도구들은 Go로 만들어졌을까 (0)	2026.03.12
TCP 3-way handshake 과정에 대해서 설명해주세요. (0)	2026.03.10

B-Tree와 인덱스 — 데이터베이스의 보이지 않는 골격

르무엘 2026. 4. 21. 11:19

2026. 4. 21. 11:19

백엔드 개발을 오래 하다 보면 이상한 순간을 마주친다. 쿼리 하나가 100밀리초 걸리던 게 어느 날 3초로 늘어난다. 코드도 그대로고, 인프라도 그대로인데. 대개 원인은 같은 곳에 있다 — 인덱스. 그리고 그 인덱스의 내부를 들여다보면 거의 항상 같은 자료구조가 있다 — B-Tree.

이 글은 B-Tree가 왜 그렇게 생겼는지, 왜 데이터베이스 세계의 표준이 되었는지, 그리고 인덱스 설계에서 이 구조를 알고 있는 것과 모르는 것이 어떤 차이를 만드는지를 다룬다.

왜 B-Tree인가 — 먼저 풀어야 할 문제

B-Tree를 이해하려면 B-Tree가 풀고자 했던 문제를 먼저 봐야 한다. 그 문제는 **"디스크는 느리다"**는 한 문장으로 요약된다.

메모리는 한 번 접근에 100나노초 수준, SSD는 100마이크로초, HDD는 10밀리초. 디스크 접근은 메모리 접근보다 수만 배에서 수십만 배 느리다. 데이터가 수백만 건이 넘어가면 메모리에 다 담을 수 없고, 결국 디스크에 저장해야 한다. 디스크에 저장된 데이터를 빠르게 찾으려면 어떻게 해야 하는가 — 이것이 B-Tree가 답하려는 질문이다.

이진 트리(Binary Tree)를 떠올려보자. 노드마다 자식이 둘. 1억 건의 데이터를 저장하면 트리 높이가 약 27이다. 균형 이진 트리인 Red-Black Tree나 AVL Tree도 마찬가지. 탐색마다 27번의 노드 접근이 필요하다. 이게 메모리에서 일어나면 수 마이크로초에 끝나지만, 디스크에서 일어나면 27 × 10ms = 270ms. 단일 탐색에 0.27초다. 이건 쓸 수 없다.

문제의 본질은 트리 높이가 아니라 디스크 I/O 횟수다. 디스크는 느리지만, 한 번 읽을 때 큰 덩어리로 읽는다. 하드디스크의 한 섹터, SSD의 한 페이지, 운영체제의 한 블록. 통상 4KB, 8KB, 16KB 단위다. 4바이트짜리 데이터 하나를 읽든 16KB를 읽든 디스크 접근 시간은 거의 같다. 그렇다면 한 번의 디스크 접근으로 최대한 많은 정보를 가져오는 구조가 필요하다.

B-Tree의 핵심 아이디어가 여기서 나온다. "트리의 각 노드를 디스크 블록 하나 크기만큼 키워라. 그러면 한 번의 디스크 읽기로 수백 개의 키를 한꺼번에 가져올 수 있다."

B-Tree의 구조 — 뚱뚱한 노드, 낮은 트리

B-Tree의 각 노드는 여러 개의 키와 자식 포인터를 담는다. 한 노드에 100~200개의 키를 담는다고 하면, 자식도 그만큼 많다. 이진 트리는 노드마다 자식이 2개였지만, B-Tree는 자식이 수백 개다. 이런 트리를 m-ary tree 또는 다진 트리라고 부른다.

이게 왜 중요한가. 1억 건의 데이터를 저장한다고 하자.

이진 트리: 높이 약 27
자식 100개짜리 B-Tree: 높이 약 4 (100⁴ = 1억)

1억 건을 찾는데 4번의 디스크 읽기면 끝이다. 40ms 정도. 이진 트리의 270ms와 비교하면 6~7배 빠르다. 그리고 데이터가 10배 늘어나도 B-Tree 높이는 겨우 1 증가한다. 10억 건이어도 5번의 디스크 읽기.

이게 B-Tree가 "데이터베이스의 표준 인덱스 구조"가 된 이유다. 디스크의 물리적 특성에 최적화된 자료구조인 것이다.

B-Tree의 규칙 — 균형을 유지하는 법

B-Tree가 항상 낮은 높이를 유지하려면 규칙이 필요하다.

차수(order) m인 B-Tree의 주요 규칙:

모든 리프 노드는 같은 깊이에 있다 (완전 균형)
각 내부 노드는 최소 ⌈m/2⌉개, 최대 m개의 자식을 가진다
루트를 제외한 모든 노드는 최소 ⌈m/2⌉ - 1개의 키를 가진다
키들은 노드 내에서 정렬되어 있다
자식 포인터는 키 값의 범위에 따라 정확히 나뉜다

이 규칙들이 맞물려서 트리가 한쪽으로 치우치지 않는다. 삽입·삭제 시에도 이 규칙을 유지하기 위해 **노드 분할(split)**과 **병합(merge)**이 일어난다.

삽입 — 가득 차면 나눈다

새 키를 삽입할 자리를 찾아 내려가고, 리프 노드에 자리가 있으면 그냥 넣는다. 자리가 없으면 그 노드를 둘로 쪼갠다. 중간 키는 부모로 올린다. 부모도 가득 차 있으면 부모도 쪼갠다. 이 과정이 루트까지 올라갈 수 있다. 루트가 쪼개지면 트리 높이가 1 증가한다. 트리가 성장하는 방향은 위쪽, 즉 루트에서 일어난다. 이것이 B-Tree가 항상 균형을 유지하는 비밀이다.

삭제 — 너무 비면 합친다

키를 지우면 노드의 키 개수가 최소치 아래로 내려갈 수 있다. 이 경우 이웃 노드에서 키를 빌려오거나(재분배), 이웃 노드와 합친다(병합). 병합이 일어나면 부모의 키 하나가 내려와서 합쳐진 노드의 중간 키가 된다. 부모도 이로 인해 최소치 아래로 내려가면 연쇄적으로 병합이 일어난다. 루트까지 전파되면 트리 높이가 1 감소한다.

이 삽입·삭제의 우아함이 B-Tree의 또 다른 미덕이다. 트리는 스스로 균형을 맞춘다. 개발자가 별도로 리밸런싱을 신경 쓸 필요가 없다.

B+Tree — 실제 데이터베이스가 쓰는 건 이쪽이다

"B-Tree"라고 흔히 부르지만, MySQL의 InnoDB, PostgreSQL, Oracle, SQL Server가 실제로 사용하는 건 B+Tree다. B-Tree의 변종이면서, 실무에서는 거의 모든 RDBMS가 이 구조를 쓴다.

B-Tree와 B+Tree의 핵심 차이는 두 가지다.

첫째, 실제 데이터는 리프 노드에만 저장된다. B-Tree는 내부 노드에도 실제 레코드(또는 레코드 포인터)가 있지만, B+Tree는 내부 노드에 오직 탐색을 위한 키만 있다. 실제 데이터는 리프 노드에 전부 몰려 있다.

이 차이가 왜 중요한가. 내부 노드가 가벼워지므로 한 노드에 더 많은 키를 담을 수 있다. 그만큼 트리 높이가 더 낮아지고, 탐색 시 디스크 I/O가 더 줄어든다.

둘째, 리프 노드들이 연결 리스트로 이어져 있다. 모든 리프 노드가 순서대로 포인터로 연결되어 있어서, 한 번 시작점을 찾으면 순차 스캔이 가능하다. 이 구조가 **범위 검색(range query)**에서 빛을 발한다.

sql

SELECT * FROM orders WHERE created_at BETWEEN '2026-01-01' AND '2026-03-31';

이런 쿼리에서 B+Tree는 1월 1일에 해당하는 리프 노드를 찾고, 그 다음 리프 노드들을 연결 리스트처럼 따라가며 3월 31일까지 읽는다. 트리를 다시 타고 올라갈 필요가 없다. 범위 쿼리가 매우 빠른 이유다.

클러스터드 인덱스 vs 세컨더리 인덱스 — 리프에 무엇이 담기는가

인덱스 설계에서 반드시 구별해야 하는 개념이 클러스터드(clustered) 인덱스와 세컨더리(secondary) 인덱스다. 이 차이를 모르면 인덱스 추가가 왜 어떤 경우에는 신의 한 수이고 어떤 경우에는 악수인지 이해할 수 없다.

클러스터드 인덱스는 리프 노드에 실제 행(row) 전체가 저장된다. MySQL InnoDB의 Primary Key가 대표적이다. 테이블 자체가 B+Tree이고, 리프가 곧 데이터다. 그래서 InnoDB에서는 Primary Key로 조회하는 것이 가장 빠르다 — 인덱스를 찾으면 거기가 곧 데이터니까.

세컨더리 인덱스는 리프 노드에 "실제 데이터가 있는 위치"를 담는다. InnoDB에서는 그 위치가 Primary Key 값이다. 그래서 세컨더리 인덱스로 조회하면 다음과 같은 흐름이 일어난다:

세컨더리 인덱스 B+Tree를 타고 내려가 리프에서 Primary Key 값을 얻는다
그 Primary Key로 클러스터드 인덱스 B+Tree를 다시 타고 내려가 실제 행을 읽는다

이걸 **"테이블 룩업" 또는 "bookmark lookup"**이라고 부른다. 한 번 더 B+Tree를 타야 한다는 뜻이다. 세컨더리 인덱스 조회가 클러스터드 인덱스 조회보다 느린 이유가 여기에 있다.

이 구조를 알면 실무에서 왜 **"커버링 인덱스(covering index)"**가 자주 등장하는지 이해된다. 커버링 인덱스는 쿼리에 필요한 모든 컬럼을 인덱스에 포함시켜서 테이블 룩업을 생략하는 기법이다. 세컨더리 인덱스의 리프에서 필요한 모든 데이터를 얻을 수 있으면, 클러스터드 인덱스까지 갈 필요가 없다. 쿼리 성능이 몇 배로 빨라진다.

복합 인덱스의 정렬 원칙 — 왼쪽부터 쓴다

B+Tree는 키를 정렬된 상태로 저장한다. 복합 인덱스(composite index)도 마찬가지다. (a, b, c) 복합 인덱스는 먼저 a로 정렬하고, a가 같으면 b로, b도 같으면 c로 정렬한다. 전화번호부처럼.

이 정렬 순서 때문에 왼쪽 접두사(leftmost prefix) 원칙이 나온다. (a, b, c) 인덱스는 다음 쿼리에 유효하다:

WHERE a = ?
WHERE a = ? AND b = ?
WHERE a = ? AND b = ? AND c = ?

하지만 다음 쿼리에는 전혀 쓸모가 없거나 제한적이다:

WHERE b = ? — 무용지물. a 없이는 B+Tree 탐색 불가
WHERE c = ? — 무용지물
WHERE a = ? AND c = ? — a까지만 인덱스 활용, c는 스캔

전화번호부로 비유하면 명확하다. 성-이름 순으로 정렬된 전화번호부에서 성을 모르고 이름만으로 찾으려면 처음부터 끝까지 뒤져야 한다. B+Tree도 똑같다.

이 원칙을 무시하고 인덱스를 아무렇게나 만들면, "인덱스는 있는데 왜 안 타지?" 하는 상황이 생긴다. 대부분의 "인덱스 안 타는 쿼리" 이슈는 이 왼쪽 접두사 원칙 위반이다.

인덱스의 비용 — 공짜가 아니다

B+Tree 인덱스의 장점을 알면, 모든 컬럼에 인덱스를 걸고 싶어질 수 있다. 하지만 인덱스는 공짜가 아니다. 세 가지 비용이 있다.

첫째, 저장 공간. 인덱스 자체가 B+Tree 구조로 디스크를 차지한다. 큰 테이블에 여러 인덱스를 걸면, 인덱스의 총 크기가 테이블 데이터보다 클 수도 있다.

둘째, 쓰기 성능 저하. 레코드를 INSERT/UPDATE/DELETE 할 때마다 모든 관련 인덱스의 B+Tree를 수정해야 한다. 트리 균형을 위한 split·merge가 일어나면 비용이 더 크다. 인덱스가 5개 있는 테이블은 쓰기마다 6개의 B+Tree(테이블 클러스터드 + 5개 세컨더리)가 수정된다.

셋째, 잘못된 인덱스는 옵티마이저를 혼란시킨다. 데이터베이스 옵티마이저는 통계 정보를 바탕으로 어떤 인덱스를 쓸지 결정한다. 비슷하고 중복적인 인덱스들이 많으면 옵티마이저가 최적 선택을 못 하는 경우가 생긴다.

좋은 인덱스 설계는 "어떤 인덱스를 추가할까"만큼이나 "어떤 인덱스를 만들지 않을까"에 관한 것이다.

카디널리티와 선택도 — 어떤 컬럼에 인덱스를 걸 것인가

실무에서 인덱스를 설계할 때 판단 기준이 되는 개념이 **카디널리티(cardinality)**와 **선택도(selectivity)**다.

카디널리티는 컬럼의 고유 값 개수다. gender 컬럼은 카디널리티가 2~3 정도, email 컬럼은 거의 전체 행 수와 같다.

선택도는 "이 조건으로 필터링했을 때 얼마나 좁혀지는가"다. 선택도가 높으면 인덱스가 효과적이고, 낮으면 인덱스를 타도 별 도움이 안 된다.

gender = 'M'으로 조회하면 전체의 절반이 결과에 포함된다. 이 경우 인덱스를 타는 것이 오히려 전체 스캔(full scan)보다 느릴 수 있다. B+Tree를 타고 내려갔다가 다시 테이블 룩업을 해야 하니까. 옵티마이저가 인덱스를 무시하고 풀스캔을 선택하는 이유다.

경험칙: 결과가 전체 테이블의 10~20% 이상이면 인덱스가 별 효과가 없다. 이 경계는 DB와 데이터 분포에 따라 달라지지만, 대략의 기준으로 쓸 수 있다.

B-Tree가 잘 못하는 것 — 한계를 알아야 쓸 수 있다

B-Tree/B+Tree가 만능은 아니다. 잘 못하는 영역이 있다.

전문(full-text) 검색. WHERE content LIKE '%keyword%'는 B+Tree로 처리할 수 없다. 앞부분이 와일드카드이면 정렬된 구조를 활용할 수 없기 때문이다. 이런 경우 **역색인(inverted index)**이 필요하다. Elasticsearch, PostgreSQL의 GIN 인덱스가 이 용도다.

공간 데이터. 위경도 기반 근접 검색은 2차원 데이터인데, B+Tree는 1차원 정렬에 기반한다. 이런 경우 R-Tree나 Quadtree를 쓴다. PostGIS, MySQL Spatial 인덱스가 이 구조다.

매우 높은 쓰기 부하. B+Tree는 쓰기마다 트리 수정이 일어나 쓰기 비용이 있다. 시계열 데이터나 로그처럼 쓰기가 지배적이고 읽기는 범위 스캔이 대부분인 경우, **LSM-Tree(Log-Structured Merge Tree)**가 더 적합하다. Cassandra, RocksDB, ScyllaDB가 이 구조를 쓴다.

도구는 문제에 맞아야 한다. B-Tree는 **"정렬 가능한 키에 대한 균형잡힌 읽기·쓰기"**에 최적화된 도구다. 이 범위를 벗어나면 다른 도구를 찾아야 한다.

실무에서 B-Tree를 이해한다는 것

B-Tree의 내부를 안다는 것은 다음과 같은 판단을 할 수 있다는 뜻이다.

EXPLAIN을 읽을 때 **"왜 옵티마이저가 이 인덱스를 선택했는가"**를 추측할 수 있다. 통계 정보(카디널리티, 선택도, 인덱스 높이)를 기반으로 한 비용 계산이 보이기 시작한다.

복합 인덱스를 추가할 때 **"컬럼 순서가 왜 중요한가"**를 느낌으로 안다. 단순히 "자주 쓰는 순서대로"가 아니라, 선택도 높은 컬럼을 앞으로, 범위 검색 컬럼을 뒤로 배치해야 B+Tree의 힘이 최대화된다는 것을 안다.

인덱스가 "갑자기 느려진" 원인을 **단편화(fragmentation)**나 통계 정보 노후화에서 찾을 수 있다. B+Tree의 split·merge가 누적되면 트리가 느슨해지고, REBUILD나 REORG가 필요해진다.

Primary Key를 설계할 때 **"왜 UUID보다 순차 ID가 쓰기 성능에 유리한가"**를 안다. 클러스터드 인덱스에서 순차 ID는 항상 오른쪽 리프에 추가되지만, UUID는 무작위 위치에 삽입되어 페이지 분할을 자주 일으킨다. 그래서 ULID나 Snowflake ID처럼 시간 순서가 반영된 ID가 선호되는 것이다.

마치며 — 보이지 않는 골격

데이터베이스 엔지니어링의 많은 부분은 추상화의 계층을 어디까지 파고들 것인가의 문제다. ORM 사용자는 테이블만 생각하면 되고, SQL 작성자는 실행 계획까지 보고, 성능 튜너는 인덱스 내부 구조까지 안다. B-Tree는 이 중 가장 깊은 계층에 있다.

매일 쓰는 도구의 내부를 알면 같은 도구로 더 많은 것을 할 수 있다. B-Tree는 단순한 자료구조가 아니라, "디스크 기반 대규모 데이터에서 빠른 탐색과 정렬된 접근을 어떻게 지원할 것인가"라는 근본 질문에 대한 50년 된 답이다. 1970년 Rudolf Bayer와 Edward McCreight가 발표한 이 구조가 지금까지도 거의 모든 관계형 데이터베이스의 심장에 자리잡고 있다는 사실은, 좋은 추상이 얼마나 오래 살아남는지를 보여준다.

백엔드 개발자에게 B-Tree는 보이지 않는 골격이다. 평소에는 의식하지 않지만, 쿼리가 느려지는 순간 그 골격이 존재한다는 것이 드러난다. 그 골격을 이해하고 있으면, 문제 앞에서 패닉하지 않고 정확한 지점을 짚어낼 수 있다. 이게 시니어 개발자와 주니어 개발자를 가르는 지점 중 하나다.

LIST

'Platform > Database' 카테고리의 다른 글

Elasticsearch, 아내의 레시피 검색에서 시작해 세계의 데이터를 색인하다 (0)	2026.04.07
Redis, 화장실에서 태어나 세상의 속도를 바꾸다 — 등장 배경부터 2026년 현재까지 (0)	2026.04.07
DB가 탄다 — 트래픽 폭주 앞에서 프로그래머가 살아남는 법(feat.CLAUDE) (0)	2026.03.30
Statement와 PreparedStatement의 차이점은 무엇인가요? (0)	2026.03.27
NOT IN 쿼리를 사용할 때 발생할 수 있는 문제와 최적화 방법에 대해 설명해 주세요. (0)	2026.03.26

Vercel 해킹 사태에 관한 고찰 — OAuth 공급망 공격, 그리고 우리가 놓치고 있던 것

르무엘 2026. 4. 21. 09:01

2026. 4. 21. 09:01

2026년 4월 19일, Vercel이 내부 시스템 무단 접근을 공식 공시했다.
공격의 시작점은 Vercel의 인프라가 아니었다. 한 직원이 쓰던 서드파티 AI 도구였다.
1. 사건 개요
Vercel은 Next.js를 만들고 전 세계 수백만 애플리케이션의 배포 인프라를 책임지는 회사다. 그런 Vercel이 4월 19일, 내부 시스템에 대한 무단 접근이 있었다고 보안 게시판에 공지했다. CEO Guillermo Rauch는 X에 공격 체인을 상세히 공개했고, Mandiant와 법 집행 기관이 조사에 투입됐다.
팩트만 추리면 이렇다.
침해 시점: 2024년 6월경(Context.ai 침해 시점 기준 추정)
공시 시점: 2026년 4월 19일 — 약 22개월의 잠복 기간
초기 벡터: 서드파티 AI 도구 Context.ai의 Google Workspace OAuth 애플리케이션 탈취
측면 이동 경로: Context.ai OAuth → Vercel 직원 Google Workspace 계정 → Vercel 내부 환경
노출 자산: sensitive 플래그가 지정되지 않은 고객 환경 변수(environment variables)
자칭 공격자: ShinyHunters를 주장하는 행위자, BreachForums에 $2M(BTC) 요구
주장된 유출물: NPM 토큰, GitHub 토큰, 580명 직원 기록, 소스코드 일부(Vercel은 미확인)
Vercel 측은 sensitive로 플래그된 환경 변수는 저장 방식 자체가 읽기 불가능하며 접근 증거가 없다고 밝혔다. Next.js, Turbopack, 그 외 오픈소스 프로젝트는 공급망 분석 결과 안전하다고 확인됐다.
2. 이 사건이 특이한 이유
2.1. 공격 체인이 "OAuth 경로"로 짜여 있다
우리가 "공급망 공격"이라는 단어를 들을 때 떠올리는 그림은 보통 이렇다.
누가 npm 패키지에 악성 코드를 심는다
누가 GitHub Actions를 오염시킨다
누가 Docker 이미지에 백도어를 넣는다
이번 사건은 그 범주에 들지 않는다. 코드가 아니라 신원(identity)이 공급망이었다. Context.ai는 직원 한 명이 업무 생산성을 위해 Google Workspace와 OAuth 연결을 걸어둔, 그런 종류의 도구다. 공격자가 Context.ai의 OAuth 토큰을 탈취하자, 비밀번호도 MFA도 건드리지 않고 그 직원의 Workspace API에 접근할 수 있었다. Google 입장에서는 "정당하게 인가된 앱의 정상 API 호출"일 뿐이다. 탐지 컨트롤이 울릴 이유가 없다.
이게 현대적 공급망 공격의 새로운 얼굴이다. 코드 경로가 아니라 IdP(Identity Provider)를 거쳐가는 경로. 주변부 도구 하나만 장악하면 본진 계정을 우회할 수 있는 구조.
2.2. 22개월 dwell time
Context.ai는 별도 공지를 통해 2026년 3월 사건을 공개했고, 보안 연구자들이 역추적한 결과 실제 초기 OAuth 침해는 2024년 6월경으로 거슬러 올라간다고 본다. 약 22개월 동안 공격자는 Vercel 생태계 어딘가에 접근 가능한 상태였다는 뜻이다.
더 인상적인 건 탐지-공시 지연(detection-to-disclosure latency) 문제다. 공개된 고객 제보에 따르면 한 Vercel 고객은 4월 10일에 OpenAI로부터 "당신의 API 키가 외부에서 유출된 것으로 보인다"는 알림을 받았다. 해당 키는 오직 Vercel에만 존재하던 키였다. Vercel이 공식 공시한 4월 19일보다 9일 전의 일이다.
2.3. "AI에 가속된 공격자"라는 CEO의 공식 언급
Rauch는 공격자의 속도와 Vercel 내부 시스템에 대한 이해도를 근거로 AI augmentation을 의심한다고 밝혔다. 공격자가 LLM을 도구로 써서 측면 이동과 정찰을 가속했다는 판단이다. 이게 2026년 보안 담론의 핵심 주제 중 하나로 부상한 이유이기도 하다. "AI로 빨라진 공격자"라는 표현이 이제 벤더의 공식 성명에 들어가기 시작했다.
3. 기술적 쟁점 — sensitive 플래그 모델의 한계
이번 사건에서 개발자가 가장 따져볼 부분은 Vercel의 환경 변수 모델이다.
Vercel에는 환경 변수에 sensitive라는 플래그를 켤 수 있는 기능이 있다. 켜두면 UI에서도 값이 보이지 않고, 내부 시스템에서도 평문 접근이 차단되는 구조다. 문제는 이 플래그가 기본값이 아니었다는 점. 고객이 자기 의지로 켜야 하는 옵트인 옵션이었고, 안 켰으면 Vercel 내부 접근 권한을 가진 누군가(이번에는 공격자)가 평문으로 읽을 수 있었다.
여기서 세 가지 교훈이 나온다.
첫째, 민감 정보의 "기본값"이 중요하다. 플랫폼이 제공하는 안전 장치가 옵트인이면, 그 장치는 많은 경우 켜지지 않는다. 개발자가 의식적으로 보안을 챙기는 순간에만 작동한다. 프로덕션 규모에서는 "의식적으로 챙겨야 한다"가 "많이 빠뜨린다"와 동의어다.
둘째, 플랫폼에 올린 비밀값은 플랫폼을 신뢰 경계(trust boundary)로 삼아선 안 된다. Vercel을 믿는 건 괜찮다. 그러나 Vercel의 직원 계정과 OAuth 연결된 서드파티 AI 도구까지 신뢰 경계 안에 들어와야 한다면, 그 경계는 이미 경계가 아니다.
셋째, long-lived secret 자체를 걷어내는 방향이 정답이다. API 키, DB 패스워드, JWT 서명 키 같은 장기 수명 비밀값은 플랫폼 어딘가에 정적으로 존재하는 한, "어디선가 한 번 뚫리면 전파되는" 자산이다. 대안은 workload identity, 단기 수명 토큰, AWS IAM Roles Anywhere, GCP Workload Identity Federation 같은 구조. OAuth 토큰과 플랫폼 env var에 의존하는 모델을 가능한 한 제거해야 한다.
4. 한국 개발 현장에서 짚어야 할 것
한국 백엔드 개발자 입장에서 이 사건을 남의 일로 읽기 어렵다. 이유는 세 가지다.
첫째, 우리는 SaaS OAuth 연동을 광범위하게 쓴다. Google Workspace, Microsoft 365, Slack, Notion, Atlassian, Figma, Canva, 그리고 최근엔 MCP 커넥터까지. 각 연동은 토큰 탈취 한 번으로 계정을 대체 인증할 수 있는 통로다. 조직에 어떤 OAuth 앱이 어떤 스코프로 걸려 있는지 자산 인벤토리가 최신 상태로 관리되는 회사는 많지 않다.
둘째, AI 도구의 도입 속도가 보안 검토 속도를 앞질렀다. 국내에서도 2025년부터 생산성 목적의 AI SaaS 도입이 폭발적으로 늘었다. "업무 효율이 두 배"라는 서술 뒤에 "Workspace 전체 읽기 권한을 넘겼다"는 사실이 감춰져 있는 경우가 흔하다. 조직의 TPRM(Third-Party Risk Management) 프로세스가 AI 툴에 대해서는 사실상 작동하지 않고 있다. 이번 공격이 "Context.ai 한 개"로 촉발됐다는 점이 바로 그 얘기다.
셋째, 2025년 한국의 보안 사고 지형 자체가 이미 임계점을 넘었다. SK텔레콤 유심 해킹(2025년 4월), KT·LGU+ 의혹, YES24 랜섬웨어, 쿠팡 3,370만 건 유출, 롯데카드 960만 건. 국내 대기업 여러 곳이 1년 안에 줄줄이 뚫렸다. 그런데 유형을 보면 SKT는 BPFDoor 리눅스 백도어, 롯데카드는 웹쉘, KT는 가짜 기지국 물리 공격 등 다 다르다. "한 가지 취약점만 막으면 된다"는 사고방식이 이미 무효화됐다는 뜻이다. Vercel 건은 이 구도에 "OAuth 공급망"이라는 축을 하나 더 추가한 셈이다.
5. 실무 체크리스트
개발자/DevOps 관점에서 지금 당장 확인해볼 것들.
[ ] 조직의 Google Workspace, Microsoft 365에 인가된 OAuth 앱 목록을 뽑고, 현재 사용하지 않는 앱의 grant 해제
[ ] 각 OAuth 앱의 스코프를 점검 — 읽기 전용이어도 되는 앱이 쓰기 권한을 쥐고 있진 않은지
[ ] 배포 플랫폼(Vercel, Netlify, Render, AWS Amplify 등)의 환경 변수 중 실제 비밀값에 해당하는 항목을 분리해, 전용 시크릿 매니저로 이관
[ ] Vercel 사용 중이면 sensitive 플래그 감사 — 켜져 있지 않은 비밀값은 이미 노출 가능성 구간이라고 간주하고 로테이션
[ ] 프로덕션 API 키에 사용 범위 제한(IP 제한, 스코프 축소, 만료 기간) 적용 여부 재점검
[ ] GitHub Actions, GitLab CI 등 파이프라인 시크릿도 동일 원칙으로 재검토 — 이번 사건의 Vercel 자리에 어떤 CI 벤더가 들어가도 이야기 구조는 같다
[ ] 시크릿 스캔 도구(ggshield, trufflehog, gitleaks) 상시 운용
[ ] "우리 조직에 침투됐다고 가정"하는 assume-breach 관점의 로그 감사 루틴 도입
6. 마무리
이번 사건을 "Vercel이 뚫린 얘기"로만 읽으면 교훈의 절반은 놓친다. 정확히 말하면 Vercel을 둘러싼 SaaS 신뢰망의 한 꼭지가 뚫렸고, 그 신뢰망 전체가 같이 흔들렸다는 얘기다. 이런 구조에서는 한 회사가 아무리 잘 방어해도, 그 회사 직원이 쓰는 다른 회사 하나가 무너지면 같이 무너진다.
2020년대 중반의 소프트웨어 공급망은 더 이상 "라이브러리"의 집합이 아니라 "SaaS 간 OAuth 연결"의 그래프다. 공격자는 그래프에서 가장 약한 노드를 찾는다. 우리가 해야 할 일은 그래프를 작게 유지하고, 각 엣지에 최소 권한을 부여하고, 자산을 장기 비밀값에 의존하지 않도록 설계하는 것이다. 보안이 기능보다 앞서는 게 아니라, 기능을 선택하는 순간 보안이 동시에 정해지도록.
결국 이 사건이 말하는 건 이거다.
"신뢰는 전이되지 않지만, 공격은 전이된다."
참고한 주요 소스: Vercel Knowledge Base 공식 공지, Vercel CEO Guillermo Rauch의 X 스레드, Trend Micro 분석, GitGuardian 블로그, CoinDesk, Cyber Kendra, Safe Security. 사건은 아직 진행 중이므로 세부 사실은 업데이트될 수 있다.

LIST

'Platform > Management(Server & Security)' 카테고리의 다른 글

Cloudflare Tunnel vs Pangolin: 서버 운영자의 터널링 선택지 완전 비교 (0)	2026.04.13
tmux vs cmux: 이름은 비슷하지만 레벨이 다른 두 가지 ‘멀티플렉싱’의 실무 활용법 (0)	2026.03.26
Ubuntu GRUB 모드 완전 정복 — 부팅이 안 될 때 당황하지 않는 법 (0)	2026.03.26
우분투 서버 보안 취약점 대응: 실무에서 바로 쓰는 필수 보안 툴 구성 전략 (3)	2026.03.25
정보보안기사 (0)	2026.02.09

Cloudflare Tunnel vs Pangolin: 서버 운영자의 터널링 선택지 완전 비교

르무엘 2026. 4. 13. 13:35

2026. 4. 13. 13:35

📌 1. 왜 이 비교가 필요한가

서버를 외부에 공개할 때 가장 큰 고민은 **"인바운드 포트를 열지 않고 어떻게 서비스를 노출할 것인가"**다.

전통적인 포트포워딩 방식은 공유기에서 직접 포트를 열어야 하고, 서버 IP가 그대로 노출된다. 포트스캔 한 번이면 어떤 서비스가 돌아가는지 다 보인다.

이 문제를 해결하는 두 가지 접근이 있다:

Cloudflare Tunnel — Cloudflare 네트워크를 경유하는 관리형 터널
Pangolin — WireGuard 기반의 셀프 호스팅 터널 + 리버스 프록시 + 인증 통합 플랫폼

둘 다 "아웃바운드 전용 터널"이라는 동일한 원리를 사용하지만, 철학과 트레이드오프가 완전히 다르다.

📌 2. 공통점: 아웃바운드 전용 터널의 원리

두 솔루션 모두 같은 핵심 원리를 공유한다.

[서버] ---(아웃바운드 연결)---> [중계 서버] <--- [사용자 접속]

홈서버가 먼저 중계 서버에 연결을 맺는다. 인바운드 포트를 열 필요가 없다. 공유기 NAT 뒤에 있어도, CGNAT 환경이어도 동작한다.

보안 효과:

서버의 공인 IP가 노출되지 않는다
포트스캔에 아무것도 잡히지 않는다
공격 표면(attack surface)이 중계 서버 한 곳으로 수렴한다

차이점은 **"그 중계 서버를 누가 운영하느냐"**다.

📌 3. Cloudflare Tunnel — 관리형 터널의 왕

✔ 구조

[사용자] → Cloudflare Edge(전 세계 300+개 PoP)
                ↓ (암호화된 터널)
         cloudflared (서버 데몬)
                ↓
         로컬 서비스 (localhost:3000 등)

서버에 cloudflared를 설치하면, Cloudflare Edge까지 아웃바운드 터널을 자동으로 맺는다. 사용자 트래픽은 Cloudflare → 터널 → 홈서버 순서로 흐른다.

✔ 강점

1) 인바운드 포트 제로

공유기에서 포트포워딩 설정이 아예 필요 없다. cloudflared가 아웃바운드로만 동작하기 때문에, 홈서버를 포트스캔해도 아무것도 나오지 않는다.

2) DDoS 방어 기본 포함

Cloudflare는 2025년 한 해 동안 4,710만 건의 DDoS 공격을 처리했다. 31.4Tbps 규모의 세계 최대 DDoS 공격도 자동 방어한 이력이 있다. 이 방어력이 무료 플랜에도 적용된다.

3) WAF (웹 방화벽) 기본 제공

SQL Injection, XSS, RCE 등 주요 웹 공격에 대한 관리형 룰셋이 무료로 포함된다. 2025년 12월 React Server Components의 CVSS 10.0 취약점(CVE-2025-55182)이 발견됐을 때도 공식 발표 전에 WAF 룰을 선배포했다.

4) Zero Trust Access

관리자 페이지 같은 민감한 경로에 이메일 인증, OTP, 소셜 로그인 기반 접근 제어를 걸 수 있다. VPN 없이도 특정 사용자만 접근 가능하게 만든다.

5) 무료

개인 사용 수준에서는 비용이 0원이다.

✔ 약점

1) TLS 종단(Termination) 구조

Cloudflare Tunnel은 end-to-end 암호화가 아니다. 트래픽이 Cloudflare 네트워크 내부를 지날 때 TLS를 벗기고, 캐싱/WAF 처리 후 다시 암호화한다. 즉, Cloudflare 내부에서는 평문 트래픽을 볼 수 있다. 홈서버 수준에서는 현실적 위험이 거의 없지만, 원리적으로 Cloudflare를 "신뢰"해야 하는 구조다.

2) 100MB 파일 크기 제한

Tunnel을 통해 전송하는 단일 파일에 100MB 제한이 있다. Immich 같은 사진 관리 앱에서 대용량 파일을 다룰 때 문제가 된다.

3) 영상 스트리밍 ToS 제한

Jellyfin, Plex 같은 미디어 서버의 영상 스트리밍은 Cloudflare ToS 위반 소지가 있다. 실제로 계정이 정지된 사례가 보고되어 있다.

4) 벤더 종속(Vendor Lock-in)

DNS, WAF, Access, Tunnel이 모두 Cloudflare 생태계 안에 묶인다. Cloudflare가 정책을 변경하거나 무료 플랜 기능을 축소하면 대응이 어렵다.

📌 4. Pangolin — 셀프 호스팅 터널의 신흥 강자

✔ 구조

[사용자] → Pangolin Server (내 VPS, 공인 IP)
                ↓ (WireGuard 터널)
         Newt 클라이언트 (서버 데몬)
                ↓
         로컬 서비스

VPS에 Pangolin 서버를 설치하고, 서버에는 Newt라는 경량 WireGuard 클라이언트를 돌린다. Cloudflare Tunnel과 동일한 "아웃바운드 전용" 패턴이지만, 중계 서버가 Cloudflare 대신 내 VPS다.

Pangolin은 Fossorial이라는 YC 2025 배치 회사가 개발했으며, GitHub 스타가 약 19,000개에 달하는 활발한 오픈소스 프로젝트다(AGPL-3.0 라이선스).

✔ 핵심 구성 요소

구성 요소 역할

Pangolin Server	VPS에서 동작. 대시보드 UI, 인증/접근제어, 리소스 관리
Newt	홈서버에서 동작. 경량 WireGuard 클라이언트, 루트 불필요
Gerbil	WireGuard 인터페이스 관리 서버 (Go로 작성)
Traefik	내장 리버스 프록시. 라우팅, SSL 인증서, 로드밸런싱

✔ 강점

1) 진짜 End-to-End 암호화

WireGuard 터널 위에서 트래픽이 흐르기 때문에 중간에 누구도 평문을 볼 수 없다. Cloudflare의 TLS 종단 이슈가 없다.

2) 파일 크기/스트리밍 제한 없음

100MB 제한도 없고, 영상 스트리밍 ToS 제한도 없다. Jellyfin, Immich 등을 자유롭게 운영할 수 있다.

3) 올인원 플랫폼

리버스 프록시(Traefik) + 터널(WireGuard) + 인증(SSO/OIDC) + 대시보드 UI가 하나의 패키지에 들어있다. Cloudflare Tunnel + Cloudflare Access를 합친 것과 동등한 기능을 셀프 호스팅으로 제공한다.

4) Zero Trust 접근 제어

리소스별로 세분화된 접근 정책을 설정할 수 있다. 전체 네트워크가 아닌 특정 앱에만 접근을 허용하는 구조다.

5) 완전한 인프라 통제

트래픽이 내 VPS만 경유한다. 제3자에게 트래픽을 맡기지 않는다. 정책 변경이나 서비스 종료 리스크가 없다.

✔ 약점

1) VPS 비용 발생

최소 월 $4~5의 VPS가 필요하다. RAM 1GB 이상, 포트 80/443/51820 개방이 필수다.

2) 공격 표면이 VPS로 이동

Cloudflare Tunnel은 Cloudflare의 수천 명 보안 엔지니어가 Edge를 방어한다. Pangolin은 내가 VPS 보안을 직접 책임져야 한다. DDoS 방어도 VPS 호스팅 업체 수준에 의존한다.

3) 운영 부담

Pangolin 서버 업데이트, Traefik 설정, WireGuard 관리, SSL 인증서 갱신 등을 직접 해야 한다. "설치하고 잊어버리는" 수준은 아니다.

4) DDoS 방어 없음

Cloudflare 같은 글로벌 엣지 네트워크가 없으므로, VPS에 직접 DDoS가 들어오면 호스팅 업체의 기본 방어에 의존해야 한다.

📌 5. 직접 비교표

항목 Cloudflare Tunnel Pangolin

비용	무료	VPS 월 $4~5+
인바운드 포트	불필요 (0개)	서버: 불필요 / VPS: 80, 443, 51820
암호화	TLS 종단 (Cloudflare 내부 평문 가능)	WireGuard E2E 암호화
DDoS 방어	엔터프라이즈급 자동 방어	없음 (VPS 호스팅 의존)
WAF	관리형 룰셋 포함 (무료)	없음 (직접 구성 필요)
파일 크기 제한	100MB	없음
영상 스트리밍	ToS 위반 소지	제한 없음
인증/접근제어	Cloudflare Access	내장 SSO/OIDC
관리 UI	Cloudflare 대시보드	Pangolin 대시보드
벤더 종속	Cloudflare 생태계 종속	없음 (완전 셀프 호스팅)
운영 부담	거의 없음	중간 (VPS + 서버 관리)
트래픽 가시성	Cloudflare가 볼 수 있음	나만 볼 수 있음

📌 6. 어떤 상황에서 무엇을 선택할 것인가

✔ Cloudflare Tunnel이 맞는 경우

웹 서비스(API, 웹앱) 위주 운영
DDoS 방어가 중요한 경우
운영 부담을 최소화하고 싶은 경우
비용 0원을 원하는 경우
1인 운영자 (VPS 관리할 여력이 부족)

✔ Pangolin이 맞는 경우

Jellyfin, Plex 등 미디어 스트리밍 운영
100MB 이상 파일 전송이 필요한 경우
Cloudflare에 트래픽을 맡기고 싶지 않은 경우
E2E 암호화가 필수인 경우
인프라 전체를 직접 통제하고 싶은 경우

✔ 둘 다 쓰는 하이브리드 구성

실전에서는 둘을 병행할 수도 있다:

웹 서비스 → Cloudflare Tunnel (DDoS 방어 + WAF 혜택)
미디어 서버 → Pangolin (파일 크기 제한/ToS 회피)

📌 7. 보안 관점 정리

Cloudflare Tunnel의 공격 표면

공격자 → Cloudflare Edge → (여기서 방어) → 터널 → 홈서버

공격 표면이 Cloudflare Edge 한 곳이고, 그 방어를 Cloudflare가 담당한다. 2025년 10월 ACME 경로 우회 제로데이가 발견된 적이 있지만, 버그바운티를 통해 18일 만에 패치됐다. 완벽하지는 않지만, 개인이 직접 방어하는 것보다 압도적으로 강력하다.

단, Cloudflare를 "정상적으로 통과한" 트래픽은 그대로 서비스에 도달한다. 앱 레벨 취약점(SQL Injection, RCE 등)은 별도로 방어해야 한다. WAF가 기본적인 것은 잡아주지만, 우회 기법은 계속 나온다.

Pangolin의 공격 표면

공격자 → VPS (포트 80, 443, 51820) → WireGuard 터널 → 홈서버

공격 표면이 VPS의 열린 포트들이고, 그 방어를 내가 직접 담당한다. CrowdSec, fail2ban 등을 붙일 수 있지만, Cloudflare 수준의 DDoS 방어는 불가능하다.

대신 WireGuard E2E 암호화로 인해 터널 내부 트래픽은 누구도 볼 수 없다.

📌 8. 결론: 현실적 선택 기준

질문 Cloudflare Tunnel Pangolin

미디어 스트리밍 하나요?	✗	✔
대용량 파일 다루나요?	✗	✔
DDoS 방어가 필요한가요?	✔	✗
VPS 관리할 여력이 있나요?	불필요	필수
비용에 민감한가요?	✔ (무료)	✗ (월 $4~5)
E2E 암호화가 필수인가요?	✗	✔

대부분의 1인 홈서버 운영자에게 Cloudflare Tunnel이 현실적 최선이다. 무료이고, DDoS 방어가 포함되고, 운영 부담이 거의 없다. "Cloudflare를 신뢰할 수 있느냐"가 유일한 질문인데, 전 세계 웹 트래픽의 20%를 처리하는 회사가 개인 홈서버 트래픽을 악용할 현실적 가능성은 없다.

Pangolin은 Cloudflare의 구조적 한계에 부딪힌 사람을 위한 선택지다. 미디어 스트리밍, 대용량 파일, 완전한 프라이버시가 필요하다면 Pangolin이 답이다. 단, VPS 보안을 직접 책임져야 한다는 트레이드오프를 받아들여야 한다.

한 줄 요약 👉 Cloudflare Tunnel = "맡기는 보안" (강력하지만 신뢰 기반) 👉 Pangolin = "내가 하는 보안" (자유롭지만 책임도 내 것)

LIST

'Platform > Management(Server & Security)' 카테고리의 다른 글

Vercel 해킹 사태에 관한 고찰 — OAuth 공급망 공격, 그리고 우리가 놓치고 있던 것 (2)	2026.04.21
tmux vs cmux: 이름은 비슷하지만 레벨이 다른 두 가지 ‘멀티플렉싱’의 실무 활용법 (0)	2026.03.26
Ubuntu GRUB 모드 완전 정복 — 부팅이 안 될 때 당황하지 않는 법 (0)	2026.03.26
우분투 서버 보안 취약점 대응: 실무에서 바로 쓰는 필수 보안 툴 구성 전략 (3)	2026.03.25
정보보안기사 (0)	2026.02.09

HBM과 HBF — AI 시대의 메모리 아키텍처를 관통

르무엘 2026. 4. 8. 09:47

2026. 4. 8. 09:47

[문제 해결] → 소프트웨어 / [판단 근거] → 데이터 / [실행 능력] → 인프라 / [수호] → 보안 / [성장] → 관리 이 다섯 가지 관점에서 HBM(High Bandwidth Memory)과 HBF(High Bandwidth Flash)를 체계적으로 분석한다.

1. 개요

AI 워크로드가 트릴리온 파라미터 모델 시대로 진입하면서, GPU의 연산 속도를 메모리가 따라잡지 못하는 Memory Wall 문제가 AI 인프라의 핵심 병목으로 부상했다. 이를 해결하기 위해 등장한 것이 HBM(DRAM 기반 초고대역 메모리)과 HBF(NAND 기반 초고대역 플래시)이다.

구분 HBM (High Bandwidth Memory) HBF (High Bandwidth Flash)

기반 매체	DRAM	3D NAND Flash
핵심 가치	초고속 대역폭 (최대 3.3 TB/s)	대용량 + 준-HBM급 대역폭
주요 세대	HBM → HBM2 → HBM2E → HBM3 → HBM3E → HBM4	1세대 (16-Hi, 512GB/stack 목표)
최적 워크로드	AI Training + Inference	AI Inference (Read-intensive)
표준화	JEDEC JESD270-4 (2025.04)	OCP 표준화 진행 중 (2026~)
양산 시점	HBM4: 2026 상반기 양산 개시	샘플 2026 하반기, 상용 2027 초
주요 플레이어	SK하이닉스, 삼성, Micron	SK하이닉스, Sandisk, 삼성

2. [문제 해결] → 소프트웨어 관점

2.1 Memory Wall이라는 문제의 본질

소프트웨어 관점에서 Memory Wall은 단순한 하드웨어 병목이 아니라, AI 서비스의 응답 지연(Latency)과 처리량(Throughput)을 직접 결정하는 소프트웨어 성능 문제다. LLM 추론 시 KV Cache가 GPU 메모리에 상주해야 하는데, HBM 용량이 부족하면 모델 파라미터를 여러 GPU에 분산(Model Parallelism)해야 하고, 이때 GPU 간 통신 오버헤드가 발생한다.

2.2 HBM이 해결하는 문제

Training 단계: 수천 개의 GPU 코어가 동시에 메모리에 접근해야 하므로, HBM4의 2048-bit 인터페이스와 32개 독립 채널이 병렬 접근성을 극대화한다.
Inference 단계: Batch 처리 시 파라미터 로딩 → 연산 → 결과 반환의 파이프라인에서, HBM의 초저지연이 실시간 응답을 가능하게 한다.

2.3 HBF가 해결하는 문제

Inference에서의 용량 문제: HBM4 단일 스택이 최대 64GB인 반면, HBF는 단일 스택으로 최대 512GB를 목표로 한다. 트릴리온 파라미터 모델의 전체 가중치를 GPU에 인접 배치할 수 있게 된다.
KV Cache 확장: 추론 시 대화 맥락이 길어질수록 KV Cache가 폭증하는데, HBF가 이 영역을 흡수하면 HBM은 연산에 집중할 수 있다.

2.4 소프트웨어 아키텍처 시사점

┌─────────────────────────────────────────────────┐
│                   GPU Compute                    │
├────────────────────┬────────────────────────────┤
│   HBM (Hot Data)   │   HBF (Warm Data)          │
│  - Activations     │  - Model Weights (Read)     │
│  - Gradient Buffer │  - KV Cache Overflow        │
│  - Working Set     │  - Embedding Tables         │
├────────────────────┴────────────────────────────┤
│              SSD (Cold Data)                     │
│  - Checkpoint, Dataset, Log                     │
└─────────────────────────────────────────────────┘

소프트웨어 스택에서는 데이터 온도(Data Temperature) 에 따른 계층적 메모리 관리가 필수가 된다. SK하이닉스가 IEEE 논문에서 제시한 H3 아키텍처(HBM + HBF + GPU 하이브리드)가 이 패러다임의 구현체다.

3. [판단 근거] → 데이터 관점

3.1 정량적 스펙 비교

지표 HBM3E HBM4 HBF (1세대 목표)

대역폭/스택	~1.2 TB/s	최대 2.0~3.3 TB/s	~1.6 TB/s
용량/스택	36 GB	48~64 GB	최대 512 GB
I/O 폭	1024-bit	2048-bit	병렬 sub-array
핀 속도	~9.6 Gbps	8~13 Gbps	N/A (NAND 기반)
전력 효율	기준	HBM3E 대비 40% 개선	HBM 대비 성능/와트 2.69배 (시뮬레이션)
단가	높음	매우 높음	상대적 저가 (NAND 기반)

3.2 핵심 판단 데이터

시장 규모: 글로벌 HBM 시장은 2026년 약 580억 달러로 전망된다. HBF는 2030년 수십억 달러 규모의 시장으로 성장할 것으로 예측된다.

공급 구조: SK하이닉스가 HBM 시장의 약 62%를 점유하며, 삼성과 Micron이 추격 중이다. HBM4의 2026년 물량은 하이퍼스케일러 장기 계약으로 사실상 전량 소진되어, 비할당 물량의 시장 유통은 2027년 이후로 전망된다.

DRAM 가격 영향: AI 수요로 인해 2025년 한 해 동안 메모리 가격이 200% 이상 상승했으며, HBM이 범용 DRAM 생산 능력을 잠식하는 구조적 전환이 진행 중이다. Micron 기준 HBM과 DDR5의 웨이퍼 변환 비율은 3:1로, HBM 증산이 범용 메모리 공급을 직접적으로 압박한다.

3.3 판단 프레임워크

기술사적 판단에서 중요한 것은 "HBM vs HBF" 가 아니라 "HBM + HBF의 계층적 최적화" 라는 점이다. 양자는 대체재가 아니라 보완재 관계이며, 이를 뒷받침하는 근거는 다음과 같다:

워크로드 특성 차이: Training은 Read/Write 균형이 필요하므로 HBM이 필수, Inference는 Read 위주이므로 HBF가 적합
TCO(Total Cost of Ownership): HBF 도입 시 동일 추론 성능을 더 낮은 비용으로 달성 가능
용량-대역폭 트레이드오프: HBM은 대역폭 우위, HBF는 용량 우위 → 혼합 배치가 최적

4. [실행 능력] → 인프라 관점

4.1 물리적 구현 아키텍처

HBM과 HBF 모두 TSV(Through-Silicon Via) 기반 3D 적층 기술과 인터포저(Interposer) 를 통한 GPU 근접 배치라는 공통된 인프라 패턴을 사용한다.

┌──────────────────── Interposer ────────────────────┐
│                                                     │
│  ┌─────────┐  ┌─────────┐          ┌─────────┐    │
│  │ HBM4    │  │ HBM4    │          │ HBF     │    │
│  │ Stack×8 │  │ Stack×8 │   GPU    │ Stack×8 │    │
│  │ (DRAM)  │  │ (DRAM)  │          │ (NAND)  │    │
│  └────┬────┘  └────┬────┘          └────┬────┘    │
│       │TSV         │TSV                 │TSV       │
│  ┌────┴────┐  ┌────┴────┐          ┌────┴────┐    │
│  │Base Die │  │Base Die │          │Base Die │    │
│  │(Logic)  │  │(Logic)  │          │(Logic)  │    │
│  └─────────┘  └─────────┘          └─────────┘    │
│                                                     │
└─────────────────────────────────────────────────────┘

4.2 HBM4의 인프라 혁신 포인트

Logic Base Die: HBM4부터 베이스 다이가 12nm~5nm 로직 공정으로 전환되어, 메모리 스택 자체가 ECC, 신호 컨디셔닝 등의 연산을 수행하는 능동형 구조로 변화했다. TSMC가 SK하이닉스에 12nm 로직 베이스 다이를 공급한다.
Advanced MR-MUF: SK하이닉스의 Mass Reflow Molded Underfill 기술로 개별 DRAM 웨이퍼를 30μm까지 박형화하여 JEDEC 775μm 높이 제한 내에 16-Hi 적층을 실현했다.
D2C 냉각: HBM4의 열밀도 문제를 해결하기 위해 Direct-to-Chip 액체 냉각이 필수 인프라로 부상했다.

4.3 HBF의 인프라 과제

적층 복잡도: 12-Hi HBF 스택은 238-layer NAND 기준으로 총 2,866개 레이어, 321-layer NAND 16-Hi 스택의 경우 5,136개 레이어에 달하며, TSV 배선의 복잡도가 기하급수적으로 증가한다.
쓰기 성능 한계: NAND 특성상 쓰기 속도가 느리다. KV Cache처럼 쓰기가 발생하는 워크로드에서는 베이스 다이의 컨트롤러 성능 고도화가 선결 과제다.
GPU 벤더 협력: 인터포저를 통한 GPU-HBM-HBF 연결 조율에 NVIDIA 등 GPU 벤더의 심층 관여가 필요하다. NVIDIA Rubin 플랫폼이 첫 적용 대상으로 거론된다.

4.4 데이터센터 인프라 영향

전력: AI 데이터센터의 전력 소비가 급증하는 상황에서, HBM4의 40% 전력 효율 개선과 HBF의 성능/와트 2.69배 향상은 데이터센터 설계의 핵심 변수다.
냉각: HBM4의 열밀도가 기존 메모리 대비 높아, 공랭 → 액랭 전환이 가속된다.
물리적 레이아웃: HBM4는 HBM3 대비 물리적 풋프린트가 커져, 인터포저 설계와 기판 레이아웃의 재설계가 필요하다.

5. [수호] → 보안 관점

5.1 하드웨어 수준 보안 위협

Row Hammer 공격: DRAM 셀 간 전기적 간섭을 이용한 비트 플립 공격. HBM4는 JEDEC 표준에 DRFM(Directed Refresh Management) 을 포함하여 Row Hammer 리스크를 완화한다.
사이드 채널 공격: 고밀도 적층 구조에서 열/전력 패턴을 통한 데이터 유출 가능성. 물리적 근접성이 높아질수록 공격 표면이 넓어진다.
Logic Base Die의 이중성: HBM4의 로직 베이스 다이는 성능 최적화에 기여하지만, 동시에 메모리 스택 내에 연산 기능이 내장되므로 신뢰할 수 있는 실행 환경(TEE) 과의 통합 설계가 보안 관점에서 중요해진다.

5.2 공급망 보안

지정학적 리스크: HBM의 핵심 기술이 한국(SK하이닉스, 삼성)과 미국(Micron)에 집중되어 있으며, TSMC(대만)가 로직 베이스 다이를 공급한다. 미중 반도체 수출 규제가 HBM 공급망에 직접적 영향을 미친다.
표준화와 벤더 종속: HBF는 아직 표준화 초기 단계(OCP 기반)이므로, 특정 벤더의 독점 사양이 시장을 지배할 리스크가 있다. SK하이닉스-Sandisk의 MoU 기반 표준화 컨소시엄이 이를 방지하려는 움직임이다.

5.3 데이터 보안

AI 모델 가중치 보호: HBM/HBF에 상주하는 모델 파라미터는 기업의 핵심 지적재산. 메모리 덤프를 통한 모델 탈취 방지가 필수이며, 메모리 암호화(Memory Encryption) 기능이 중요한 보안 요구사항이다.
RAS(Reliability, Availability, Serviceability): HBM4 표준에 강화된 RAS 기능이 포함되어, 데이터센터 운영 중 메모리 오류의 감지·격리·복구 능력이 향상된다.

6. [성장] → 관리 관점

6.1 기술 로드맵 관리

시기 HBM HBF

2026 상반기	HBM4 양산 개시 (SK하이닉스, 삼성, Micron)	-
2026 하반기	HBM4 본격 출하, HBM4E 개발	HBF 샘플 출하
2027	HBM4E 양산, 16-Hi 스택	AI 추론 서버 첫 탑재
2028~2029	HBM5 (NVIDIA Feynman 대응)	2세대 HBF (대역폭 2배, 용량 512GB+)
2030	HBM6	HBF 시장 수십억 달러 규모

6.2 투자 및 비용 관리

CAPEX 관점: HBM 생산 확대는 범용 DRAM/NAND 생산 라인과의 자원 경합을 유발한다. Micron 기준 HBM:DDR5 웨이퍼 변환비 3:1은 경영 의사결정에서 핵심 데이터다.
TCO 최적화: H3 아키텍처(HBM+HBF) 도입 시, 동일 추론 성능 대비 총 소유 비용을 절감할 수 있으며, 이는 클라우드 사업자의 AI 서비스 가격 경쟁력에 직결된다.
수율 관리: HBM4의 16-Hi 적층에서 단일 다이 불량이 전체 스택 폐기로 이어질 수 있어, Known Good Die(KGD) 테스트와 수율 관리가 수익성의 핵심이다.

6.3 에코시스템 성장 관리

표준화 거버넌스: HBM은 JEDEC, HBF는 OCP 기반으로 표준화가 진행되며, 두 표준 간의 상호운용성 확보가 에코시스템 성장의 관건이다.
인재 확보: TSV, 인터포저, 어드밴스드 패키징 분야의 전문 인력 수요가 급증하고 있으며, 이는 반도체 산업 전반의 인력 전쟁으로 확대된다.
지속가능성: AI 데이터센터의 에너지 소비가 사회적 이슈로 부상하면서, 메모리 기술의 전력 효율은 ESG 관점에서도 관리 대상이 된다.

7. 종합 — 기술사 관점의 핵심 메시지

7.1 아키텍처 설계 원칙

HBM과 HBF는 "대체"가 아니라 "계층화" 의 관계다. 소프트웨어 아키텍처에서 L1/L2/L3 캐시가 공존하듯, AI 인프라에서도 HBM(Hot Layer) → HBF(Warm Layer) → SSD(Cold Layer) 의 메모리 계층이 자리 잡는다.

7.2 의사결정 매트릭스

판단 기준 HBM 선택 HBF 선택 하이브리드(H3)

Training 중심	✅ 필수	❌	—
Inference 중심	✅ 필요	✅ 적극 활용	✅ 최적
비용 민감	⚠️ 고비용	✅ 상대적 저가	✅ TCO 최적화
용량 우선	⚠️ 64GB/stack 한계	✅ 512GB/stack	✅ 용량+속도 균형
Edge 배포	⚠️ 전력 부담	✅ 저전력 적합	—

7.3 기술사 시험 핵심 키워드

Memory Wall, TSV, Interposer, 3D 적층, Logic Base Die
JEDEC JESD270-4, OCP 표준화, H3 아키텍처
Data Temperature 기반 계층적 메모리 관리
Row Hammer / DRFM, RAS, 공급망 보안
TCO, KGD, 수율 관리, 웨이퍼 변환비

LIST

'Platform > Infra(DevOps)' 카테고리의 다른 글

그래파나(Grafana)의 진화: 복잡한 네트워크를 한눈에, 'Mapgl NodeGraph' 플러그인 소개 (0)	2026.04.22
Spring Boot 메모리 문제를 해결하려는 새로운 접근 (0)	2026.03.12
왜 Kubernetes와 Docker는 Java가 아니라 Go로 만들어졌을까 (0)	2026.03.12
왜 DevOps 도구들은 Go로 만들어졌을까 (0)	2026.03.12
TCP 3-way handshake 과정에 대해서 설명해주세요. (0)	2026.03.10

Elasticsearch, 아내의 레시피 검색에서 시작해 세계의 데이터를 색인하다

르무엘 2026. 4. 7. 10:04

2026. 4. 7. 10:04

"You Know, for Search." — Elasticsearch 최초 공개 블로그 포스트 제목 (2010년 2월 8일)

검색창에 키워드를 입력하면 0.1초 만에 결과가 뜬다. GitHub에서 수백만 줄의 코드를 검색하고, Netflix에서 85개 이상의 클러스터가 실시간 로그를 분석하고, Wikipedia에서 수천만 문서를 즉시 찾아낸다. 이 모든 것의 뒤편에 Elasticsearch가 있다.

이 글에서는 Elasticsearch가 왜 만들어졌고, 어떻게 단순한 검색 엔진에서 엔터프라이즈 데이터 플랫폼으로 성장했는지, 그리고 2026년 현재 어떤 위치에 있는지를 정리한다.

1. 탄생: 아내의 요리 레시피를 검색하고 싶었다 (2004~2010)

Compass — 전신의 이야기

Elasticsearch의 창시자 Shay Banon은 이스라엘 출신 개발자다. 2004년, 아내가 런던의 Le Cordon Bleu 요리학교에 다니던 시절, Banon은 아내의 방대한 레시피 컬렉션을 검색할 수 있는 엔진을 만들고 싶었다. 이것이 Compass라는 Java 기반 검색 프레임워크의 시작이었다.

Compass는 Apache Lucene 위에 구축된 검색 라이브러리였다. Lucene은 Doug Cutting이 만든 강력한 전문 검색(full-text search) 엔진이지만, 그 자체로는 분산 처리도, REST API도, 클러스터링도 지원하지 않았다. Compass는 이런 갭을 메우려 했지만, Banon은 근본적인 한계를 느꼈다.

"처음부터 분산 시스템으로 다시 만들자"

Compass 3버전을 개발하던 중, Banon은 전면 재작성이 필요하다고 결론 내렸다. 핵심 설계 원칙은 세 가지였다:

처음부터 분산 아키텍처: 단일 노드가 아니라 클러스터 기반
JSON over HTTP: Java뿐 아니라 모든 언어에서 접근 가능한 RESTful API
실시간(Near Real-Time) 검색: 문서 색인 후 거의 즉시 검색 가능

Banon은 당시 잘 다니던 Gigaspaces를 퇴사하고 약 2년간 전업으로 개발에 매진했다. 그리고 2010년 2월 8일, "You Know, for Search"라는 제목의 블로그 포스트와 함께 Elasticsearch 0.4.0을 오픈소스로 공개했다.

2. 성장: ELK 스택의 탄생과 폭발적 채택 (2010~2018)

커뮤니티의 자발적 생태계

Elasticsearch가 공개되자, 커뮤니티에서 자연스럽게 생태계가 만들어졌다:

Jordan Sissel이 다양한 소스에서 데이터를 수집·변환하는 Logstash를 개발
Rashid Khan이 Elasticsearch 데이터를 시각화하는 Kibana를 개발

세 사람은 교류하다가 결국 힘을 합쳤다. ELK Stack(Elasticsearch + Logstash + Kibana)의 탄생이다. 이 조합은 로그 분석의 사실상 표준이 되었다.

회사 설립과 급성장

시점이벤트

2010.02	Elasticsearch 0.4.0 오픈소스 공개
2012.02	Elasticsearch BV 암스테르담에서 설립 (Shay Banon, Steven Schuurman, Uri Boness, Simon Willnauer)
2013	Series A $10M (Benchmark Capital), Kibana 공식 출시
2014	Series C $70M, 총 투자 $104M
2015	사명을 Elastic으로 변경, Elastic Cloud 출시, Beats(경량 데이터 수집기) 추가 → ELK가 Elastic Stack으로 확장
2017	Swiftype 인수 (엔터프라이즈 검색), Opbeat 인수 (APM)
2018.10	NYSE 상장 (ESTC), 상장 첫날 주가 거의 2배, 기업가치 약 $5B

특히 인상적인 것은 2012년 당시 월 20만 다운로드라는 수치였다. Index Ventures의 투자자들은 "포트폴리오 기업의 CTO들이 Elasticsearch를 '기적 같은 소프트웨어'라고 부르며 입을 모았다"고 회상한다.

글로벌 분산 조직이라는 실험

Elastic은 설립 초기부터 완전 분산 조직을 운영했다. 개발팀의 90% 이상이 실리콘밸리 밖에 분포했다. 특정 사무실에 모이지 않고 전 세계에서 최고의 인재를 채용하는 이 모델은, Elasticsearch 자체의 "분산 아키텍처" 철학과도 맞닿아 있다.

3. Elasticsearch의 핵심 아키텍처 — 왜 빠른가

역색인(Inverted Index)

Elasticsearch가 빠른 핵심 이유는 역색인 구조다. 일반 데이터베이스가 "문서 → 단어"로 저장한다면, Elasticsearch는 **"단어 → 문서"**로 저장한다.

일반 DB 방식 (순방향):
  문서1: "Elasticsearch는 검색 엔진이다"
  문서2: "Redis는 캐시 엔진이다"

역색인 방식:
  "검색"   → [문서1]
  "캐시"   → [문서2]
  "엔진"   → [문서1, 문서2]
  "Elasticsearch" → [문서1]
  "Redis"  → [문서2]

이것은 책의 맨 뒤에 있는 **색인(Index)**과 같은 원리다. 수백만 페이지를 처음부터 읽는 대신, 색인에서 키워드를 찾아 해당 페이지로 바로 이동한다. 이 구조 덕분에 데이터가 아무리 많아도 검색 시간이 선형으로 증가하지 않는다.

분산 아키텍처: 샤드와 레플리카

Elasticsearch 클러스터
├── Node 1
│   ├── Shard 0 (Primary)
│   └── Shard 2 (Replica)
├── Node 2
│   ├── Shard 1 (Primary)
│   └── Shard 0 (Replica)
└── Node 3
    ├── Shard 2 (Primary)
    └── Shard 1 (Replica)

인덱스는 여러 **샤드(Shard)**로 분할되어 노드에 분산 저장
각 샤드는 레플리카를 가져서 노드 장애 시에도 데이터 유실 없음
노드를 추가하면 샤드가 자동으로 재배치 → 수평 확장이 핵심

Near Real-Time 검색

문서를 색인하면 약 1초 이내에 검색 가능해진다. "실시간"이 아니라 "거의 실시간(NRT)"이라고 표현하는 이유는, 색인된 문서가 메모리 버퍼에서 세그먼트로 flush되는 refresh interval(기본 1초)이 있기 때문이다.

JSON 문서 기반 — 스키마리스

Elasticsearch는 데이터를 JSON 문서로 저장한다. 테이블 정의도, 스키마 마이그레이션도 필요 없다. 서로 다른 구조의 문서를 같은 인덱스에 넣을 수 있다.

json

// 상품 문서
{
  "name": "맥북 프로 16인치",
  "price": 3490000,
  "category": "노트북",
  "specs": {
    "cpu": "M4 Pro",
    "ram": "36GB"
  },
  "tags": ["apple", "laptop", "professional"],
  "created_at": "2025-11-15T09:00:00Z"
}

4. 활용 사례 — 검색 그 이상의 7가지 영역

① 전문 검색 (Full-Text Search)

Elasticsearch의 본업이다. 이커머스 상품 검색, CMS 콘텐츠 검색, 위키 검색 등에서 자동완성, 오타 보정(fuzzy), 형태소 분석, 가중치 기반 랭킹을 지원한다.

json

// 오타 허용 검색 (fuzzy)
GET /products/_search
{
  "query": {
    "match": {
      "name": {
        "query": "맥북프로",
        "fuzziness": "AUTO"
      }
    }
  },
  "highlight": {
    "fields": { "name": {} }
  }
}

한국어 검색의 경우 nori 분석기(은전한닢 기반)를 사용하면 형태소 단위로 토큰화할 수 있다:

json

PUT /products
{
  "settings": {
    "analysis": {
      "analyzer": {
        "korean": {
          "type": "custom",
          "tokenizer": "nori_tokenizer",
          "filter": ["nori_readingform", "lowercase"]
        }
      }
    }
  }
}

② 로그 분석 (ELK/Elastic Stack)

가장 널리 알려진 활용 사례다. MSA 환경에서 9개, 10개의 마이크로서비스가 각각 로그를 뿜어내면, 이를 한곳에 모아서 검색·분석·시각화해야 한다.

[서비스 A] ──┐
[서비스 B] ──┤──→ [Beats/Logstash] ──→ [Elasticsearch] ──→ [Kibana 대시보드]
[서비스 C] ──┘     (수집·변환)            (저장·색인)         (시각화·알림)

Netflix는 85개 이상의 Elasticsearch 클러스터에 800개 이상의 프로덕션 노드를 운영하며, 고객 서비스 운영과 보안 로그를 모니터링한다.

③ APM & Observability (관측 가능성)

Elastic APM은 애플리케이션의 응답 시간, 에러율, 트랜잭션 추적을 제공한다. 2026년 기준, Dimensional Research 조사에 따르면 60%의 기업이 자사의 관측 가능성 수준을 "성숙" 또는 "전문가"로 평가하고 있으며, 이는 전년 41%에서 크게 상승한 수치다.

Elastic 9.x에서는 OpenTelemetry 네이티브 지원(Managed OTLP Endpoint GA)이 추가되어, OTel SDK에서 직접 데이터를 전송할 수 있다.

④ 보안 분석 (SIEM)

Elasticsearch는 SIEM(Security Information and Event Management) 용도로도 강력하다. 실시간으로 보안 이벤트를 수집·분석하여 위협을 탐지한다. Symantec 같은 사이버보안 기업이 실시간 위협 탐지에 Elasticsearch를 사용한다.

⑤ 비즈니스 분석 & 실시간 대시보드

Kibana와 결합하면 실시간 비즈니스 대시보드를 구축할 수 있다. 사용자 행동 분석, 매출 추이, A/B 테스트 결과 모니터링 등에 활용된다.

⑥ 지리공간 검색

Elasticsearch는 geo_point, geo_shape 타입을 지원하여 위치 기반 검색이 가능하다. "반경 5km 내 음식점", "특정 지역 내 매장"과 같은 쿼리를 밀리초 단위로 처리한다.

json

GET /restaurants/_search
{
  "query": {
    "geo_distance": {
      "distance": "5km",
      "location": { "lat": 37.4979, "lon": 127.0276 }
    }
  }
}

⑦ AI 벡터 검색 & RAG (2024~)

2026년 현재, Elasticsearch는 Search AI 플랫폼으로의 전환을 선언했다. 핵심은 벡터 검색이다:

BBQ 벡터 양자화가 Elastic 9.1부터 기본값으로 적용되어 메모리를 95% 이상 절감
DiskBBQ는 디스크에서 벡터를 읽어도 20ms 이하 지연
2025년 10월 Jina AI 인수로 다국어 임베딩 모델을 네이티브 통합

LLM의 RAG(Retrieval-Augmented Generation) 파이프라인에서 Elasticsearch가 검색·리트리벌 레이어 역할을 맡는 구조가 빠르게 확산 중이다:

[사용자 질문] → [임베딩 모델] → [Elasticsearch 벡터 검색]
                                     ↓ 관련 문서 top-K
                              [LLM에 컨텍스트로 전달] → [답변 생성]

5. 라이선스 변천: Redis와 닮은 여정

Elasticsearch의 라이선스 역사는 Redis와 놀라울 정도로 유사하다:

시점변경 내용배경

2010~2020	Apache 2.0	완전한 오픈소스
2021.01	SSPL + Elastic License 듀얼	AWS ElastiCache의 무임승차 대응
2021.04	AWS가 OpenSearch로 포크	커뮤니티 분열
2024.08	AGPLv3 추가 (트리플 라이선스)	오픈소스 복귀, 커뮤니티 신뢰 회복

Redis가 Valkey 포크를 촉발한 것처럼, Elasticsearch는 OpenSearch 포크를 촉발했다. 오픈소스 프로젝트와 상업적 지속 가능성 사이의 긴장은 인프라 소프트웨어의 구조적 문제다.

6. LabNote ELN 같은 MSA에서의 실무 적용 포인트

MSA 기반 시스템에서 Elasticsearch를 도입할 때 고려해야 할 실무 패턴들:

데이터 동기화 전략

RDBMS가 원본(Source of Truth)이고 Elasticsearch는 검색용 보조 저장소인 경우가 대부분이다. 동기화 방식은 세 가지:

1) 애플리케이션 레벨 이중 쓰기 (단순하지만 일관성 위험)
   DB UPDATE → ES INDEX (트랜잭션 보장 불가)

2) CDC (Change Data Capture) — 추천
   DB → Debezium/Kafka Connect → Elasticsearch
   (DB 변경 로그를 캡처하여 비동기 동기화)

3) 주기적 배치 동기화
   Scheduler → DB 전체/변경분 조회 → ES Bulk Index
   (지연 허용 가능한 경우)

인덱스 설계 원칙

json

// ❌ RDBMS 사고방식 — 정규화하여 여러 인덱스로 분리
// products 인덱스, categories 인덱스를 JOIN? → ES에는 JOIN이 없다

// ✅ ES 사고방식 — 비정규화하여 검색에 최적화된 단일 문서
{
  "product_name": "LabNote Pro",
  "category_name": "전자연구노트",   // 카테고리를 문서에 포함
  "department": "R&D",              // 부서 정보도 포함
  "author": { "name": "김연구", "email": "kim@lab.com" }
}

검색 품질 튜닝

json

// 다중 필드 검색 + 가중치
GET /experiments/_search
{
  "query": {
    "multi_match": {
      "query": "세포 배양 프로토콜",
      "fields": ["title^3", "content", "tags^2", "author.name"],
      "type": "best_fields",
      "fuzziness": "AUTO"
    }
  }
}

7. Elasticsearch vs 대안 — 선택 기준

도구 강점 약점 적합한 경우

Elasticsearch	전문 검색 + 분석 + 보안 통합, 거대 생태계	운영 복잡성, 높은 메모리 사용	대규모 검색·로그·보안 통합
OpenSearch	ES 7.x 호환, Apache 2.0, AWS 관리형	ES 최신 기능 부재	AWS 환경 + 오픈소스 선호
Meilisearch	설정 최소, 50ms 이하 응답, 단일 개발자로 운영 가능	분석·보안 기능 없음	중소규모 앱 검색
Apache Solr	18년+ 안정성, 진정한 오픈소스	ES 대비 커뮤니티 축소	복잡한 문서 검색, 이커머스
Grafana Loki	로그 전용, 저비용, 라벨 기반 인덱싱	전문 검색 불가	메트릭 중심 로그 분석
Splunk	엔터프라이즈 SIEM 최강	매우 높은 비용	보안 최우선 대기업

PostgreSQL의 Full-Text Search는?

소규모 프로젝트에서는 PostgreSQL의 tsvector, tsquery만으로도 충분할 수 있다. 별도 인프라 없이 DB 하나로 해결된다. 하지만 데이터가 수백만 건을 넘어가거나, 자동완성·오타 보정·형태소 분석·실시간 로그 분석이 필요하다면 Elasticsearch의 영역이다.

8. 2026년의 Elasticsearch — Search AI Company

Elastic은 스스로를 "Search AI Company"로 포지셔닝하고 있다. 세 가지 축으로 사업을 전개한다:

Enterprise Search: 기업 내 검색, 앱 검색, RAG 기반 AI 검색
Observability: 로그·메트릭·트레이스 통합 관측
Security: 위협 탐지, SIEM, 엔드포인트 보안

2025년 10월 Jina AI 인수로 다국어 임베딩 모델을 내재화했고, ES|QL(Elasticsearch Query Language)이 프로덕션 준비 완료 상태로 올라왔다. 검색 엔진에서 시작한 프로젝트가 AI 시대의 리트리벌 인프라로 자리잡는 중이다.

마무리: 레시피 검색에서 세계의 데이터 검색으로

Shay Banon은 아내의 요리 레시피를 검색하고 싶었을 뿐이다. 그 작은 필요가 Compass를 만들었고, Compass의 한계가 Elasticsearch를 낳았다. "You Know, for Search"라는 가벼운 제목 뒤에는, **"분산 시스템에서 빠르게 데이터를 찾는 문제"**라는 보편적이고 근본적인 과제가 있었다.

2026년 현재, 전 세계 18,000개 이상의 기업이 Elasticsearch를 사용하고 있고, Netflix의 85개 클러스터부터 개인 블로그의 검색 기능까지 그 스케일은 다양하다. Redis가 "캐시의 기본"이라면, Elasticsearch는 **"검색의 기본"**이다. 백엔드 개발자라면 언젠가 반드시 마주치게 되는 기술이고, 그 깊이를 알수록 시스템 설계의 선택지가 넓어진다.

참고 자료: Elasticsearch Wikipedia, Index Ventures Blog, Elastic 공식 블로그, Grokipedia, ByteByteGo, Knowi, Logit.io

LIST

'Platform > Database' 카테고리의 다른 글

B-Tree와 인덱스 — 데이터베이스의 보이지 않는 골격 (0)	2026.04.21
Redis, 화장실에서 태어나 세상의 속도를 바꾸다 — 등장 배경부터 2026년 현재까지 (0)	2026.04.07
DB가 탄다 — 트래픽 폭주 앞에서 프로그래머가 살아남는 법(feat.CLAUDE) (0)	2026.03.30
Statement와 PreparedStatement의 차이점은 무엇인가요? (0)	2026.03.27
NOT IN 쿼리를 사용할 때 발생할 수 있는 문제와 최적화 방법에 대해 설명해 주세요. (0)	2026.03.26

Redis, 화장실에서 태어나 세상의 속도를 바꾸다 — 등장 배경부터 2026년 현재까지

르무엘 2026. 4. 7. 09:45

2026. 4. 7. 09:45

"아내는 내가 처음 몇 년간 MacBook Air 11인치를 들고 화장실에 앉아서 Redis를 만들었다고 주장한다. 그녀가 틀렸다고 말하고 싶지만, 완벽하게 맞는 이야기다." — Salvatore Sanfilippo (antirez)

오늘날 거의 모든 웹 서비스의 뒤편에는 Redis가 있다. Stack Overflow 개발자 설문에서 4년 연속 "가장 사랑받는 데이터베이스"로 선정되고, Docker Hub에서 매일 가장 많이 실행되는 데이터베이스이며, 2026년 1월 기준 ARR(연간 반복 매출) 3억 달러를 돌파한 이 프로젝트는, 시칠리아의 한 개발자가 자기 스타트업의 성능 문제를 해결하려다 시작된 사이드 프로젝트였다.

1. 탄생: 느린 데이터베이스에 대한 분노 (2009)

LLOOGG — 모든 것의 시작

Redis의 창시자 Salvatore Sanfilippo(닉네임 antirez)는 시칠리아 출신의 이탈리아 개발자다. 2009년, 그는 LLOOGG라는 실시간 웹 로그 분석 스타트업을 운영하고 있었다. 문제는 간단했다. 실시간으로 쏟아지는 로그 데이터를 기존 관계형 데이터베이스로는 감당할 수 없었던 것이다.

MySQL이나 PostgreSQL 같은 RDBMS는 디스크 기반이다. 매 요청마다 디스크 I/O가 발생하고, 트랜잭션 오버헤드가 붙는다. 실시간 분석처럼 초당 수천 건의 읽기/쓰기가 필요한 워크로드에서는 구조적 한계가 있었다.

antirez는 먼저 Tcl로 프로토타입을 만들었다. "키-값 쌍을 메모리에 올려놓고 직접 조작하면 되지 않을까?" 이 단순한 아이디어가 Redis의 출발점이었다. 곧 C 언어로 재작성하고, 첫 번째 자료구조인 List를 구현했다. 내부에서 몇 주간 사용해본 뒤 확신이 생겨 Hacker News에 공개했다.

이름의 의미

Redis = Remote Dictionary Server. 원격에서 접근 가능한 딕셔너리(해시맵) 서버라는 뜻이다. 이름 자체가 Redis의 본질을 정확히 설명한다. 테이블도 없고, SQL도 없다. 있는 것은 키와 값, 그리고 그 위에서 동작하는 자료구조 명령어뿐이다.

2. 성장: 사이드 프로젝트에서 인프라의 표준으로

2009 — Ruby 커뮤니티의 열광

Redis가 처음 주목받은 곳은 Ruby on Rails 생태계였다. 2009년, GitHub의 CEO Chris Wanstrath가 Redis 기반의 백그라운드 잡 큐 Resque를 만들었다. Rails 세계에서 Resque는 폭발적인 인기를 끌었고, 2012년에 등장한 후속작 Sidekiq 역시 Redis 위에 구축되었다. GitHub과 Instagram이 초기 도입 기업이었다.

2010 — Twitter와 VMware

Twitter가 Redis를 타임라인 페이지에 도입하면서 Redis의 위상이 달라졌다. 흥미로운 건, antirez가 Redis 공개 직후 Retwis라는 Twitter 클론을 Redis 데모용으로 만들었다는 점이다. 본인이 만든 장난감이 실제 Twitter에 채택된 셈이다.

같은 해, VMware에서 연락이 왔다. "우리가 당신을 고용하겠다. 하던 일을 그대로 하면 된다. 웹사이트에 Redis가 VMware의 후원을 받는다고만 적어달라." 약 1년간 무급 사이드 프로젝트였던 Redis가 드디어 공식 후원을 받게 된 순간이었다.

2010~2015 — 자료구조의 확장

이 시기에 Redis는 단순한 키-값 저장소를 넘어 다목적 자료구조 서버로 진화했다:

시기 추가된 자료구조 용 사례

초기	String, List	캐시, 큐
2010~2011	Hash, Set, Sorted Set	세션 관리, 리더보드, 태그
2012+	HyperLogLog	고유 방문자 수 추정
2016+	Streams	이벤트 소싱, 메시지 큐
2018+	Modules (RedisJSON, RediSearch)	문서 DB, 검색 엔진
2024+	Vector Set	AI 벡터 유사도 검색

VMware(2010~2013) → Pivotal(2013~2015) → Redis Labs(2015~2020)로 후원사가 바뀌면서도 antirez는 11년간 단독 메인테이너로서 프로젝트를 이끌었다.

2020 — antirez의 은퇴, 그리고 귀환

2020년 6월, antirez는 Redis 메인테이너 자리에서 물러났다. "유지보수 중심의 단계가 내 성격과 맞지 않는다"는 이유였다. 이후 AI를 소재로 한 SF 소설 Wohpe를 출판하기도 했다.

그리고 2024년 12월, antirez는 Redis 에반젤리스트라는 직함으로 복귀했다. 복귀 후 첫 작업은 Vector Set 자료구조의 구현이었다. AI 시대에 Redis가 벡터 유사도 검색까지 지원하게 된 것은 antirez의 복귀와 직결된다.

3. 라이선스 변천: 오픈소스의 빛과 그림자

Redis의 라이선스 역사는 오픈소스 생태계의 축소판이다:

2009~2018: BSD-3 라이선스. 완전한 오픈소스.
2018: 일부 모듈에 Commons Clause 추가. 클라우드 업체의 무임승차를 견제.
2024.3: 코어 Redis 자체가 RSAL v2 + SSPL 듀얼 라이선스로 전환. AWS ElastiCache 등 서드파티 제공 제한.
2025: AGPLv3를 추가한 트리플 라이선스로 전환. 다시 오픈소스로 복귀하되, 클라우드 벤더의 직접 패키징은 제한.

이 과정에서 Valkey(Linux Foundation 주도의 Redis 포크)가 탄생했다. 2026년 현재 Redis와 Valkey는 공존하며 경쟁 중이다.

4. Redis가 빠른 이유 — 아키텍처의 본질

Redis의 성능은 마법이 아니라 설계 철학의 결과다:

인메모리 스토리지

모든 데이터가 RAM에 상주한다. 디스크 I/O가 읽기/쓰기 경로에서 완전히 제거된다. 일반적인 RDBMS 쿼리가 50~200ms 걸리는 반면, Redis는 0.5~2ms 수준의 응답 시간을 보인다.

싱글 스레드 이벤트 루프

Redis는 명령 처리를 단일 스레드로 수행한다. 직관적으로는 느릴 것 같지만, 실제로는 반대다. 컨텍스트 스위칭이 없고, 락이 필요 없으며, 모든 명령이 원자적(atomic)으로 실행된다. I/O 멀티플렉싱을 통해 수십만 개의 동시 연결을 단일 스레드로 처리한다.

[클라이언트 1] ──┐
[클라이언트 2] ──┤──→ [이벤트 루프] ──→ [싱글 스레드 명령 실행] ──→ 응답
[클라이언트 3] ──┘       (epoll)          (락 없음, 원자적)

최적화된 자료구조

Redis는 C로 구현된 커스텀 자료구조를 사용한다. 작은 데이터셋에는 메모리 효율적인 인코딩(ziplist 등)을 자동 적용하고, 데이터가 커지면 일반 구조로 전환한다.

영속성 옵션

인메모리라고 해서 데이터를 잃는 건 아니다:

RDB: 주기적 스냅샷. fork() 시스템 콜로 자식 프로세스가 디스크에 저장하는 동안 부모 프로세스는 계속 서비스.
AOF: 모든 쓰기 연산을 로그로 기록. 재시작 시 재생하여 복구.
혼합 모드: RDB + AOF를 함께 사용하여 빠른 복구와 데이터 안전성을 동시에 확보.

5. 활용 사례 — "캐시 그 이상"

Redis를 "캐시"라고만 부르는 것은 스위스 아미 나이프를 "칼"이라고만 부르는 것과 같다.

① 캐싱 (가장 보편적인 활용)

DB 앞에 Redis를 두고 자주 조회되는 데이터를 메모리에 저장한다. Cache-Aside, Write-Through, Write-Behind 등 다양한 전략을 조합할 수 있다.

typescript

// Cache-Aside 패턴 (Node.js)
async function getProduct(id: string) {
  const cached = await redis.get(`product:${id}`);
  if (cached) return JSON.parse(cached);

  const product = await db.query('SELECT * FROM products WHERE id = $1', [id]);
  await redis.set(`product:${id}`, JSON.stringify(product), 'EX', 600);
  return product;
}

② 세션 스토어

MSA 환경에서 서버가 여러 대일 때, 세션을 특정 서버에 묶지 않고 Redis에 중앙 저장한다. TTL을 설정하면 비활성 세션이 자동으로 만료된다.

typescript

// Express + Redis 세션
import session from 'express-session';
import RedisStore from 'connect-redis';

app.use(session({
  store: new RedisStore({ client: redisClient }),
  secret: 'your-secret',
  resave: false,
  saveUninitialized: false,
  cookie: { maxAge: 30 * 60 * 1000 } // 30분
}));

③ Rate Limiting

API 남용 방지. Sorted Set이나 단순 INCR + EXPIRE 조합으로 시간 윈도우 기반 요청 제한을 구현한다.

typescript

async function rateLimit(userId: string, limit: number = 100, windowSec: number = 60) {
  const key = `rate:${userId}`;
  const current = await redis.incr(key);
  if (current === 1) await redis.expire(key, windowSec);
  return current <= limit;
}

④ 실시간 리더보드

Sorted Set의 ZADD, ZREVRANGE, ZREVRANK 명령으로 점수 기반 순위를 실시간으로 관리한다. 게임, 이커머스 판매 순위, 경쟁 플랫폼에서 활용된다.

typescript

// 점수 업데이트
await redis.zadd('leaderboard:weekly', score, playerId);

// 상위 10명 조회
const top10 = await redis.zrevrange('leaderboard:weekly', 0, 9, 'WITHSCORES');

// 특정 플레이어 순위
const rank = await redis.zrevrank('leaderboard:weekly', playerId);

⑤ Pub/Sub & 메시지 브로커

서비스 간 실시간 이벤트 전달. 채팅, 알림, 캐시 무효화 브로드캐스트에 활용된다. 더 강력한 보장이 필요하면 Redis Streams로 컨슈머 그룹 기반 메시지 처리가 가능하다.

typescript

// Publisher
await redis.publish('notifications:user:123', JSON.stringify({
  type: 'NEW_MESSAGE',
  from: 'user:456',
  preview: '안녕하세요...'
}));

// Subscriber
subscriber.subscribe('notifications:user:123');
subscriber.on('message', (channel, message) => {
  const notification = JSON.parse(message);
  pushToClient(notification);
});

⑥ 분산 락

MSA에서 공유 리소스에 대한 동시 접근을 제어한다. SET NX EX 명령으로 간단한 뮤텍스를, 더 엄격한 환경에서는 Redlock 알고리즘을 사용한다.

⑦ 지리공간 인덱싱

GEOADD, GEODIST, GEORADIUS 명령으로 좌표 기반 검색이 가능하다. 배달 앱의 "내 주변 음식점", 차량 호출 서비스의 "가까운 드라이버 찾기" 같은 기능에 사용된다.

⑧ AI 벡터 검색 (2024~)

Redis가 Vector Set을 지원하면서, 임베딩 벡터의 유사도 검색이 가능해졌다. LLM의 RAG 파이프라인에서 벡터 DB 역할을 Redis가 대신하는 사례가 빠르게 늘고 있다. 2025년 Stack Overflow 설문에서 Redis는 **AI 에이전트 메모리 저장소로 개발자 선택 1위(42%)**를 차지했다.

6. 2026년의 Redis — AI 인프라의 중심

Redis는 단순한 캐시에서 AI 시대의 컨텍스트 엔진으로 진화하고 있다:

컨텍스트 엔지니어링: LLM이 올바른 판단을 내리려면 적절한 데이터가 빠르게 제공되어야 한다. 벡터 스토어, 세션 상태, 장기 메모리를 한 곳에서 제공하는 "컨텍스트 레이어"로서 Redis가 부상 중이다.
LLM 응답 캐싱: 동일한 프롬프트에 대한 LLM 호출을 캐싱하여 비용과 에너지를 절감한다.
에이전트 메모리: AI 에이전트의 작업 상태, 대화 히스토리, 도구 호출 결과를 저장하는 실시간 메모리로 활용된다.

Redis CEO Rowan Trollope는 이렇게 표현했다. "에이전틱 의사결정이 이루어지는 스택의 앞단, 바로 그곳이 Redis의 전통적인 자리였다. 개발자들이 자연스럽게 Redis를 AI 워크로드에 채택하고 있는 이유다."

7. 실무에서의 선택 기준

Redis가 적합한 경우

밀리초 단위 응답이 필요한 읽기 Heavy 워크로드
세션, 캐시, 리더보드 등 TTL 기반 임시 데이터
Pub/Sub 또는 Streams 기반 실시간 이벤트 처리
MSA 환경에서 서비스 간 공유 상태 저장
AI/ML 파이프라인의 벡터 검색 및 피처 서빙

Redis만으로는 부족한 경우

복잡한 관계형 쿼리 (JOIN, 서브쿼리)
RAM 용량을 초과하는 대규모 데이터셋
강한 트랜잭션 보장이 필요한 금융 원장
전문 검색이 핵심인 경우 (Elasticsearch가 더 적합)

핵심은 **"Redis vs DB"가 아니라 "Redis + DB"**라는 것이다. Redis는 DB를 대체하는 것이 아니라, DB의 부하를 흡수하고 응답 속도를 높이는 가속기 역할을 한다.

마무리: 단순함의 힘

antirez는 인터뷰에서 반복적으로 **단순함(simplicity)**을 강조했다. "복잡한 시스템은 아무리 노력해도, 프로덕션에서 다른 복잡한 시스템과 만나면 상상할 수 없는 방식으로 실패한다."

Redis가 2009년부터 17년간 살아남은 이유는 기능이 많아서가 아니라, 핵심이 단순해서다. 키와 값, 메모리와 자료구조. 이 근본적인 설계 위에 캐시도, 큐도, 리더보드도, 벡터 검색도 자연스럽게 올라간다.

화장실에서 시작된 이 프로젝트는, "단순한 것이 오래 간다"는 소프트웨어 설계의 원칙을 17년째 증명하고 있다.

참고 자료: Redis Wikipedia, Brachiosoft Blog, Redis 공식 블로그, VentureBeat, antirez 개인 사이트

LIST

'Platform > Database' 카테고리의 다른 글

B-Tree와 인덱스 — 데이터베이스의 보이지 않는 골격 (0)	2026.04.21
Elasticsearch, 아내의 레시피 검색에서 시작해 세계의 데이터를 색인하다 (0)	2026.04.07
DB가 탄다 — 트래픽 폭주 앞에서 프로그래머가 살아남는 법(feat.CLAUDE) (0)	2026.03.30
Statement와 PreparedStatement의 차이점은 무엇인가요? (0)	2026.03.27
NOT IN 쿼리를 사용할 때 발생할 수 있는 문제와 최적화 방법에 대해 설명해 주세요. (0)	2026.03.26

PREV 이전 1 2 3 4 ···24 NEXT 다음