Claude Opus 4.7, 4.6과 무엇이 달라졌나 — 실사용자 관점 마이그레이션 노트

르무엘 2026. 4. 23. 09:28

2026. 4. 23. 09:28

2026년 4월 16일, Anthropic이 Opus 4.6 출시 두 달 만에 Opus 4.7을 공개했다.
모델 ID는 claude-opus-4-7, 가격은 Opus 4.6과 동일(입력 $5 / 출력 $25 per M tokens).
같은 티어의 "엔진 교체형 업그레이드"다. 코딩·비전·에이전틱 효율성에서 의미 있는 향상이 있고, 대신 지시 이행 방식과 토크나이저가 바뀌어서 기존 프롬프트가 그대로 동작한다는 보장이 없다.
요약: 업그레이드는 거의 무조건 이득. 다만 프롬프트 감사(prompt audit)는 필수.

1. 출시 배경과 포지셔닝

Opus 4.7은 Opus 4.6의 직계 업그레이드다. 가족 구성을 바꾸는 새로운 티어가 아니라, "같은 가격에 토큰당 더 많은 능력을 담고, 더 긴 자율 작업을 돌릴 수 있다"는 메시지로 나왔다.

Anthropic 공식 블로그의 요점은 명확하다: Opus 4.7은 가장 어려운 코딩 과제에서 의미 있게 향상됐고, 개발자들이 이전엔 근접 감독이 필요했던 작업을 이 모델에 맡길 수 있다는 평을 받는다.

단, 더 강력한 내부 모델인 Claude Mythos Preview가 위에 따로 있다는 점은 알아두는 게 좋다. Mythos는 Project Glasswing 파트너(AWS, Apple, Google, JPMorgan 등)에게만 제한 공개돼 있어 일반 사용자에게는 실질적으로 존재하지 않는 모델이다. 따라서 현재 누구나 쓸 수 있는 모델 중 가장 강한 것은 Opus 4.7이다.

2. 벤치마크 변화 한눈에 보기

항목 Opus 4.6 Opus 4.7 변화

코딩 벤치마크 (Anthropic 내부 93-task)	—	—	+13%
CursorBench	58%	70%	+12pt
Terminal-Bench 2.0	65.4%	69.4%	+4pt
이미지 해상도 상한	~1,568px / 1.15MP	2,576px / 3.75MP	약 3.3배 픽셀 면적
XBOW Visual Acuity	54.5%	98.5%	+44pt
Box 에이전트 평균 LLM 호출 수	16.3	7.1	-56%
Box p50 레이턴시	242초	183초	-24%
가격 (입력/출력 per M tokens)	$5 / $25	$5 / $25	동일

특이할 점은 BrowseComp(-4.7) 만 실제 회귀이고, CyberGym(-0.7)은 의도된 설계라는 것. 장기 컨텍스트 일부 시나리오에서 미묘하게 떨어진다는 파트너 리포트도 있어서, 자신의 워크로드를 실측하는 것이 낫다.

3. 비전: 해상도 3.3배, 좌표 1:1 매핑

이번 업데이트에서 가장 극적인 변화는 비전이다. 최대 이미지 해상도가 1.15MP에서 3.75MP로 올라갔다. 실무적으로 의미 있는 차이 두 가지:

스크린샷·다이어그램을 사전 크롭 없이 던질 수 있다. Computer Use 에이전트 입장에서 선처리 복잡도가 확 줄어든다.
모델의 좌표가 실제 픽셀과 1:1이다. 스케일 팩터 보정 계산이 사라진다. UI 자동화 에이전트 짜본 사람이면 이게 얼마나 귀찮은 일이었는지 안다.

다만 고해상도 이미지는 토큰을 더 쓴다. 해상도가 불필요하다면 전송 전 다운샘플링이 여전히 맞는 선택이다.

4. 지시 이행 방식의 변화 — 이게 제일 중요하다

Opus 4.7은 문자 그대로 지시를 따른다(literal instruction following). 지시사항을 다른 항목으로 조용히 일반화하지 않고, 요청하지 않은 추론을 하지 않는다. 공식 문서는 낮은 effort 레벨에서 이 경향이 더 두드러진다고 명시한다.

실제로 이게 무슨 뜻이냐:

"consider adding tests" 같은 제안형 문구 → Opus 4.6은 "아, 필요하면 하라는 거네" 정도로 해석. Opus 4.7은 "반드시 추가하라"에 가깝게 해석.
"respond in JSON" → Opus 4.6은 앞에 설명을 붙이기도 했음. Opus 4.7은 JSON만 돌려준다.
"exactly 3 functions" → 4가 더 우아해도 정확히 3개만 만든다.
"you might want to validate the input" → 4.6에선 선택적 힌트, 4.7에선 필수 단계.

프롬프트 감사 체크리스트

기존 4.6용 프롬프트를 쓰던 분들은 아래 표현들을 전수 검사하시는 걸 권한다:

consider, you might, you could, it's worth
feel free to, if appropriate, as needed
불릿 리스트 안에 "제안"과 "요구사항"이 뒤섞여 있는 경우
"알아서 잘 해줘" 식의 열린 지시

.claude/commands/ 디렉터리에 에이전트 파일을 여러 개 운용 중인 분들은 이 점검이 필수다. 4.6에서 느슨한 해석 덕에 잘 돌아가던 관용구가 4.7에서는 오히려 과하게 좁게 실행될 수 있다.

5. 새로운 effort 레벨: xhigh

Opus 4.6에는 low / medium / high / max 4단계가 있었다. Opus 4.7은 high와 max 사이에 xhigh를 추가했다.

추론 깊이는 high보다 깊게
레이턴시·비용은 max만큼 무겁지 않게

이게 필요한 이유는 max가 비용이 꽤 높기 때문이다. 에이전틱 코딩에서 "high는 얕고, max는 부담스러운" 구간을 메운다.

Claude Code는 4.7 출시와 함께 전 플랜 기본값을 xhigh로 올렸다. 이미 Claude Code를 쓰고 계시다면 별도 설정 없이 xhigh가 기본으로 적용되어 있을 것이다.

추가로 도입된 task_budget 파라미터와 조합하면 "이 문제는 깊게 고민하되, 완료까지 N 토큰은 넘기지 마라" 같은 지시가 가능해진다.

6. 토크나이저 변경 — "같은 가격"과 "같은 비용"의 차이

Opus 4.7은 새로운 토크나이저를 쓴다. 같은 입력 텍스트가 Opus 4.6 대비 1.0배 ~ 1.35배 정도의 토큰으로 매핑된다. 최대 35% 증가다.

콘텐츠별 분포:

코드·기술 문서: 하단(1.0~1.1배)에 가까움
다국어·구조화된 콘텐츠(특히 한국어, JSON, XML 스키마 등): 상단(1.2~1.35배)에 가까움

한국어 기술 블로그나 한글 도메인 로직을 많이 다루는 개발자 입장에서는 이 영향이 크다. 비용 예측 모델을 Opus 4.6 기반으로 잡아뒀다면, 4.7로 전환하기 전에 실제 트래픽으로 재측정해야 한다. /v1/messages/count_tokens API는 당연히 4.7용 수치를 반환하므로 동적 계산은 문제없지만, 정적 예측은 드리프트가 생긴다.

max_tokens 파라미터도 여유를 좀 더 두는 것을 공식 문서가 권장한다. 컴팩션 트리거 포함해서.

7. 에이전틱 워크플로우 효율성 — Box의 실측 데이터

Box의 내부 벤치마크가 흥미롭다. 동일 태스크를 기준으로:

평균 LLM 호출 수: 16.3회 → 7.1회 (2배 이상 감소)
평균 툴 호출 수: 18.8회 → 9.4회
p50 태스크 완료 시간: 242초 → 183초

즉 Opus 4.7은 "같은 답에 도달하는 경로가 더 짧다." 4.6이 여러 번 교차 검증을 반복하던 문제를 4.7은 한 번의 추론으로 처리하는 경우가 많다.

이것이 왜 중요한가 — 에이전트 루프에서 호출 수 감소는 그 자체로 신뢰성 향상이다. 호출이 많을수록 중간 어딘가에서 궤도를 이탈할 확률이 올라간다. Factory Droids, Genspark 등 파트너들이 공통으로 "loop resistance가 개선됐다"고 보고한 이유다.

Vercel 팀은 "시스템 코드 작업을 시작하기 전에 증명을 먼저 한다"는 새로운 행동 패턴도 관찰했다. 테스트 작성 → 실행 → 실패 수정 → 결과 보고 순서를 내부적으로 돌린다는 뜻이다. 오케스트레이터 계층까지 자신 있게 틀린 답이 올라가는 빈도가 확실히 줄어든다.

8. 톤과 스타일 변화

이것도 공식 문서가 명시한 변화다:

더 직접적이고 의견 있는 어조
validation-forward 표현(예: "Great question!")과 이모지 감소
긴 에이전틱 트레이스 중 진행 상황 업데이트가 더 자주 나옴
기본적으로 서브에이전트를 덜 생성함 (프롬프트로 조정 가능)

진행 상황 업데이트를 강제하기 위한 스캐폴딩을 직접 만들어 쓰던 분들은 이제 제거해도 된다.

9. 컨텍스트 윈도우와 기타 사양

1M 토큰 컨텍스트 윈도우 (long-context premium 없이 표준 가격)
128K max output tokens
Adaptive thinking 지원
도구·플랫폼 기능은 Opus 4.6과 동일

Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서도 같은 날 공개됐다.

10. 마이그레이션 실전 체크리스트

프로덕션에서 4.6 → 4.7 전환을 고려하는 팀을 위한 순서:

모델 플래그 교체: claude-opus-4-6 → claude-opus-4-7 (이게 유일한 코드 변경)
시스템 프롬프트 감사: "consider", "you might", 제안형 불릿 리스트 전수 검토
토큰 예산 재측정: 실제 트래픽 샘플로 4.7 기준 토큰 수 재계산
effort 레벨 의도적 선택:
- 복잡한 코딩·에이전틱 → high 또는 xhigh부터 시작
- 단순 분류·요약 → low로도 충분한 경우가 많음
task_budget 도입 검토: xhigh와 결합해 비용 상한 설정
이미지 파이프라인 점검: 해상도 상향으로 토큰 증가 가능성, 불필요하면 다운샘플
스캐폴딩 제거: 진행 보고·검증 단계를 프롬프트로 강제하던 코드 정리

11. 언제 업그레이드를 미뤄도 되나

4.6에서 이미 잘 돌아가고 있는 단순 분류·요약·텍스트 생성 워크로드
프롬프트 감사할 여력이 당장 없고, 안정성이 최우선인 프로덕션
비용 민감도가 높고 입력이 대부분 한국어·JSON 같은 고배율 토큰 콘텐츠인 경우 (재측정 후 결정)

다만 구형 Claude 버전은 시간이 지나면 deprecate되므로, 무기한 미루는 것은 사실상 옵션이 아니다.

12. 마무리 — 누구에게 가장 큰 이득인가

에이전틱 코딩을 여러 단계로 돌리는 워크플로우: 무조건 이득. 호출 수 절반, 툴 에러 1/3 수준.
Computer Use, 스크린샷 파싱, UI 자동화: 비전 업그레이드만으로도 이주할 가치가 있음.
Claude Code 유저: 이미 기본값이 xhigh로 바뀐 상태. 프롬프트 감사만 하면 됨.
단순 텍스트 생성 파이프라인: 당장 급할 것 없음. 토큰 비용 재측정 후 이동.

같은 가격에 토큰당 성능이 올라가고, 토큰당 필요한 호출 수는 반으로 줄었다. 숫자만 보면 "빨리 옮겨라"가 맞다. 다만 문자 그대로의 지시 이행이라는 성격 변화가 기존 프롬프트를 조용히 깨뜨릴 수 있으니, 스위치 플립 전에 감사 단계 한 번은 반드시 거치자.

참고 자료

LIST

'Software > Maker(Spring & Python & node)' 카테고리의 다른 글

분산 시스템 기반 대규모 트래픽 처리(wil. 7week) (0)	2026.04.23
Claude Mythos는 언제 우리 손에 오는가 — 공개 시점과 오픈소스 생태계에 미칠 영향에 대한 고찰 (6)	2026.04.23
정산 시스템 아키텍처 설계 경험 — 데이터 정합성과 장애 복구를 중심으로 (0)	2026.04.22
정산 시스템 기술 스택의 진화 — 왜 Java/Spring은 여전히 살아남고, AI 시대에도 바뀌지 않는 핵심 문제들 (0)	2026.04.22
결제와 정산은 왜 분리해야 하는가 – 실무에서 터지는 구조적 문제와 해결 (0)	2026.04.22

푸른영혼의별