GPT-5.4 출시 분석: 벤치마크, Codex 통합, 신기능 총정리

2026년 3월 5일, OpenAI가 GPT-5.4를 출시했다. GPT-5 시리즈의 네 번째 업데이트(5→5.1→5.2→5.3→5.4)이며, "프로페셔널 작업을 위한 가장 유능하고 효율적인 프론티어 모델"로 포지셔닝했다.

이번 릴리스에서 주목할 점은 크게 세 가지다:

Codex 전용 모델(GPT-5.3-Codex)의 기능이 범용 모델에 통합되었다
Tool Search, Compaction 등 에이전트 워크플로우를 위한 인프라 기능이 추가되었다
네이티브 Computer Use가 OpenAI 메인라인 모델에 처음 탑재되었다

GPT-5.2 Thinking은 3개월 후 일몰(sunset) 예정이다.

출시 전 유출

공식 발표 전에 세 경로에서 GPT-5.4의 존재가 유출되었다:

Codex 리포지토리 PR에서 "GPT-5.4 or newer" 참조 발견
OpenAI 직원이 Codex 앱 모델 셀렉터에 GPT-5.4가 표시된 스크린샷을 실수로 공유
/models API 엔드포인트에 alpha-gpt-5.4 식별자가 잠시 노출

OpenAI 모델 출시 전 유출은 이제 거의 관례가 되었다.

모델 변형

GPT-5.4는 세 가지 변형으로 제공된다.

변형	모델 ID	대상	특징
GPT-5.4 Thinking	`gpt-5.4`	Plus, Team, Pro + API	투명한 추론 과정 표시, 중간 개입 가능
GPT-5.4 Pro	`gpt-5.4-pro`	Pro, Enterprise + API	최대 성능, 가장 어려운 작업용
GPT-5.4 (base)	`reasoning.effort=none`	API 개발자	추론 비활성화, 빠른 응답

Reasoning effort는 none, low, medium, high, xhigh의 5단계를 지원한다. 기존 3단계(low/medium/high)에서 확장된 것이다.

벤치마크 점수

추론 및 지식

벤치마크	GPT-5.4	GPT-5.4 Pro	GPT-5.2	비고
Humanity's Last Exam	52.1%	58.7%	—	다학제 추론
ARC-AGI-2	73.3%	83.3%	52.9%	신규 추론 (+20.4%p)
GDPval	83.0%	—	70.9%	전문가 수준 초과
MMMU-Pro	81.2%	—	79.5%	시각 이해
HealthBench	62.6%	—	63.3%	소폭 하락

ARC-AGI-2에서 52.9% → 73.3%로 20%p 이상 점프한 것이 눈에 띈다. 패턴 인식과 일반화 능력이 크게 향상된 것으로 보인다.

코딩 및 엔지니어링

벤치마크	GPT-5.4	GPT-5.3-Codex	GPT-5.2	Opus 4.6
SWE-Bench Pro	57.7%	—	55.6%	—
Terminal-Bench 2.0	75.1%	77.3%	—	65.4%
투자은행 모델링	87.3%	—	68.4%	—

Terminal-Bench 2.0에서 Claude Opus 4.6(65.4%)을 75.1%로 크게 앞선다. 다만 Codex 전용 모델(77.3%)보다는 약간 낮다 — 범용 모델과 특화 모델의 차이가 아직 존재한다.

투자은행 모델링(스프레드시트 기반 재무 분석) 점수가 68.4% → 87.3%로 급등했는데, 이는 후술할 금융 플러그인 전략과 연결된다.

Computer Use 및 웹 브라우징

벤치마크	GPT-5.4	인간 참조	Opus 4.6	비고
OSWorld-Verified	75.0%	72.4%	72.7%	인간 초과
WebArena-Verified	67.3%	—	—	GPT-5.2는 65.4%
BrowseComp	82.7%	—	—	Pro는 89.3% (SOTA)
Online-Mind2Web	92.8%	—	—	스크린샷 기반

OSWorld-Verified에서 75.0%로 인간 참조(72.4%)를 넘겼다. Anthropic의 Computer Use가 먼저 시장에 나왔지만, 벤치마크상으로는 GPT-5.4가 앞서는 형국이다.

정확도 및 효율성

지표	GPT-5.4 vs GPT-5.2
개별 거짓 진술	33% 감소
완전한 응답 내 오류	18% 감소
토큰 효율성 (MCP Atlas)	47% 절감

Codex 통합

이번 릴리스의 가장 큰 구조적 변화는 Codex 전용 모델의 기능이 범용 모델에 합류한 것이다.

GPT-5.3-Codex → GPT-5.4

GPT-5.3까지는 범용 모델(GPT-5.x)과 코딩 특화 모델(GPT-5.3-Codex)이 별도 트랙으로 존재했다. GPT-5.4에서는 Codex의 코딩 역량이 범용 모델에 통합되어, 별도의 Codex 전용 모델 없이도 고수준의 코딩 성능을 발휘한다.

실제로 Codex CLI의 모델 셀렉터에서 GPT-5.4가 기본 모델로 롤아웃되고 있다.

Codex 앱에서의 GPT-5.4

1M 토큰 컨텍스트: 실험적으로 100만 토큰 지원 (Compaction 기본값은 272K)
/fast 모드: 최대 1.5배 빠른 토큰 생성 속도
Build-Run-Verify-Fix 루프: Computer Use를 활용한 자율적 코드 작성 → 실행 → 검증 → 수정 사이클

외부 평가

코딩 에이전트 도구 Augment Code는 GPT-5.4를 기본 모델로 채택하면서 다음과 같이 평가했다:

"에이전트 워크플로우를 위해 만들어진 느낌의 첫 번째 모델. 계획을 깔끔하게 세우고, 위임을 잘 하고, 중간에 길을 잃지 않고 끝까지 따라간다."

내부 테스트에서 리팩토링과 아키텍처 설계 같은 복잡한 작업에서 약 18~20% 적은 토큰을 사용했다고 한다.

핵심 신기능

Tool Search

기존에는 API 호출 시 사용 가능한 모든 도구(tool) 정의를 프롬프트에 포함시켜야 했다. 도구가 많아질수록 컨텍스트가 낭비되는 문제가 있었다.

GPT-5.4의 Tool Search는 이를 근본적으로 바꾼다:

경량 도구 목록(이름 + 간단한 설명)만 모델에 전달
모델이 필요한 도구를 검색하여 전체 정의를 가져옴
실제로 사용할 도구만 컨텍스트에 로드

MCP Atlas 벤치마크에서 47% 토큰 절감 효과를 보였다. MCP(Model Context Protocol) 서버처럼 도구가 수십~수백 개인 환경에서 특히 유용하다.

기존 방식:
┌──────────────────────────────────┐
│ 프롬프트                         │
│                                  │
│  도구 A 정의 (500 토큰)           │
│  도구 B 정의 (300 토큰)           │
│  도구 C 정의 (400 토큰)           │
│  ... (50개 도구)                  │
│  ──────────────────              │
│  사용자 메시지                    │
│                                  │
│  총 도구 정의: ~15,000 토큰       │
└──────────────────────────────────┘

Tool Search 방식:
┌──────────────────────────────────┐
│ 프롬프트                         │
│                                  │
│  도구 목록 (이름만, ~500 토큰)     │
│  ──────────────────              │
│  사용자 메시지                    │
│                                  │
│  → 모델이 필요한 도구 2개 검색     │
│  → 해당 도구 정의만 로드 (800 토큰)│
│                                  │
│  총 도구 관련: ~1,300 토큰         │
└──────────────────────────────────┘

Compaction

GPT-5.4는 학습 시점에서 Compaction을 훈련한 최초의 메인라인 모델이다. 기존에는 추론 시점에 컨텍스트를 요약하는 방식이었지만, GPT-5.4는 모델 자체가 컨텍스트 압축을 이해한다.

Compaction이 하는 일:

긴 대화에서 이전 턴의 핵심 상태만 유지하고 나머지를 압축
에이전트가 수십 단계를 거치는 장기 작업에서 컨텍스트 오버플로우 방지
품질, 비용, 지연시간의 균형 자동 조절

Codex에서는 기본 272K 토큰으로 Compaction이 작동하며, 실험적으로 1M 토큰까지 지원한다. 에이전트 코딩 워크플로우에서 "중간에 길을 잃는" 현상이 크게 줄어든 배경이다.

네이티브 Computer Use

OpenAI 메인라인 모델에 처음으로 네이티브 Computer Use가 탑재되었다. 마우스, 키보드, 시각 입력을 통해 OS, 웹사이트, 애플리케이션을 자율적으로 조작할 수 있다.

Anthropic이 Claude 3.5 Sonnet에서 Computer Use를 먼저 출시했지만, OSWorld-Verified 벤치마크에서 GPT-5.4(75.0%)가 Opus 4.6(72.7%)을 앞선다.

Build-Run-Verify-Fix 루프가 핵심이다:

Build: 코드 작성 또는 작업 수행
Run: 실행하여 결과 확인
Verify: 결과가 기대와 일치하는지 시각적으로 검증
Fix: 문제가 있으면 수정 후 다시 실행

이 루프는 Codex 앱에서 에이전트가 코드를 작성하고, 빌드하고, 테스트 결과를 눈으로 확인하고, 실패 시 자동으로 수정하는 워크플로우를 가능하게 한다.

추론 계획 표시 (Reasoning Plan Display)

GPT-5.4 Thinking은 응답 생성 전에 사전 계획(preliminary plan) 을 표시한다. 기존 "thinking" 모델이 내부 추론을 숨기거나 완료 후 보여주었다면, GPT-5.4는 계획 단계에서 사용자가 중간 개입할 수 있다.

잘못된 방향으로 가고 있을 때 처음부터 다시 시작할 필요 없이, 방향만 수정하면 된다.

풀 해상도 비전

새로운 "detail": "original" API 파라미터로 이미지 압축을 우회할 수 있다. PNG, JPEG, WebP 포맷을 지원하며 최대 1,024만 픽셀까지 원본 해상도를 유지한다.

기존 "detail": "high"도 고해상도를 지원했지만 내부적으로 압축이 있었다. 건축 도면, 회로도, 고해상도 차트 분석 같은 작업에서 차이가 날 수 있다.

금융 플러그인

OpenAI가 금융 서비스 시장을 적극 공략하고 있다:

ChatGPT for Excel / Google Sheets 통합
FactSet, MSCI, Third Bridge, Moody's와 파트너십
Anthropic의 Claude for Financial Services와 직접 경쟁

투자은행 모델링 벤치마크가 68.4% → 87.3%로 급등한 것과 맥을 같이 한다.

기술 스펙

항목	값
컨텍스트 윈도우	1,050,000 토큰 (유출: 2M 가능)
최대 출력 토큰	128,000
지식 컷오프	2025년 8월 31일
입력 모달리티	텍스트, 이미지
출력 모달리티	텍스트
Reasoning effort	none / low / medium / high / xhigh
Function calling	지원
Structured outputs	지원
파인튜닝	미지원
디스틸레이션	지원
최대 컨텍스트 Prefill 지연	2분 초과 가능

지원 API 도구: Web Search, File Search, Image Generation, Code Interpreter, Computer Use, MCP, Skill Integration.

가격

모델	입력 (1M 토큰)	캐시 입력	출력 (1M 토큰)
GPT-5.4	$2.50	$0.25	$15.00
GPT-5.4 Pro	$30.00	—	$180.00
GPT-5.2 (비교)	$1.75	—	$14.00
Claude Opus 4.6 (비교)	$5.00	—	$25.00

GPT-5.4 기본형은 Claude Opus 4.6보다 입력 절반, 출력 60% 가격이다. 다만 GPT-5.4 Pro는 입력 6배, 출력 7.2배로 상당히 비싸다.

추가 과금 조건:

272,000 토큰 초과 입력: 2배 과금
배치/플렉스: 표준 가격의 50%
우선 처리: 표준 가격의 200%

이용 가능 범위

플랜	GPT-5.4 Thinking	GPT-5.4 Pro
Plus	O	X
Team	O	X
Pro	O	O
Enterprise	O	O
API	O	O
Microsoft Foundry	O	O

경쟁 구도 분석

GPT-5.4 vs Claude Opus 4.6

GPT-5.4가 대부분의 벤치마크에서 앞서지만, 단순 점수로 판단하기는 어렵다.

영역	GPT-5.4	Opus 4.6	판정
코딩 (Terminal-Bench)	75.1%	65.4%	GPT-5.4
Computer Use (OSWorld)	75.0%	72.7%	근소하게 GPT-5.4
가격 (기본형)	$2.50/$15.00	$5.00/$25.00	GPT-5.4
에이전트 워크플로우	Tool Search, Compaction	Prompt caching, Extended thinking	용도에 따라
컨텍스트	1.05M	200K	GPT-5.4

실무에서의 차이는 벤치마크와 다를 수 있다. Augment Code가 GPT-5.4를 기본 모델로 바꾼 반면, 많은 개발자 도구들은 여전히 Claude를 사용한다. AI 모델 비교 글에서 다룬 것처럼, 모델 선택은 단순 벤치마크가 아니라 워크플로우 적합성의 문제다.

OpenAI의 6가지 공식 개선 영역

OpenAI가 공식적으로 강조한 GPT-5.4의 개선 영역을 정리하면 다음과 같다:

코딩, 문서 이해, 도구 사용, 지시 따르기 — Codex 통합의 직접적 결과
이미지 인식과 멀티모달 작업 — 풀 해상도 비전
장기 실행 작업과 다단계 에이전트 워크플로우 — Compaction + Computer Use
토큰 효율성과 도구 집약 작업 성능 — Tool Search
에이전틱 웹 검색과 다중 소스 합성 — BrowseComp SOTA
문서/스프레드시트 중심 비즈니스 워크플로우 — 금융 플러그인

공통 키워드는 **"에이전트"**다. GPT-5.4는 단순히 더 똑똑한 모델이 아니라, 에이전트 시스템의 중심 엔진으로 설계되었다.

마치며

GPT-5.4의 핵심을 한 줄로 요약하면: Codex의 코딩 역량을 흡수하고, 에이전트 인프라(Tool Search, Compaction, Computer Use)를 네이티브로 탑재한 범용 모델이다.

개발자 관점에서 주목할 변화:

Tool Search: MCP 서버 등 도구가 많은 환경에서 47% 토큰 절감
Compaction: 장기 에이전트 세션에서 컨텍스트 손실 없이 작업 지속
Computer Use: Build-Run-Verify-Fix 자동화 루프
가격 경쟁력: Opus 4.6 대비 절반 이하 가격 (기본형 기준)

Codex CLI와 함께 사용하면 에이전트 코딩 워크플로우의 완성도가 한 단계 올라갈 것으로 보인다. 다만 GPT-5.4 Pro의 가격($30/$180)은 부담스러운 수준이므로, 대부분의 작업에서는 기본형으로 충분할 것이다.