RAG와 Skill 너머: 2026년 AI 에이전트 도구 총정리

AI 코딩 도구를 쓰다 보면 RAG와 Skill이라는 키워드를 자주 만난다. 그런데 2025~2026년 사이, 에이전트 생태계는 이 두 가지를 훨씬 넘어서 확장됐다. 프로토콜, 메모리, 멀티에이전트, 지식 그래프 같은 새로운 레이어가 빠르게 자리 잡고 있다.

이 글에서는 AI 에이전트를 둘러싼 최신 도구들을 한눈에 정리한다. 직접 에이전트를 만들지 않더라도, 이 도구들이 내가 쓰는 AI 코딩 도구에 어떤 영향을 주는지 이해하는 것이 핵심이다.

전체 지도: AI 에이전트 스택

먼저 큰 그림을 보자. 2026년 기준 AI 에이전트 생태계는 대략 이런 계층으로 나뉜다:

계층	역할	대표 기술
프로토콜	에이전트와 도구/에이전트 간 통신 표준	MCP, A2A
컨텍스트	모델에 무엇을 넣을지 설계	Context Engineering
지식	정보 검색과 추론 강화	RAG, GraphRAG, Skill
메모리	세션 간 상태 유지	Letta(MemGPT), Auto Memory
오케스트레이션	여러 에이전트 협업	LangGraph, CrewAI, OpenAI Agents SDK
실행	코드를 안전하게 실행	E2B, Daytona
안전	에이전트 행동 제어	Guardrails, Tracing

RAG와 Skill은 이 중 지식 계층에 해당한다. 나머지 계층이 어떤 역할을 하는지 하나씩 살펴보자.

MCP: 에이전트의 USB-C

**MCP(Model Context Protocol)**는 Anthropic이 2024년 11월에 발표한 오픈 프로토콜이다. AI 모델이 외부 도구와 데이터에 접근하는 방식을 표준화한다.

비유하자면, 예전에는 각 도구마다 전용 충전기가 필요했다. MCP는 USB-C처럼 하나의 규격으로 모든 도구를 연결하는 역할을 한다.

MCP가 해결하는 문제

AI 에이전트가 GitHub, Slack, DB, 파일 시스템 등에 접근하려면 각각 별도의 API 연동이 필요했다. MCP는 이를 하나의 프로토콜로 통일한다:

MCP 서버: 도구/데이터를 노출하는 쪽 (GitHub MCP 서버, DB MCP 서버 등)
MCP 클라이언트: 서버에 연결하는 AI 앱 (Claude, Cursor, VS Code 등)

현재 채택 현황

10,000개 이상의 공개 MCP 서버
월간 9,700만 회 SDK 다운로드
ChatGPT, Cursor, Gemini, VS Code 등 주요 AI 도구가 모두 채택
2025년 12월, Linux Foundation 산하 Agentic AI Foundation에 이관

실무에서 체감하는 부분

Claude Code에서 mcp__ 접두사 도구를 쓴 적이 있다면, 이미 MCP를 경험한 것이다. 브라우저 자동화, 파일 시스템 접근, 외부 API 호출이 모두 MCP 서버를 통해 이루어진다.

A2A: 에이전트끼리 대화하는 프로토콜

MCP가 에이전트 ↔ 도구 연결이라면, **A2A(Agent-to-Agent Protocol)**는 에이전트 ↔ 에이전트 연결이다. Google이 2025년 4월에 발표했다.

왜 필요한가

실무에서 하나의 에이전트가 모든 일을 하기는 어렵다. 코드 작성 에이전트, 테스트 에이전트, 배포 에이전트가 각각 존재한다면, 이들이 서로 작업을 주고받을 표준이 필요하다.

A2A의 핵심 개념

Agent Card: JSON 형식의 에이전트 명함. 자신이 무엇을 할 수 있는지 공개
Task 관리: 에이전트 간 작업 요청/응답의 생명주기 관리
협업: 컨텍스트와 지시를 공유하는 구조

MCP와 A2A의 관계

	MCP	A2A
연결 대상	에이전트 ↔ 도구	에이전트 ↔ 에이전트
비유	USB-C (장치 연결)	HTTP (서버 간 통신)
주도	Anthropic → Linux Foundation	Google → Linux Foundation

두 프로토콜은 경쟁이 아니라 보완 관계다. 에이전트가 도구를 쓸 때는 MCP, 다른 에이전트와 협업할 때는 A2A를 사용한다.

Context Engineering: 프롬프트 엔지니어링의 다음 단계

2025년을 기점으로 "프롬프트 엔지니어링"이라는 용어가 **"Context Engineering"**으로 전환되기 시작했다. RAG 논문의 공동 저자조차 이 전환을 인정했을 정도다.

무엇이 다른가

프롬프트 엔지니어링: 어떻게 물어볼까에 집중
Context Engineering: 무엇을 모델에 넣을까에 집중

Context Engineering은 모델의 컨텍스트 윈도우를 하나의 시스템으로 설계한다. 도구 정의, 메모리, 대화 이력, 예시, 검색 결과를 어떤 순서로, 얼마만큼, 언제 넣을지 전략적으로 결정한다.

Skill과의 연결

사실 Skill 구성 전략에서 다뤘던 KV-Cache 최적화, 3단계 컨텍스트 로딩, 토큰 예산 관리가 모두 Context Engineering의 실천 사례다. Skill은 Context Engineering을 파일 시스템 기반으로 구조화한 것이라고 볼 수 있다.

왜 RAG만으로는 부족한가

RAG는 Context Engineering의 한 가지 기법일 뿐이다. 모든 것을 벡터 검색으로 해결하려 하면:

관계 정보를 놓침 (A가 B에 의존한다는 맥락)
신호 대 잡음 비율이 악화
비용/지연 시간이 선형 증가

Context Engineering은 RAG, Skill, 메모리, 도구 정의를 통합적으로 설계하는 상위 개념이다.

영속 메모리: 기억하는 에이전트

현재 대부분의 AI 도구는 대화가 끝나면 모든 것을 잊는다. 영속 메모리(Persistent Memory)는 이 한계를 깨는 기술이다.

Letta (구 MemGPT)

Letta는 "LLM을 운영체제처럼" 다루는 접근이다:

편집 가능한 메모리 블록: 에이전트가 스스로 메모리를 읽고 쓰고 정리
DB 기반 영속성: Python 변수가 아니라 데이터베이스에 상태 저장
세션 간 연속성: 여러 대화에 걸쳐 동일한 메모리 유지

Claude Code의 Auto Memory

Claude Code에서는 이미 비슷한 개념을 Auto Memory로 경험할 수 있다:

~/.claude/memory/MEMORY.md     ← 자동 학습 내용 저장
CLAUDE.md                      ← 프로젝트 컨텍스트
.claude/skills/                ← 구조화된 지식

핵심 차이점:

	Letta/MemGPT	Claude Auto Memory
저장소	DB (벡터 + 관계형)	파일 시스템 (Markdown)
관리 주체	에이전트가 자율 관리	에이전트 + 사용자 공동 관리
검색	벡터 유사도 검색	파일 직접 읽기
공유	API 기반	Git으로 버전 관리/공유

멀티에이전트 프레임워크

하나의 에이전트가 아니라 여러 에이전트가 협력하는 패턴이 2025년부터 본격화됐다.

주요 프레임워크

LangGraph — 그래프 기반 워크플로우 엔진. 에이전트의 행동을 노드와 엣지로 표현한다. 2025년 말 기준 600~800개 기업이 프로덕션에서 사용 중.

OpenAI Agents SDK — 2025년 3월 출시. 실험적이었던 Swarm을 대체하는 프로덕션급 SDK. Agent, Handoff, Guardrails, Tracing을 기본 프리미티브로 제공한다.

AWS Strands — 아마존이 오픈소스로 공개한 모델 드리븐 SDK. 최소한의 코드로 에이전트를 구성하며, Amazon Q Developer 내부에서도 사용된다.

CrewAI — 역할 기반 접근. "리서처", "개발자", "리뷰어" 같은 역할을 에이전트에 부여하고 협업시킨다.

핵심 오케스트레이션 패턴

2026년 기준으로 수렴하고 있는 패턴들:

순차 체이닝: A → B → C 순서대로 실행
동시 처리: 독립된 작업을 병렬로 실행
핸드오프: 조건에 따라 다른 에이전트에 위임
코디네이터/스페셜리스트: 관리자 에이전트가 전문가 에이전트들에게 작업 분배

Claude Code에서 Task 도구로 서브에이전트를 실행하는 것이 바로 코디네이터/스페셜리스트 패턴의 실제 구현이다.

GraphRAG: 관계를 이해하는 검색

기존 RAG의 한계를 보완하는 접근으로 GraphRAG가 주목받고 있다.

기존 RAG vs GraphRAG

	기존 RAG	GraphRAG
검색 방식	벡터 유사도	지식 그래프 + 벡터
강점	텍스트 매칭	관계 추론
약점	엔티티 간 관계 놓침	그래프 구축 비용
정밀도	~80%	~99% (벤치마크 기준)

예를 들어 "이 함수를 호출하는 모든 서비스는?"이라는 질문에:

RAG: 관련 코드 조각을 반환하지만 호출 관계를 놓칠 수 있음
GraphRAG: 호출 그래프를 따라 정확한 의존성 체인을 반환

실무 적용

Microsoft가 주도하는 오픈소스 GraphRAG 프로젝트가 있으며, Neo4j 등 그래프 DB와 결합한 사례가 늘고 있다. 특히 법률, 의료, 금융 같이 엔티티 관계가 중요한 도메인에서 채택이 빠르다.

에이전트 인프라: 안전하게 실행하기

에이전트가 자율적으로 행동할수록, 이를 제어하고 관찰하는 인프라가 중요해진다.

코드 샌드박스

에이전트가 코드를 실행할 때 호스트 시스템을 보호하는 격리 환경:

E2B: Firecracker microVM 기반. ~150ms 시작, 하드웨어 수준 격리
Daytona: Docker 컨테이너 기반. ~90ms 시작, 상태 유지 가능

Guardrails

에이전트의 행동 범위를 제한하는 안전장치:

NVIDIA NeMo Guardrails: 콘텐츠 안전, 주제 제어, 탈옥 탐지
OpenAI Agents SDK: 입출력 검증을 기본 프리미티브로 제공

Observability

멀티스텝 워크플로우를 추적하고 분석:

LangSmith: LangChain 생태계, 낮은 오버헤드
Langfuse: 오픈소스(MIT), GitHub 스타 19K+
Braintrust: Notion, Stripe, Zapier가 사용

AI 도구 사용자에게 의미하는 것

이 모든 기술이 직접 에이전트를 만들지 않는 AI 도구 사용자에게 어떤 의미가 있을까?

이미 경험하고 있는 것들

MCP: Claude Code의 브라우저 자동화, 파일 시스템 접근이 MCP 서버를 통해 동작
Context Engineering: CLAUDE.md와 Skill로 컨텍스트를 설계하는 것 자체가 Context Engineering
멀티에이전트: Task 도구로 서브에이전트를 실행하는 패턴
영속 메모리: ~/.claude/memory/에 자동 저장되는 학습 내용

앞으로 달라질 것들

도구 연동이 쉬워진다: MCP 생태계가 커질수록, AI 도구에서 접근할 수 있는 외부 서비스가 폭발적으로 증가한다
에이전트가 더 똑똑해진다: GraphRAG, 메모리 시스템이 도입되면 같은 질문을 반복할 필요가 줄어든다
협업이 자동화된다: A2A와 멀티에이전트 패턴이 성숙하면, 코딩→테스트→배포 파이프라인이 에이전트 간 자동 핸드오프로 처리된다
안전장치가 표준화된다: Guardrails가 에이전트의 기본 스펙이 되어, 위험한 동작을 사전에 차단한다

정리

2026년 AI 에이전트 생태계는 단순히 "질문하면 답변하는" 수준을 넘어, 도구를 쓰고, 기억하고, 협업하고, 안전하게 실행하는 완전한 스택으로 진화하고 있다.

핵심 키워드를 다시 정리하면:

MCP + A2A → 표준 프로토콜로 연결
Context Engineering → 프롬프트를 넘어 컨텍스트를 설계
영속 메모리 → 세션을 넘어 학습하는 에이전트
멀티에이전트 → 혼자가 아닌 팀으로 동작
GraphRAG → 텍스트를 넘어 관계를 이해하는 검색
Guardrails + Observability → 자율성과 안전성의 균형

RAG와 Skill은 이 큰 그림의 지식 계층을 담당하는 중요한 조각이다. 하지만 그것만으로는 부족하다. 에이전트가 진정으로 유용해지려면, 위의 모든 계층이 유기적으로 맞물려야 한다.