newsletterAI에이전트컨텍스트엔지니어링MCPLangGraph

AI 에이전트 시대, 90%가 사라질 프레임워크에 베팅하지 마라

2026-05-01
7 min read
1319 words

🎧 Voice Briefing

📅 Generated: 2026. 5. 1. 오후 3:51:01

AI 에이전트 시대, 90%가 사라질 프레임워크에 베팅하지 마라


프롤로그: 매주 새 프레임워크가 나온다. 그런데 우리는 왜 더 불안한가?

매주 새 프레임워크가 출시된다. 매주 새 벤치마크가 등장한다. 매주 누군가 "10배 빠른" 무언가를 발표한다.

질문은 이제 "어떻게 따라잡을 것인가"가 아니다. "무엇이 진짜 신호이고, 무엇이 긴급함의 옷을 입은 노이즈인가." 이게 진짜 질문이다.

나는 지난 2년간 이 분야를 매일 들여다봤다. 그리고 한 가지 사실을 깨달았다. 작년에 마스터한 스택은 이미 레거시다. 6개월 전 최적화한 벤치마크는 이미 교체됐다. 2026년 4월, Claude Code는 47% 성능 회귀를 출시했고, 내부 모니터링이 아니라 사용자 커뮤니티가 먼저 발견했다1.

이게 바로 우리가 살고 있는 시대다. 거인들조차 공개적으로 시행착오 중이다.


I – 90%를 거를 수 있는 5가지 필터

당신은 매주 출시되는 모든 것을 따라잡을 수 없다. 따라잡으려 하지도 마라. 필요한 건 피드(feed)가 아니라 필터(filter)다.

지난 18개월간 검증된 5가지 테스트가 있다. 새 도구가 나온다면 스택에 들이기 전에 이 필터를 통과시켜라.

5가지 필터

# 질문 통과 기준
1 2년 후에도 의미 있는가? 프리미티브는 OK, 래퍼는 NO
2 존경하는 사람이 실패담을 썼는가? 마케팅은 NO, 포스트모템은 OK
3 기존 시스템을 버려야 하는가? 슬롯인은 OK, 마이그레이션 강요는 NO
4 6개월 미루면 잃는 게 있는가? 90%는 "아니오" - 그게 답이다
5 측정할 수 있는가? Eval 없으면 추측일 뿐
"프레임워크의 반감기는 짧다. 프리미티브의 반감기는 수년이다."

여기서 핵심이 나온다. 이 테스트들 아래 깔린 진짜 기술은 이름 붙이기 어렵다. 건너뛰는 것을 두려워하지 않는 자세. Hacker News에서 화제가 된 프레임워크는 14일 동안 응원단을 갖는다. 6개월 후, 그 프레임워크의 절반은 유지보수가 끊긴다. 응원단은 다른 곳으로 이동했다.

지나가는 것을 지나가게 두는 것. 그게 이 분야의 진짜 프로페셔널 스킬이다.


II – 영원히 살아남는 5가지 프리미티브

여기 컴파운드되는 것들이 있다. 모델이 바뀌어도, 프레임워크가 바뀌어도, 패러다임이 바뀌어도 살아남는다.

1. 컨텍스트 엔지니어링 (Context Engineering)

지난 2년 가장 중요한 이름 변경은 "프롬프트 엔지니어링"이 "컨텍스트 엔지니어링"이 된 것이다. 그리고 이건 화장이 아니라 본질의 변화다2.

모델은 더 이상 영리한 지시를 만들 대상이 아니다. 매 단계마다 작동하는 컨텍스트를 조립할 대상이다. 시스템 명령, 도구 스키마, 검색된 문서, 이전 도구 출력, 스크래치패드 상태, 압축된 히스토리 — 이 모든 게 동시에 컨텍스트다.

"컨텍스트는 상태다. 모든 무관한 토큰은 추론 품질에 비용을 부과한다."

10단계 작업의 8단계쯤 되면, 원래 목표가 도구 출력 아래 묻혀 있다. 컨텍스트 부패(context rot)는 실제 프로덕션 실패다. 신뢰할 만한 에이전트를 출시하는 팀들은 적극적으로 요약하고, 압축하고, 가지치기한다.

graph TD
    subgraph 잘못된방식 ["🔴 잘못된 방식: 토큰 누적"]
        A1[Step 1: 깔끔한 컨텍스트] --> B1[Step 4: 도구 출력 누적]
        B1 --> C1[Step 8: 원래 목표 매몰]
        C1 --> D1[추론 품질 급락]
    end

    subgraph 올바른방식 ["🟢 올바른 방식: 능동 큐레이션"]
        A2[Step 1: 깔끔한 컨텍스트] --> B2[Step 4: 요약 + 가지치기]
        B2 --> C2[Step 8: 신호만 유지]
        C2 --> D2[일관된 추론 품질]
    end

2. 도구 설계 (Tool Design)

도구는 에이전트가 당신의 비즈니스를 만나는 곳이다. 모델은 이름과 설명으로 도구를 고른다. 에러 메시지 기반으로 재시도한다.

잘 만든 도구 5-10개가 평범한 도구 20개를 이긴다. 한 팀은 에러 메시지만 다시 쓰고도 재시도 루프가 40% 줄었다고 보고했다.

"Max tokens 500 exceeded, try summarizing first""Error: 400 Bad Request"를 압도한다. 차이는 어마어마하다.

3. 오케스트레이터-서브에이전트 패턴

2024년부터 2025년까지의 멀티 에이전트 논쟁은 합의로 끝났다. 순진한 멀티 에이전트는 망한다. 여러 에이전트가 공유 상태에 병렬로 쓰면 에러가 복리로 쌓인다.

대신 살아남은 패턴은 하나다. 오케스트레이터 에이전트가 좁게 범위 잡힌 읽기 전용 작업을 격리된 서브에이전트에게 위임하고, 결과를 합성한다.

"Anthropic의 멀티 에이전트(Opus 4 + Sonnet 4 서브에이전트)는 단일 Opus 4 대비 90.2% 우위. 단, 토큰 사용량은 15배."[^3]

기본값은 단일 에이전트다. 컨텍스트 윈도우 압박, 순차 도구 호출의 지연, 작업 이질성 — 진짜 벽에 부딪혔을 때만 오케스트레이터-서브에이전트로 가라.

4. Evals와 골든 데이터셋

신뢰할 만한 에이전트를 출시하는 모든 팀에는 evals가 있다. 안 그런 팀에는 없다. 이게 가장 레버리지 높은 습관이고, 가장 투자가 부족한 영역이다.

pie title "에이전트 도입률 vs Eval 채택률 (2026)"
    "관측가능성 도입 (89%)" : 89
    "Eval 채택 (52%)" : 52
    "격차 (37%)" : 37

89%가 관측가능성을 구현했다. 그런데 evals는 52%만 채택했다3. 이 37% 격차가 바로 "vibes로 운영하는 팀"의 비율이다.

처음 50개 예제는 오후에 손으로 라벨링할 수 있다. 변명의 여지가 없다.

5. MCP, 컨셉으로

MCP 서버 호출법만 배우지 마라. 모델을 배워라. 에이전트 능력, 도구, 리소스의 깔끔한 분리. 확장 가능한 인증과 전송 스토리.

이걸 이해하면, 다른 모든 "에이전트 통합 프레임워크"는 MCP의 못한 버전으로 보인다. 평가 시간을 절약한다.

"MCP는 출시 16개월만에 월 200만 → 9700만 다운로드. Linux Foundation으로 이전. 'AI의 USB-C'는 더 이상 빈말이 아니다."[^5]

III – 무엇을 만들고, 무엇을 건너뛸 것인가

2026년 4월 기준, 구체적 선택이다. 보링하게 가라.

채택할 것 vs 건너뛸 것

영역 ✅ 채택 ❌ 건너뛰기
오케스트레이션 LangGraph (대기업 1/3 사용)4 AutoGen, CrewAI 프로덕션
프로토콜 MCP (Linux Foundation) 커스텀 도구 배관
메모리 Mem0 → Zep → Letta (필요할 때만) 메모리 문제 없는데 메모리 프레임워크
관측성 Langfuse + Braintrust 대시보드만 보고 evals 없음
샌드박스 E2B, Browserbase 비샌드박스 코드 실행
모델 Sonnet 4.6 (스윗스팟) 매주 모델 갈아타기
마인드셋 "이 출시를 6개월 미루면?" "Hacker News에서 화제니까"

실천 전략

전략 설명
🎯 하나의 결과부터 비즈니스가 이미 신경 쓰는 측정 가능한 것. 지원 티켓 차감, 1차 법무 검토, 인바운드 리드 자격 검증
📊 출시 전에 evals부터 50개 손 라벨로 시작. 모든 변경은 evals 통과 후 배포
🔬 단일 에이전트 루프부터 LangGraph + Sonnet 4.6 + 도구 3-7개 + 파일시스템 상태
💸 Day 1부터 단위 경제 $0.50/run PoC가 100배 스케일에서 $50K/월이 된다
📅 분기마다 모델 재평가 매주가 아니라. 데이터가 말하면 바꿔라

💭 이 글을 읽고 생각해볼 질문

  1. 89%가 관측가능성을 도입했지만 evals는 52%만 채택했다. 이 37% 격차는 당신의 팀에서 어디에 위치하는가? "vibes로 운영하는" 절반에 속해 있다면, 첫 50개 라벨을 누가 언제 만들 것인가?

  2. "모델은 stateless이고, 하니스가 stateful이어야 한다"는 원칙은 당신의 현재 시스템 설계를 어떻게 바꾸는가? 모델 교체가 가능한 구조인가, 아니면 한 모델에 잠겨 있는가?

  3. Sierra, Harvey, Cursor의 공통점은 "좁은 타겟 + 보링한 규율 + 노이즈 무시"였다. 당신의 다음 프로젝트가 "수평적 에이전트 플랫폼"이라면, 그것은 진짜 비즈니스가 요구한 것인가, 아니면 당신이 짓고 싶었던 것인가?

댓글로 당신의 생각을 공유해주세요.

결론: 자격증이 아니라 만든 것이 자격이다

전통적 경로는 이랬다. 스택을 고른다. 수년간 마스터한다. 사다리를 오른다. 그게 통하던 시대는, 그 아래 분야가 10년간 안정됐을 때다.

이제 분야는 분기마다 바뀐다. 22살이 공개적으로 에이전트 데모를 출시하는 것과 35살 시니어 엔지니어의 차이는 더 이상 10년의 누적된 스택 마스터리가 아니다. 두 사람 모두 같은 빈 캔버스 앞에 서 있다. 컴파운드되는 것은 출시 의지와, 분기마다 사라지지 않는 작은 프리미티브 목록뿐이다.

이게 이 글의 진짜 핵심이다.

이 시대는 만든 사람을 보상한다. 만든 것을 묘사할 수 있는 사람보다. 자격증이 닫혀 있던 문을 만들어진 작품이 연다. 사다리가 사라진 자리에는 훨씬 오래된 방법이 남는다 — 무언가를 만들어서, 인터넷에 올리고, 그 작품이 당신을 소개하게 두는 것.

"매주 출시되는 프레임워크는 하나의 압박처럼 느껴진다. 하지만 컴파운드되는 것을 알아보는 순간, 그것은 무시해도 되는 노이즈로 들리기 시작한다. 그 차이가 이 시대의 진짜 자격이다."

Sources


이 글이 도움이 되셨다면, 한 명의 친구에게 공유해주세요.

당신의 다음 6개월 어텐션을 어디에 쓸지 결정하는 데 도움이 됐기를.

Footnotes

  1. Anthropic explains Claude Code's recent performance decline | Fortune

  2. Effective context engineering for AI agents | Anthropic

  3. State of AI Agents 2026 | LangChain

  4. The 2026 MCP Roadmap | Model Context Protocol Blog

Back to All Posts
NEW

뉴스레터 서비스가 정식 시작되었습니다!

매주 금요일, 옵시디언으로 정리한 AI 인사이트를 메일함으로 배달해 드립니다.