newsletter하네스엔지니어링AI에이전트ClaudeCodeContextEngineering

모델은 상품이 된다, 그래서 하네스가 이긴다

2026-05-03
6 min read
1010 words

모델은 상품이 된다, 그래서 하네스가 이긴다


프롤로그: 왜 똑같은 모델인데 누구는 마법을 부리는가

모두가 같은 Claude Opus 4.7을 쓴다. 같은 GPT-5.5를 쓴다.

그런데 왜 누구는 한 달에 코드 수십만 줄을 자동으로 출하하고, 누구는 여전히 ChatGPT 창에 프롬프트를 복붙하고 있을까.

답은 모델이 아니다. 모델은 이제 수돗물이다. 진짜 차이는 그 수돗물을 흐르게 하는 배관, 즉 하네스(Harness)에 있다.

LangChain은 모델을 한 줄도 건드리지 않고, 하네스만 다시 짜서 Terminal-Bench 2.0 점수를 52.8%에서 66.5%로 끌어올렸다.1 같은 모델, 다른 결과. 이게 2026년의 게임이다.

나는 지난 1년간 50개 넘는 에이전트를 만든 한 발표자의 인사이트를 정리하면서, 내가 그동안 잘못된 곳에 시간을 쓰고 있었다는 걸 알았다.

I – 우리는 모두 죄인이었다

2022년, 2023년의 프롬프트 엔지니어링 시대를 기억하는가.

"AI는 잘못이 없어. 네가 프롬프트를 잘 못 쓴 거야."

이게 그 시절의 분위기였다. 답변이 이상하면 사용자 잘못이었다. 우리는 모두 메모장에 프롬프트를 깎고 또 깎았다.

그러다 컨텍스트 엔지니어링이 등장했다. RAG, 메모리, 툴 콜링이 들어오면서 시스템 프롬프트와 도구가 사용자의 영역을 대신 짊어지기 시작했다. 사용자는 "대충 던져도" 어느 정도 작동하는 시대로 진입했다.

그런데 여기서 멈췄다면, Claude Code도 Manus도 Codex도 존재할 수 없었다.

왜냐하면 컨텍스트 엔지니어링은 한 가지 치명적인 약점이 있었기 때문이다. 고정성. 한 번 세팅하면 끝이다. 프롬프트도 정적, 인덱스도 정적, 평가셋도 정적. 결과는 일관되지만, 유연하지 않다.


II – 95%가 60%가 되는 함정

2026년의 사용자는 더 이상 엔터키 한 번에 답변이 튀어나오기를 원하지 않는다.

Claude Code를 돌려놓고, Codex를 백그라운드로 띄워놓고, 우리는 다른 일을 한다. AI가 길게 일할수록 우리는 만족한다. 그게 매력이다.

그런데 여기에 산수가 등장한다.

단일 패스 95% 정확도 모델 → 10번 반복하면 약 60%로 떨어진다.[^2]

이건 마법이 아니다. 그냥 0.95의 10제곱이다. 그래서 Terminal-Bench 2.0의 1등도 65% 언저리에 머물러 있다.2

graph TD
    subgraph 문제["🔴 롱러닝 정확도 절벽"]
        A[Step 1: 95%] --> B[Step 5: 77%]
        B --> C[Step 10: 60%]
    end

    subgraph 해결["🟢 하네스 자가 교정"]
        D[Step 1: 95% + 룰 보강] --> E[Step 5: 92%]
        E --> F[Step 10: 88%]
    end

롱러닝 태스크의 정확도 절벽, 이게 컨텍스트 엔지니어링이 더 이상 답이 아닌 이유다. 우리는 매 단계마다 자기 교정을 할 수 있는 시스템이 필요해졌다.


III – 하네스는 피드백 루프다

마틴 파울러가 2026년 4월에 정리한 하네스 엔지니어링의 핵심은 한 단어로 요약된다. 피드백.3

시대 흐름 수정 대상
프롬프트 Feed-Forward 사용자가 프롬프트를 고침
컨텍스트 Feed-Forward + 약간의 Thumbs-up 엔지니어가 RAG/툴을 고침
하네스 Feed-Forward + Self-Correcting Feedback 시스템이 자기 룰을 고침

차이가 보이는가.

이전 시대에는 답변이 틀렸을 때 답변을 고쳤다. 하네스 시대에는 답변이 틀렸을 때 들어가는 방식 자체를 고친다.

쉽게 말해보자. 5월 셋째 주 금요일에 야외 워크숍을 가자고 AI에게 시켰다. 비가 왔다. AI는 임의 판단으로 워크숍을 캔슬해버렸다. 우리가 원한 건 실내 워크숍으로 변경이었는데.

옛날에는 이 답변을 고쳤다. 하네스 시대에는 룰을 고친다.

"비가 오거나 천재지변이 있을 때, 캔슬하지 말고 실내로 변경하거나 나에게 물어볼 것."

다음번부터는 같은 실수를 하지 않는다. 시스템이 누적되며 복리로 똑똑해진다. 이게 Self-Evolving이다.


IV – Progressive Disclosure: 채우지 말고 아껴 써라

여기서 모두가 빠지는 함정이 있다. "100만 토큰을 쓸 수 있으면 100만을 채우자."

틀렸다.

Opus 4.6의 MRCR v2 벤치마크를 보자. 200K 토큰에서는 약 4% 정확도 손실. 1M 토큰까지 채우면 약 14% 손실.4 100K 토큰마다 약 2%씩 깎인다.

그래서 똑똑한 하네스는 채우지 않는다. 필요할 때만 연다.

이게 Progressive Disclosure다. 스킬도 처음에는 frontmatter만 읽는다. "이거 본문까지 읽어야 해?" AI가 스스로 판단한다. 컨텍스트는 무조건 비싼 자원이다.

토큰 사용량 정확도 의미
200K 약 96% 🟢 스위트 스팟
500K 약 90% 🟡 주의
1M 약 86% 🔴 14% 손실

일관성이 생명이면 Always-On을 늘리고, 다양성이 생명이면 On-Demand로 빼라. 이게 조직 하네스 설계의 첫 단추다.


V – 팀 스킬을 강제하면 죽는다

여기까지 오면 이런 생각이 든다. "그럼 우리 팀 스킬을 만들어서 다 같이 쓰자."

일주일이면 깨진다. 나도 똑같이 시도했다가 일주일 만에 항복했다.5

이유는 단순하다. 하네스는 결국 나의 일을 줄이는 도구다. 내가 일하는 방식과 다른 스킬을 강제로 입혀버리면, 그 사람은 두 번 일한다. 자기 방식 한 번, 강제된 방식 또 한 번.

그래서 Anthropic의 엔터프라이즈 스킬 거버넌스도 3-Tier로 나뉜다.6

계층 관리 주체 변경 자유도
🧑 개인 스킬 본인 무제한
👥 팀 스킬 팀 합의 중간
🏢 회사 자산 거버넌스 + Approval 엄격

하나의 마스터 스킬은 없다. 개인의 일을 줄이는 도구로 시작해서, 팀이 합의하면 팀 자산이 되고, 조직이 검증하면 회사 자산이 된다. 위에서 아래로가 아니라, 아래에서 위로 올라가야 살아남는다.


💭 이 글을 읽고 생각해볼 질문

  1. 자가진화 시스템이 팀 스킬을 동기화할 때, 거버넌스 부담을 늘리지 않으면서 피드백 루프를 어떻게 작동시킬 수 있을까?

  2. 마크다운 기반 지식 관리가 사용자 인터페이스의 적응성을 어떻게 바꿀까? 그리고 그 변화가 AI 정확도에 미치는 영향은?

  3. 하네스 엔지니어링이 거버넌스 프레임워크가 될 때, 토큰 누적으로 정확도가 떨어지는 환경에서 개인 평가는 어떻게 달라질까?

댓글로 당신의 답을 들려주세요.

결론: 모델은 상품, 하네스는 차별

"앞으로 모델은 상품이 될 것이고, 동작하는 방식이 경쟁우위가 될 것이다."

이 한 문장이 2026년 AI 게임의 룰이다.

당신이 쓰는 모델은 옆자리 동료도 쓴다. 경쟁사도 쓴다. 차별점은 모델 안이 아니라 모델 바깥, 그 모델을 둘러싸는 하네스에 있다.

오늘 당장 두 가지를 시작해보자.

  1. 나만의 룰 파일을 만들어라. AI가 어제 한 실수를 적어두라. 마크다운 한 줄이면 된다.

  2. 피드백 받을 채널을 열어둬라. 당신이 쓰는 스킬에 결함이 있을 때, 그걸 적어둘 자리가 있는가.

이 두 가지가 없다면, 당신의 AI는 1년이 지나도 첫째 날과 같다.

"모델이 상품이 되는 시대, 우리가 만드는 배관의 모양이 곧 우리의 정체성이다."

Sources


이 글이 도움이 되셨다면, AI를 쓰는 친구 한 명에게 공유해주세요.

Footnotes

  1. Evaluating Deep Agents CLI on Terminal Bench 2.0 | LangChain Blog

  2. Terminal-Bench Hard Benchmark Leaderboard | Artificial Analysis

  3. Harness Engineering for Coding Agent Users | Martin Fowler

  4. Claude Opus 4.6 vs 4.5: Benchmarks, Context Window & Real Testing Results

  5. 본문 인용은 한국 AI 컨퍼런스 발표(2026, "하네스 엔지니어링" 트랙) 전사 기록 기반.

  6. Scaling Enterprise AI with Anthropic Agent Skills | Techkraft Inc

Back to All Posts
NEW

뉴스레터 서비스가 정식 시작되었습니다!

매주 금요일, 옵시디언으로 정리한 AI 인사이트를 메일함으로 배달해 드립니다.