모델은 상품이 된다, 그래서 하네스가 이긴다
모델은 상품이 된다, 그래서 하네스가 이긴다
프롤로그: 왜 똑같은 모델인데 누구는 마법을 부리는가
모두가 같은 Claude Opus 4.7을 쓴다. 같은 GPT-5.5를 쓴다.
그런데 왜 누구는 한 달에 코드 수십만 줄을 자동으로 출하하고, 누구는 여전히 ChatGPT 창에 프롬프트를 복붙하고 있을까.
답은 모델이 아니다. 모델은 이제 수돗물이다. 진짜 차이는 그 수돗물을 흐르게 하는 배관, 즉 하네스(Harness)에 있다.
LangChain은 모델을 한 줄도 건드리지 않고, 하네스만 다시 짜서 Terminal-Bench 2.0 점수를 52.8%에서 66.5%로 끌어올렸다.1 같은 모델, 다른 결과. 이게 2026년의 게임이다.
나는 지난 1년간 50개 넘는 에이전트를 만든 한 발표자의 인사이트를 정리하면서, 내가 그동안 잘못된 곳에 시간을 쓰고 있었다는 걸 알았다.
I – 우리는 모두 죄인이었다
2022년, 2023년의 프롬프트 엔지니어링 시대를 기억하는가.
"AI는 잘못이 없어. 네가 프롬프트를 잘 못 쓴 거야."
이게 그 시절의 분위기였다. 답변이 이상하면 사용자 잘못이었다. 우리는 모두 메모장에 프롬프트를 깎고 또 깎았다.
그러다 컨텍스트 엔지니어링이 등장했다. RAG, 메모리, 툴 콜링이 들어오면서 시스템 프롬프트와 도구가 사용자의 영역을 대신 짊어지기 시작했다. 사용자는 "대충 던져도" 어느 정도 작동하는 시대로 진입했다.
그런데 여기서 멈췄다면, Claude Code도 Manus도 Codex도 존재할 수 없었다.
왜냐하면 컨텍스트 엔지니어링은 한 가지 치명적인 약점이 있었기 때문이다. 고정성. 한 번 세팅하면 끝이다. 프롬프트도 정적, 인덱스도 정적, 평가셋도 정적. 결과는 일관되지만, 유연하지 않다.
II – 95%가 60%가 되는 함정
2026년의 사용자는 더 이상 엔터키 한 번에 답변이 튀어나오기를 원하지 않는다.
Claude Code를 돌려놓고, Codex를 백그라운드로 띄워놓고, 우리는 다른 일을 한다. AI가 길게 일할수록 우리는 만족한다. 그게 매력이다.
그런데 여기에 산수가 등장한다.
단일 패스 95% 정확도 모델 → 10번 반복하면 약 60%로 떨어진다.[^2]
이건 마법이 아니다. 그냥 0.95의 10제곱이다. 그래서 Terminal-Bench 2.0의 1등도 65% 언저리에 머물러 있다.2
graph TD
subgraph 문제["🔴 롱러닝 정확도 절벽"]
A[Step 1: 95%] --> B[Step 5: 77%]
B --> C[Step 10: 60%]
end
subgraph 해결["🟢 하네스 자가 교정"]
D[Step 1: 95% + 룰 보강] --> E[Step 5: 92%]
E --> F[Step 10: 88%]
end
롱러닝 태스크의 정확도 절벽, 이게 컨텍스트 엔지니어링이 더 이상 답이 아닌 이유다. 우리는 매 단계마다 자기 교정을 할 수 있는 시스템이 필요해졌다.
III – 하네스는 피드백 루프다
마틴 파울러가 2026년 4월에 정리한 하네스 엔지니어링의 핵심은 한 단어로 요약된다. 피드백.3
| 시대 | 흐름 | 수정 대상 |
|---|---|---|
| 프롬프트 | Feed-Forward | 사용자가 프롬프트를 고침 |
| 컨텍스트 | Feed-Forward + 약간의 Thumbs-up | 엔지니어가 RAG/툴을 고침 |
| 하네스 | Feed-Forward + Self-Correcting Feedback | 시스템이 자기 룰을 고침 |
차이가 보이는가.
이전 시대에는 답변이 틀렸을 때 답변을 고쳤다. 하네스 시대에는 답변이 틀렸을 때 들어가는 방식 자체를 고친다.
쉽게 말해보자. 5월 셋째 주 금요일에 야외 워크숍을 가자고 AI에게 시켰다. 비가 왔다. AI는 임의 판단으로 워크숍을 캔슬해버렸다. 우리가 원한 건 실내 워크숍으로 변경이었는데.
옛날에는 이 답변을 고쳤다. 하네스 시대에는 룰을 고친다.
"비가 오거나 천재지변이 있을 때, 캔슬하지 말고 실내로 변경하거나 나에게 물어볼 것."
다음번부터는 같은 실수를 하지 않는다. 시스템이 누적되며 복리로 똑똑해진다. 이게 Self-Evolving이다.
IV – Progressive Disclosure: 채우지 말고 아껴 써라
여기서 모두가 빠지는 함정이 있다. "100만 토큰을 쓸 수 있으면 100만을 채우자."
틀렸다.
Opus 4.6의 MRCR v2 벤치마크를 보자. 200K 토큰에서는 약 4% 정확도 손실. 1M 토큰까지 채우면 약 14% 손실.4 100K 토큰마다 약 2%씩 깎인다.
그래서 똑똑한 하네스는 채우지 않는다. 필요할 때만 연다.
이게 Progressive Disclosure다. 스킬도 처음에는 frontmatter만 읽는다. "이거 본문까지 읽어야 해?" AI가 스스로 판단한다. 컨텍스트는 무조건 비싼 자원이다.
| 토큰 사용량 | 정확도 | 의미 |
|---|---|---|
| 200K | 약 96% | 🟢 스위트 스팟 |
| 500K | 약 90% | 🟡 주의 |
| 1M | 약 86% | 🔴 14% 손실 |
일관성이 생명이면 Always-On을 늘리고, 다양성이 생명이면 On-Demand로 빼라. 이게 조직 하네스 설계의 첫 단추다.
V – 팀 스킬을 강제하면 죽는다
여기까지 오면 이런 생각이 든다. "그럼 우리 팀 스킬을 만들어서 다 같이 쓰자."
일주일이면 깨진다. 나도 똑같이 시도했다가 일주일 만에 항복했다.5
이유는 단순하다. 하네스는 결국 나의 일을 줄이는 도구다. 내가 일하는 방식과 다른 스킬을 강제로 입혀버리면, 그 사람은 두 번 일한다. 자기 방식 한 번, 강제된 방식 또 한 번.
그래서 Anthropic의 엔터프라이즈 스킬 거버넌스도 3-Tier로 나뉜다.6
| 계층 | 관리 주체 | 변경 자유도 |
|---|---|---|
| 🧑 개인 스킬 | 본인 | 무제한 |
| 👥 팀 스킬 | 팀 합의 | 중간 |
| 🏢 회사 자산 | 거버넌스 + Approval | 엄격 |
하나의 마스터 스킬은 없다. 개인의 일을 줄이는 도구로 시작해서, 팀이 합의하면 팀 자산이 되고, 조직이 검증하면 회사 자산이 된다. 위에서 아래로가 아니라, 아래에서 위로 올라가야 살아남는다.
💭 이 글을 읽고 생각해볼 질문
-
자가진화 시스템이 팀 스킬을 동기화할 때, 거버넌스 부담을 늘리지 않으면서 피드백 루프를 어떻게 작동시킬 수 있을까?
-
마크다운 기반 지식 관리가 사용자 인터페이스의 적응성을 어떻게 바꿀까? 그리고 그 변화가 AI 정확도에 미치는 영향은?
-
하네스 엔지니어링이 거버넌스 프레임워크가 될 때, 토큰 누적으로 정확도가 떨어지는 환경에서 개인 평가는 어떻게 달라질까?
댓글로 당신의 답을 들려주세요.
결론: 모델은 상품, 하네스는 차별
"앞으로 모델은 상품이 될 것이고, 동작하는 방식이 경쟁우위가 될 것이다."
이 한 문장이 2026년 AI 게임의 룰이다.
당신이 쓰는 모델은 옆자리 동료도 쓴다. 경쟁사도 쓴다. 차별점은 모델 안이 아니라 모델 바깥, 그 모델을 둘러싸는 하네스에 있다.
오늘 당장 두 가지를 시작해보자.
-
나만의 룰 파일을 만들어라. AI가 어제 한 실수를 적어두라. 마크다운 한 줄이면 된다.
-
피드백 받을 채널을 열어둬라. 당신이 쓰는 스킬에 결함이 있을 때, 그걸 적어둘 자리가 있는가.
이 두 가지가 없다면, 당신의 AI는 1년이 지나도 첫째 날과 같다.
"모델이 상품이 되는 시대, 우리가 만드는 배관의 모양이 곧 우리의 정체성이다."
Sources
이 글이 도움이 되셨다면, AI를 쓰는 친구 한 명에게 공유해주세요.
Footnotes
-
Evaluating Deep Agents CLI on Terminal Bench 2.0 | LangChain Blog ↩
-
Terminal-Bench Hard Benchmark Leaderboard | Artificial Analysis ↩
-
Harness Engineering for Coding Agent Users | Martin Fowler ↩
-
Claude Opus 4.6 vs 4.5: Benchmarks, Context Window & Real Testing Results ↩
-
본문 인용은 한국 AI 컨퍼런스 발표(2026, "하네스 엔지니어링" 트랙) 전사 기록 기반. ↩
-
Scaling Enterprise AI with Anthropic Agent Skills | Techkraft Inc ↩