AI를 '잘 쓰는' 시대는 끝났다 — 하네스 엔지니어링이 모든 것을 바꾼다
AI를 '잘 쓰는' 시대는 끝났다 — 하네스 엔지니어링이 모든 것을 바꾼다
프롤로그: 모두가 좋은 프롬프트를 외울 때, 누군가는 다른 것을 만들고 있다
모든 사람이 더 좋은 프롬프트를 찾고 있다. 더 긴 프롬프트, 더 영리한 페르소나, 더 정교한 체인 오브 쏘트(Chain of Thought).
그런데 나는 다른 생각이 든다. 이미 게임의 중심은 프롬프트가 아니다.
스탠퍼드 HAI 연구진이 12개의 실제 프로덕션 사례를 분석한 결과, 일정 수준 이상에서 프롬프트를 다듬는 것은 결과 품질을 3% 미만 개선했다. 반면 검색·도구·검증 같은 '하네스(harness)' 층을 손대면 품질이 28~47% 올라갔다1. 같은 시기 Stripe는 하네스 엔지니어링만으로 주당 1,300개의 AI 생성 PR을 메인 브랜치에 머지하고 있다2.
이 격차는 우연이 아니다. 그리고 그것은 한국의 한 연구자가 자신의 블로그에 적어둔 한 문장으로 이미 정리되어 있었다 — "AI에게 일을 시키는 것이 아니라, AI가 일을 잘하게 만드는 환경과 구조를 설계해야 한다."3
"누가 더 좋은 모델을 갖고 있느냐보다, 누가 그 모델을 더 잘 묶고, 더 잘 통제하고, 더 잘 일하게 만드느냐가 훨씬 중요할 때가 많다."
내가 코드를 직접 6개월간 AI 에이전트와 페어로 작업하며 깨달은 것도 같았다. 모델은 도구다. 도구를 거는 마구(馬具) — 그것이 승부를 가른다.
I – 프롬프트는 죽지 않았다, 다만 마지막 1%가 되었을 뿐이다
AI와의 상호작용은 세 번 진화했다.
| 시대 | 핵심 단위 | 한계 |
|---|---|---|
| 2022–2024 | 프롬프트 엔지니어링 | 한 번의 지시, 한 번의 응답 |
| 2025 | 컨텍스트 엔지니어링 | 한 번의 결정에 필요한 모든 정보 |
| 2026 | 하네스 엔지니어링 | 반복 가능한 운영 환경 전체 |
각 층은 이전 층을 흡수한다. 하네스 엔지니어링이 컨텍스트 엔지니어링을 품고, 컨텍스트 엔지니어링이 프롬프트 엔지니어링을 품는다4.
여기서 핵심이 나온다. 프로덕션 AI는 더 이상 한 번의 호출로 끝나지 않는다. 다단계 워크플로우, 도구 사용, 외부 데이터 검색, 오류 복구, 인간 검토 체크포인트가 동시에 돌아간다. 아무리 영리한 프롬프트라도 이 모든 로직을 한 줄에 인코딩할 수는 없다.
"좋은 프롬프트만으로는 부족하다. AI는 조건을 놓치고, 맥락을 잃고, 마지막 확인을 건너뛴다."[^3]
II – 하네스의 다섯 층: 마구를 어떻게 거는가
하네스의 골격은 다섯 개의 층으로 구성된다. 모두 마크다운 파일 — 그 단순함이 핵심이다.
graph TD
subgraph 하네스 ["🟢 Harness Engineering"]
A[CLAUDE.md / AGENTS.md<br>지침 파일] --> B[SKILL.md<br>스킬 매뉴얼]
B --> C[MCP / CLI<br>외부 연결]
C --> D[Subagents<br>역할 분리]
D --> E[Hooks<br>자동 검증]
end
subgraph 결과 ["✨ 출력"]
E --> F[반복 가능한 작업 시스템]
end
1. 지침 파일 — 길이는 50줄을 넘지 마라
좋은 CLAUDE.md는 백과사전이 아니라 가드레일이다. 좋은 행동을 가르치기보다 금지선을 그어야 한다. "이 디렉터리는 절대 수정하지 말 것", "배포 스크립트는 사용자 승인 없이 실행하지 말 것" 같은 것들. 50줄을 넘기 시작하면 컨텍스트를 잡아먹기 시작한다3.
2. 스킬 — 결정론적 자동화의 종말
n8n 같은 도구로 하던 결정론적 워크플로우는 분기 한 개만 어긋나도 무너진다. 스킬은 다르다. 자연어로 절차를 적어두면, AI가 맥락에 맞춰 유연하게 실행한다.
"스킬은 AI의 똑똑함을 키우는 것이 아니라, 한 번 잘 작동한 방식을 다시 쓸 수 있게 만드는 장치다."[^3]
3. MCP vs CLI — 단순한 쪽이 이긴다
2026년 4월 기준, 78%의 엔터프라이즈 AI 팀이 프로덕션에 MCP 백엔드 에이전트를 운영 중이다. 공개 MCP 서버 레지스트리는 2025년 1분기 1,200개에서 2026년 4월 9,400개 이상으로 폭증했다5. 그런데 실무 기준은 단순하다 — CLI가 가능하면 CLI를 써라. 더 가볍고, 이미 검증된 도구를 그대로 쓸 수 있다. CLI가 없을 때만 MCP다.
4. Subagent — 일하는 작은 팀을 설계하라
메인 에이전트 하나에 모든 일을 몰아넣으면 컨텍스트가 오염된다. 검색 결과, 로그, 가설들이 한 창에 뒤엉키면서 정작 중요한 흐름이 흐려진다.
서브에이전트는 일을 분업할 뿐 아니라 컨텍스트, 권한, 모델, 비용까지 분리한다. 작가가 글을 쓰고, 평론가가 평가하면, 자기방어적 편향이 줄어든다.
5. Hooks — 부탁이 아니라 강제다
훅은 가장 단단한 층이다. "이 단계에서는 무조건 이 확인을 거치게 하자"를 시스템에 못 박는다. 프롬프트 엔지니어링이 좋은 지시라면, 훅은 구조로 보장하는 검증이다.
III – 진짜 격차는 모델이 아니라 '암묵지의 언어화'에서 벌어진다
여기서 역설이 등장한다. 하네스의 거의 모든 것이 마크다운 파일이라면, 결국 승부는 자연어로 자기 노하우를 풀어쓰는 능력으로 환원된다.
얀 르쿤은 줄기차게 말해왔다 — 언어 모델은 결국 언어에 갇혀 있고, 물리 세계를 이해하지 못한다고. 그 경고는 옳다. 하지만 실무 층위로 내려오면 반대 방향의 진실이 보인다.
"언어만으로 세상을 완전히 이해하게 만들 수는 없을지 몰라도, 언어만으로 AI가 훨씬 더 잘 일하게 만들 수는 있다."[^3]
UC 버클리 California Management Review는 2026년 3월, "암묵지가 다음 경쟁의 해자(moat)"라고 단언했다. 데이터도, 모델도 아닌 사람의 판단 속에 박혀 있는 직관이 진짜 차별화 요소라는 것이다6. 같은 시기 ICSE 2026 논문은 이를 "Dark Matter"라 부르며, 인간-AI 협업의 핵심 미해결 문제로 지목했다7.
실천 전략: 암묵지를 시스템으로 옮기는 4단계
| 단계 | 행동 |
|---|---|
| 🔍 관찰 | 자기가 같은 피드백을 반복할 때마다 메모하라 |
| 🗣️ 언어화 | "그냥 보면 안다"를 문장으로 바꿔라 |
| 📋 체크리스트 | 문장을 단계와 예외 조건으로 쪼개라 |
| 🔄 하네스 반영 | 그 체크리스트를 SKILL.md, 훅, 서브에이전트로 옮겨라 |
한 가지 구체적 사례. 내가 보고서를 쓸 때 "도입부는 데이터로 시작, 본문은 3섹션, 결론은 질문으로 닫는다"는 감각이 있었다. 이걸 SKILL.md에 적었더니, 같은 글을 쓰는 데 걸리던 2시간이 25분으로 줄었다. 모델은 그대로다. 바뀐 것은 나의 암묵지가 시스템으로 옮겨졌다는 사실 하나다.
💭 이 글을 읽고 생각해볼 질문
-
프롬프트 다듬기로 3%가 오르고 하네스 작업으로 28-47%가 오른다면, 진짜 병목은 AI의 능력이 아니라 우리가 이미 아는 것을 언어로 풀어내는 능력 아닐까?
-
암묵지가 해자가 되는 시대에 누가 이길까? 가장 좋은 모델을 가진 엔지니어일까, 아니면 자신의 직관을 규칙으로 번역할 수 있는 실무자일까?
-
SKILL.md, hooks, subagent로 노하우를 외부화하는 능력 — '하네스 리터러시'가 향후 2년 내에 채용 평가의 측정 가능한 항목이 될 수 있을까?
댓글로 당신의 생각을 공유해주세요.
결론: AI의 시대가 아니라, AI를 부리는 구조의 시대다
지난 3년간 우리는 "AI 잘 쓰는 사람"을 부러워했다. 그런데 2026년의 진짜 질문은 이미 다음으로 넘어갔다.
"당신은 AI에게 일을 시키는 사람인가, 아니면 AI가 일을 잘하게 만드는 구조를 설계하는 사람인가?"
모든 직업은 결국 같은 질문 앞에 서게 된다. 의사도, 변호사도, 디자이너도, 교사도. 자기가 평소에 무의식적으로 하던 판단을 — 그 미세한 감각, 그 침묵의 노하우를 — 문장으로 옮길 수 있는가? 옮겨서 시스템에 박을 수 있는가?
AI는 노동을 줄여줄 수는 있지만, 무엇이 중요한지 대신 판단해주지 않는다.
"앞서 나가는 사람은 AI를 가진 사람이 아니라, AI가 잘 일할 수 있는 구조를 만들 줄 아는 사람이다."[^3]
Sources
이 글이 도움이 되셨다면, 한 명의 친구에게 공유해주세요.
Footnotes
-
Harness Engineering: Why the Way You Wrap AI Matters More Than Your Prompts in 2026 | AI Magicx ↩
-
How Stripe Ships 1,300 AI PRs a Week: Harness Engineering | MindStudio ↩
-
Prompt vs Context vs Harness Engineering: Key Differences | Atlan ↩
-
MCP Adoption Statistics 2026: Model Context Protocol | Digital Applied ↩
-
Tacit Knowledge Is Your Next Competitive Moat | California Management Review, March 2026 ↩
-
Revealing the Dark Matter: Connecting Tacit and System Knowledge in Human-AI Collaborations | ICSE 2026 ↩