모델은 끝났다. 이제 '하네스'의 시대다
모델은 끝났다. 이제 '하네스'의 시대다
프롤로그: 당신은 아직도 더 큰 모델을 기다리는가
2023년만 해도 그게 정답이었다. 파라미터가 많을수록, GPU를 더 사들일수록 똑똑해진다고 믿었다.
하지만 2026년 지금, 그 시대는 끝났다.
올해 4월, LangChain이 충격적인 결과를 발표했다. 같은 모델, 같은 데이터셋. 오직 하네스만 바꿨더니 코딩 벤치마크가 52.8%에서 66.5%로 뛰었다.1
같은 달, Meta-Harness 논문은 더 큰 숫자를 공개했다. 하네스만 바꿔도 성능이 6배 차이 난다.2
나는 솔직히 이 데이터를 보고 한참을 멍하니 앉아 있었다. 모델 가중치는 이제 상품이 됐다. 진짜 게임은 그 모델을 어떻게 감싸느냐, 즉 Harness Engineering에 달려 있다.
나는 학교 현장에서 AI를 매일 만지는 사람이고, 클라우드 청구서와 데이터 유출 두 가지 모두에 발목 잡혀 본 사람이다. 그래서 이 흐름을 그냥 흘려보낼 수가 없었다.
I – 3년 만에 무엇이 바뀌었는가
지난 3년의 진화를 한 줄로 요약하면 이렇다.
| 시기 | 주도권 | 본질적 질문 |
|---|---|---|
| 2023 | Weights | 누가 더 큰 모델을 만드는가 |
| 2024 | Context | 누가 더 잘 프롬프트하는가 |
| 2025–26 | Harness | 누가 더 좋은 시스템을 만드는가 |
Martin Fowler는 4월 2일 발표한 글에서 이를 한 문장으로 정리했다.3
"Agent = Model + Harness. 진짜 차이는 모델 옆에 무엇을 두느냐다."
하네스란 무엇인가? 모델 주변의 모든 시스템이다. 컨텍스트 관리, 도구 호출, 메모리 지속, 평가 피드백 루프, 안전장치(Guardrail).
다시 말해, 모델은 더 이상 엔진이 아니다.
모델은 연료다. 하네스가 자동차다.
II – Local LLM이 판을 뒤집는 이유
클라우드 API에 매달려 있는 한, 당신은 영원히 비용·지연·프라이버시에 발목 잡힌다.
하지만 Local LLM은 다르다.
graph LR
subgraph 클라우드 ["☁️ 클라우드 API"]
A1[월 수십만원 비용] --> A2[데이터 외부 유출]
A2 --> A3[지연·서버 다운]
end
subgraph 로컬 ["💻 Local LLM + Harness"]
B1[비용 0원] --> B2[100% 프라이빗]
B2 --> B3[실시간·완전 커스터마이징]
end
Apple의 자체 MLX 벤치마크는 M5 칩이 첫 토큰 생성에서 M4 대비 3~4배 빨라졌다고 밝혔다.4
20B 파라미터 모델이 베이스 맥북프로에서 3초 안에 첫 토큰을 만든다.
여기에 4월 24일 공개된 DeepSeek V4가 더해지면서, 한때 데이터센터가 필요했던 성능이 노트북 안으로 들어왔다.5
내가 진짜 주목한 부분은 따로 있다. M5 128GB Mac 한 대에서 DeepSeek-V4-Flash-2bit + BGE-M3 임베딩을 돌리며, Graphify와 Obsidian으로 자기만의 '두 번째 뇌'를 만드는 사람들이 이미 수만 명이라는 사실이다.
모델은 더 이상 자랑이 아니다. 시스템이 자랑이다.
III – 그래서 지금 무엇을 해야 하는가
한국도 빠르게 움직이고 있다. 3월, AMD와 Upstage는 MI355 GPU 기반 Sovereign AI 인프라 협력을 발표했다.6 이는 한국 정부의 7,350억 달러 규모 Sovereign AI 이니셔티브와 맞물린다.7
기업이 자기 데이터를 자기 인프라 위에서 굴리는 시대. 개인도 마찬가지다.
현재 만들 수 있는 개인 하네스
| 단계 | 도구 | 효과 |
|---|---|---|
| 🛠 세팅 | Mac/PC + Ollama + DeepSeek-V4-Flash-2bit | 비용 0원, 응답 1~3초 |
| 🧠 메모리 | Obsidian + BGE-M3 임베딩 + Graphify | 평생 누적되는 두 번째 뇌 |
| 🔁 피드백 루프 | LLM Wiki + 자동 평가 스크립트 | 어제의 실패가 오늘의 답으로 |
여기서 핵심이 나온다. 하네스는 '코드'가 아니라 '습관'이다.
매일 raw 폴더에 생각을 떨어뜨리고, 임베딩이 그것을 묶어주고, 모델이 다시 꺼내 쓴다. 그 루프 자체가 당신만의 하네스가 된다.
결론: 모델을 기다리지 말고, 자동차를 만들어라
3년 전엔 "더 큰 모델이 답"이라는 게 시의적 주제였다.
지금은 "어떤 시스템을 만들 것인가"가 영원한 질문이 되었다.
모델 사이즈 경쟁은 끝났다. 이제는 시스템을 만드는 능력의 경쟁이다.
OpenAI는 5개월 동안 약 100만 줄의 프로덕션 코드를 만들었다. 모델이 천재라서가 아니다. 하네스를 정성껏 설계했기 때문이다.8
당신이 새 모델을 기다리는 동안, 누군가는 매일 자기 노트와 파일과 생각을 모아 자기만의 두 번째 뇌를 짓고 있다. 1년 뒤, 2년 뒤, 그 격차는 모델 크기로는 따라잡을 수 없다.
"모델은 연료다. 하네스는 자동차다. 당신은 무엇을 만들고 있는가?"
Sources
이 글이 도움이 되셨다면, 한 명의 친구에게 공유해주세요.
Footnotes
-
Harness Engineering for Coding Agent Users | Martin Fowler ↩
-
Meta-Harness: End-to-End Optimization of Model Harnesses (Lee et al., 2026) | Hugo Cisneros Notes ↩
-
DeepSeek V4 — almost on the frontier, a fraction of the price | Simon Willison ↩
-
AMD and Upstage Expand Strategic Collaboration to Advance Sovereign AI Infrastructure in Korea | AMD Newsroom ↩
-
Agent Harness Engineering — The Rise of the AI Control Plane | Adnan Masood, Medium (Apr 2026) ↩