newsletterHarnessEngineeringLocalLLMAI에이전트SovereignAI두번째뇌

모델은 끝났다. 이제 진짜 게임은 '하네스'다

2026-05-06

6 min read

1101 words

모델은 끝났다. 이제 진짜 게임은 '하네스'다

소프트웨어 거장 마틴 파울러가 4월에 던진 한 문장이 업계를 흔들고 있습니다.

"Agent = Model + Harness."

2026년의 진짜 변곡점은 모델이 아닌 '하네스'에 있다는 선언이죠.

'더 큰 모델만 기다리고 있다가, 어느 날 누군가 자기 책상 위 노트북에서 같은 일을 더 잘 해내고 있더라.'

한 번쯤 그런 작은 위협을 느껴보셨을 겁니다.

3년 전, 우리는 GPT-4와 Llama 2를 보며 감탄했습니다. 파라미터 수가 곧 권력이었고, GPU를 더 많이 사들이는 회사가 이긴다고 믿었어요. 그런데 2026년 봄, 흐름이 완전히 바뀌었습니다.

소프트웨어 아키텍트 마틴 파울러가 4월 2일 자신의 사이트에 「Harness Engineering for Coding Agent Users」를 올렸습니다. 그는 단언해요.

"모델은 이제 상품이 됐다. 진짜 차이는 모델 옆에 무엇을 두느냐, 즉 '하네스'가 만든다." _Martin Fowler, 2026.04

같은 달, LangChain은 충격적인 결과를 발표합니다. 모델은 그대로 둔 채 하네스만 바꿨더니 코딩 벤치마크 점수가 52.8%에서 66.5%로 뛰었어요.

그리고 Lee, Nair, Khattab 등이 발표한 「Meta-Harness」 논문은 더 큰 숫자를 공개합니다. 같은 모델에 다른 하네스를 씌웠더니, 성능 격차가 무려 6배까지 벌어졌어요.

이게 무슨 뜻일까요. 이 글에서 그 흐름을 짚어보고자 합니다.

Chapter 1. 3년 만에 무엇이 바뀌었나

모델 사이즈 경쟁은 끝났다

2023년부터 2026년까지, AI 업계의 화두는 매년 다르게 굴러왔어요.

① 2023년 — Weights의 시대

"누가 더 큰 모델을 만드는가." GPT-4가 등장했고, Llama 2가 풀렸어요. 모델 크기가 곧 권력이었죠.

② 2024년 — Context의 시대

RAG, 긴 컨텍스트, 프롬프트 엔지니어링. 같은 모델이라도 누가 더 잘 다루느냐가 중요해졌습니다. 개인기의 시대였어요.

③ 2025–26년 — Harness의 시대

이제 모델은 거의 고정값입니다. 그 위에 어떤 시스템을 짜느냐로 6배, 7배 성능 차이가 나는 시대가 왔어요.

파울러는 이를 한 문장으로 정리했습니다.

"하네스란 모델 주변의 모든 것이다. 컨텍스트 관리, 도구 호출, 메모리, 평가 루프, 가드레일." _Martin Fowler, 2026.04

다시 말해, 모델은 더 이상 엔진이 아닙니다. 모델은 '연료'예요. 자동차는 하네스입니다.

Chapter 2. 클라우드 vs Local LLM, 무엇이 다른가

진짜 수혜자는 '개인'이다

이 변화의 진짜 수혜자는 누구일까요. 저는 개인이라고 봅니다. 클라우드 API에 매달려 있을 때와 Local LLM으로 옮겨왔을 때, 몸으로 느끼는 차이가 큽니다.

① 비용 구조가 무너집니다

월 수십만 원의 API 비용이 0원이 됩니다. 한번 세팅하면, 다음 달부터 청구서가 사라져요.

② 데이터가 외부로 나가지 않습니다

Sovereign AI라는 단어가 기업과 정부의 화두인 이유. 한국 정부는 2026년 7,350억 달러 규모 Sovereign AI 이니셔티브를 돌리고 있어요. 3월에는 AMD와 Upstage가 MI355 GPU 기반 협력을 발표했습니다. 기업도 개인도, 자기 데이터는 자기 인프라에서 굴리는 시대가 온 거죠.

③ 응답 속도가 다릅니다

Apple의 MLX 벤치마크에 따르면, M5 칩은 첫 토큰 생성 속도가 M4 대비 3~4배 빨라졌습니다. 20B 파라미터 모델이 베이스 맥북프로에서 3초 안에 첫 토큰을 만들어요.

④ 모델 자체가 진화했습니다

4월 24일, DeepSeek V4가 공개됐어요. Simon Willison은 자신의 블로그에 이렇게 썼습니다.

"프론티어 수준에 거의 다다랐는데, 비용은 그 일부에 불과하다." _Simon Willison, 2026.04.24

이 모든 게 한 자리에 모이면 무슨 일이 벌어질까요. 같은 사용자, 다른 선택을 비교해보겠습니다.

A. 클라우드 의존형 사용자

"GPT 새 모델 나왔대. 일단 한 달 써보자. 어, 그런데 이번 달 청구서가 60만 원이네…"

B. Local Harness 사용자

"DeepSeek V4 나왔네. 토요일 오전에 Ollama로 받아서 어제까지 쓰던 Obsidian Graphify에 그냥 꽂아 넣자. 비용 0원."

같은 모델 출시, 같은 사용자. 그러나 12개월이 지나면, 두 사람의 격차는 더 이상 따라잡을 수 없는 수준이 됩니다.

Chapter 3. 두 번째 뇌를 만드는 사람들

하네스는 코드가 아니라 워크플로우다

마틴 파울러의 글에서 가장 인상 깊었던 대목은 따로 있었어요.

"하네스는 결국 코드가 아니라 워크플로우다. 매일 어떤 데이터를 흘리고, 어떻게 평가하고, 어떻게 다시 꺼내 쓰는가의 문제다." _Martin Fowler, 2026.04

이미 수만 명이 이 흐름에 올라타 있어요. M5 128GB Mac 한 대에서 DeepSeek-V4-Flash-2bit + BGE-M3 임베딩을 돌리며, Graphify와 Obsidian을 엮어 자기만의 '두 번째 뇌'를 만드는 사람들이죠.

저도 그 흐름의 끝자락에 서 있습니다. 처음에는 어색했어요. raw 폴더에 그냥 생각을 떨어뜨리고, 임베딩이 묶어주고, 모델이 다시 꺼내 쓰는 루프. "이게 정말 쓸모 있을까?" 몇 주를 의심했죠.

① 매일 raw 폴더에 생각을 떨어뜨린다

회의 메모, 책 발췌, 떠오른 한 문장. 정리하지 않고 그냥 넣습니다.

② 임베딩이 자동으로 묶어준다

BGE-M3가 비슷한 의미의 글들을 그래프로 잇습니다. Graphify가 그것을 시각화해줘요.

③ 모델이 다시 꺼내 쓴다

질문을 던지면, 한 달 전 메모와 어제 본 논문이 함께 답으로 묶여 나옵니다.

3개월쯤 지나니, 이 시스템이 나보다 나를 더 잘 기억하기 시작했어요. 그게 두 번째 뇌입니다.

Chapter 4. 앞으로 2~3년, 무엇이 펼쳐지나

세 가지 흐름이 이미 시작됐다

파울러의 글이 흥미로운 지점은, 이게 단순한 '도구 가이드'가 아니라는 데 있어요. 그는 향후 2~3년의 풍경을 예고합니다.

① Task-specific 모델 폭발

누구나 자기 분야에서 자신만의 하네스를 만들어 frontier-level 성능을 끌어내는 시대. 글쓰기, 코드, 연구, 콘텐츠 기획. 모델 크기는 더 이상 진입 장벽이 아닙니다.

② Automated Harness — 메타-하네스의 등장

에이전트가 스스로 하네스 코드를 최적화하는 '메타-하네스' 시대가 옵니다. Meta-Harness 논문이 이미 그 첫 장을 열었어요.

③ Agent OS 시대

Local LLM + Harness가 하나의 '개인 운영체제'가 됩니다. 당신의 노트, 파일, 생각, 프로젝트가 모두 살아 움직이는 하나의 지능이 되는 거죠.

Chapter 5. 그래서 어떻게 시작하는가

새 모델을 기다리지 마라

파울러는 글의 마지막에서 이렇게 정리합니다.

"새 모델을 기다릴 시간에, 자기 워크플로우의 약점을 5분만 들여다보라. 그게 진짜 하네스 엔지니어링의 시작이다." _Martin Fowler, 2026.04

오늘 시작할 수 있는 가장 작은 단위는 이렇습니다.

단계	도구	시간
① 환경 세팅	Mac/PC + Ollama + DeepSeek-V4-Flash-2bit	30분
② 메모리 구축	Obsidian + BGE-M3 + Graphify	1시간
③ 피드백 루프	LLM Wiki + 평가 스크립트	매일 5분

이 작은 루프가 1년 동안 누적되면, 그게 당신만의 하네스입니다. 누구도 복제할 수 없는, 당신의 사고 방식 그 자체가 시스템이 됩니다.

💭 이 글을 읽고 생각해볼 질문

당신은 지금도 "더 큰 모델"을 기다리고 있는가, 아니면 자신만의 하네스를 짜고 있는가?
모델이 연료라면, 당신의 '자동차'는 지금 어떤 모습인가? 어디로 달리고 있는가?
Local LLM + Obsidian의 '두 번째 뇌'가 정말 클라우드 AI보다 강해질 수 있다면, 가장 큰 장애물은 모델일까, 아니면 우리의 매일의 습관일까?

댓글로 당신의 생각을 공유해주세요.

마틴 파울러의 4월 글을 다 읽고 노트북을 덮었을 때, 한 문장이 머리를 떠나지 않았어요. 모델 사이즈 경쟁은 끝났다. 이제는 시스템을 만드는 능력의 경쟁이다.

OpenAI는 5개월 동안 약 100만 줄의 프로덕션 코드를 만들었습니다. 모델이 천재라서가 아닙니다. 하네스를 정성껏 설계했기 때문이에요.

당신이 새 모델을 기다리는 동안, 누군가는 매일 자기 노트와 파일과 생각을 모아 두 번째 뇌를 짓고 있습니다. 1년 뒤, 2년 뒤, 그 격차는 어떤 GPU로도 따라잡을 수 없습니다.

모델을 기다리는 사람은 영원히 뒤처져요.

하네스를 만드는 사람은 미래를 만듭니다.

"모델은 연료다. 하네스는 자동차다. 당신은 무엇을 만들고 있는가?"

Sources

이 글이 도움이 되셨다면, 한 명의 친구에게 공유해주세요.

배움의 달인 Newsletter

모델은 끝났다. 이제 진짜 게임은 '하네스'다

모델은 끝났다. 이제 진짜 게임은 '하네스'다

Chapter 1. 3년 만에 무엇이 바뀌었나

모델 사이즈 경쟁은 끝났다

① 2023년 — Weights의 시대

② 2024년 — Context의 시대

③ 2025–26년 — Harness의 시대

Chapter 2. 클라우드 vs Local LLM, 무엇이 다른가

진짜 수혜자는 '개인'이다

① 비용 구조가 무너집니다

② 데이터가 외부로 나가지 않습니다

③ 응답 속도가 다릅니다

④ 모델 자체가 진화했습니다

Chapter 3. 두 번째 뇌를 만드는 사람들

하네스는 코드가 아니라 워크플로우다

① 매일 raw 폴더에 생각을 떨어뜨린다

② 임베딩이 자동으로 묶어준다

③ 모델이 다시 꺼내 쓴다

Chapter 4. 앞으로 2~3년, 무엇이 펼쳐지나

세 가지 흐름이 이미 시작됐다

① Task-specific 모델 폭발

② Automated Harness — 메타-하네스의 등장

③ Agent OS 시대

Chapter 5. 그래서 어떻게 시작하는가

새 모델을 기다리지 마라

💭 이 글을 읽고 생각해볼 질문

Sources

댓글

뉴스레터 서비스가 정식 시작되었습니다!