newsletterHarnessEngineeringLocalLLMAI에이전트SovereignAI두번째뇌

모델 시대는 끝났다. 이제 '하네스'가 미래다

2026-05-06
5 min read
863 words

모델 시대는 끝났다. 이제 '하네스'가 미래다


프롤로그: 당신은 아직도 더 큰 모델을 기다리고 있나

3년 전이라면 그게 정답이었다. 파라미터를 더 쌓고, GPU를 더 사들이면 똑똑해진다고 믿었다.

그러나 2026년 봄, 그 게임은 끝났다.

올해 4월, LangChain은 같은 모델·같은 데이터셋에서 하네스만 바꿔 코딩 벤치마크 점수를 52.8%에서 66.5%로 끌어올렸다.1 같은 달 발표된 Meta-Harness 논문은 더 충격적이다. 동일한 모델 위에 다른 하네스를 씌우는 것만으로 성능 격차가 6배까지 벌어진다는 사실을 실증했다.2

이 데이터를 처음 봤을 때, 나는 한참을 멍하니 앉아 있었다. 모델 가중치는 이제 상품이 되었다. 진짜 게임은 모델을 어떻게 '감싸느냐'에 달려 있다. 그 전체 시스템을 우리는 Harness Engineering이라고 부른다.

나는 학교 현장에서 매일 AI를 만지고, 청구서와 데이터 유출 두 가지 모두에 발목 잡혀 본 사람이다. 그래서 이 흐름을 그냥 흘려보낼 수 없었다.

I – 3년 만에 게임의 룰이 바뀌었다

지난 3년의 진화를 한 줄로 요약하면 이렇다.

시기 주도권 본질적 질문
2023 Weights 누가 더 큰 모델을 만드는가
2024 Context 누가 더 잘 프롬프트하는가
2025–26 Harness 누가 더 좋은 시스템을 짜는가

Martin Fowler는 4월 2일 자신의 사이트에 올린 글에서 이렇게 못 박았다.3

"Agent = Model + Harness. 진짜 차이는 모델 옆에 무엇을 두느냐다."

하네스란 무엇인가. 모델 주변의 모든 시스템이다. 컨텍스트 관리, 도구 호출, 메모리 지속, 평가 피드백 루프, 안전장치(Guardrail).

다시 말해, 모델은 더 이상 엔진이 아니다.

모델은 연료다. 하네스가 자동차다.


II – Local LLM이 판을 뒤집는 이유

클라우드 API에 매달려 있는 한, 당신은 영원히 비용·지연·프라이버시에 발목 잡힌다.

하지만 Local LLM은 다른 게임이다.

graph LR
    subgraph 클라우드 ["☁️ 클라우드 API"]
        A1[월 수십만원 비용] --> A2[데이터 외부 유출]
        A2 --> A3[지연·서버 다운]
    end

    subgraph 로컬 ["💻 Local LLM + Harness"]
        B1[비용 0원] --> B2[100% 프라이빗]
        B2 --> B3[실시간·완전 커스터마이징]
    end

Apple의 자체 MLX 벤치마크는 M5 칩이 첫 토큰 생성 속도에서 M4 대비 3~4배 빨라졌다고 발표했다.4 20B 파라미터 모델이 베이스 맥북프로에서 3초 안에 첫 토큰을 만든다.

여기에 4월 24일 공개된 DeepSeek V4가 더해지면서, 한때 데이터센터가 필요했던 성능이 노트북 안으로 들어왔다.5

진짜 주목해야 할 부분은 따로 있다. M5 128GB Mac 한 대에서 DeepSeek-V4-Flash-2bit + BGE-M3 임베딩을 돌리며, Graphify와 Obsidian으로 자기만의 '두 번째 뇌'를 만드는 사람들이 이미 수만 명이다.

모델은 더 이상 자랑이 아니다. 시스템이 자랑이다.

III – 앞으로 2~3년, 무엇이 벌어지나

세 가지 흐름이 이미 시작됐다.

① Task-specific 모델 폭발

누구나 자기 분야(글쓰기, 코드, 연구, 콘텐츠 기획)에서 자신만의 하네스를 만들어 frontier-level 성능을 끌어낸다. 모델 크기는 더 이상 진입 장벽이 아니다.

② Automated Harness

에이전트가 스스로 하네스 코드를 최적화하는 '메타-하네스' 시대가 온다. Meta-Harness 논문이 이미 그 첫 장을 열었다.

③ Agent OS 시대

Local LLM + Harness가 한 사람의 개인 운영체제가 된다. 당신의 노트, 파일, 생각, 프로젝트가 모두 살아 움직이는 하나의 지능이 된다.

한국도 빠르게 움직이고 있다. 3월, AMD와 Upstage는 MI355 GPU 기반 Sovereign AI 인프라 협력을 발표했다.6 이는 한국 정부의 7,350억 달러 규모 Sovereign AI 이니셔티브와 맞물린다.7

기업이 자기 데이터를 자기 인프라 위에서 굴리는 시대. 개인도 마찬가지다.

오늘부터 시작할 수 있는 개인 하네스

단계 도구 효과
🛠 세팅 Mac/PC + Ollama + DeepSeek-V4-Flash-2bit 비용 0원, 응답 1~3초
🧠 메모리 Obsidian + BGE-M3 임베딩 + Graphify 평생 누적되는 두 번째 뇌
🔁 피드백 루프 LLM Wiki + 자동 평가 스크립트 어제의 실패가 오늘의 답으로

여기서 핵심이 나온다. 하네스는 '코드'가 아니라 '습관'이다.

매일 raw 폴더에 생각을 떨어뜨리고, 임베딩이 그것을 묶어주고, 모델이 다시 꺼내 쓴다. 그 루프 자체가 당신만의 하네스가 된다.


💭 이 글을 읽고 생각해볼 질문

  1. 당신은 지금도 "더 큰 모델"을 기다리고 있는가, 아니면 자신만의 하네스를 짜고 있는가?

  2. 모델이 연료라면, 당신의 '자동차'는 지금 어떤 모습인가? 그리고 어디로 달리고 있는가?

  3. Local LLM + Obsidian으로 만든 '두 번째 뇌'가 정말 클라우드 AI보다 강해질 수 있다면, 가장 큰 장애물은 모델일까, 아니면 우리의 매일의 습관일까?

댓글로 당신의 생각을 공유해주세요.

결론: 모델을 기다리지 말고, 자동차를 만들어라

3년 전엔 "더 큰 모델이 답"이라는 게 시의적 주제였다.

지금은 "어떤 시스템을 만들 것인가"가 영원한 질문이 되었다.

OpenAI는 5개월 동안 약 100만 줄의 프로덕션 코드를 만들었다. 모델이 천재라서가 아니다. 하네스를 정성껏 설계했기 때문이다.8

당신이 새 모델을 기다리는 동안, 누군가는 매일 자기 노트와 파일과 생각을 모아 자기만의 두 번째 뇌를 짓고 있다. 1년 뒤, 2년 뒤, 그 격차는 어떤 GPU로도 따라잡을 수 없다.

모델을 기다리는 사람은 영원히 뒤처진다.

하네스를 만드는 사람은 미래를 만든다.

"모델은 연료다. 하네스는 자동차다. 당신은 무엇을 만들고 있는가?"

Sources


이 글이 도움이 되셨다면, 한 명의 친구에게 공유해주세요.

Footnotes

  1. Harness Engineering for Coding Agent Users | Martin Fowler

  2. Meta-Harness: End-to-End Optimization of Model Harnesses (Lee et al., 2026) | Hugo Cisneros Notes

  3. Harness Engineering – first thoughts | Martin Fowler

  4. Best Open-Source AI Models for M5 Mac in 2026 | Fello AI

  5. DeepSeek V4 — almost on the frontier, a fraction of the price | Simon Willison

  6. AMD and Upstage Expand Strategic Collaboration to Advance Sovereign AI Infrastructure in Korea | AMD Newsroom

  7. South Korea's $735B Sovereign AI Initiative | Introl

  8. Agent Harness Engineering — The Rise of the AI Control Plane | Adnan Masood, Medium (Apr 2026)

Back to All Posts
NEW

뉴스레터 서비스가 정식 시작되었습니다!

매주 금요일, 옵시디언으로 정리한 AI 인사이트를 메일함으로 배달해 드립니다.