newsletterHarnessEngineeringLocalLLMAI에이전트SovereignAI두번째뇌

모델은 끝났다. 이제 '하네스'의 시대다

2026-05-04

4 min read

718 words

모델은 끝났다. 이제 '하네스'의 시대다

프롤로그: 당신은 아직도 더 큰 모델을 기다리는가

2023년만 해도 그게 정답이었다. 파라미터가 많을수록, GPU를 더 사들일수록 똑똑해진다고 믿었다.

하지만 2026년 지금, 그 시대는 끝났다.

올해 4월, LangChain이 충격적인 결과를 발표했다. 같은 모델, 같은 데이터셋. 오직 하네스만 바꿨더니 코딩 벤치마크가 52.8%에서 66.5%로 뛰었다.¹

같은 달, Meta-Harness 논문은 더 큰 숫자를 공개했다. 하네스만 바꿔도 성능이 6배 차이 난다.²

나는 솔직히 이 데이터를 보고 한참을 멍하니 앉아 있었다. 모델 가중치는 이제 상품이 됐다. 진짜 게임은 그 모델을 어떻게 감싸느냐, 즉 Harness Engineering에 달려 있다.

나는 학교 현장에서 AI를 매일 만지는 사람이고, 클라우드 청구서와 데이터 유출 두 가지 모두에 발목 잡혀 본 사람이다. 그래서 이 흐름을 그냥 흘려보낼 수가 없었다.

I – 3년 만에 무엇이 바뀌었는가

지난 3년의 진화를 한 줄로 요약하면 이렇다.

시기	주도권	본질적 질문
2023	Weights	누가 더 큰 모델을 만드는가
2024	Context	누가 더 잘 프롬프트하는가
2025–26	Harness	누가 더 좋은 시스템을 만드는가

Martin Fowler는 4월 2일 발표한 글에서 이를 한 문장으로 정리했다.³

"Agent = Model + Harness. 진짜 차이는 모델 옆에 무엇을 두느냐다."

하네스란 무엇인가? 모델 주변의 모든 시스템이다. 컨텍스트 관리, 도구 호출, 메모리 지속, 평가 피드백 루프, 안전장치(Guardrail).

다시 말해, 모델은 더 이상 엔진이 아니다.

모델은 연료다. 하네스가 자동차다.

II – Local LLM이 판을 뒤집는 이유

클라우드 API에 매달려 있는 한, 당신은 영원히 비용·지연·프라이버시에 발목 잡힌다.

하지만 Local LLM은 다르다.

graph LR
    subgraph 클라우드 ["☁️ 클라우드 API"]
        A1[월 수십만원 비용] --> A2[데이터 외부 유출]
        A2 --> A3[지연·서버 다운]
    end

    subgraph 로컬 ["💻 Local LLM + Harness"]
        B1[비용 0원] --> B2[100% 프라이빗]
        B2 --> B3[실시간·완전 커스터마이징]
    end

Apple의 자체 MLX 벤치마크는 M5 칩이 첫 토큰 생성에서 M4 대비 3~4배 빨라졌다고 밝혔다.⁴

20B 파라미터 모델이 베이스 맥북프로에서 3초 안에 첫 토큰을 만든다.

여기에 4월 24일 공개된 DeepSeek V4가 더해지면서, 한때 데이터센터가 필요했던 성능이 노트북 안으로 들어왔다.⁵

내가 진짜 주목한 부분은 따로 있다. M5 128GB Mac 한 대에서 DeepSeek-V4-Flash-2bit + BGE-M3 임베딩을 돌리며, Graphify와 Obsidian으로 자기만의 '두 번째 뇌'를 만드는 사람들이 이미 수만 명이라는 사실이다.

모델은 더 이상 자랑이 아니다. 시스템이 자랑이다.

III – 그래서 지금 무엇을 해야 하는가

한국도 빠르게 움직이고 있다. 3월, AMD와 Upstage는 MI355 GPU 기반 Sovereign AI 인프라 협력을 발표했다.⁶ 이는 한국 정부의 7,350억 달러 규모 Sovereign AI 이니셔티브와 맞물린다.⁷

기업이 자기 데이터를 자기 인프라 위에서 굴리는 시대. 개인도 마찬가지다.

현재 만들 수 있는 개인 하네스

단계	도구	효과
🛠 세팅	Mac/PC + Ollama + DeepSeek-V4-Flash-2bit	비용 0원, 응답 1~3초
🧠 메모리	Obsidian + BGE-M3 임베딩 + Graphify	평생 누적되는 두 번째 뇌
🔁 피드백 루프	LLM Wiki + 자동 평가 스크립트	어제의 실패가 오늘의 답으로

여기서 핵심이 나온다. 하네스는 '코드'가 아니라 '습관'이다.

매일 raw 폴더에 생각을 떨어뜨리고, 임베딩이 그것을 묶어주고, 모델이 다시 꺼내 쓴다. 그 루프 자체가 당신만의 하네스가 된다.

결론: 모델을 기다리지 말고, 자동차를 만들어라

3년 전엔 "더 큰 모델이 답"이라는 게 시의적 주제였다.

지금은 "어떤 시스템을 만들 것인가"가 영원한 질문이 되었다.

모델 사이즈 경쟁은 끝났다. 이제는 시스템을 만드는 능력의 경쟁이다.

OpenAI는 5개월 동안 약 100만 줄의 프로덕션 코드를 만들었다. 모델이 천재라서가 아니다. 하네스를 정성껏 설계했기 때문이다.⁸

당신이 새 모델을 기다리는 동안, 누군가는 매일 자기 노트와 파일과 생각을 모아 자기만의 두 번째 뇌를 짓고 있다. 1년 뒤, 2년 뒤, 그 격차는 모델 크기로는 따라잡을 수 없다.

"모델은 연료다. 하네스는 자동차다. 당신은 무엇을 만들고 있는가?"

Sources

이 글이 도움이 되셨다면, 한 명의 친구에게 공유해주세요.

배움의 달인 Newsletter

모델은 끝났다. 이제 '하네스'의 시대다

모델은 끝났다. 이제 '하네스'의 시대다

프롤로그: 당신은 아직도 더 큰 모델을 기다리는가

I – 3년 만에 무엇이 바뀌었는가

II – Local LLM이 판을 뒤집는 이유

III – 그래서 지금 무엇을 해야 하는가

현재 만들 수 있는 개인 하네스

결론: 모델을 기다리지 말고, 자동차를 만들어라

Sources

뉴스레터 서비스가 정식 시작되었습니다!

모델은 끝났다. 이제 '하네스'의 시대다

프롤로그: 당신은 아직도 더 큰 모델을 기다리는가

I – 3년 만에 무엇이 바뀌었는가

II – Local LLM이 판을 뒤집는 이유

III – 그래서 지금 무엇을 해야 하는가

현재 만들 수 있는 개인 하네스

결론: 모델을 기다리지 말고, 자동차를 만들어라

Sources

Footnotes

뉴스레터 서비스가 정식 시작되었습니다!