newsletterHarnessEngineeringLocalLLMAI에이전트SovereignAI두번째뇌

모델 시대는 끝났다. 이제 '하네스'가 미래다

2026-05-06

5 min read

863 words

모델 시대는 끝났다. 이제 '하네스'가 미래다

프롤로그: 당신은 아직도 더 큰 모델을 기다리고 있나

3년 전이라면 그게 정답이었다. 파라미터를 더 쌓고, GPU를 더 사들이면 똑똑해진다고 믿었다.

그러나 2026년 봄, 그 게임은 끝났다.

올해 4월, LangChain은 같은 모델·같은 데이터셋에서 하네스만 바꿔 코딩 벤치마크 점수를 52.8%에서 66.5%로 끌어올렸다.¹ 같은 달 발표된 Meta-Harness 논문은 더 충격적이다. 동일한 모델 위에 다른 하네스를 씌우는 것만으로 성능 격차가 6배까지 벌어진다는 사실을 실증했다.²

이 데이터를 처음 봤을 때, 나는 한참을 멍하니 앉아 있었다. 모델 가중치는 이제 상품이 되었다. 진짜 게임은 모델을 어떻게 '감싸느냐'에 달려 있다. 그 전체 시스템을 우리는 Harness Engineering이라고 부른다.

나는 학교 현장에서 매일 AI를 만지고, 청구서와 데이터 유출 두 가지 모두에 발목 잡혀 본 사람이다. 그래서 이 흐름을 그냥 흘려보낼 수 없었다.

I – 3년 만에 게임의 룰이 바뀌었다

지난 3년의 진화를 한 줄로 요약하면 이렇다.

시기	주도권	본질적 질문
2023	Weights	누가 더 큰 모델을 만드는가
2024	Context	누가 더 잘 프롬프트하는가
2025–26	Harness	누가 더 좋은 시스템을 짜는가

Martin Fowler는 4월 2일 자신의 사이트에 올린 글에서 이렇게 못 박았다.³

"Agent = Model + Harness. 진짜 차이는 모델 옆에 무엇을 두느냐다."

하네스란 무엇인가. 모델 주변의 모든 시스템이다. 컨텍스트 관리, 도구 호출, 메모리 지속, 평가 피드백 루프, 안전장치(Guardrail).

다시 말해, 모델은 더 이상 엔진이 아니다.

모델은 연료다. 하네스가 자동차다.

II – Local LLM이 판을 뒤집는 이유

클라우드 API에 매달려 있는 한, 당신은 영원히 비용·지연·프라이버시에 발목 잡힌다.

하지만 Local LLM은 다른 게임이다.

graph LR
    subgraph 클라우드 ["☁️ 클라우드 API"]
        A1[월 수십만원 비용] --> A2[데이터 외부 유출]
        A2 --> A3[지연·서버 다운]
    end

    subgraph 로컬 ["💻 Local LLM + Harness"]
        B1[비용 0원] --> B2[100% 프라이빗]
        B2 --> B3[실시간·완전 커스터마이징]
    end

Apple의 자체 MLX 벤치마크는 M5 칩이 첫 토큰 생성 속도에서 M4 대비 3~4배 빨라졌다고 발표했다.⁴ 20B 파라미터 모델이 베이스 맥북프로에서 3초 안에 첫 토큰을 만든다.

여기에 4월 24일 공개된 DeepSeek V4가 더해지면서, 한때 데이터센터가 필요했던 성능이 노트북 안으로 들어왔다.⁵

진짜 주목해야 할 부분은 따로 있다. M5 128GB Mac 한 대에서 DeepSeek-V4-Flash-2bit + BGE-M3 임베딩을 돌리며, Graphify와 Obsidian으로 자기만의 '두 번째 뇌'를 만드는 사람들이 이미 수만 명이다.

모델은 더 이상 자랑이 아니다. 시스템이 자랑이다.

III – 앞으로 2~3년, 무엇이 벌어지나

세 가지 흐름이 이미 시작됐다.

① Task-specific 모델 폭발

누구나 자기 분야(글쓰기, 코드, 연구, 콘텐츠 기획)에서 자신만의 하네스를 만들어 frontier-level 성능을 끌어낸다. 모델 크기는 더 이상 진입 장벽이 아니다.

② Automated Harness

에이전트가 스스로 하네스 코드를 최적화하는 '메타-하네스' 시대가 온다. Meta-Harness 논문이 이미 그 첫 장을 열었다.

③ Agent OS 시대

Local LLM + Harness가 한 사람의 개인 운영체제가 된다. 당신의 노트, 파일, 생각, 프로젝트가 모두 살아 움직이는 하나의 지능이 된다.

한국도 빠르게 움직이고 있다. 3월, AMD와 Upstage는 MI355 GPU 기반 Sovereign AI 인프라 협력을 발표했다.⁶ 이는 한국 정부의 7,350억 달러 규모 Sovereign AI 이니셔티브와 맞물린다.⁷

기업이 자기 데이터를 자기 인프라 위에서 굴리는 시대. 개인도 마찬가지다.

오늘부터 시작할 수 있는 개인 하네스

단계	도구	효과
🛠 세팅	Mac/PC + Ollama + DeepSeek-V4-Flash-2bit	비용 0원, 응답 1~3초
🧠 메모리	Obsidian + BGE-M3 임베딩 + Graphify	평생 누적되는 두 번째 뇌
🔁 피드백 루프	LLM Wiki + 자동 평가 스크립트	어제의 실패가 오늘의 답으로

여기서 핵심이 나온다. 하네스는 '코드'가 아니라 '습관'이다.

매일 raw 폴더에 생각을 떨어뜨리고, 임베딩이 그것을 묶어주고, 모델이 다시 꺼내 쓴다. 그 루프 자체가 당신만의 하네스가 된다.

💭 이 글을 읽고 생각해볼 질문

당신은 지금도 "더 큰 모델"을 기다리고 있는가, 아니면 자신만의 하네스를 짜고 있는가?
모델이 연료라면, 당신의 '자동차'는 지금 어떤 모습인가? 그리고 어디로 달리고 있는가?
Local LLM + Obsidian으로 만든 '두 번째 뇌'가 정말 클라우드 AI보다 강해질 수 있다면, 가장 큰 장애물은 모델일까, 아니면 우리의 매일의 습관일까?

댓글로 당신의 생각을 공유해주세요.

결론: 모델을 기다리지 말고, 자동차를 만들어라

3년 전엔 "더 큰 모델이 답"이라는 게 시의적 주제였다.

지금은 "어떤 시스템을 만들 것인가"가 영원한 질문이 되었다.

OpenAI는 5개월 동안 약 100만 줄의 프로덕션 코드를 만들었다. 모델이 천재라서가 아니다. 하네스를 정성껏 설계했기 때문이다.⁸

당신이 새 모델을 기다리는 동안, 누군가는 매일 자기 노트와 파일과 생각을 모아 자기만의 두 번째 뇌를 짓고 있다. 1년 뒤, 2년 뒤, 그 격차는 어떤 GPU로도 따라잡을 수 없다.

모델을 기다리는 사람은 영원히 뒤처진다.

하네스를 만드는 사람은 미래를 만든다.

"모델은 연료다. 하네스는 자동차다. 당신은 무엇을 만들고 있는가?"

Sources

이 글이 도움이 되셨다면, 한 명의 친구에게 공유해주세요.

배움의 달인 Newsletter

모델 시대는 끝났다. 이제 '하네스'가 미래다

모델 시대는 끝났다. 이제 '하네스'가 미래다

프롤로그: 당신은 아직도 더 큰 모델을 기다리고 있나

I – 3년 만에 게임의 룰이 바뀌었다

II – Local LLM이 판을 뒤집는 이유

III – 앞으로 2~3년, 무엇이 벌어지나

① Task-specific 모델 폭발

② Automated Harness

③ Agent OS 시대

오늘부터 시작할 수 있는 개인 하네스

💭 이 글을 읽고 생각해볼 질문

결론: 모델을 기다리지 말고, 자동차를 만들어라

Sources

댓글

뉴스레터 서비스가 정식 시작되었습니다!

모델 시대는 끝났다. 이제 '하네스'가 미래다

프롤로그: 당신은 아직도 더 큰 모델을 기다리고 있나

I – 3년 만에 게임의 룰이 바뀌었다

II – Local LLM이 판을 뒤집는 이유

III – 앞으로 2~3년, 무엇이 벌어지나

① Task-specific 모델 폭발

② Automated Harness

③ Agent OS 시대

오늘부터 시작할 수 있는 개인 하네스

💭 이 글을 읽고 생각해볼 질문

결론: 모델을 기다리지 말고, 자동차를 만들어라

Sources

Footnotes

댓글

뉴스레터 서비스가 정식 시작되었습니다!