15억 달러의 책: AI가 인류의 지식을 삼키는 방법
15억 달러의 책: AI가 인류의 지식을 삼키는 방법
프롤로그: 책을 파괴해야만 AI가 똑똑해지는가?
모든 사람이 AI의 놀라운 글쓰기 능력에 감탄하고 있다.
하지만 나는 다른 생각이 든다.
그 능력의 대가로 수백만 권의 책이 산업용 절단기에서 등이 잘려나갔다는 사실을.
2024년 초, Anthropic이라는 AI 스타트업은 극비 프로젝트를 가동했다. 내부 문서에 따르면 그들은 이렇게 적었다: "프로젝트 파나마는 전 세계 모든 책을 파괴적으로 스캔하려는 우리의 노력이다. 우리가 이 작업을 하고 있다는 것이 알려지길 원치 않는다."1

출처: washingtonpost
2025년 여름, 이 비밀이 법정에서 폭로되었다. 결과는? 15억 달러($1.5B)의 합의금—미국 역사상 최대 규모의 저작권 합의였다.2
I – 프로젝트 파나마: 조용한 대량 학살
Anthropic은 수천만 달러를 투입해 수백만 권의 책을 구매했다. Better World Books, World of Books 같은 중고 서점에서 수만 권씩 대량 구매했다.
그리고 그 책들의 운명은?
"유압식 절단기가 책을 '깔끔하게' 자르고, 고속 스캐너로 페이지를 스캔한 뒤, 재활용 업체가 완료된 책을 수거한다."[^1]
500,000권에서 200만 권 사이. 6개월 안에. 이것이 프로젝트 파나마의 규모였다.
왜 이렇게까지 했을까?
Anthropic의 공동창업자는 2023년 문서에서 이렇게 이론화했다: 책으로 AI를 훈련시키면 "저급한 인터넷 언어를 흉내내는 대신 글을 잘 쓰는 법"을 배울 수 있다고.
책은 인터넷 쓰레기와 다르다. 편집되고, 검증되고, 정제된 지식이다. AI 기업들에게 책은 금광이었다.
II – 그림자 도서관: 불법 다운로드의 유혹
프로젝트 파나마 이전에 더 어두운 역사가 있었다.
Anthropic 공동창업자 Ben Mann은 2021년 6월, 11일간 LibGen이라는 '그림자 도서관'에서 소설과 논픽션을 다운로드했다.1 LibGen은 저작권을 침해하는 불법 도서 데이터베이스다.
1년 후, 새로운 해적 사이트가 등장하자 그는 동료들에게 링크를 보내며 이렇게 말했다:
"딱 맞는 타이밍이네!!!"
Meta도 마찬가지였다. 내부 채팅 기록에는 이런 대화가 남아 있다:
"회사 노트북으로 토렌트하는 건 좀 아닌 것 같은데..."
하지만 그들은 계속했다. 2023년 12월 이메일에 따르면, LibGen 사용이 "MZ에게 에스컬레이션 후 승인"되었다. MZ는 마크 저커버그의 이니셜이다.3
graph TD
subgraph 불법경로 ["🔴 불법 경로 (2021-2023)"]
A[LibGen/Pirate Library] --> B[무료 다운로드]
B --> C[AI 모델 훈련]
end
subgraph 합법경로 ["🟢 합법 경로 (Project Panama 2024)"]
D[중고서점 대량 구매] --> E[파괴적 스캔]
E --> F[재활용 폐기]
F --> G[AI 모델 훈련]
end
C --> H[저작권 소송]
G --> I[공정 이용 인정]
style A fill:#ffcccc
style D fill:#ccffcc
III – 700억 달러 위기와 15억 달러 합의
숫자가 모든 것을 말해준다.
| 항목 | 수치 |
|---|---|
| 📚 다운로드된 책 | 약 700만 권 |
| 📖 합의 대상 책 | 482,460권 |
| 💰 잠재적 법정 배상금 | 700억 달러+ (권당 $150,000) |
| 💵 최종 합의금 | 15억 달러 |
| 👤 작가당 평균 보상 | 약 $3,000/권 |
| ⚖️ 2025년 저작권 소송 | 70건 이상 |
2025년 6월, 윌리엄 알섭(William Alsup) 판사는 흥미로운 판결을 내렸다:4
스캔 자체는 합법이다. AI 훈련은 저작물을 "변형적(transformative)" 방식으로 처리하기 때문에 공정 이용에 해당한다. 마치 "교사가 학생들에게 글쓰기를 가르치는 것"과 같다고 비유했다.
하지만 불법 다운로드는 별개의 문제다. 프로젝트 파나마 이전에 그림자 도서관에서 책을 다운로드한 행위는 저작권 침해일 수 있다.
"AI 훈련은 '전형적으로 변형적'이다: Anthropic의 AI 모델은 작품을 복제하거나 대체하려는 것이 아니라—급격한 방향 전환을 통해 전혀 다른 것을 창조하기 위해 훈련되었다."[^4]
IV – 실리콘밸리의 오류: "할 수 있으니까 해도 된다"
코넬 테크 법학 교수 제임스 그리멜만(James Grimmelmann)의 분석이 핵심을 찌른다:
"AI 기업들은 스스로를 오류에 빠뜨렸다."[^5]
ChatGPT 같은 도구의 돌파구는 학술 연구에서 시작되었다. 학술 영역에서는 저작권 자료를 훈련에 사용하는 것이 널리 허용된다. 하지만 연구자들은 AI 모델이 상업화된 후에도 그 관행을 계속했다.
"긴장감이 명확해졌을 때는, 그들은 이미 저작권 데이터를 파이프라인에 통합하는 데 막대한 투자를 했고, 더 새롭고 더 나은 모델을 출시하기 위한 빠르게 진행되는 고위험 경쟁에 갇혀 있었다."
Meta의 내부 이메일은 이 딜레마를 적나라하게 보여준다:
"LibGen 같은 불법 복제 데이터셋을 사용했다는 언론 보도가 나오면, 이 문제에 대한 규제 당국과의 협상 입장이 약화될 수 있다."[^3]
그들은 위험을 알면서도 진행했다. 왜? 경쟁에서 뒤처지는 것이 더 두려웠기 때문이다.
V – 창작자의 빚: 누가 얼마나 받아야 하는가
전 AI 임원이자 음악 작곡가인 에드 뉴턴-렉스(Ed Newton-Rex)는 현재 창작자 권리를 주장하는 비영리 단체를 운영한다. 그의 메시지는 명확하다:
"AI 산업 전반에 걸쳐 긴급한 리셋이 필요하다. 창작자들이 그들의 중요한 기여에 대해 공정하게 보상받기 시작해야 한다."[^1]
$3,000. 한 권의 책에 대한 보상금이다.
작가가 그 책을 쓰는 데 몇 년이 걸렸을까? 편집자, 교정자, 디자이너의 노력은? 그리고 그 지식이 AI에게 "글 잘 쓰는 법"을 가르치는 데 사용되었다.
창작자 보상의 불균형
| 당사자 | 받은 것 | 기여한 것 |
|---|---|---|
| 🖊️ 작가 | ~$3,000/권 | 수년의 연구, 집필, 편집 |
| 🏢 Anthropic | $183B 기업가치 | AI 모델 개발 |
| 🤖 AI 모델 | 수백만 권의 지식 | 연산 능력 |
💭 이 글을 읽고 생각해볼 질문
-
AI 기업들의 대규모 책 수집과 그림자 도서관(LibGen) 활용이 디지털 콘텐츠 유통의 저작권 법적 프레임워크에 어떤 영향을 미칠 수 있을까?
-
파괴적 책 스캔과 그림자 도서관 활용 관행이 AI 훈련의 저작권 합의에 어떤 영향을 미치며, 특히 창작자 권리와 기술 발전 요구 사이의 균형을 맞추기 위한 혁신적 법적 프레임워크는 무엇일까?
-
AI 훈련 데이터 수집 관련 저작권 소송이 공정 이용 원칙에 어떤 영향을 미치는가, 특히 Meta와 OpenAI 같은 기업들의 대규모 무단 책 스캔 사례에서?
댓글로 당신의 생각을 공유해주세요.
결론: 지식의 대가
AI가 글을 잘 쓰는 이유는 간단하다. 인류가 수천 년간 쌓아온 지식을 삼켰기 때문이다.
문제는 그 과정이 아니다. 그 대가를 누가 치르는가다.
Anthropic은 법적으로 "스마트한 선택"을 했다고 인정받았다. 불법 다운로드 대신 합법적 구매와 스캔으로 전환했으니까. 하지만 그리멜만 교수의 말처럼, 이미 "저작권 데이터를 파이프라인에 통합하는 데 막대한 투자"를 한 후였다.
2026년에는 더 많은 판결이 나올 것이다. 더 많은 소송이 진행될 것이다. 그리고 더 많은 창작자들이 자신의 작품이 AI에게 먹혔다는 사실을 알게 될 것이다.
질문은 이것이다:
"AI가 인류의 집단 지식으로 훈련받을 권리가 있다면, 그 지식을 창조한 사람들은 무엇을 받아야 하는가?"
Sources
이 글이 도움이 되셨다면, 한 명의 친구에게 공유해주세요.