중국 AI 증류공격 (디스틸레이션, 클로드, 엔트로픽)

저도 처음에는 딥시크가 그냥 최적화를 잘한 거라고 생각했습니다. 그런데 엔트로픽이 공식 블로그를 통해 중국 AI 기업 3곳이 클로드 모델을 1,600만 회나 불법 복제했다고 밝히면서 생각이 완전히 바뀌었습니다. 24,000개의 가짜 계정으로 조직적으로 API를 호출하며 답변 패턴을 수집했다는 겁니다. 제가 평소 클로드를 애용하는 이유가 바로 효율적인 추론 방식 때문이었는데, 바로 그 핵심 능력을 중국 기업들이 노렸다는 사실이 충격적이었습니다.

디스틸레이션 어택의 실체

디스틸레이션(Distillation)이란 원래 큰 AI 모델의 지식을 작은 모델에 압축해 전달하는 합법적인 기술입니다. 여기서 디스틸레이션이란 선생님 모델의 출력을 학생 모델이 학습하여 비슷한 성능을 더 적은 자원으로 구현하는 방식을 의미합니다. 구글이나 오픈AI도 자사의 대형 모델을 증류해 경량 모델을 만들죠.

그런데 이번에 문제가 된 건 '디스틸레이션 어택(Distillation Attack)'입니다. 딥시크, 문샷AI, 미니맥스 등 중국 기업들이 클로드 API를 산업적 규모로 호출하며 고품질 출력을 체계적으로 수집했습니다. 단순 사용이 아니라 모방 학습을 목적으로 한 조직적 데이터 탈취였던 겁니다(출처: Anthropic 공식 블로그).

저도 API를 쓰면서 '돈 내고 쓰는데 뭐가 문제야?'라고 생각할 수 있었습니다. 하지만 구독 서비스 이용과 콘텐츠 복제는 완전히 다른 문제입니다. 넷플릭스 구독한다고 드라마 전체를 다운받아 재배포할 수 있습니까? 마찬가지로 API 사용권은 서비스 이용권이지 모델 복제권이 아닙니다.

각 기업별 공격 양상도 달랐습니다. 딥시크는 15만 건으로 상대적으로 적었지만 타겟이 전략적이었습니다. 추론 능력을 집중적으로 추출했고, 클로드를 강화학습의 리워드 모델로 활용했다는 분석이 나옵니다. 더 심각한 건 정치적 검열 시스템 구축에도 클로드를 이용했다는 점입니다. 중국 정부가 민감하게 여기는 주제들을 클로드에 질문한 뒤, 클로드가 어떻게 답변하는지 패턴을 수집해 자연스러운 검열 방식을 학습시켰다는 겁니다.

문샷AI는 수백만 건을 추출하며 에이전트 기능, 코딩, 컴퓨터 비전 등 클로드의 전방위 능력을 노렸습니다. 수백 개 허위 계정을 분산 네트워크로 운영하며 탐지를 피했죠. 미니맥스는 1,300만 건 이상으로 가장 많았는데, 엔트로픽이 실시간으로 포착했다고 합니다. 새 모델 출시 24시간 만에 트래픽이 급증하며 구 모델 추출에서 신 모델 추출로 전환하는 모습까지 관찰됐습니다.

탐지와 방어의 기술적 전쟁

엔트로픽은 이들의 공격 구조를 '히드라 클러스터'라고 명명했습니다. 히드라(Hydra)란 그리스 신화에 나오는 괴물로, 머리 하나를 자르면 두 개가 자라나는 특성을 가졌습니다. 여기서 히드라란 계정 하나를 차단하면 즉시 여러 개의 대체 계정이 생성되는 분산형 공격 시스템을 의미합니다. 실제로 단일 프록시 네트워크 하나가 2만 개 이상의 허위 계정을 동시 운영한 사례도 있었습니다.

중국에서는 클로드 접근이 국가 안보상 차단되어 있습니다. 그런데도 해외 중국 기업들이 프록시 서비스를 통해 우회 접속했습니다. API뿐 아니라 서드파티 클라우드 플랫폼까지 활용하며 일반 고객 트래픽에 섞어 탐지를 회피했죠.

엔트로픽이 이를 잡아낸 방식은 행동 기반 핑거프린팅(Behavioral Fingerprinting)이었습니다. 여기서 핑거프린팅이란 API 호출의 통계적 패턴을 분석해 정상 사용과 증류 공격을 구분하는 기술입니다. 개별 요청이 아닌 전체 트래픽을 분석하며 다음 지표들을 추적했습니다.

주요 탐지 지표는 다음과 같습니다.

질문 구성의 통계적 특이점 (체인오브소트 추출 요청 집중 등)
수백~수천 계정의 동기화된 행동 패턴
동일 결제수단, 타이밍 일치 등 메타데이터 상관관계
다른 AI 기업 및 클라우드 제공사와의 정보 교차 확인

저도 클로드를 쓰면서 "단계별로 생각 과정을 적어줘" 같은 요청을 자주 합니다. 그런데 딥시크 연구원으로 추정되는 계정들이 바로 이런 체인오브소트(Chain of Thought) 추출 요청을 집중적으로 했다고 합니다. 클로드가 어떻게 단계적으로 추론하는지 패턴을 빼낸 뒤, 딥시크 모델에 이식하려 했던 거죠.

솔직히 이 부분에서 제 생각이 좀 복잡해졌습니다. 엔트로픽이나 오픈AI도 구글의 트랜스포머 구조를 가져다 썼고, 인터넷 데이터를 대규모로 수집해 학습시켰습니다. 일론 머스크도 "엔트로픽이 엄청난 양의 학습 데이터를 훔쳐갔다"고 비판한 적 있죠. 오픈AI도 엔트로픽의 클로드 API 접근을 차단한 전례가 있습니다. 미국 기업들끼리도 서로 견제하면서 중국에는 국가 안보 위협이라고 프레이밍하는 게 과하다는 의견도 있습니다.

하지만 규모와 의도에서 차이가 명확합니다. 24,000개 가짜 계정으로 1,600만 회 추출은 단순 참고가 아니라 체계적 복제입니다. 미국이 GPU 수출을 제한하는 상황에서 중국은 고성능 칩 없이도 빠르게 따라잡기 위해 이런 방식을 선택한 겁니다(출처: 금융위원회 AI 정책 보고서).

더 큰 문제는 안전장치 우회입니다. 미국 AI 기업들은 생화학 무기 개발 방지, 사이버 공격 차단, 유해 콘텐츠 필터 등을 탑재합니다. 그런데 불법 증류로 만든 모델은 이런 제약 없이 능력만 가져가니 무기화 위험이 큽니다. 중국 기업들이 오픈소스로 이를 공개하면 통제 불가능한 상황이 올 수 있습니다.

엔트로픽은 방어책으로 워터마크 삽입, 노이즈 주입 등을 언급했지만 이것도 한계가 있습니다. 노이즈를 넣으면 모델 성능이 떨어지니까요. 결국 미국 AI 기업들과 클라우드 제공사들의 공동 대응이 필요하다는 결론입니다. 실제로 이번 발표 이후 미국 내에서 중국 AI의 오픈소스 전략을 막아야 한다는 목소리가 커지고 있습니다.

제가 직접 써본 경험상, 클로드의 리즈닝 방식은 정말 효율적입니다. GPT는 검색으로, 구글은 자원 투입으로 해결하는 느낌인데, 클로드는 계획을 세우고 절차대로 추론합니다. 바로 그 핵심을 중국이 노린 겁니다. 기술적으로 가능한 시나리오지만 상업적으로나 안보적으로 민감한 문제라 앞으로 미중 갈등의 새로운 전선이 될 것 같습니다. 저는 개인적으로 하드웨어 규제를 더 강화해야 한다는 엔트로픽의 주장에 동의합니다. 결국 대규모 증류 공격도 상당한 컴퓨팅 자원이 필요하니까요.

참고: https://youtu.be/_l3Bv_Grn_M?si=o8ZKrUUzJ3gyC6EX

yun46091 님의 블로그

중국 AI 증류공격 (디스틸레이션, 클로드, 엔트로픽)

디스틸레이션 어택의 실체

탐지와 방어의 기술적 전쟁

티스토리툴바

티스토리툴바