앤스로픽의 연구원 니콜라스 칼리니가 최근 놀라운 실험 결과를 공개했습니다. 16개의 Claude 에이전트가 팀을 이루어 인간의 직접적인 코드 작성 없이 스스로 C 컴파일러를 구축하는 데 성공한 것입니다. 이 실험은 인공지능이 복잡한 소프트웨어 공학 과제를 자율적으로 수행할 수 있는 가능성을 보여주며 개발 환경의 미래를 제시하고 있습니다.

Claude AI 에이전트 협업으로 탄생한 C 컴파일러
이번 프로젝트는 앤스로픽의 최신 모델인 Claude Opus 4.6의 에이전트 팀 기능을 활용해 진행되었습니다. 연구진은 16개의 Claude 인스턴스를 각각 독립적인 도커 컨테이너에서 실행하고 공유 깃 저장소를 통해 협업하도록 설정했습니다. 중앙에서 지시를 내리는 별도의 관리 에이전트 없이 각 에이전트가 스스로 해결해야 할 문제를 식별하고 코드를 작성했다는 점이 특징입니다.
에이전트들은 스스로 잠금 파일을 작성해 작업 중복을 방지하고 코드 충돌이 발생하면 직접 병합 과정을 거쳐 문제를 해결했습니다. 약 2주 동안 진행된 이 실험을 통해 에이전트들은 약 10만 줄에 달하는 러스트 기반의 C 컴파일러를 완성했습니다. 이는 인공지능이 대규모 코드베이스를 관리하며 협업할 수 있음을 입증한 사례입니다.
16명의 AI가 어떻게 독자적으로 코드를 작성했을까
가장 흥미로운 부분은 인공지능들 사이의 조율 방식입니다. 각 에이전트는 독립적으로 작동하면서 전체 코드베이스에서 자신이 수정하거나 추가해야 할 부분을 찾아냈습니다. 이 과정에서 인간은 코드를 직접 짜는 대신 인공지능이 제대로 작동할 수 있는 환경을 설계하는 데 집중했습니다.
- 깃 저장소를 통한 작업 공유
- 작업 중복 방지를 위한 잠금 메커니즘 활용
- 자동화된 테스트 결과를 바탕으로 한 자가 수정
- 에이전트 간의 코드 충돌 자율 해결
이러한 방식은 전통적인 개발 방식과 유사하지만 모든 결정과 실행이 인공지능에 의해 이루어졌다는 점에서 차이가 있습니다. 연구원은 에이전트들이 길을 잃지 않도록 테스트 도구와 지속적 통합 파이프라인을 정교하게 구축하여 피드백 시스템을 제공했습니다.

2만 달러를 투입해 10만 줄의 Rust 코드를 구현한 방법
이번 프로젝트에는 약 2만 달러의 API 비용이 소요되었습니다. 에이전트들은 약 2,000번의 세션을 거치며 리눅스 6.9 커널을 빌드할 수 있는 수준의 결과물을 만들어냈습니다. 이 컴파일러는 단순히 텍스트를 생성하는 수준을 넘어 실제 작동하는 소프트웨어를 구축하는 능력을 보여주었습니다.
완성된 결과물은 포스트그레 SQL, 리디스, 에프에프엠펙과 같은 주요 오픈소스 프로젝트를 성공적으로 컴파일했습니다. 특히 개발자들 사이에서 기술적 완성도의 척도로 통하는 고전 게임 둠을 구동하는 데도 성공했습니다. 비록 막대한 비용이 들었지만 일 년 전 모델들과 비교하면 상상하기 어려운 비약적인 발전입니다.
AI 에이전트가 만든 결과물은 어느 정도 수준인가요
성능 면에서 이 컴파일러는 지시 제어 센터의 고문 테스트 슈트에서 99퍼센트의 합격률을 기록했습니다. 하지만 기존의 전문적인 도구인 GCC와 비교하면 여전히 한계가 명확합니다. 에이전트들이 생성한 코드는 전문가가 작성한 러스트 코드의 품질에는 미치지 못하며 실행 효율성도 낮았습니다.
또한 어셈블러와 링커 부분에는 여전히 해결되지 않은 버그가 존재했습니다. 인공지능은 이미 잘 정의된 사양과 테스트 슈트가 존재하는 C 컴파일러 같은 과제에는 강점을 보였지만 사양이 모호한 실제 프로젝트에서는 어려움을 겪을 수 있음을 시사합니다.

Claude AI 개발 과정에서 발견된 자율 코딩의 한계
실험 후반부로 갈수록 에이전트들은 일종의 인지적 한계에 부딪혔습니다. 코드 규모가 10만 줄을 넘어서자 버그를 수정하는 과정에서 기존에 잘 작동하던 기능을 망가뜨리는 일이 빈번해졌습니다. 이는 현재 인공지능 모델이 유지할 수 있는 일관성의 한계점을 보여주는 지표이기도 합니다.
- 코드 규모 증대에 따른 일관성 저하
- 복잡한 논리 구조에서의 성능 하락
- 기존 기능과의 충돌 해결 능력 부족
- 현실적인 실행 시간 인식 부재
특히 에이전트들이 같은 버그를 수정하기 위해 동시에 달려들거나 의미 없는 테스트를 반복하는 현상도 관찰되었습니다. 이를 해결하기 위해 연구원은 GCC를 참조 오라클로 활용하여 특정 파일만 인공지능이 처리하도록 분배하는 정교한 전략을 사용해야 했습니다.
효과적인 AI 협업 환경을 구축하기 위한 3가지 전략
인간 연구원인 칼리니는 인공지능 에이전트가 성과를 낼 수 있도록 환경을 설계하는 것이 핵심이라고 강조했습니다. 단순히 인공지능에게 코드를 짜라고 시키는 것이 아니라 실패를 통해 배울 수 있는 피드백 루프를 제공해야 합니다.
- 맥락을 오염시키지 않는 요약된 테스트 출력 시스템 구축
- 무한 루프에 빠지지 않도록 하는 시간 제한 및 고속 모드 도입
- 정확한 검증 도구를 통한 문제 해결 가이드라인 제시
이러한 환경 설계가 뒷받침될 때 비로소 인공지능은 자율적인 코딩 도구로서 제 역할을 할 수 있습니다. 연구원은 앞으로 프로그래머들이 직접 코드를 쓰기보다 인공지능이 소프트웨어를 개발할 수 있는 완벽한 검증 환경을 설계하는 역할로 변모할 것이라고 예측했습니다.

마치며
이번 실험은 Claude AI 에이전트들이 팀을 이루어 고도의 기술적 과제를 수행할 수 있음을 증명한 상징적인 사건입니다. 비록 완벽한 결과물은 아니며 인간의 정교한 환경 설계가 필수적이었지만 인공지능 자율 코딩의 가능성을 한 단계 끌어올린 것은 분명합니다. 앞으로 우리는 인공지능이 스스로 소프트웨어를 구축하고 검증하는 시대를 맞이하며 개발자의 역할에 대해 새로운 고민을 시작해야 할 것입니다.
이어서 보면 좋은 글
#ClaudeAI #C컴파일러 #AI에이전트 #Anthropic #ClaudeOpus #소프트웨어개발 #AI협업 #러스트언어 #리눅스커널 #인공지능혁신