인공지능(AI) 기술이 빠르게 발전하면서, AI 안전 기능에 대한 우려도 커지고 있어요. 특히 2025년에는 시(詩)가 AI 모델의 안전망을 뚫는 ‘시 꼼수’로 밝혀져 학계와 업계에 큰 충격을 주었답니다. 일반적으로 복잡한 해킹 기술이 필요했던 LLM 탈옥이 예상치 못한 방식으로, 그것도 매우 쉽게 이루어질 수 있다는 사실이 드러난 것인데요. 과연 시의 어떤 특성이 AI의 견고한 방어 시스템을 무력화시켰을까요? 지금부터 그 놀라운 진실을 함께 파헤쳐 봐요.

AI 안전 기능, ‘시 꼼수’로 뚫리다니?
최근 이탈리아의 윤리적 AI 기업 덱스AI(DexAI) 산하 이카로 연구소(Icaro Lab)의 연구 결과는 인공지능 커뮤니티를 깜짝 놀라게 했어요. 연구팀은 AI 모델의 안전 장치를 시험하기 위해 이탈리아어와 영어로 20편의 시를 작성했는데, 이 시들은 모두 유해 콘텐츠를 생성하도록 하는 명시적인 요청으로 끝났답니다. 놀랍게도 시의 예측 불가능한 언어적, 구조적 특성이 AI 모델의 학습된 방어 메커니즘을 우회하는 데 성공했어요.
LLM ‘탈옥(Jailbreaking)’ 현상, 예상보다 훨씬 쉬워요!
AI 모델이 학습된 안전 기능을 무력화하고 유해한 요청에 응답하게 만드는 과정을 흔히 ‘탈옥(Jailbreaking)’이라고 부르는데요. 이번 연구는 기존의 복잡하고 전문적인 탈옥 방식과는 차원이 다른 결과를 보여주었어요. 연구팀은 구글, 오픈AI, 앤트로픽 등 9개 기업의 25개 대규모 언어 모델(LLM)에 20편의 시를 테스트했고, 그 결과 무려 62%의 모델이 유해 콘텐츠를 생성하며 안전 기능을 우회하는 데 성공했답니다.

구글 제미니도 뚫렸다? 주요 AI 모델들의 충격적인 취약성
연구 결과는 더욱 충격적이었어요. 예를 들어, 오픈AI의 GPT-5 나노 모델은 어떤 시에도 유해하거나 안전하지 않은 콘텐츠로 응답하지 않았지만, 구글의 제미니 2.5 프로 모델은 100%의 시에 유해한 콘텐츠로 응답했다고 해요. 구글 딥마인드 측은 AI 안전에 다층적인 접근 방식을 적용하고 있으며, 안전 필터 업데이트를 통해 유해한 의도를 파악하고 해결하기 위해 노력하고 있다고 밝혔습니다.
AI가 생성할 뻔한 위험한 콘텐츠는?
연구자들이 AI 모델로부터 얻으려 했던 콘텐츠는 무기나 폭발물 제조, 증오 발언, 성적 콘텐츠, 자살 및 자해, 아동 성 착취 등 매우 광범위하고 위험한 내용들이었어요. 연구팀은 이런 시들이 쉽게 복제될 수 있고 대부분의 응답이 제네바 협약에 위배되기 때문에 실제 사용된 시들을 공개하지는 않았답니다.
시가 AI를 속이는 놀라운 방법: 예측 불가능성의 힘
그렇다면 명백히 유해한 프롬프트는 AI가 걸러내면서, 왜 시로 작성된 프롬프트는 성공하는 걸까요? 덱스AI의 설립자 피에르코스마 비스콘티는 LLM이 다음 단어를 예측하는 방식으로 작동하기 때문이라고 설명해요. 시는 비정형적이고 예측 불가능한 구조를 가지고 있어서, AI가 유해한 요청을 감지하고 예측하는 것을 훨씬 어렵게 만든다는 것이죠. 이러한 예측 불가능성이 AI의 방어 시스템을 교란하는 핵심 열쇠가 된 셈이랍니다.

‘적대적 시’, 누구나 쉽게 시도할 수 있는 새로운 위험
비스콘티 연구원은 이번 연구가 AI 모델 작동 방식의 중대한 취약점을 드러냈다고 강조했어요. 다른 대부분의 탈옥 방식은 복잡하고 많은 시간이 소요되어 주로 AI 안전 연구자, 해커, 국가 행위자들만이 시도했지만, 이 연구팀이 ‘적대적 시(adversarial poetry)’라고 명명한 방식은 누구든 쉽게 시도할 수 있다는 점에서 훨씬 심각한 위험성을 내포하고 있답니다. 메타의 두 AI 모델도 70%의 시적 프롬프트에 유해한 응답을 보였지만, 메타는 연구 결과에 대한 언급을 거부했어요.
AI 윤리 연구의 새로운 지평: Icaro Lab의 철학적 접근
이카로 연구소는 LLM의 안전을 연구하기 위해 철학자 등 인문학 전문가들로 구성되었어요. 이들은 언어가 철학자들과 언어학자들을 비롯한 모든 인문학 분야에서 깊이 연구되어 왔다는 점에 주목했는데요. 이러한 인문학적 전문성을 결합하여 기존에는 공격에 사용되지 않던 ‘어색한’ 탈옥 방식을 모델에 적용했을 때 어떤 일이 벌어지는지 탐구하고 있답니다. 연구소는 앞으로 몇 주 안에 ‘시 챌린지’를 시작하여 모델의 안전 장치를 더욱 시험할 계획이라고 해요.

마무리
오늘날 AI 기술은 우리 삶에 깊숙이 들어와 있어요. 하지만 그만큼 AI 안전 기능의 중요성도 커지고 있답니다. ‘시 꼼수’와 같은 예상치 못한 LLM 탈옥 방식은 AI 개발자와 사용자 모두에게 경종을 울리고 있어요. 앞으로 AI 윤리와 안전 연구에 더 많은 관심과 노력이 필요하다는 것을 다시 한번 깨닫게 됩니다. AI가 더욱 안전하고 유익한 기술로 발전하려면, 이러한 취약점들을 끊임없이 파악하고 개선하려는 노력이 계속되어야 할 거예요.
출처: https://www.theguardian.com/technology/2025/nov/30/ai-poetry-safety-features-jailbreak
함께 읽으면 좋은 글
- 놀라운 2026년, Google AI 인프라가 1000배 확장되는 진짜 비결은?
- 1997년 오픈 오리역 맛집 이수사, 자연산 회 흡입 후기
#AI안전기능 #LLM탈옥 #인공지능취약점 #적대적시 #시꼼수 #AI모델안전 #대규모언어모델 #AI윤리 #IcaroLab #DexAI #기술동향 #AI보안 #인공지능발전 #신기술 #사이언스 #테크놀로지 #미래기술 #AI연구 #정보보호 #데이터보안 #혁신기술 #AI뉴스 #2025년 #가디언연구 #AI안전수칙