ChatGPT가 3년 만에 해낸 작지만 큰 변화, em dash 제어의 비밀

ChatGPT를 사용하다 보면 유독 자주 등장하는 긴 대시(—)를 본 적 있으신가요? 바로 em dash라는 특수 문장부호인데요. 샘 알트만 OpenAI CEO가 최근 ChatGPT가 드디어 이 em dash 사용을 제어할 수 있게 됐다고 밝혔어요. 하지만 이 작은 성공이 오히려 AGI까지의 먼 거리를 보여준다는 평가가 나오고 있답니다.

A modern laptop screen displaying a chat interface with visible em dash punctuation marks in text, warm office lighting, realistic workspace setting with coffee cup and notebook, cozy atmosphere, natural colors, detailed view

Em dash가 뭐길래 이렇게 문제일까요

Em dash(—)는 하이픈(-)과는 다른 긴 대시 기호예요. 키보드에서 하이픈은 쉽게 칠 수 있지만, em dash는 특수 문자로 입력해야 하죠. 작가들은 이 기호를 문장 중간에 부연 설명을 넣거나 갑작스러운 생각의 전환을 표현할 때 사용한답니다.

문제는 ChatGPT가 이 em dash를 너무 자주 사용한다는 거예요. 마치 자신의 시그니처처럼 말이죠. 독자들은 이제 긴 대시가 여러 번 등장하면 “아, 이건 AI가 쓴 글이구나”라고 눈치채게 됐어요.

  • 하이픈: 단어를 연결하거나 복합어를 만들 때 사용
  • Em dash: 문장 속 추가 정보나 생각의 전환을 표시
  • En dash: 범위를 나타낼 때 사용 (예: 2020–2025)

실제로 em dash를 자주 쓰는 작가들도 있었지만, AI 시대가 되면서 이들은 오히려 곤란한 상황에 처했어요. 자신이 쓴 글인데도 AI가 쓴 것으로 오해받는 경우가 생긴 거죠.

Clean infographic illustration comparing hyphen and em dash punctuation marks, side by side comparison with example sentences, modern typography design, educational style, vibrant gradient background from blue to purple, minimalist layout

AI 글쓰기에서 em dash가 자주 나오는 이유

ChatGPT가 em dash를 좋아하는 이유는 학습 데이터에 있어요. 대규모 언어 모델은 인터넷의 수많은 텍스트를 학습하는데, 그 속에는 19세기 문학 작품부터 현대 블로그 글까지 다양한 글이 포함돼 있죠.

흥미로운 건 em dash 사용이 1860년대에 절정을 이뤘다가 20세기 중반까지 감소했다는 연구 결과예요. 그런데 최근 들어 다시 인기를 얻고 있는데, 특히 Medium 같은 블로그 플랫폼에서 자동으로 하이픈을 em dash로 변환해주면서 더 많이 퍼졌다고 해요.

AI 모델은 이런 패턴을 학습해서 “전문적인 글쓰기에는 em dash가 자주 등장하는구나”라고 이해한 거예요. 게다가 강화 학습 과정에서 사람들이 em dash가 포함된 답변에 높은 점수를 줬을 가능성도 있어요. 아마도 더 세련되고 매력적으로 보였기 때문이겠죠.

3년 만에 이룬 작은 승리의 의미

2025년 11월 14일, 샘 알트만은 X(구 트위터)에 이렇게 썼어요. “작지만 기쁜 승리: ChatGPT의 맞춤 지침에서 em dash를 쓰지 말라고 하면, 이제 드디어 제대로 따라요!”

이 발표는 GPT-5.1 모델 출시 이틀 후에 나왔어요. 3년 동안 ChatGPT를 개선해온 OpenAI가 겨우 문장부호 하나를 제어하게 됐다는 건, 어떻게 보면 놀라운 일이에요.

하지만 반응은 엇갈렸어요. 한 사용자는 이렇게 댓글을 달았죠. “ChatGPT가 출시된 지 3년이나 됐는데, 이제야 이런 간단한 요구사항을 따르게 됐다는 건 당신들이 얼마나 통제력이 없는지 보여주는 거예요. 미래에 대해 좋은 신호가 아니네요.”

Professional tech CEO making an announcement in modern office setting, confident expression, business attire, large windows with city view in background, natural daylight, corporate atmosphere, realistic photography style

명령 따르기가 왜 이렇게 어려운 걸까요

ChatGPT의 맞춤 지침 기능은 사용자가 원하는 스타일을 설정해두면 모든 대화에 자동으로 적용되는 기능이에요. 톤, 형식, 스타일을 매번 반복해서 요청할 필요 없이 한 번만 설정하면 되죠.

그런데 이 기능이 항상 제대로 작동하지는 않았어요. 왜 그럴까요? 핵심은 대규모 언어 모델이 작동하는 방식에 있어요.

일반 컴퓨터 프로그램에서는 “X 문자를 포함하지 마”라고 명령하면 절대 그 문자가 나오지 않아요. 규칙이 확정적으로 실행되니까요. 하지만 AI 언어 모델은 달라요.

ChatGPT에게 “em dash를 쓰지 마”라고 하면, 실제로는 em dash와 관련된 토큰이 선택될 확률을 낮추는 거예요. ‘불가능’이 아니라 ‘덜 가능성 있게’ 만드는 거죠. 모델이 생성하는 모든 단어는 확률 분포에서 선택되는데, 맞춤 지침은 그 확률에 영향을 줄 뿐이에요.

확률적 생성의 특성

여러분이 지시한 내용은 모델이 학습한 방대한 데이터, 그리고 프롬프트의 다른 모든 내용과 경쟁해요. 특정 문맥에서 em dash가 자주 등장했다면, 여러분의 지침보다 학습 데이터의 패턴이 더 강하게 작용할 수 있죠.

게다가 조건부 로직으로 출력을 검증하는 별도 시스템이 없어요. 지침도 그냥 텍스트일 뿐이고, 통계적 예측 과정에 영향을 줄 뿐이랍니다.

통계적 텍스트 생성의 한계

알트만이 축하한 건 결국 OpenAI가 GPT-5.1을 튜닝해서 맞춤 지침의 가중치를 높였다는 거예요. 아마도 강화 학습이나 미세 조정을 통해 확률 계산에서 사용자 지침이 더 큰 영향을 미치도록 만든 거죠.

하지만 여기에는 아이러니가 있어요. 통제력이 보장되지 않는다는 점이에요. OpenAI는 모델을 계속 업데이트하는데, 같은 버전 번호 안에서도 사용자 피드백과 새로운 학습을 바탕으로 조정을 해요.

연구자들은 이걸 ‘정렬 비용’이라고 불러요. 신경망의 한 가지 행동을 정밀하게 조정하면 다른 행동이 의도치 않게 바뀔 수 있거든요. 네트워크 안의 모든 개념이 수백만 개의 가중치로 연결돼 있어서, 하나를 건드리면 다른 것도 영향을 받는 거예요.

오늘 em dash 과다 사용을 고쳤는데, 내일 코딩 능력을 개선하려고 업데이트했더니 em dash가 다시 돌아올 수도 있어요. OpenAI가 원해서가 아니라, 수백만 개의 경쟁하는 영향력을 가진 통계 시스템을 조정하는 게 원래 그렇기 때문이죠.

Abstract visualization of neural network connections, glowing nodes and pathways, interconnected web of light, deep blue and cyan color scheme, futuristic digital art style, flowing energy between points, depth and dimension, no text

AGI로 가는 길은 아직 멀다

이 작은 승리가 큰 질문을 던져요. 세계에서 가장 가치 있는 AI 기업이 수년 동안 문장부호 사용 하나를 제어하는 데 애먹었다면, 사람들이 말하는 인공 일반 지능은 얼마나 먼 미래일까요?

알트만은 공개적으로 AGI, 초지능, ‘하늘의 마법 같은 지능’에 대해 이야기하면서 OpenAI 투자를 유치하고 있어요. 하지만 현실은 지구상에서 신뢰할 수 있는 인공지능조차 아직 없다는 거예요.

AGI는 인간의 일반 학습 능력과 동등한 기술을 의미해요. 진정한 이해와 자기 성찰적인 의도적 행동이 필요한데, 지금의 통계적 패턴 매칭으로는 운이 좋을 때만 지침과 일치하는 수준이죠.

사용자들의 혼재된 경험

흥미롭게도 일부 사용자들은 여전히 em dash 제어에 어려움을 겪고 있어요. 특히 맞춤 지침이 아닌 채팅 중에 직접 요청했을 때 말이에요.

한 사용자가 채팅에서 “em dash를 쓰지 마”라고 하자, ChatGPT는 메모리에 저장하고 이렇게 답했어요. “알겠습니다. 이제부터 짧은 하이픈만 쓰겠습니다(Got it—I’ll stick strictly to short hyphens from now on).” 아이러니하게도 답변 속에 em dash가 들어있었죠.

앞으로 AI 발전의 과제

이 사건이 보여주는 건 AI 기술이 아직 근본적인 한계를 가지고 있다는 거예요. 대규모 언어 모델만으로는 AGI에 도달하기 어려울 것 같아요.

진정한 인공 일반 지능을 만들려면 다른 접근이 필요할 거예요. 통계적 패턴 매칭을 넘어서 실제 이해와 추론, 그리고 명확한 규칙 준수 능력이 필요하죠.

OpenAI를 비롯한 AI 기업들은 계속해서 모델을 개선하고 있어요. 하지만 em dash 하나 제어하는 데 3년이 걸렸다는 사실은, 우리가 생각하는 것보다 갈 길이 멀다는 걸 보여주는 신호랍니다.

그래도 긍정적으로 보면, 이런 작은 진전들이 모여서 결국 더 나은 AI를 만들어갈 거예요. 중요한 건 과대광고에 휘둘리지 않고 현실적인 기대를 갖는 거겠죠.

Futuristic AI development concept, holographic interface with flowing data streams, scientist working with advanced technology, bright laboratory environment, optimistic atmosphere, blend of human and artificial intelligence elements, rich teal and orange color palette

여러분은 ChatGPT를 사용하면서 em dash가 많이 나온다고 느끼셨나요? 댓글로 경험을 공유해주세요!


출처: Ars Technica

Leave a Comment

error: Content is protected !!