AI 에이전트가 실제 환경에서 독립적으로 작동할 수 있을까요? Microsoft는 최근 가상 마켓플레이스를 만들어 AI 에이전트의 능력을 시험했는데, 그 결과가 생각보다 흥미롭습니다. 많은 기업들이 AI 에이전트 기술을 앞다퉈 개발하고 있지만, 실제로는 예상하지 못한 취약점들이 발견됐거든요.

Microsoft가 만든 가짜 마켓플레이스, Magentic Marketplace
Microsoft 연구팀은 애리조나 주립대학과 협력해서 ‘Magentic Marketplace’라는 독특한 시뮬레이션 환경을 개발했어요. 이곳은 실제 시장처럼 작동하는 가상 공간인데요, AI 에이전트들이 어떻게 행동하는지 관찰하기 위해 만들어졌답니다.
실험 방식은 이렇게 진행됐어요. 고객 역할을 하는 에이전트 100개가 사용자의 지시에 따라 저녁 식사를 주문하려고 하고, 반대편에선 다양한 레스토랑을 대표하는 에이전트 300개가 주문을 따내기 위해 경쟁하는 거죠. 실제 비즈니스 상황과 상당히 비슷하게 설계된 셈이에요.
Microsoft Research AI Frontiers Lab의 이세 카마르 연구 책임자는 이런 연구가 앞으로 필수적이라고 강조했어요. 에이전트들이 서로 대화하고 협상하면서 세상이 어떻게 변할지 깊이 이해해야 한다는 거죠.
GPT-4o부터 Gemini까지, 주요 모델들의 시험 결과
연구팀은 GPT-4o, GPT-5, Gemini-2.5-Flash 같은 최신 모델들을 테스트했어요. 이들은 모두 현재 시장에서 가장 앞서 있다고 평가받는 모델들이죠. 하지만 결과는 기대와 달랐답니다.

실험을 통해 비즈니스 측 에이전트가 고객 에이전트를 조종할 수 있는 여러 기법들이 발견됐어요. 생각보다 쉽게 영향을 받더라고요. 이건 실제 서비스 환경에서 심각한 문제가 될 수 있는 부분이에요.
선택지가 많아지면 오히려 혼란스러워하는 인공지능
가장 놀라운 발견 중 하나는 선택지 과부하 문제였어요. 고객 에이전트에게 선택할 수 있는 옵션이 많아질수록 성능이 눈에 띄게 떨어지더라고요. 에이전트의 주의력이 분산되면서 제대로 된 판단을 내리지 못한 거죠.
카마르 연구 책임자는 이렇게 설명했어요. “우리는 에이전트들이 많은 옵션을 처리하는 데 도움을 주길 원했는데, 현재 모델들은 오히려 너무 많은 선택지에 압도당하고 있어요.”
이건 역설적인 상황이에요. 우리가 AI 에이전트를 활용하려는 이유 중 하나가 바로 복잡한 선택 상황에서 최적의 결정을 내리기 위해서인데, 정작 그 상황에서 제대로 작동하지 못한다는 거니까요.
협업 능력의 한계가 드러나다
또 다른 문제는 협업 상황에서 나타났어요. 여러 에이전트가 공통 목표를 향해 함께 일해야 할 때, 각자 어떤 역할을 맡아야 할지 제대로 파악하지 못했답니다.

연구팀이 협업 방법에 대해 더 구체적인 지시를 주자 성능이 개선되긴 했어요. 하지만 카마르 연구 책임자는 이것만으로는 부족하다고 봤어요. “모델에게 단계별로 지시할 수는 있죠. 하지만 협업 능력 자체를 테스트하는 거라면, 이런 능력이 기본적으로 탑재되어 있어야 한다고 생각해요.”
실제 업무 환경에서는 항상 세세한 지시를 내릴 수 없잖아요. 에이전트 스스로 상황을 판단하고 역할을 나눠야 하는데, 현재 기술 수준에서는 그게 쉽지 않다는 거예요.
오픈소스로 공개된 이유와 기대 효과
Microsoft는 Magentic Marketplace의 소스 코드를 오픈소스로 공개했어요. 다른 연구팀들도 이 환경을 활용해 새로운 실험을 진행하거나 연구 결과를 재현할 수 있게 된 거죠.
이런 결정은 AI 에이전트 연구 커뮤니티 전체에 도움이 될 거예요. 더 많은 연구자들이 참여하면 문제점을 빨리 발견하고 해결책도 더 빨리 찾을 수 있으니까요. 또 표준화된 테스트 환경이 생기면서 서로 다른 연구 결과를 비교하기도 쉬워졌답니다.
앞으로 AI 에이전트 기술은 어떻게 발전할까
이번 연구 결과는 AI 에이전트 기술이 아직 갈 길이 멀다는 걸 보여줘요. 많은 기업들이 에이전트 기반 서비스를 약속하고 있지만, 실제로 안정적으로 작동하려면 해결해야 할 과제가 많다는 거죠.

하지만 이런 문제점들이 일찍 발견된 건 오히려 좋은 신호일 수 있어요. 실제 서비스에 투입되기 전에 취약점을 파악했으니, 개선할 시간이 생긴 거잖아요. 연구팀들은 선택지 과부하 문제를 해결하고 협업 능력을 강화하는 데 집중할 거예요.
특히 오픈소스 공개로 전 세계 연구자들이 함께 해결책을 찾을 수 있게 됐다는 점이 긍정적이에요. 다양한 관점에서 접근하면 더 창의적인 솔루션이 나올 수 있으니까요.
여러분은 AI 에이전트가 언제쯤 실생활에서 안정적으로 활용될 수 있을 거라고 생각하세요? 이런 기술 발전 과정을 지켜보는 것도 흥미로운 경험이 될 거예요.
출처: https://techcrunch.com/2025/11/05/microsoft-built-a-synthetic-marketplace-for-testing-ai-agents/
같이 보면 좋은 글
#AI에이전트 #인공지능 #Microsoft #MagenticMarketplace #AI테스트 #에이전트기술 #인공지능에이전트 #AI협업 #GPT4o #Gemini #AI연구 #오픈소스 #AI성능 #마이크로소프트 #인공지능개발 #AI문제점 #에이전트시뮬레이션 #AI선택지 #협업AI #미래기술 #AI발전 #인공지능연구 #테크놀로지 #AI혁신 #디지털전환