AI 학습 데이터 시장, 지금 투자하면 대박? 22살 청년이 10조 번 비결

우리 주변에 인공지능(AI)이 화두예요. 오픈AI, 앤스로픽 같은 이름만 들어도 설레는 기업들이 미래를 선도하는 것 같죠? 그런데, 이들보다 더 은밀하게, 때로는 엄청난 속도로 돈을 벌고 있는 숨은 기업들이 있더라고요. 바로 ‘AI 학습 데이터’를 제공하는 곳들이에요.

AI 학습 데이터, 왜 갑자기 뜨거워졌을까요?

AI가 발전하려면 방대한 양의 데이터가 필요하다는 사실, 알고 계셨나요? 마치 어린아이가 세상을 배우듯, AI도 수많은 데이터를 통해 학습하며 성장하는데요. 초기에는 웹상의 쉽게 접근 가능한 데이터로 충분했지만, 이제는 그 데이터를 거의 다 소진했다고 해요.

최근 AI 모델들은 단순한 데이터 양보다 특정 분야의 전문가가 맞춤 제작한 소규모 데이터셋에서 더 큰 성능 향상을 보이고 있어요. 예를 들어, 코딩이나 금융 같은 전문 분야의 데이터는 AI 기업들이 기꺼이 높은 비용을 지불하고 있죠. 업계 추산에 따르면, 올해 AI 학습 데이터 시장 규모는 100억 달러(약 13조 원)를 넘어설 것으로 예상돼요. 이 엄청난 수요를 충족시키기 위해, 기존에는 주목받지 못했던 데이터 산업이 황금기를 맞이하고 있답니다.

데이터 라벨링, 단순 작업이 아니더라고요

과거의 데이터 라벨링은 아마존 미케니컬 터크(Mechanical Turk) 같은 플랫폼에서 수많은 사람이 이미지에 라벨을 붙이는 단순한 작업이었어요. 하지만 챗GPT 등장 이후, AI 훈련 방식이 ‘인간 피드백 기반 강화 학습(RLHF)’으로 바뀌면서 상황이 달라졌어요.

RLHF는 계약자들이 챗봇 응답의 품질을 평가하는 방식으로 이루어지는데, 챗봇이 발전할수록 이 평가 작업은 훨씬 더 미묘하고 전문적인 역량을 요구하게 됐어요. 의료 관련 질문에는 의료 전문가가, 법률 질문에는 법률 전문가가 평가해야 하는 식이죠.

이런 변화 속에서 스케일 AI(Scale AI)와 함께 서지 AI(Surge AI) 같은 새로운 강자들이 등장했어요. 특히 서지 AI는 데이터 과학자 에드윈 첸(Edwin Chen)이 설립한 회사로, 높은 급여와 엄격한 품질 관리를 통해 빠르게 성장했죠. 작년 매출이 10억 달러(약 1조 3천억 원)를 넘어서며 스케일 AI를 앞질렀다는 소식도 들려오더라고요.

A visual metaphor of an AI model learning through a complex "rubric" or checklist, stylized as an intricate, glowing network within a vibrant, textured background, no text, 1:1 aspect ratio

AI가 똑똑해지려면 ‘이것’이 필수래요: 루브릭과 환경

AI 기업들은 모델이 실생활 작업을 수행할 수 있도록 돕기 위해 ‘루브릭(grading rubrics)’이라는 세부 평가 기준과 ‘강화 학습 환경(reinforcement learning environments)’이라는 일종의 ‘AI 짐(gym)’을 만들고 있어요. 루브릭은 특정 작업에서 ‘잘한 일’이 무엇인지 구체적으로 정의한 체크리스트이고, 환경은 AI가 그 작업을 시험해볼 수 있는 시뮬레이션 공간이에요.

예를 들어, 컨설팅 루브릭을 만들려면 컨설팅 회사가 운영하는 모든 산업군, 각 산업에서 수행하는 컨설팅 유형, 그리고 각 유형에서 생산될 수 있는 보고서와 분석의 종류를 세분화해야 한다고 해요. 심지어 이메일을 보내는 것 같은 사소한 컴퓨터 작업 하나하나에도 루브릭이 필요하죠.

이러한 루브릭은 엄청난 노력을 요구해요. 하나를 다듬는 데 10시간 이상 걸리기도 하고, 수십 개의 기준이 포함될 수 있다고 하네요. AI 기업들은 모델이 프로그래밍이나 수학처럼 명확한 성공 신호가 있는 분야에서 학습하는 것처럼, 복잡한 실생활 작업에서도 루브릭을 통해 숙련될 수 있기를 기대하고 있어요.

숨은 AI 데이터 기업, 22살 CEO가 10조 가치 만든 비결은?

이러한 배경 속에서 소위 ‘AI 골드러시’ 시대의 곡괭이와 삽을 파는 회사들이 등장했어요. 22살의 브렌던 푸디(Brendan Foody)가 설립한 메르코(Mercor)는 AI 모델 훈련에 필요한 소프트웨어 엔지니어를 공급하며 빠르게 성장, 100억 달러(약 13조 원)의 기업 가치를 인정받았다고 해요. 메르코는 5억 달러의 연간 매출을 달성하며 “역사상 가장 빠르게 성장하는 회사”라는 타이틀을 얻었죠.

핸드셰이크 AI(Handshake AI), 튜링(Turing), 인비저블 테크놀로지스(Invisible Technologies), 마이크로1(Micro1) 등 수많은 스타트업들도 이 시장에 뛰어들고 있어요. 특히 핸드셰이크는 스케일 AI가 메타(Meta)에 지분 투자를 받은 후 경쟁사들이 떠나면서 수요가 3배로 폭증했다고 하네요. 이들은 골드만삭스 애널리스트, 맥킨지 컨설턴트, 하버드 역사학자 등 각 분야의 최고 전문가들을 고용해 데이터를 생산하고 있어요. 전문가들은 이들이 “인류의 모든 전문 지식을 흡수하고 있다”고 말할 정도랍니다.

A dynamic scene showcasing a diverse group of professionals—engineers, lawyers, consultants, medical experts—collaborating on specialized AI data training, with a focus on their expertise, modern infographic style, rich, colored background, no text, 4:3 aspect ratio

AI 데이터 산업, 황금알을 낳는 거위일까?

이처럼 갓 출범한 데이터 회사들의 11자리 평가액은 AI 버블의 징후로 볼 수도 있지만, AI 개발의 특정 궤적에 대한 강력한 베팅을 의미할 수도 있어요. AI 연구소들은 궁극적으로 ‘일반 인공지능(AGI)’이라는 개념, 즉 인간이 수행하는 대부분의 경제적 가치 있는 작업을 자율적으로 수행하고 인간을 능가할 수 있는 AI의 등장을 목표로 하고 있어요.

하지만 현재로서는 AI가 특정 작업을 학습하면 다른 작업으로 ‘일반화’하는 능력이 제한적이라는 것이 중론이에요. 즉, 수학과 회계를 학습했다고 해서 세법이나 최신 세무 프로그램을 배우지 않고 세금을 처리할 수는 없다는 거죠. 이러한 관점에서 보면, AI는 ‘증기 기관’이나 ‘인터넷’처럼 변혁적이지만 만능은 아닌 ‘일반 기술’에 가까울 수 있어요. 이 경우, 기업들은 특정 작업을 자동화할 때마다 새로운 데이터를 계속 구매해야 할 거예요.

데이터 기업들은 바로 이 시나리오에 베팅하고 있어요. “AI 연구소들은 AGI가 최대한 빨리 일반화될 것이라고 말하고 싶어 하지만, 실제로는 강화 학습의 일반화 반경이 제한적이라 모든 것을 최적화하기 위해 평가를 구축해야 하며, 이에 대한 투자가 엄청나게 빠르게 폭발하고 있다”고 메르코의 푸디는 말했어요.

결국 AI 모델 빌더들이 수십억 달러를 쏟아붓는 동안, 이들에게 곡괭이와 삽을 파는 데이터 기업들은 그 돈을 벌어들이며 AI 시대의 진정한 승자로 떠오르고 있답니다.

출처: https://www.theverge.com/cs/features/831818/feeding-the-machine

같이 보면 좋은 글

#AI학습데이터 #AI데이터라벨링 #AI수익모델 #메르코 #서지AI #AI산업트렌드 #데이터경제 #인공지능발전 #RLHF #데이터골드러시

Leave a Comment

error: Content is protected !!