최근 몇 년간 기술 혁신의 중심에는 생성형 AI가 있었습니다. 스마트폰 제조사들은 경쟁적으로 NPU(신경망 처리 장치) 성능 향상을 외치고 있죠. 매년 30~40% 빨라진다는 NPU, 그런데 막상 체감하는 모바일 AI의 변화는 크지 않다고 느껴지지 않으신가요? 우리 스마트폰 속 NPU는 과연 무엇을 하고 있을까요?

NPU, 스마트폰 속 숨겨진 AI 엔진의 진실
NPU는 신경망 처리 장치(Neural Processing Unit)의 약자로, AI 연산에 특화된 반도체입니다. 스마트폰의 핵심 부품인 SoC(System-on-a-Chip) 안에는 CPU, GPU와 함께 NPU가 자리 잡고 있죠. 퀄컴의 스냅드래곤이나 구글의 텐서 프로세서가 대표적인 예시입니다. NPU는 병렬 컴퓨팅에 강점을 보여 딥러닝과 같은 AI 워크로드 처리 속도를 극대화해요.
퀄컴은 헥사곤 NPU를 선보이며 오랜 시간 AI 프로세싱 기술을 발전시켜 왔습니다. 과거 디지털 신호 처리 장치(DSP)에서 시작된 기술이 AI 발전에 맞춰 진화한 것이죠. DSP가 주로 오디오나 모뎀 신호 처리에 중점을 두었다면, NPU는 훨씬 더 복잡한 병렬 연산에 최적화되어 있습니다. 특히 컴퓨터 비전이나 생성형 AI에 필수적인 행렬 함수 연산에서 뛰어난 효율을 보여준답니다. 물론 NPU가 없어도 CPU나 GPU로 AI 워크로드를 처리할 수 있지만, NPU는 특정 AI 작업에서 전력 효율성과 속도 면에서 큰 이점을 제공해요.

클라우드 AI 전성시대, NPU는 왜 힘을 못 쓸까요?
스마트폰의 NPU 성능은 계속 좋아지고 있지만, 우리가 흔히 접하는 강력한 AI 서비스 대부분은 클라우드에서 작동해요. 구글 제미니나 ChatGPT 같은 대규모 언어 모델(LLM)은 방대한 데이터를 기반으로 학습되고, 엄청난 컴퓨팅 자원을 필요로 하기 때문입니다. 이들은 클라우드의 대규모 서버에서 가장 효율적으로 실행될 수 있죠.
온디바이스 AI, 즉 기기 내에서 실행되는 AI는 자원 제약이 훨씬 큽니다. 예를 들어, 구글의 온디바이스 모델인 제미니 나노는 최근 컨텍스트 윈도우가 32k 토큰으로 2배 이상 개선되었지만, 클라우드 기반 제미니 모델은 최대 100만 토큰까지 처리할 수 있어요. 이는 클라우드가 모바일 기기보다 훨씬 많은 컴퓨팅 자원을 보유하고 있기 때문입니다. 전문가들은 가장 정확하고 강력한 AI 모델은 앞으로도 클라우드에 머무를 것이라고 말해요.

모바일 기기 AI 모델, 왜 작고 약할 수밖에 없을까요?
강력한 AI 모델을 스마트폰이나 노트북에 넣으려면 여러 가지 타협이 필요해요. 클라우드 기반 모델은 수백억 개에 달하는 매개변수를 사용하지만, 현존하는 소비자 기기에서는 이런 모델을 직접 구동할 수 없습니다. 따라서 개발자들은 모델의 크기를 대폭 줄여야 하죠. 미디어텍의 최신 9세대 NPU도 약 30억 개의 매개변수만 처리할 수 있어, 클라우드 모델과는 차이가 큽니다.
기기의 메모리 용량 또한 큰 제약 요인입니다. 예를 들어, 라마(Llama)나 젬마(Gemma) 70억 매개변수 모델을 기기에서 실행하려면 FP16(하프 프리시전) 기준으로 13~14GB의 메모리가 필요해요. 이 모델을 스마트폰에 맞게 3~4GB 정도로 압축하려면 FP4(쿼터 프리시전) 같은 양자화 기술을 적용해야 합니다. 이렇게 모델이 압축되면 성능이나 정확도에서 일부 손실이 발생할 수밖에 없어요. 이러한 한계 때문에 모바일 기기에서의 AI는 스크린샷 분석이나 일정 제안처럼 특정하고 좁은 사용 사례에 주로 활용됩니다.

온디바이스 AI, 개인 정보 보호와 안정성의 열쇠
클라우드 AI가 더 빠르고 편리하다면, 왜 굳이 온디바이스 AI에 집중하는 걸까요? 가장 큰 이유는 바로 ‘개인 정보 보호’와 ‘안정성’입니다. 클라우드에 의존한다는 것은 AI 데이터 센터를 운영하는 기업에 대한 신뢰와 의존을 의미합니다. 개인화된 AI 경험을 제공하기 위해서는 사용자 데이터를 기반으로 모델을 미세 조정해야 하는데, 이 데이터를 로컬 기기에서 처리하는 것이 훨씬 안전하답니다.
기업들이 클라우드 서비스의 개인 정보 보호를 강조해도, 완벽하게 안심할 수는 없습니다. 최근 OpenAI와 뉴욕타임스 간의 저작권 분쟁처럼, 클라우드에 저장된 민감한 대화 내용이 공개될 가능성도 배제할 수 없죠. 하지만 온디바이스 AI는 네트워크 연결 없이도 작동하기 때문에 훨씬 안정적입니다. 와이파이가 끊겨 ChatGPT 사용이 어려웠던 경험, 다들 있으시죠? 기기 내 AI는 이런 불편함 없이 언제든 사용할 수 있다는 장점이 있어요.

하이브리드 AI 시대, NPU의 미래는?
업계 전문가들은 궁극적으로 하이브리드 접근 방식이 필요하다고 입을 모읍니다. 구글, 애플 등 모든 스마트폰 제조사들은 필요한 경우 데이터를 더 강력한 클라우드 서비스로 보내 처리하는 방식을 활용하고 있죠. 하지만 문제는 사용자가 알지 못하는 사이에 개인 데이터가 클라우드로 전송될 수 있다는 점입니다.
최근 출시되는 많은 AI 기능들이 실제로는 온디바이스 NPU를 온전히 활용하지 못하고 클라우드에 의존하는 경우가 많아요. 예를 들어, 원플러스(OnePlus) 폰의 AI 라이터나 AI 레코더 기능은 데이터를 회사 서버로 보내 처리한다고 합니다. 모토로라(Motorola)의 일부 폴더블폰 모델도 알림 요약 기능을 클라우드에서 처리하죠. 심지어 온디바이스 AI의 선두 주자인 구글마저 일부 모바일 AI 경험을 클라우드 기반으로 전환하고 있는 실정이에요. 아직은 ‘강력한’ 클라우드 모델이 대세인 것처럼 보입니다.
삼성은 왜 온디바이스 AI 토글을 제공할까요?
이런 상황 속에서 삼성은 흥미로운 선택지를 제공하고 있어요. 바로 시스템 설정에서 AI 처리 방식을 ‘온디바이스’로만 제한할 수 있는 토글 옵션입니다. 이 옵션을 켜면 사용 가능한 AI 기능의 수는 줄어들고, 일부 기능은 성능이 떨어질 수 있지만, 개인 데이터가 외부로 공유될 걱정 없이 온전히 기기 내에서만 처리되죠.
삼성 관계자는 AI가 사용자 경험을 향상시키면서도 사용자에게 제어권을 부여하는 데 중점을 둔다고 밝혔습니다. 이 온디바이스 처리 토글은 더 빠른 성능, 강화된 개인 정보 보호, 그리고 네트워크 연결 없이도 안정적인 AI 기능을 제공하기 위한 노력의 일환인 것이죠. 다른 스마트폰 제조사들이 아직 제공하지 않는 이런 기능은 엣지 AI에 대한 깊은 고민을 보여주는 사례라고 할 수 있습니다. 비록 클라우드 AI가 주류라 해도, 온디바이스 AI에 대한 관심은 더 많은 RAM과 같은 하드웨어 투자로 이어져 결과적으로 우리에게 더 나은 스마트폰 경험을 가져다줄 수 있을 거예요.
마무리
스마트폰 NPU 성능은 눈부시게 발전하고 있지만, 강력한 AI 경험은 여전히 클라우드에 크게 의존하고 있습니다. 하지만 개인 정보 보호와 안정성 측면에서 온디바이스 AI, 즉 우리 손안의 NPU가 가진 잠재력은 분명히 크다고 할 수 있어요. 여러분은 AI 서비스를 이용할 때, 내 데이터가 어디서 처리되는지 한 번쯤 생각해 보셨나요? 어떤 AI 처리 방식이 더 중요하다고 생각하시나요?