리얼월드, 사람 손재주 피지컬 AI로 구현한 “RLDX-1”으로 차별화 가속

#AI #IT #RLDX1 #RLWRLD #VLA #덱스터리티 #로봇 #로봇손 #리얼덱스1 #리얼월드 #손재주 #인공지능 #피지컬AI

강형석 redbk@itdonga.com

2026.06.11.

리얼덱스-1(RLDX-1)에 대해 설명 중인 류중희 리얼월드 최고경영자 / 출처=IT동아

[IT동아 강형석 기자] 인공지능(AI) 시장의 화두는 스스로 명령을 처리하는 에이전틱 AI(Agentic AI)와 현실 세계와 상호작용하는 피지컬 AI(Physical AI)다. 이 중 피지컬 AI는 하드웨어ㆍ소프트웨어ㆍ산업 인프라 역량이 중요한 국가 기반 산업으로 인식된다. 성장세도 뚜렷하다. 시장조사기업 포춘 비즈니스 인사이트는 글로벌 휴머노이드 로봇 시장 규모가 2025년 약 49억 달러(약 7조 4000억 원)에서 2034년에는 1651억 달러(약 251조 원)까지 커질 것으로 내다봤다.

피지컬 AI 기술의 완성도는 빠르게 개선 중이다. 물건을 들어 올리거나 운반하는 이동·물류 영역은 이미 피지컬 AI 중심의 자동화가 한창이다. 다만 손으로 정밀한 작업을 수행하는 이른바 덱스터리티(손재주, Dexterity) 영역은 여전히 인간의 몫이다. 물체의 형태와 강도를 인식해 상호작용하는 기술이 아직 완벽하지 않아서다. 리얼월드는 사람의 손재주 영역을 극복하고 피지컬 AI 기술의 마지막 퍼즐을 완성하겠다는 포부를 밝혔다.

2026년 6월 10일, 리얼월드는 라움아트센터(서울 강남구 소재)에서 덱스터리티 나이트 인 서울(Dexterity Night in Seoul) 행사를 열었다. 피지컬 AI 비전을 공유하는 자리로, 로봇 손동작을 정밀하게 구현한 파운데이션 모델 '리얼덱스-1(RLDX-1)'도 함께 공개됐다.

개척하지 못한 로봇의 손재주 구현에 도전한다

류중희 리얼월드 최고경영자는 행사 첫머리에서 "왜 손재주(덱스터리티)인가?"라는 질문을 던졌다. 그는 산업 현장의 현실을 짚었다. 대중의 인식과 달리, 세계 최고 수준의 자동화율을 자랑하는 한국의 제조 공장조차 기계가 대체한 영역은 75%에 그친다는 분석이다. 일본, 중국, 미국은 상황이 더 심각해 전체 노동의 절반 가까이를 여전히 사람에 의존한다고 덧붙였다.

류중희 최고경영자는 전 세계 미자동화 노동시장을 합산하면 4조 달러(약 6080조 원) 규모라고 분석했다. 인류가 지금껏 발견한 어떤 단일 시장보다 거대한 수치다. 리얼월드는 이 미개척 시장을 통째로 자동화하겠다는 목표 아래 창업했음을 강조했다. 목표 달성을 위해 내세운 핵심 요소는 데이터(Data), 모델(Model), 배포(Deployment) 세 가지다.

데이터는 AI의 원료다. 리얼월드가 구축한 독자 휴먼 데이터 파이프라인은 사람의 동작을 로봇이 그대로 학습하는 구조로 설계됐다. 예컨대 전문 호텔리어가 실제 업무를 수행하는 장면을 기록하고, 손에 씌운 글러브 센서와 컴퓨터 비전을 결합해 골격 데이터(Skeleton Data)를 추출하는 식이다. 수십 년간 몸에 밴 숙련자의 암묵적 손재주를 디지털 신호로 전환하는 작업인 셈이다.

데이터 수집만큼 중요한 것은 데이터 증강이다. 류중희 최고경영자가 소개한 합성 데이터(Synthetic Data) 파이프라인은 전체 학습 데이터의 20%만 실제 데모 영상으로 확보하고, 나머지 80%는 AI가 생성한 합성 데이터로 채우는 방식이다. 그는 이 방식으로 만든 모델 성능이 엔비디아의 합성 데이터 파이프라인보다 뛰어나다고 설명하며 검증 결과를 함께 제시했다.

리얼월드는 전 세계 미자동화 노동시장을 4조 달러(약 6080조 원) 규모로 추산했다 / 출처=IT동아

류중희 최고경영자는 표준화에 대한 야심을 숨기지 않았다. 정밀 조립, 분류, 포장 등 정교한 조작(Dexterous Manipulation)을 가능케 하는 능력은 휴머노이드 AI 개발의 핵심 요소로 부상했다. 그럼에도 관련 성능을 객관적으로 평가·비교하는 공통 프레임워크나 대규모 학습용 데이터 표준은 아직 자리를 잡지 못했다. 리얼월드는 엔비디아와 손잡고 이 공백을 메울 계획이다.

엔비디아 외에도 10개 이상의 파트너사와 로보틱스 전환(RX, Robotics Transformation) 프로젝트를 동시에 진행 중이다. 류중희 최고경영자는 "이론적인 연구에 그치지 않고 산업 현장의 실제 문제를 해결하는 동시에 기술이 현장에 뿌리내리는 데 힘쓸 것"이라고 말했다.

피지컬 AI의 VLA 한계 극복한 리얼덱스-1(RLDX-1)

리얼월드의 기술 개발을 이끈 신진우 카이스트 ICT지정석좌교수는 '리얼덱스-1(RLDX-1)'의 구조와 성과를 공개했다. 그는 100여 명의 연구자·엔지니어의 노력이 없었다면 성과도 없었을 것이라면서도, 리얼덱스-1이 현존하는 최고 수준의 로봇 AI들과 비교해 확실한 우위를 점한다는 점을 강조했다.

리얼덱스-1은 인간처럼 정교한 손동작을 구현하기 위해 설계된 비전-언어-행동(VLA, Vision-Language-Action) 모델이다. 여러 시뮬레이션 결과, 피지컬 인텔리전스의 파이(Pi) 시리즈 및 엔비디아의 그루트(GROOT) 모델 대비 모든 지표에서 세계 최고 기록(State of the Art)을 경신했다는 게 신진우 교수의 설명이다.

신진우 교수는 기존 VLA 모델들이 대규모 사전 학습을 통해 장면과 언어를 높은 수준으로 이해하지만, 대개 단 한 장의 정지 이미지(스냅샷)에만 의존해 추론하는 한계를 지적했다. 실제 로봇이 현실에서 사물을 조작하려면 정지 영상 이상의 정보가 필요한데, 단편적인 정보에 의존하면 자연스러운 움직임을 구현하기 어렵다는 설명이다.

신진우 교수는 VLA의 한계를 모션 인식(Motion Awareness), 장기 기억(Long-term Memory), 피지컬 센싱(Physical Sensing)으로 풀어냈다고 강조했다.

모션 인식은 움직이는 물체를 잡을 때 현재 위치뿐 아니라 속도와 방향까지 실시간으로 추적하는 기술이다. 예컨대 움직이는 공을 잡는 과정에서 시간의 흐름에 따른 동역학을 이해하는 식이다. 장기 기억은 현재가 아닌 과거 작업 맥락을 보존하는 능력이다. 마지막으로 피지컬 센싱은 촉각과 힘을 인식하는 물리적 상호작용 능력으로, 카메라 영상만으론 파악하기 어려운 물리적 감각을 보완한다.

신진우 교수는 리얼덱스-1의 성능이 경쟁 피지컬 AI 기술 대비 뛰어나다는 점을 강조했다 / 출처=IT동아

리얼월드 연구진은 비전 언어 백본(VLM Backbone)과 새로운 액션 헤드인 멀티스트림 액션 트랜스포머(Multi-Stream Action Transformer)를 도입했다. 영상 프레임을 효율적인 토큰으로 압축해 처리 능력을 높이고, 인지 영역·실제 움직임·물리적 감각 신호를 독립된 스트림으로 나눠 모델이 물리적 상호작용을 깊이 파악하도록 설계했다. 미래에 발생할 물리적 토크나 촉각 신호까지 예측하도록 보조 학습을 더해 정밀 제어 능력도 강화했다.

리얼덱스-1은 제너럴리스트에서 스페셜리스트로 진화하는 3단계 학습 구조도 채택했다. 1단계에서 대규모 액션 데이터로 범용 행동 사전을 학습하고, 2단계에서 모션 인식·장기 기억·피지컬 센싱 기능을 결합하면서 특정 로봇에 맞게 특화한다. 3단계에서는 특정 과제 해결을 위한 파인튜닝(세부 조율)과 강화학습을 거쳐 성공률을 끌어올린다. 추론 속도도 개선했다. 지포스 RTX 5090 그래픽 처리장치(GPU) 기준으로 71ms(0.071초)였던 지연시간을 약 40% 단축해 43ms(0.043초) 수준까지 낮췄다.

혼자 만드는 게 아닌 함께 만드는 피지컬 AI 생태계 강조

이강욱 리얼월드 최고사업책임자(CBO)는 리얼덱스-1이라는 강력한 기술적 무기를 어떻게 글로벌 산업 현장에 확산시키고 비즈니스 가치로 전환할 것인지 청사진을 제시했다. 그는 모델이 아니라 생태계, 기술이 아니라 협업의 중요성을 강조했다.

이강욱 최고사업책임자는 플랫폼, 도메인, 하드웨어라는 세 가지 영역의 파트너십 프로그램을 소개했다. 먼저 엔비디아와의 플랫폼 협업이다. 엔비디아의 아이작 시뮬레이터·아이작 랩과 협력해 정교한 손동작을 위한 데이터 표준 작업을 추진한다. AWS와는 데이터 수집부터 정제, 합성 증강, 학습, 배포에 이르는 전 과정을 아우르는 공동 파이프라인 구축에 집중한다. AWS가 확보한 대형 엔터프라이즈 고객층과 리얼월드의 산업 현장 파트너사를 연결하는 비즈니스 협력도 포함된다.

도메인 협업은 개별 산업군과의 파트너십이다. 로봇 전환, 데이터 협업, 모델의 현장 배포로 이어지는 단계별 구조다.

로봇 전환은 현장 상황을 분석하고 어떤 시점에 어떤 방식으로 휴머노이드를 투입할 수 있는지 청사진을 그린다. 예컨대 호텔의 경우 약 5500가지 작업 단위를 분류하고, 독자 개발한 객체 상태 복잡도(OSC, Object State Complexity) 프레임워크로 각 작업의 로봇 구현 난이도를 측정한다. 청사진이 확정되면 현장 데이터를 수집해 파운데이션 모델을 특화(파인튜닝)하는 데이터 파트너십 단계로 이어지며, 마지막에는 현장 배포 모델을 가동하면서 시스템 개선을 이어간다.

하드웨어·센서 업계와의 협업에도 속도를 낸다. 로봇에 쓰이는 장비·센서 연구개발과 산업 현장 개념검증(PoC)을 통해 파트너사의 하드웨어 성능을 높이는 데 집중할 계획이다.

이강욱 최고사업책임자는 피지컬 AI가 어느 한 회사가 홀로 완성하는 기술이 아니라, 파운데이션 모델을 중심으로 플랫폼·산업·하드웨어 파트너가 함께 엮어가는 생태계임을 강조했다. 그러면서 "함께 피지컬 AI를 구축하자(Let's build physical AI together)"고 말했다.

IT동아 강형석 기자 (redbk@itdonga.com)

#AI #IT #RLDX1 #RLWRLD #VLA #덱스터리티 #로봇 #로봇손 #리얼덱스1 #리얼월드 #손재주 #인공지능 #피지컬AI