발행일: 2026년 4월 19일작성: AI 뉴스팀분류: 로봇 AI · 피지컬 AI
■ 핵심 요약
구글 딥마인드가 4월 14일, 로봇용 고수준 추론 모델 Gemini Robotics-ER 1.6을 발표했습니다. 이 모델은 로봇이 물리적 환경을 이해하고 스스로 판단하는 '구현된 추론(Embodied Reasoning)' 능력을 대폭 향상시켰습니다. 특히 보스턴 다이내믹스와의 협업으로 개발한 계기판 읽기 기능은 정확도 93%를 달성하며, 산업 현장 로봇의 실용화에 새로운 가능성을 열었습니다.
■ Gemini Robotics-ER 1.6이란?
추론 모델, 액션 모델이 아니다
Gemini Robotics-ER 1.6을 이해하기 위해서 먼저 중요한 구분이 필요합니다:
ER 1.6 (이번 출시): 로봇의 '뇌' 역할. 공간 이해, 작업 계획, 성공 감지 등 고수준 추론 담당
Gemini Robotics 1.5 (별도 모델): 로봇의 '손발' 역할. 실제 물리적 모터 명령(시각-언어-액션, VLA) 담당
즉, ER 1.6은 로봇이 "무엇을 해야 할지"를 결정하는 고수준 추론 계층이며, 실제 움직임은 별도의 VLA 모델이 담당합니다. 이러한 분리 구조는 추론과 실행을 독립적으로 최적화할 수 있다는 장점이 있습니다.
■ 핵심 신기능 상세
1. 계기판 읽기(Instrument Reading): 23% → 93%
가장 주목할 만한 새로운 기능입니다. 보스턴 다이내믹스의 Spot 로봇과의 산업 현장 협업에서 발견된 실제 니즈로부터 개발되었습니다.
적용 분야:
🔵 원형 압력 게이지 판독
🔵 사이트 글래스(액체 레벨 표시기) 판독
🔵 복잡한 계기판의 다중 바늘 해석 (소수점 자리 결합)
🔵 디지털·아날로그 혼합 계기판
정확도 비교:
모델 | 계기판 읽기 정확도 |
|---|---|
Gemini Robotics-ER 1.5 | 23% |
Gemini 3.0 Flash | 67% |
Gemini Robotics-ER 1.6 | 93% |
이는 단순한 이미지 인식이 아닙니다. 로봇이 여러 각도에서 계기판을 관찰하고, 바늘의 위치를 정밀하게 판독하며, 복잡한 아날로그 게이지의 값을 숫자로 변환하는 '에이전트 비전(Agentic Vision)' 기술입니다. 딥마인드는 내부 검색 엔진을 사용하여 계기판 이미지를 반복적으로 분석하고, 최종 판독값을 확정하는 방식으로 동작한다고 설명합니다.
2. 지시(Pointing): 단순한 손가락질 이상
지시 기능은 로봇이 특정 객체를 가리키는 능력으로, 단순해 보이지만 실제로는 다양한 고급 추론 능력을 포함합니다:
객체 식별: "빨간 병을 가리켜" — 시각적 특징으로 객체 식별
관계 논리: "가장 작은 객체를 가리켜" — 여러 객체 간 비교 추론
공간 추론: "내 왼쪽에 있는 것을 가리켜" — 상대적 공간 이해
정확한 방향 지정: 카메라 시점에서의 정확한 3D 방향 계산
이러한 능력은 로봇이 인간과 협업할 때, 또는 다른 로봇과 작업을 조율할 때 필수적인 소통 수단입니다.
3. 작업 완료 감지(Success Detection): "끝났는지 아는" 능력
로봇이 작업을 완료했는지 스스로 판단하는 기능입니다. 다중 카메라 뷰에서 환경을 관찰하고, 작업 전후의 변화를 비교하여 성공 여부를 결정합니다.
실제 활용 예:
"이 상자를 저 책상 위에 올려놔" → 상자가 책상 위에 있는지 다각도에서 확인
"문을 닫아" → 문이 완전히 닫혔는지 검증
"이 볼트를 조여" → 조임 상태를 시각적으로 확인
이 능력은 진정한 자율성의 핵심입니다. 작업 완료를 인간이 확인하지 않아도 되기 때문에, 로봇을 연속 작업에 투입할 수 있습니다.
4. 안전성: 역대 최고 수준
딥마인드는 ER 1.6을 **"역대 가장 안전한 로봇 AI 모델"**이라고 평가했습니다:
안전 정책 준수: 적대적 공간 추론 작업에서 Gemini 안전 정책 준수율이 모든 이전 세대를 상회
물리적 안전 제약 준수: "무거운 물건(20kg 이상) 들지 마", "액체 취급 금지" 등 물리적 제약을 더 잘 인식하고 준수
위험 상황 식별: 텍스트 및 비디오 시나리오에서 실제 생활 부상 위험을 식별하는 능력 향상
■ 벤치마크 성능
Gemini Robotics-ER 1.6은 이전 세대인 ER 1.5와 일반 목적 모델인 Gemini 3.0 Flash에 비해 공간 및 물리 추론 능력에서 모든 항목에서 개선을 보였습니다:
능력 | ER 1.5 | Gemini 3.0 Flash | ER 1.6 |
|---|---|---|---|
지시(Pointing) | 기준 | 기준 | 대폭 향상 |
계수(Counting) | 기준 | 기준 | 대폭 향상 |
성공 감지 | 기준 | 기준 | 대폭 향상 |
계기판 읽기 | 23% | 67% | 93% |
안전 정책 준수 | 기준 | 기준 | 최고 수준 |
■ 보스턴 다이내믹스와의 협업
Gemini Robotics-ER 1.6의 계기판 읽기 기능은 보스턴 다이내믹스의 Spot 로봇과의 긴밀한 협업을 통해 개발되었습니다.
보스턴 다이내믹스는 산업 시설 검사에 Spot 로봇을 투입하고 있으며, 현장에서 압력 게이지와 사이트 글래스를 읽는 것이 주요 니즈였습니다. 기존에는 이 작업을 인간 검사원이 수행해야 했으나, ER 1.6을 탑재한 Spot이 이를 자율적으로 수행할 수 있게 되었습니다.
이는 AI 로봇 기술이 실제 산업 현장의 구체적인 문제를 해결하는 '실용화' 단계에 진입했음을 의미합니다.
■ 한국 산업에 대한 시사점
1. 제조 자동화의 새 장
삼성, 현대, LG 등 한국 제조 기업은 이미 스마트 팩토리를 추진 중입니다. 삼성리서치가 이번 주 발표한 로봇 AI '셀로파이'(판단 속도 17.2Hz, 온디바이스 AI)와 구글의 ER 1.6은 상호 보완적 관계에 있습니다:
셀로파이: 로봇 자체의 빠른 판단과 제어 (온디바이스)
ER 1.6: 고수준 작업 계획과 복잡한 환경 이해 (클라우드/엣지)
한국 기업은 이러한 기술을 결합하여, 로봇이 스스로 작업을 계획(ER 1.6)하고 실시간으로 반응(셀로파이)하는 차세대 스마트 팩토리를 구축할 수 있습니다.
2. 산업 안전 검사 자동화
한국의 석유화학, 발전, 조선 등 산업에서는 정기적인 안전 검사가 필수적입니다. ER 1.6의 계기판 읽기 기능은 이러한 위험 환경 검사를 자율 로봇으로 대체할 수 있는 가능성을 보여줍니다. 사람이 접근하기 어려운 고온·고압·방사능 환경에서의 검사 자동화가 현실화될 수 있습니다.
3. 로봇 AI 생태계의 형성
정부의 'K-엔비디아 육성 프로젝트'와 '독파모' 프로젝트가 로봇 AI와도 연계될 전망입니다. 특히 독파모 정예팀들이 추진하는 피지컬 AI 연구는 구글의 Robotics-ER 계열과 유사한 방향성을 가지고 있으며, 한국의 독자적 로봇 AI 모델 개발로 이어질 수 있습니다.
■ 접근 방법
Gemini Robotics-ER 1.6은 Gemini API와 Google AI Studio를 통해 개발자에게 공개됩니다. 구글은 시작 가이드가 포함된 개발자 Colab도 함께 제공하며, 특정 응용 분야에서의 한계를 발견한 개발자는 10~50개의 레이블링된 이미지를 제출하여 모델 개선에 기여할 수도 있습니다.
본 기사는 다음 출처를 종합하여 작성되었습니다: Google DeepMind Blog, SiliconANGLE, MarkTechPost, 서울경제
0개의 댓글이 있습니다.