Automotive World 2026에서 만난 Imagry의 아이란 샤비브 CTO는 ‘Generative Autonomy’를 HD맵·라이다·규칙 기반 추론에 기대지 않고 실시간 카메라 비전으로 현실 세계의 주행을 만들어내는 지능으로 설명한다. ‘카메라 온리’와 ‘No HD Maps’가 구호가 아니라 아키텍처 선택임을 드러내며, 양산 환경에서 요구되는 로컬라이제이션을 ‘내비게이션 수준’까지 낮추는 논리를 말한다. 더 나아가 하드웨어 요건(TOPS), 입력·출력 인터페이스, OEM 스택 통합 지점과 책임 경계까지 개발자가 시스템을 어디에 배치해야 하는지 판단할 근거도 제공해준다. 마지막으로 데이터 수집 - 학습 - 배포의 운영 루프와 NCAP 통과 경험을 통해 기술 주장이 검증으로 가는 과정도 확인해 준다.
아이란 샤비브 Imagry에 합류하기 전, 샤비브는 RAFAEL Advanced Defense Systems Ltd.에서 28년간 근무하며 다양한 직책을 맡았다. 마지막으로는 획기적이고 혁신적인 다학제(multi-disciplinary) 프로젝트의 최고 시스템 아키텍트(Chief System Architect)를 역임했다. 그는 테크니온(Technion)슬롯사이트 굿모닝 항공우주공학을 전공했으며, 유도(Guidance) 및 상태추정(State Estimation)을 전문 분야로 BSc(1994년, 최우등 졸업), MSc(2000년), PhD(2008년) 학위를 취득했다. 샤비브는 해당 분야슬롯사이트 굿모닝 중요한 기여를 했으며, 그 공로로 국가 국방부 상 두 차례와 라파엘(RAFAEL) 우수상(Rafael Award of Excellence)을 수상했다.
Generative Autonomy란 무엇인가
Imagry는 스스로를 ‘Generative Autonomy 파이오니어’라 부르죠? Generative Autonomy란 무엇입니까? 어떻게 정의하시겠습니까? 엔드투엔드(E2E) 학습, 모방학습, 모듈러 스택 중 어디에 더 가깝습니까? 그리고 여기서 말하는 ‘generative’ 요소는 정확히 무엇을 의미합니까?
Shaviv Imagry가 말하는 Generative Autonomy란, 현실세계에서 기계를 실제로 움직이게 하는 실시간 지능(real-time intelligence that drives machines in the real world)을 의미합니다. 우리는 기계가 인간처럼 보고 반응하도록 학습시키면서 HD맵과 라이다에 대한 의존성을 제거하고, 현재의 양산 차량에서 실행가능한 소프트웨어를 구축하고자 합니다. 이 접근 방식은 E2E 학습보다는 모듈러 스택에 더 가깝습니다. 여기서 generative란 의미는 시스템이 경험과 지도학습(supervised learning)에 기반해 시간이 지날수록 점진적으로 개선된다는 뜻입니다.
개발자 관점에서 보면, 런타임 단계에서 실제로 무엇이 ‘생성’되고 있는지 설명해 주실 수 있을까요? 예를 들어, 주행 궤적을 생성하는 것인지, 행동/정책(behavior/policy)을 생성하는 것인지, 아니면 다른 무엇인지 궁금합니다.
Shaviv 우리는 “Generative”란 표현을 실시간 카메라 영상(비주얼 피드)을 해석하고 이를 기반으로 실제 물리적 환경에서 작동하는 AI를 사용한다는 의미로 쓰고 있습니다. 즉, 단순히 사전에 정의된 규칙이나 고정된 지도에 의존하는 것이 아니라, 카메라로 입력되는 실시간 시각 정보를 AI가 해석하고 그 상황에 맞는 판단과 반응을 만들어내는 접근이라는 뜻입니다.
왜 카메라 온리(Camera-Only)입니까? 그리고 이것이 어디까지 가능하다고 보십니까? 맵, 라이다, 클라우드 의존성, 레이다 없이 카메라 온리 방식은 어디까지 갈 수 있습니까? 어떤 ODD 가정하슬롯사이트 굿모닝 잘 작동하고, 무엇이 여전히 어렵습니까?
Shaviv 현재의 도로 인프라는 기본적으로 눈으로만 운전하는 인간을 기준으로 설계돼 있습니다. 과거 자율주행에서 다양한 센서가 사용된 이유는, 당시엔 빠른 반응에 필요한 모든 정보를 처리하기에 연산 능력이 충분하지 않았기 때문입니다. 그러나 이젠 더 이상 그렇지 않습니다. 이 점은 테슬라 AI 부문 부사장인 Ashok Elluswamy가 얼마 전 LinkedIn을 통해 명확히 언급한 바 있습니다.
레이다와 라이다는 특히 비용이 높은 센서이며, 일반적으로 약 250m 수준슬롯사이트 굿모닝 성능이 한계에 도달합니다. 또한 그 거리슬롯사이트 굿모닝 무언가를 감지하더라도 전달되는 정보는 매우 제한적이고 희소합니다. 반면 카메라는 교통 표지판을 읽을 수 있고 신호등의 색상을 인식할 수 있으며, 다양한 도로 표식과 차선 정보를 감지할 수 있습니다.
인간이 큰 어려움 없이 운전할 수 있는 모든 ODD슬롯사이트 굿모닝는 비전-온리 센서 역시 충분히 잘 작동할 수 있습니다. 물론 폭우, 짙은 안개, 완전한 암흑과 같이 인간도 어려움을 겪는 환경슬롯사이트 굿모닝는 비전-온리 센서 역시 성능 저하를 겪게 됩니다. 다만 비전-온리 시스템에 적외선(IR) 카메라를 결합할 경우, 자율주행 시스템은 인간 운전자보다 오히려 우위를 가질 수 있습니다. 또한 비용 측면슬롯사이트 굿모닝 카메라 온리 접근 방식은 현저히 저렴합니다.
카메라 온리와 지도 없이 달린다는 의미
‘No HD Maps’란 정확히 무엇을 의미합니까? HD맵을 전혀 사용하지 않는다는 뜻입니까? 아니면 HD맵만 사용하지 않는다는 뜻입니까? 배포 환경에서 로컬라이제이션은 어떻게 처리합니까?
Shaviv No HD Maps란 시스템 내에서 사전 매핑된 데이터가 필요하지도 원하지도 않는다는 의미입니다. 또한 우리는 규칙 기반(rule-based) 추론도 사용하지 않습니다. 대신 카메라를 통해 주변 환경을 실시간으로 인식하고 전용 분산 신경망을 사용해 그 안의 객체를 식별·분류하며, 이를 바탕으로 차량의 움직임을 계획합니다.
이 방식은 사람이 처음 가는 장소라도 별도의 학습 없이 렌터카를 빌려 운전할 수 있는 것과 매우 유사합니다. 물론 지역별 교통 관행, 예를 들어 캘리포니아의 적색 신호 우회전 허용, 일본의 좌측통행 등에 맞춘 행동 조정은 가능합니다.
여기서 명확히 구분할 필요가 있습니다. 내비게이션 맵과 HD맵은 서로 다른 개념입니다. HD맵의 특징은 다음과 같습니다. 지오펜스된 영역 내에서 차량이 주변 환경의 즉각적인 구조를 이해하도록 돕습니다. 그러나 우리는 이를 실시간 인지 스택으로 처리하며, 위치 종속성을 제거합니다. 도로 공사, 날씨로 인한 손상, 예기치 않은 장애물 등으로 도로 환경이 수시로 변하기 때문에, 약 5cm 이하 해상도로 지속적인 사전 매핑이 필요합니다. 차량 내 정보를 업데이트하기 위해 데이터 링크(클라우드 연결)가 필요하며, 이는 비용이 크고 항상 보장되지도 않습니다. 또한 Imagry의 ‘자급형(self-contained)’ 시스템과 비교했을 때 사이버 취약성도 증가합니다.
HD맵 정보를 검증하기 위해서도 결국 인지 스택이 필요합니다. 이때 두 입력이 충돌하면 어느 쪽을 신뢰해야 할지 문제가 발생하며, 비교 과정 자체가 시스템 지연을 유발합니다. 반면 내비게이션 맵의 역할은 A 지점슬롯사이트 굿모닝 B 지점까지의 경로 안내를 제공합니다. 이미 수많은 서드파티 앱이 이 기능을 수행하고 있으며, 이를 새로 만들 필요는 없습니다. 우리는 인간 운전자를 대체하는 것을 목표로 하며, 인간 역시 Google Maps, TomTom, Waze와 같은 내비게이션을 사용하므로 동일한 방식을 취합니다.
HD맵이 필요 없다고 했는데, 실제 양산/배포 환경슬롯사이트 굿모닝는 어느 수준의 로컬라이제이션에 의존합니까? 예를 들어 차선 수준, 도로 수준, 혹은 상대적 위치 추정(relative positioning) 중 어떤 수준인가요? 또 그 로컬라이제이션을 위해 어떤 센서나 신호를 활용하는지도 궁금합니다.
Shaviv 우리가 말하는 “HD 맵이 없다”는 것은, 예를 들어 5 cm 해상도의 정밀한 로컬라이제이션이 필요 없다는 뜻입니다. 우리가 필요한 로컬라이제이션은 내비게이션 수준입니다. 예를 들면 “다음 다음 교차로에서 꺾어라” 혹은 “첫 번째 가능한 지점에서 우회전해라”와 같은 안내가 가능한 정도입니다. 즉, 구글 맵스 같은 일반적인 내비게이션 앱이 작동하는 데 필요한 수준의 위치 정보면 충분합니다.
예를 들어 차선 수와 같은 도로의 토폴로지는 인지 스택이 온라인으로 인지합니다. 이런 이해와 일반적인 내비게이션 안내 방향이 결합되면 모션 플래닝 스택이 차량에 지시할 경로를 생성할 수 있습니다.
예를 들어 내비게이션 안내가 “우회전”이라고 되어 있다면, 모션 플래닝 스택은 (차량이 아직 우측 차선에 있지 않다면) 우측 차선으로 이동을 시작해서, 실제로 우회전 지점이 나타났을 때 그 회전을 수행할 수 있게 합니다. 이는 마치 사람이 내비게이션 앱을 켜고 “약 300m 앞에서 우회전” 같은 안내를 받는 방식과 같습니다. 이런 상황에서 사람은 그 우회전이 정확히 300m 지점이 아니라 250m 뒤에 나오든 350m 뒤에 나오든, 가능해지는 순간 우회전을 합니다. 저 역시 인간 운전자라면 그렇게 할 것입니다.
Imagry는 차량 스택의 어디에 서 있는가
‘표준 하드웨어에서 동작한다’는 것은 구체적으로 무엇을 의미합니까?
Shaviv Imagry는 하드웨어에 종속되지 않는(hardware agnostic) 접근을 취합니다. 즉, 카메라와 컴퓨팅 시스템은 OEM 또는 티어 1이 선택할 수 있습니다. 다만 컴퓨팅 시스템은 최소한의 연산 성능을 충족해야 하며, 승용차 기준 약 150 TOPS, M3 등급 버스 기준 약 300 TOPS가 필요합니다. 예시로 NVIDIA Drive Orin과 표준 2.5메가픽셀 카메라 구성을 추천할 수 있습니다.
차량 인터페이스에 대해 구체적인 예시 하나만 들어주실 수 있을까요? 즉, 시스템이 실제로 어떤 입력을 받고, 어떤 출력을 내보내는지요. 가능하다면 업데이트 주기나 지연도 대략 어느 정도인지 알려주시면 개발자들이 판단하는 데 큰 도움이 될 것 같습니다.
Shaviv 네. 매우 구체적으로 말하면, 저희가 받는 입력은 다음과 같습니다. 카메라 8대에서 들어오는 30Hz 비디오 스트림이 기본이고요, 여기에 IMU 관성센서 값, 차량 휠 속도, 조향각(스티어링 앵글), 그리고 내비게이션이 주는 “방향 지시” 정보를 함께 받습니다. 저희가 내보내는 출력은 꽤 명확합니다. 스로틀(가속), 브레이크, 스티어링 제어 명령을 직접 내보내고, 방향지시등 신호도 함께 출력합니다.
그 사이에서 무슨 일이 벌어지냐면, 크게 두 가지입니다. 첫째, 8대 카메라로 주변을 360도로 보면서 도로의 토폴로지, 예를 들면 차선 구조가 어떻게 생겼는지, 도로가 어떻게 이어지는지를 실시간으로 이해하고, 동시에 주변의 다른 도로 사용자들, 즉 차량과 보행자를 인지합니다. 둘째, 이렇게 “지금 눈으로 보고 이해한” 주변 환경을 바탕으로 바로 다음 순간에 차량이 지나가야 할 경로를 만들어냅니다. 이 경로는 주변 차량이나 보행자와의 상호작용을 고려해서 안전하게 지나가도록 설계되고, 동시에 예를 들어 다음 교차로에서 우회전 같은 내비게이션이 요구하는 큰 방향과도 일치하도록 정렬됩니다.
차량 소프트웨어 스택슬롯사이트 굿모닝 Imagry는 어디에 통합됩니까?
Shaviv 현재 Imagry는 OEM의 설계 단계에서 통합되는 것을 목표로 하고 있습니다. 다만 SDV 시대에는 고객이 Imagry의 소프트웨어를 직접 다운로드하는 방식도 충분히 가능하다고 보고 있습니다.
최종 출력물과 책임 경계는 어떻게 나뉩니까?
Shaviv Imagry 시스템의 출력은 세 가지입니다. 첫째, 도로 형상과 객체를 포함한 주변 환경에 대한 완전한 이해입니다. 둘째, 해당 환경을 통과하기 위한 행동 경로(path)입니다. 셋째, 이 행동을 실행하기 위해 차량에 전달되는 제어 명령(control commands)입니다.
우리는 A지점슬롯사이트 굿모닝 B지점까지의 내비게이션 경로는 제공하지 않습니다. 이는 인간 운전자와 마찬가지로 Google Maps, Waze, TomTom과 같은 별도의 애플리케이션 계층슬롯사이트 굿모닝 제공되어야 합니다. 책임 문제는 현재 각 국가별로 정의되고 있는 크고 복잡한 법적 이슈입니다.
데이터가 만드는 범용성
실제 주행 데이터 학습 루프는 어떻게 작동합니까?
Shaviv 여러분이 정의한 학습 루프(수집 → 선별 → 라벨링 → 재학습 → 릴리스 게이팅 → 플릿 모니터링)는 정확합니다. 새로운 사이트에서 수집된 주행 경험은 다른 모든 사이트에도 적용됩니다.
새로운 ODD슬롯사이트 굿모닝 차량이 허용가능한 주행 성능을 보이면, 이후 차량의 전체 수명 동안 데이터는 계속 수집됩니다. 그리고 시스템이 새로운 상황슬롯사이트 굿모닝 도움이 필요하다고 판단될 때만 추가 학습 사이클을 수행합니다.
데이터, 라벨링, 재학습의 역할 분담은 어떻게 됩니까?
Shaviv 모든 과정은 Imagry 내부에서 수행됩니다. 우리는 자체 특허를 보유한 고도화된 자동 어노테이션 도구를 적용하고 있습니다.
‘글로벌, 아웃 오브 더 박스’란 새로운 도시에서는 무엇을 의미합니까?
Shaviv 저희 시스템은 처음부터 범용적으로(generalized) 학습되도록 설계됐습니다. 즉, 특정 도시나 국가처럼 어떤 지역에만 해당하는 정보가 시스템 안에 ‘코딩돼’ 들어가 있지 않습니다. 다만 현실적으로 시스템이 할 수 있는 범위는, 지금까지 저희가 확보해온 방대한 주행 데이터베이스가 보여준 사례들에 의해 제한됩니다. 이 데이터는 2019년 이후 여러 국가의 공공도로에서 실제 자율주행을 하며 수집한 것입니다.
그럼에도 새로운 지역에 들어가면, 사람 운전자가 처음 가는 도시에서 운전할 때처럼 초기에는 더 조심스럽게 주행합니다. 그리고 환경에 익숙해질수록 점점 확신(confidence)이 높아집니다. 또 “완전히 자신 있게” 자율주행하는 수준까지 도달하는 데 걸리는 시간은 주로 다음 두 가지에 달려 있습니다.
같은 차량 플랫폼(하드웨어/패키지)에 그대로 탑재되는가와 같은 질문슬롯사이트 굿모닝 만약 플랫폼이 달라지면, 카메라의 장착 위치(높이)나 각도 같은 구성이 달라질 수 있고, 그 경우 신경망이 보는 시야/기하가 달라지기 때문에 네트워크(모델) 쪽슬롯사이트 굿모닝 일정한 조정이 필요할 수 있습니다.
또, 새 지역의 ODD가 기존 지역과 얼마나 다른가와 관련해, 즉 두 번째 지역의 도로/교통/환경 조건(ODD)이 현재 운영 중인 지역, 혹은 지금까지 시스템이 학습해 온 조건과 얼마나 다른지에 따라 익숙해지는 속도와 안정화까지의 시간이 달라집니다.
안전성과 NCAP 통과란 무엇을 의미합니까?
Shaviv NCAP은 New Car Assessment Program의 약자입니다. 이는 차량의 충돌 시험 성능과 사고 예방 능력을 기반으로 소비자에게 등급을 부여하는 표준화된 안전 평가 시스템입니다.
NCAP은 1978년 미국 도로교통안전국(NHTSA)에 의해 처음 도입되었지만, Imagry는 1997년에 출범한 보다 엄격한 유럽 NCAP(Euro NCAP) 기준을 따르고 있습니다. 유럽 NCAP은 일반적으로 가장 엄격하고 포괄적인 평가 체계로 여겨집니다. 현재까지 Imagry는 자율주행 버스를 통해 NCAP 테스트를 통과한 유일한 기업입니다. (참고로, 버스용 자율주행 시스템은 승용차용 시스템과 동일한 코어를 기반으로 하되, 버스 정류장 대응과 같은 추가 기능이 포함되어 있습니다. 이는 승용차에는 해당되지 않는 기능입니다.)
해당 시험은 차량이 승객에게 불편을 주지 않는 방식으로 제동할 수 있는지를 포함해 총 90가지 시나리오에서 평가되며, 시험 속도는 시속 30~60km 범위입니다. 평가 시나리오에는 도로 위 장애물, 저속 주행 차량, 보행자, 가려진 상태에서 갑자기 도로로 뛰어드는 어린이 등의 상황이 포함됩니다.