Beyond Algorithms: Where Does Autonomous Driving Competitiveness Diverge?
.jpg)
Automotive Testing Expo 현장에서 AEM은 Kognic의 Tom Dahlstrom과 만나 자율주행 슬롯사이트와 AI에 대한 의견을 나눴다.
Interview
톰 달스트림
Tom Dahlstrom of Kognic
자율주행 산업의 논의 중심은 알고리즘에서 데이터로 이동했다. 데이터를 어떻게 수집하고 구성하며, 검증하고 실제 성능으로 연결하느냐가 경쟁력을 결정짓는 핵심 요소가 되고 있다. Kognic에서 자율주행 데이터 플랫폼 비즈니스를 담당하는 톰 달스트림(Tom Dahlstrom)과의 대화는 이런 변화의 흐름 위에서 진행됐다. 이 인터뷰는 기업의 공식 입장을 정리한 것이 아니라, 현장에서 데이터를 다루고 있는 한 개인의 시각과 경험을 중심으로 구성돼 있다. 이에 Q&A 형식을 유지했고, 그 사고의 흐름과 연결성을 그대로 전달하는 것이 중요했다. 따라서 이 인터뷰는 데이터와 자율주행의 접점에서 실제로 어떤 고민과 판단이 이뤄지고 있는지를 보여주는 하나의 인사이트로 읽힐 필요가 있다.
알고리즘보다 중요한 것
자율주행 산업에서 알고리즘보다 슬롯사이트가 더 중요해졌다는 이야기가 많습니다. 현장에서 보기에 현재 개발에서 가장 큰 문제는 무엇일까요?
Dahlstrom 저도 데이터가 핵심적인 차별 요소로 자리 잡고 있다는 데 동의합니다. 특히 완전히 새로운 기술이 아닌 머신러닝 접근 방식에서 더욱 그렇습니다.
앤드류 응(Andrew Ng, 스탠포드대 교수 및 DeepLearning.AI 설립자)이 말했듯이, 오늘날 대부분의 알고리즘은 사실상 누구나 접근할 수 있습니다. 구글이나 NASA가 사용하는 알고리즘과 거의 동일한 것들을 사용할 수 있습니다. 문제는 그 알고리즘을 실제 제품 수준의 모델로 훈련시킬 수 있느냐입니다. 그리고 그것은 결국 슬롯사이트의 가용성에 달려 있습니다.
자율주행에는 LLM이 활용하는 것과 같은 데이터 환경이 존재하지 않습니다. LLM은 인터넷이라는 거대한 데이터 원천을 갖고 있지만, 자율주행에는 그런 의미의 인터넷이 없습니다. 그래서 대량의 데이터를 저렴하고 쉽게 확보하는 것이 어렵습니다. 따라서 단순히 데이터 파이프라인을 구축하는 것만으로는 부족합니다. ‘데이터 플라이휠(data flywheel)’을 만들어내는 능력이 핵심적인 과제입니다.
여기서 중요한 것은 단순히 ‘가장 많은 데이터’가 아닙니다. 적절한 데이터가 적절한 규모로 존재하는 것이 중요합니다. 다르게 표현하면, 결국 승자를 결정하는 것은 누가 더 빠르게 반복(iteration)할 수 있는가입니다.
라이다 포인트클라우드와 카메라 데이터를 결합해 차량과 객체를 3D로 주석화하는 모습. 자율주행 성능은 이런 데이터 품질에서 출발한다.
최근 몇 년 사이 OEM과 AI 기업들이 슬롯사이트 인프라를 구축하는 방식이 빠르게 변화하고 있는 것 같습니다. 고객들의 요구는 어떻게 달라졌나요?
Dahlstrom 지금 매우 흥미로운 변화가 진행되고 있습니다. 많은 기업이 기존의 전통적인 AD 아키텍처에서 벗어나고 있습니다. 기존 구조는 보통 인지(perception) - 예측(prediction) - 계획(planning)이라는 계층형 구조를 갖고 있습니다. 하지만 최근에는 더 크고 통합된 모델로 이동하는 흐름이 나타나고 있습니다. 예를 들어 End-to-End AI나 VLM(Vision Language Model) 같은 접근 방식입니다.
이 두 방식에는 각각 장단점이 있습니다. 그러나 VLM에서는 새로운 데이터 요구가 등장합니다. 기존에는 모델에게 예를 들어 객체를 식별하는 방법을 가르쳤습니다. 그런 다음 그 객체 정보를 기반으로 장면을 이해하고 적절한 행동을 결정하도록 했습니다. 하지만 VLM에서는 추론(reasoning)이 모델 내부에 포함됩니다. 간단히 말하면, 초점이 “무엇(what)”에서 “왜(why)”로 이동하고 있는 것입니다.
이 변화는 슬롯사이트 어노테이션(data annotation)에도 영향을 줍니다. 기계가 이미 잘하는 일, 예를 들어 객체 형태나 기하학적 특성을 설명하는 작업은 기계에게 맡기고, 인간은 해당 상황에서 무엇이 중요한지, 어떤 요소가 의사결정에 영향을 주는지에 대한 피드백을 제공하는 역할을 하게 됩니다.
결국 행동 이해와 Physical AI 방향으로 이동하는 논의에서 슬롯사이트 요구는 어떻게 바뀔까요?
Dahlstrom 이 주제는 현재 매우 뜨거운 논의 대상입니다. VLM은 데이터 큐레이션뿐 아니라 실제 배포 모델로도 사용되고 있습니다. 이 경우 VLA(Vision Language Action) 모델이라고 불리기도 합니다.
이 접근 방식의 목표는 언어 모델이 갖고 있는 방대한 세계 지식을 활용해 롱테일 문제(long-tail problem)를 해결하는 것입니다. 슬롯사이트 측면에서는 많은 것이 바뀌지만, 동시에 크게 바뀌지 않는 부분도 있습니다. 이 모델들도 여전히 인간 피드백이 필요합니다. 인간 운전자나 승객이 기대하는 행동 기준에 맞도록 모델을 정렬해야 하기 때문입니다.
하지만 인간 피드백의 성격은 달라집니다. 기존에는 사람이 차량 주변의 무엇(what)을 라벨링했습니다. 예를 들어 바운딩 박스(bounding box) 같은 것입니다. 하지만 이제는 왜(why)에 대한 설명이 필요합니다. 예를 들어, 특정 상황에서 어떤 요소가 중요한지, 차량이 어떤 논리로 행동해야 하는지를 설명하는 형태의 피드백입니다. 최근 이 분야에서 큰 반향을 일으킨 연구로는 NVIDIA의 Alpamayo 논문(VLM 기반 주행 시나리오 추론 및 슬롯사이트 정렬 연구)이 있습니다.
다양한 센서 데이터가 수집되고, 주석화와 검증을 거쳐 모델 학습으로 이어지는 통합 데이터 플랫폼 구조.
왜 슬롯사이트 파이프라인이 플랫폼인가
많은 기업이 슬롯사이트 파이프라인을 내부화하려고 합니다. 그럼에도 불구하고 Kognic 같은 전문 플랫폼이 여전히 필요한 이유는 무엇입니까?
Dahlstrom 데이터 요구사항은 다른 모든 요구사항과 마찬가지로 절대 고정돼 있지 않습니다. 특히 자동주행처럼 첨단영역에서는 더욱 그렇습니다.
어떤 회사도 첫날부터 앉아서 3년 또는 심지어 6개월 동안 완벽하게 맞는 계획을 세울 수 없습니다. 만약 슬롯사이트 파이프라인의 모든 요소를 내부적으로 직접 구축하려 한다면, 단순한 유지보수뿐 아니라 예측할 수 없는 변화 요구까지 감당해야 합니다. 모든 것을 통제할 수 있다는 것은 장점이지만, 그에는 비용이 따릅니다. 그리고 그 비용은 예측하기 어렵습니다.
전통적으로 자동차 기업들은 이런 불확실성을 매우 싫어합니다. OEM과 티어 1들은 보통 시간에 따라 고정된 비용 구조를 선호합니다. 그래서 거의 무제한에 가까운 자금을 갖고 있지 않다면 모든 것을 내부화하는 것은 매우 어려운 결정입니다.
현재 우리가 보는 흐름은 절충 전략입니다. 많은 자동차 기업이 모듈형이고 유연한 전략을 채택하고 있습니다. 즉, 슬롯사이트 파이프라인 전체의 통제권과 분석 역량은 내부에 유지하되, 개별 구성 요소, 예를 들어 어노테이션 엔진 같은 부분은 외부 공급업체로부터 도입합니다. 또한 멀티 클라우드, API 기반 구조, 유연한 계약 구조를 통해 향후 요구사항이 바뀔 경우, 공급업체를 교체할 수 있도록 옵션을 유지합니다.
Kognic은 이 분야에서 여러 기업을 동시에 지원하고 있기 때문에 비용을 분산해 규모의 경제를 만들 수 있습니다. 그 결과 상대적으로 낮은 리스크로 경쟁력 있는 가격을 제공할 수 있습니다.
자율주행 데이터 어노테이션은 단순한 라벨링 작업이 아니죠. 안전과도 밀접하게 연결됩니다. Kognic은 데이터 품질을 어떻게 정의하고 관리합니까?
Dahlstrom 안전은 이 분야에서 매우 중요한 주제입니다. 개발 속도와 시장 압력이 점점 커지고 있지만, 안전이 핵심 필수 요소로 계속 유지되기를 바랍니다. 대부분의 안전 엔지니어링은 저희가 직접 관여하는 수준보다 더 높은 추상 레벨, 예를 들어 기능이나 시스템 수준에서 이뤄집니다. 하지만 데이터 품질에 대해서는 당연히 저희가 책임을 져야 합니다.
이를 위해 Kognic 플랫폼과 프로세스에는 여러 단계의 품질 보증(QA) 메커니즘이 포함돼 있습니다. 예를 들어 라벨링 오류가 작업 흐름에 들어오는 것을 방지하는 자동 ‘sanity check’, 오류 유형을 정량적·정성적으로 분석해 원인을 찾는 프로젝트 관리 분석, 베이지안 확률 기반 KPI 품질 통계 등 다양한 품질 관리 계층이 존재합니다.
자율주행 슬롯사이트 작업에서 가장 어려운 부분은 무엇입니까? 특히 라이다, 레이다, 카메라 등 멀티센서 융합 환경에서 어떤 문제가 발생합니까?
Dahlstrom 시험 차량이나 실제 운행 차량에는 보통 다양한 멀티모달 센서가 장착됩니다. 예를 들어 회전형 라이다, 플래시 또는 로우 스캐닝 라이다, 카메라, 레이다 등입니다. 이 센서들은 서로 다른 위치에 장착돼 있고, 스캔 방식도 다르며, 종종 시간 동기화도 완벽하지 않습니다. 그 결과 어떤 두 센서도 같은 객체를 같은 위치와 같은 타임스탬프에서 정확히 동일하게 관측하지 않습니다.
우리는 이런 문제를 해결하기 위해 많은 노력을 기울였습니다. Kognic 플랫폼은 시퀀스 기반 멀티 센서 슬롯사이트 처리를 지원하며, 센서 모달리티 차이, 차량의 움직임(ego motion), 시간 차이 등을 보정하면서도 작업 속도와 비용 효율성을 유지할 수 있도록 설계됐습니다.
AI 기반 자동 라벨링 기술이 빠르게 발전하고 있죠? 슬롯사이트 생성 과정에서 인간과 AI의 역할은 앞으로 어떻게 변화할 것이라고 보나요?
Dahlstrom 이 분야에서도 큰 변화가 있었습니다. 회사를 처음 시작했을 때만 해도 라벨링은 대부분 완전히 수작업이었습니다. 그래서 저희는 사람이 작업을 더 빠르게 할 수 있도록 돕는 도구를 만드는 데 집중했습니다.
하지만 지금은 대부분 고객이 매우 강력한 자동 라벨링 알고리즘을 갖고 있습니다. 이 알고리즘들은 고성능 컴퓨팅 환경에서 오프라인으로 실행되고, 기록된 로그 데이터를 시간적으로 앞뒤로 분석할 수 있기 때문에 차량에 탑재된 모델보다 훨씬 높은 성능을 보일 수 있습니다.
하지만 여전히 완전히 신뢰할 수준은 아닙니다. 그래서 인간의 역할은 필요하지만, 그 성격이 바뀌었습니다. 현재 많은 프로젝트에서 인간의 역할은 사실상 ‘QA 중심’입니다.
우리는 모델 예측 결과를 플랫폼에서 추가 자동화 처리한 뒤, 수정이나 승인 가능성이 높은 객체나 프레임에 인간의 주의를 집중시킵니다. 이를 우리는 “Model & Human in the Loop”라고 부릅니다. 궁극적으로 목표는 인간과 모델이 함께 효율적으로 협력하는 것입니다. 인간은 모델이 아직 충분히 잘하지 못하는 부분에만 시간을 투자하도록 만드는 것이 이상적입니다.
▼
▼
슬롯사이트 주석화는 단순한 라벨링 작업이 아니라, 수정(edit), 선택(rank), 의미 부여(write)를 포함하는 반복적 과정이다.
AI와 인간이 함께 참여하는 이 구조를 통해 슬롯사이트 품질이 지속적으로 개선된다.
롱테일과 합성 슬롯사이트의 현실
실제 주행 슬롯사이트 부족을 보완하기 위해 시뮬레이션이나 합성 슬롯사이트가 활용되는데, 이 접근 방식의 현실성과 한계는 무엇이라고 보십니까?
Dahlstrom 합성 데이터나 증강 데이터는 특히 모델 학습(training) 측면에서 매우 유용한 자원이라고 생각합니다.
말씀드린 것처럼 자율주행에는 롱테일 문제가 존재합니다. 매우 드물지만, 치명적인 상황들이 있고, 이런 상황을 실제 도로에서 의도적으로 기록하려는 것은 현실적으로나 윤리적으로 어려울 수 있습니다. 그러나 멀티센서 현실성(sensor realism)은 여전히 큰 과제입니다. 카메라 기반의 포토리얼리스틱 시뮬레이션은 현재 매우 발전했습니다. 하지만 현실 세계에 대한 데이터가 거의 없는 상황에서 현실적인 라이다 스캔이나 레이다 RCS(Radar Cross Section)를 생성하는 것은 쉽지 않습니다.
그래서 특히 검증(validation) 단계에서 비실제 슬롯사이트를 사용하는 것에 대해 논쟁이 많습니다. 복잡한 합성 시나리오가 실제 환경과 충분히 유사하다는 것을 증명하는 일 자체가 어쩌면 우리가 피하려 했던 문제만큼이나 어려울 수 있습니다.
그러면 롱테일 시나리오를 어떻게 관리할 수 있습니까?
Dahlstrom 이 문제는 분명 현실적인 문제입니다. 하지만 이미 가지고 있는 데이터를 제대로 들여다보고 이해하는 일 자체는 이제 기술적으로 충분히 가능한 영역에 와 있습니다. 보통은 한 가지 방법으로 해결하는 게 아니라, 여러 단계를 겹쳐서 접근합니다. 먼저 시간, 지역, CAN 버스 신호 같은 메타데이터를 활용해 원하는 조건의 데이터를 좁혀 나갑니다. 예를 들면 “비 오는 밤의 고속도로 주행” 같은 상황을 비교적 쉽게 추려낼 수 있습니다. 그다음에는 그렇게 걸러낸 결과가 정말 우리가 찾는 장면과 비슷한지 간단히 시각적으로 확인합니다. 여기서 더 나아가면 VLM 같은 모델을 활용해 좀 더 추상적인 개념까지 찾을 수 있습니다. 예를 들어 단순히 날씨나 시간대가 아니라, ‘도로 옆에 사람이 서 있는 상황’처럼 맥락이 들어간 장면을 탐색하는 식입니다. 마지막으로는 사람이 들어가 검증합니다. 모델이 찾아낸 결과를 사람이 yes/no 수준으로 빠르게 확인하면서 정확도를 높이고, 그 결과를 다시 모델 개선에 활용합니다. 이런 과정을 거치면 ‘비 오는 밤 고속도로에서 사람이 있는 상황’ 같은 롱테일 케이스도 실제 데이터 안에 얼마나 존재하는지 꽤 정확하게 파악할 수 있습니다.
중국처럼 대규모 차량 데이터를 빠르게 확보하는 환경은 자율주행 경쟁에서 구조적 우위를 만들 수 있는 것이죠?
Dahlstrom 데이터 규모는 확실히 중요합니다. 훈련과 검증을 위해서는 일정 수준 이상의 데이터 규모가 필요합니다. 또한 차량 플릿에서 데이터를 수집할 수 있다면, 더 많은 주행 거리와 다양한 상황 덕분에 롱테일 케이스를 포착할 가능성이 높아집니다. 하지만 데이터 자체가 자산은 아닙니다. 진짜 자산은 그 데이터를 실제 모델 성능 향상으로 연결하는 능력입니다.
이를 위해서는 앞서 말한 슬롯사이트 플라이휠을 구축해야 합니다. 중국을 언급하셨는데, 제한된 관점에서 보자면 그 시장의 많은 기업이 이 점을 잘 이해하고 있는 것 같습니다.
자율주행 시스템은 객체를 인식하는 것을 넘어 상황을 해석하고 차량의 행동을 결정한다. 슬롯사이트는 인식에서 의사결정까지 이어지는 전체 과정을 학습시키는 기반이 된다.
SDV 시대, 슬롯사이트는 어떻게 순환하는가
SDV 시대에는 OTA 업데이트와 지속적인 슬롯사이트 수집이 가능해집니다. 슬롯사이트 수집, 모델 학습, 배포 사이의 피드백 루프는 어떻게 변할까요?
Dahlstrom 이게 앞에 이야기한 내용과 직접 연결됩니다. 이것을 지속 피드백(continuous feedback), 빅루프(big loop), 또는 데이터 플라이휠 등 다양한 이름으로 부를 수 있습니다.
SDV 시대의 제품 패러다임은 과거와 완전히 다릅니다. 과거에는 자동차가 구매한 순간이 가장 완벽한 상태였습니다. 하지만 SDV에서는 그 반대입니다. 차는 사용되는 동안 계속 개선되어야 합니다. 이것은 슬롯사이트 수집, 모델 학습, 모델 배포를 하나의 통합적이고 반복적인 시스템으로 연결해야 한다는 것을 의미합니다. 이런 변화는 기존 자동차 기업에게 결코 쉬운 일이 아닙니다. 그들은 완전히 다른 제품 개발 철학에 맞춰 최적화돼 있었기 때문입니다.
Kognic은 Volvo 생태계와 관련이 있다는 인식이 있습니다. 실제로 어떤 관계입니까?
Dahlstrom Kognic의 첫 번째이자 가장 오래된 고객은 Volvo Cars의 자회사 Zenseact입니다. Zenseact는 자율주행 시스템을 개발하는 회사이며, 저희와 같은 도시인 스웨덴 예테보리(Gothenburg)에 있습니다. 실제로 두 회사 사무실은 같은 거리에서 100 m 정도 떨어진 위치에 있습니다. 하지만 저희는 처음부터 별개의 독립 회사였습니다. 현재 Kognic은 주로 자동차 OEM과 Tier-1 기업을 고객으로 두고 있습니다(Qualcomm, Zenseact, Continental, Bosch, Kodiak, ZF, Embotech, Einride, Gatik, and JLR 등 여러 브랜드 로고를 보여주며).
어떤 기업이 실제 AD 스택이나 인지 시스템을 개발하는지는 지역에 따라 다릅니다. 예를 들어 유럽에서는 OEM이 공급업체에 의존하는 경우가 많았지만, 일본이나 미국에서는 OEM이 자체 개발을 선호하는 경우도 있습니다. 또한 우리는 자율주행 트럭 같은 레벨 4 기업과도 협력하고 있습니다.
주행 상황에 대한 판단과 의사결정 과정을 추적하는 ‘reasoning trace’. 자율주행은 인식이 아니라 판단의 문제로 확장되고 있다.
AEM(오토모티브일렉트로닉스매거진)
<저작권자 © AEM. 무단전재 및 재배포 금지>