Post

심층 강화학습을 통합 자율주행 장애물 회피 시스템 및 그 개선(김연준) 논평

심층 강화학습을 통합 자율주행 장애물 회피 시스템 및 그 개선(김연준) 논평

자기소개

안녕하세요 저는 김연준 학생의 논평을 맡게 된 김민서입니다. 지금부터 김연준 학생의 ‘심층 강화학습을 통합 자율주행 장애물 회피 시스템 및 그 개선’ 논문에 대해서 이야기해보도록 하겠습니다.

주제

4차 산업혁명 시대에 주요한 키워드 중에 하나인 자율 주행에 대한 논문으로 사람들의 관심이 집중되고 있는 주제와 관련이 있으며 향후 성장, 기술 발전이 필요한 분야라서 잘 선정했다고 봅니다. 장애물을 인식하고 회피하는 기술은 자율주행에 있어서 필수적인 영역이다. 이에 본 연구에서는 장애물 회피 검증을 위해 에이전트가 학습할 시뮬레이션 환경을 구축하였습니다, 심층 강화학습 알고리즘의 일종인 Deep Q-Network (DQN)를 이용하여 해당 환경에서 차량이 스스로 장애물을 피해 지나가는 인공지능 시스템을 구현하고, 학습시켰습니다. 보다 효과적으로 학습하도록 하는 방법 중 Prioritized Experience Replay(PER)에 의한 학습 성능 개선효과를 Temporal Difference Error (TD-Error)에 기반한 방식과 행동 보상 기반의 방식을 비교 실험함으로써 결과를 가시화하였습니다.

참고문헌

참고 문헌의 내용을 보면 문헌에서는 TD-Error가 높은 데이터에 우선 순위를 주는 이유가 DQN의 목표는 TD-Error와 Q-Network가 거의 차이가 없도록 하는 것이 목표인데 TD-Error가 높다는 말은 제대로 근사가 되지 않았다는 뜻이므로 그 데이터에 더 집중하여 네트워크를 업데이트하는 것이 효율적이기 때문이라고 합니다. 이러한 논문 내용을 기초로, 샘플링의 우선순위 산정 방식에 따라 학습의 효율 및 안전성에 유의미한 차이가 있을 것이라는 가설 1과 에이전트가 받은 보상 기반의 PER을 이용하면 무작위 샘플링보다 나은 학습 성능을 얻을 것이라는 가설 2로 나누어 장애물 회피 시스템에 적용하고 결과를 분석함으로써 TD-Error가 더 큰 데이터에 집중해 학습하는 것이 더 긍정적이라는 결론을 얻은 것이 본 논문의 큰 성과라고 생각합니다.

에이전트 환경

에이전트가 학습할 장애물 회피 시스템 시뮬레이션 환경을 직접 구축한 것이 좋은 사례가 되었다. 이론을 기초로 직접 코딩을 하고, 에이전트 구현과 시뮬레이션 학습 프레임을 제작한 것이 기억에 남습니다. 약 64만개의 프레임 학습 후 에이전트의 동선을 검토한 것이 우수했습니다.

수렴

에이전트 학습 중 평균 점수 변화 추이 그래프를 보니 학습이 진행됨에 따라 리워드가 증가함을 보였으나 후반부 그래프의 결과가 다시 감소하는 부분이 있음을 확인할 수 있습니다. 이에 결과가 수렴하는 지와 손실 값은 학습의 반복횟수가 증가할수록 감소하며 수렴하는 형태를 보였는지를 확인하면 더 좋았을 것 같습니다.

내적보상

본 연구의 목적에서 DQN을 활용해 장애물을 회피하여 목적지에 도달하는 자율주행 시스템을 개발하는 것이라고 했습니다. 시뮬레이션 결과에서 최대한 부정적 보상 신호를 받지 않기 위해 장애물을 피해가지 않고 차가 멈춰선 상태에서 끝나는 경우가 있었습니다. 이는 장애물 회피라는 것은 잘 수행했지만 목적지에 도달하지 못했다는 부분에서 목적하는 바의 일부만 달성해 아쉬웠습니다. 장애물을 지나가지 않고 멈춰선 것에 대한 부분은 에이전트가 수행한 행동에 대한 결과로 주어지는 보상을 이용해 자신의 행동을 평가하며 정책을 업데이트 하게 되어 있어 매 행동마다 보상이 주어지는 경우에는 학습이 잘 이루어지지만, 보상이 드물게 주어지거나 보상이 없는 환경에서는 강화학습이 잘 되기 어렵습니다.
환경으로부터 주어지는 보상이 아닌 에이전트 스스로 생성하는 보상을 이용하는 내적보상이라는 것이 있다고 들었습니다. 사람의 내적 동기를 통한 학습 방법을 모방한 것을 접목하면 좀 더 좋은 결과를 얻을 수 있을까 하는 생각을 해봅니다.

PER에 의한 성능 개선 실험에서 TD-Error 기반의 PER이 가장 우수하다고 하였는데, 앞서 목적지에 도달하지 못하고 멈춰선 경우에 대한 부분에 개선이 있었는지, 회피 성공률은 어떠했는지 궁금합니다.

제언에서 보다 현실에 가까운 자율주행 환경을 시뮬레이션하기 위해서 환경을 변경하는 방법도 있지만 에이전트 역할에 무작위성을 부여하거나 행동 값에 무작위한 작은 변동을 주는 방법 등도 있어 이 부분도 같이 고려하면 좀 더 실제 환경에 가까운 모델링이 될 수 있을 것으로 보입니다.

마무리

조금 아쉬운 점들만 개선된다면 사회에 긍정적 영향을 줄 수 있는 완성도 있는 연구가 될 것이라고 생각합니다.
지금까지 김민서였습니다. 감사합니다.

This post is licensed under CC BY 4.0 by the author.