Development and validation of a safe reinforcement learning drone controller

Autores/as

DOI:

https://doi.org/10.17979/ja-cea.2025.46.12154

Palabras clave:

Control mediante aprendizaje por refuerzo, UAVs, Vehículos autónomos, Aprendizaje y adaptaci´ón en vehículos autónomos

Resumen

Este artículo presenta el trabajo en curso que busca desarrollar, validar y verificar el uso del Aprendizaje por Refuerzo (RL)
y redes neuronales en sistemas de tiempo real críticos. Para ello, se utiliza un controlador de un Vehículo Aéreo no Tripulado
(UAV) como caso de estudio. Estas técnicas son prometedoras para el control autónomo, ya que pueden aprender de entornos
dinámicos sin intervención humana. La solución propuesta demuestra el comportamiento de un UAV entrenado para mantener la
altitud y evitar obstáculos dinámicos, como otros UAVs. Se usó el simulador AirSim para recrear un escenario de vuelo realista
con dos UAVs: uno controlado mediante RL y otro que intenta colisionar con él. Los resultados preliminares muestran que
las redes neuronales entrenadas con el algoritmo Soft Actor-Critic (SAC) pueden evitar colisiones, incluso en situaciones no
contempladas durante el entrenamiento. Aunque los resultados son prometedores, se requiere más investigación para garantizar
el funcionamiento fiable del agent RL en entornos de tiempo real.

Referencias

Boysen, N., Fedtke, S., Schwerdfeger, S., Mar. 2021. Last-mile delivery concepts: a survey from an operational research perspective. OR Spectrum 43 (1), 1–58. URL: https://doi.org/10.1007/s00291-020-00607-8 DOI: 10.1007/s00291-020-00607-8

Caballero-Martin, D., Lopez-Guede, J. M., Estevez, J., Graña, M., 2024. Artificial intelligence applied to drone control: A state of the art. Drones 8 (7). URL: https://www.mdpi.com/2504-446X/8/7/296 DOI: 10.3390/drones8070296

DJI, 2023. Dji inspire 3 - specs. Access: 2025-05-14. URL: https://www.dji.com/inspire-3/specs

EUROCAE, 2012. Ed-12c/do-178c: Software considerations in airborne systems and equipment certification. Access: 2025-05-14. URL: https://www.eurocae.net/ed-12c/

Gordo, V., Perez-Castan, J. A., Perez Sanz, L., Serrano-Mira, L., Xu, Y., 2024. Feasibility of conflict prediction of drone trajectories by means of machine learning techniques. Aerospace 11 (12). URL: https://www.mdpi.com/2226-4310/11/12/1044 DOI: 10.3390/aerospace11121044

Haarnoja, T., Zhou, A., Abbeel, P., Levine, S., 2018. Soft actor-critic: Off policy maximum entropy deep reinforcement learning with a stochastic actor. CoRR abs/1801.01290. URL: http://arxiv.org/abs/1801.01290 DOI: 10.48550/arXiv.1801.01290

Karthik, P., Kumar, K., Fernandes, V., Arya, K., 2020. Reinforcement learning for altitude hold and path planning in a quadcopter. In: 2020 6th International Conference on Control, Automation and Robotics (ICCAR). pp. 463–467. DOI: 10.1109/ICCAR49639.2020.9108104

Muñoz, G., Barrado, C., C¸ etin, E., Salami, E., 2019. Deep reinforcement learning for drone delivery. Drones 3 (3). URL: https://www.mdpi.com/2504-446X/3/3/72 DOI: 10.3390/drones3030072

Rierson, L., Jan. 2013. Developing safety-critical software. CRC Press, Boca Raton, FL.

Tu, G.-T., Juang, J.-G., 2023. Uav path planning and obstacle avoidance based on reinforcement learning in 3d environments. Actuators 12 (2). URL: https://www.mdpi.com/2076-0825/12/2/57 DOI: 10.3390/act12020057

Descargas

Publicado

01-09-2025

Número

Sección

Computadores y Control