Optimización de caminata con aprendizaje por refuerzo en humanoide TEO

Jaime Mas Santillan; Juan Carlos Gonzalez Victores; Carlos Balaguer Bernaldo de Quiros

doi:10.17979/ja-cea.2024.45.10950

Autores/as

Jaime Mas Santillan Universidad Carlos III de Madrid
Juan Carlos Gonzalez Victores Universidad Carlos III de Madrid
Carlos Balaguer Bernaldo de Quiros Universidad Carlos III de Madrid

DOI:

https://doi.org/10.17979/ja-cea.2024.45.10950

Palabras clave:

Aprendizaje por refuerzo y aprendizaje profundo en control, Aprendizaje automático en modelado, predicción, control y automatización, Guía, navegación y control, Arquitectura del software de control, Sistemas robóticos autónomos

Resumen

En los últimos años, el aprendizaje por refuerzo en entornos de simulación robótica ha emergido como una herramienta valiosa para entrenar plataformas robóticas en la ejecución de tareas complejas, como la marcha. El aprendizaje por refuerzo permite al robot descubrir un camino viable para realizar una tarea previamente definida, eliminando la necesidad de una programación exhaustiva y un control detallado de los movimientos.
El propósito de este trabajo es mostrar la implementación de algoritmos de aprendizaje por refuerzo con el objetivo de conseguir que nuestro modelo del robot humanoide TEO aprenda a caminar sin necesidad de programar un controlador de manera explicita.
Este artículo incluye como se ha desarrollado el modelo del humanoide, que medida de aprendizaje se ha desarrollado y que algoritmos se han implementado durante el entrenamiento, así como los resultados que se han obtenido de este entrenamiento.

Citas

Dankwa, S., Zheng, W., 08 2019. Twin-delayed ddpg: A deep reinforcement learning technique to model a continuous movement of an intelligent robot agent. pp. 1–5. DOI: 10.1145/3387168.3387199 DOI: https://doi.org/10.1145/3387168.3387199

de Lazcano, R., Andreas, K., Tai, J. J., Lee, S. R., Terry, J., 2023. Gymnasium robotics. URL: http://github.com/Farama-Foundation/Gymnasium-Robotics

Haarnoja, T., Zhou, A., Abbeel, P., Levine, S., 2018. Soft actor-critic: Offpolicy maximum entropy deep reinforcement learning with a stochastic actor. URL: https://openreview.net/forum?id=HJjvxl-Cb

Hugging Face, Year. TQC-Humanoid-v3 Trained Model. Hugging Face Model Hub, retrieved from: https://huggingface.co/sb3/tqc-Humanoid-v3.

Radosavovic, I., Xiao, T., Zhang, B., Darrell, T., Malik, J., Sreenath, K., 2024. Real-world humanoid locomotion with reinforcement learning. Science Robotics 9 (89), eadi9579. DOI: 10.1126/scirobotics.adi9579 DOI: https://doi.org/10.1126/scirobotics.adi9579

Raffin, A., 2020. Rl baselines3 zoo. https://github.com/DLR-RM/rl-baselines3-zoo.

Raffin, A., Hill, A., Gleave, A., Kanervisto, A., Ernestus, M., Dormann, N., 2021. Stable-baselines3: Reliable reinforcement learning implementations. Journal of Machine Learning Research 22 (268), 1–8. URL: http://jmlr.org/papers/v22/20-1364.html

Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O., 2017. Proximal policy optimization algorithms. Todorov, E., Erez, T., Tassa, Y., 2012. Mujoco: A physics engine for modelbased control. In: 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, pp. 5026–5033. DOI: 10.1109/IROS.2012.6386109 DOI: https://doi.org/10.1109/IROS.2012.6386109

UC3M, R., 2024. Teo developer manual. https://github.com/roboticslab-uc3m/teo-developer-manual, accessed: 2024-05-30.

Optimización de caminata con aprendizaje por refuerzo en humanoide TEO

Autores/as

DOI:

Palabras clave:

Resumen

Citas

Descargas

Publicado

Número

Sección

Licencia

Enviar un artículo

Número actual