Contenido principal del artículo

Jaime Mas Santillan
Universidad Carlos III de Madrid
España
Juan Carlos Gonzalez Victores
Universidad Carlos III de Madrid
España
Carlos Balaguer Bernaldo de Quiros
Universidad Carlos III de Madrid
España
Núm. 45 (2024), Robótica
DOI: https://doi.org/10.17979/ja-cea.2024.45.10950
Recibido: jun. 5, 2024 Aceptado: jul. 3, 2024 Publicado: jul. 23, 2024
Derechos de autor

Resumen

En los últimos años, el aprendizaje por refuerzo en entornos de simulación robótica ha emergido como una herramienta valiosa para entrenar plataformas robóticas en la ejecución de tareas complejas, como la marcha. El aprendizaje por refuerzo permite al robot descubrir un camino viable para realizar una tarea previamente definida, eliminando la necesidad de una programación exhaustiva y un control detallado de los movimientos.
El propósito de este trabajo es mostrar la implementación de algoritmos de aprendizaje por refuerzo con el objetivo de conseguir que nuestro modelo del robot humanoide TEO aprenda a caminar sin necesidad de programar un controlador de manera explicita.
Este artículo incluye como se ha desarrollado el modelo del humanoide, que medida de aprendizaje se ha desarrollado y que algoritmos se han implementado durante el entrenamiento, así como los resultados que se han obtenido de este entrenamiento.

Detalles del artículo

Citas

Dankwa, S., Zheng, W., 08 2019. Twin-delayed ddpg: A deep reinforcement learning technique to model a continuous movement of an intelligent robot agent. pp. 1–5. DOI: 10.1145/3387168.3387199 DOI: https://doi.org/10.1145/3387168.3387199

de Lazcano, R., Andreas, K., Tai, J. J., Lee, S. R., Terry, J., 2023. Gymnasium robotics. URL: http://github.com/Farama-Foundation/Gymnasium-Robotics

Haarnoja, T., Zhou, A., Abbeel, P., Levine, S., 2018. Soft actor-critic: Offpolicy maximum entropy deep reinforcement learning with a stochastic actor. URL: https://openreview.net/forum?id=HJjvxl-Cb

Hugging Face, Year. TQC-Humanoid-v3 Trained Model. Hugging Face Model Hub, retrieved from: https://huggingface.co/sb3/tqc-Humanoid-v3.

Radosavovic, I., Xiao, T., Zhang, B., Darrell, T., Malik, J., Sreenath, K., 2024. Real-world humanoid locomotion with reinforcement learning. Science Robotics 9 (89), eadi9579. DOI: 10.1126/scirobotics.adi9579 DOI: https://doi.org/10.1126/scirobotics.adi9579

Raffin, A., 2020. Rl baselines3 zoo. https://github.com/DLR-RM/rl-baselines3-zoo.

Raffin, A., Hill, A., Gleave, A., Kanervisto, A., Ernestus, M., Dormann, N., 2021. Stable-baselines3: Reliable reinforcement learning implementations. Journal of Machine Learning Research 22 (268), 1–8. URL: http://jmlr.org/papers/v22/20-1364.html

Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O., 2017. Proximal policy optimization algorithms. Todorov, E., Erez, T., Tassa, Y., 2012. Mujoco: A physics engine for modelbased control. In: 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, pp. 5026–5033. DOI: 10.1109/IROS.2012.6386109 DOI: https://doi.org/10.1109/IROS.2012.6386109

UC3M, R., 2024. Teo developer manual. https://github.com/roboticslab-uc3m/teo-developer-manual, accessed: 2024-05-30.