Optimización de caminata con aprendizaje por refuerzo en humanoide TEO
Contenido principal del artículo
Resumen
En los últimos años, el aprendizaje por refuerzo en entornos de simulación robótica ha emergido como una herramienta valiosa para entrenar plataformas robóticas en la ejecución de tareas complejas, como la marcha. El aprendizaje por refuerzo permite al robot descubrir un camino viable para realizar una tarea previamente definida, eliminando la necesidad de una programación exhaustiva y un control detallado de los movimientos.
El propósito de este trabajo es mostrar la implementación de algoritmos de aprendizaje por refuerzo con el objetivo de conseguir que nuestro modelo del robot humanoide TEO aprenda a caminar sin necesidad de programar un controlador de manera explicita.
Este artículo incluye como se ha desarrollado el modelo del humanoide, que medida de aprendizaje se ha desarrollado y que algoritmos se han implementado durante el entrenamiento, así como los resultados que se han obtenido de este entrenamiento.
Palabras clave:
Detalles del artículo
Citas
Dankwa, S., Zheng, W., 08 2019. Twin-delayed ddpg: A deep reinforcement learning technique to model a continuous movement of an intelligent robot agent. pp. 1–5. DOI: 10.1145/3387168.3387199 DOI: https://doi.org/10.1145/3387168.3387199
de Lazcano, R., Andreas, K., Tai, J. J., Lee, S. R., Terry, J., 2023. Gymnasium robotics. URL: http://github.com/Farama-Foundation/Gymnasium-Robotics
Haarnoja, T., Zhou, A., Abbeel, P., Levine, S., 2018. Soft actor-critic: Offpolicy maximum entropy deep reinforcement learning with a stochastic actor. URL: https://openreview.net/forum?id=HJjvxl-Cb
Hugging Face, Year. TQC-Humanoid-v3 Trained Model. Hugging Face Model Hub, retrieved from: https://huggingface.co/sb3/tqc-Humanoid-v3.
Radosavovic, I., Xiao, T., Zhang, B., Darrell, T., Malik, J., Sreenath, K., 2024. Real-world humanoid locomotion with reinforcement learning. Science Robotics 9 (89), eadi9579. DOI: 10.1126/scirobotics.adi9579 DOI: https://doi.org/10.1126/scirobotics.adi9579
Raffin, A., 2020. Rl baselines3 zoo. https://github.com/DLR-RM/rl-baselines3-zoo.
Raffin, A., Hill, A., Gleave, A., Kanervisto, A., Ernestus, M., Dormann, N., 2021. Stable-baselines3: Reliable reinforcement learning implementations. Journal of Machine Learning Research 22 (268), 1–8. URL: http://jmlr.org/papers/v22/20-1364.html
Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O., 2017. Proximal policy optimization algorithms. Todorov, E., Erez, T., Tassa, Y., 2012. Mujoco: A physics engine for modelbased control. In: 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, pp. 5026–5033. DOI: 10.1109/IROS.2012.6386109 DOI: https://doi.org/10.1109/IROS.2012.6386109
UC3M, R., 2024. Teo developer manual. https://github.com/roboticslab-uc3m/teo-developer-manual, accessed: 2024-05-30.