Interpretación de gestos en tiempo real empleando GestureNet en un robot social

Jesús García Martínez; Juan José Gamboa-Montero; José Carlos Castillo; Álvaro Castro-González; Miguel Ángel Salichs

doi:10.17979/ja-cea.2024.45.10819

Autores/as

Jesús García Martínez Universidad Carlos III de Madrid
Juan José Gamboa-Montero Dpto. Ingeniería de Sistemas y Automática, Universidad Carlos III de Madrid https://orcid.org/0000-0001-7845-5812
José Carlos Castillo Dpto. Ingeniería de Sistemas y Automática, Universidad Carlos III de Madrid https://orcid.org/0000-0003-0454-9466
Álvaro Castro-González Dpto. Ingeniería de Sistemas y Automática, Universidad Carlos III de Madrid https://orcid.org/0000-0002-5189-0002
Miguel Ángel Salichs Dpto. Ingeniería de Sistemas y Automática, Universidad Carlos III de Madrid https://orcid.org/0000-0002-0263-6606

DOI:

https://doi.org/10.17979/ja-cea.2024.45.10819

Palabras clave:

Aprendizaje profundo, Robótica social, Visión por computador, Interacción humano-robot, Clasificación de imágenes, Tiempo real

Resumen

Este artículo presenta el desarrollo y la integración de un clasificador de gestos manuales en un robot social, con el objetivo de mejorar la comunicación visual durante la interacción humano-robot. Además de las capacidades actuales del robot para escuchar la voz del usuario y recibir comandos táctiles a través de una tableta auxiliar, se ha implementado la capacidad de interpretar gestos visuales. Estos gestos incluyen afirmaciones y negaciones con la mano, así como la mano cerrada y abierta, entre otros. Se ha generado un conjunto de datos para entrenar el modelo de clasificación, y utilizamos una arquitectura diseñada específicamente para este propósito. Como caso de uso del clasificador, se ha desarrollado una aplicación del juego tradicional de piedra, papel o tijera. En dicho juego, durante la interacción con el usuario, el modelo de clasificación se ejecuta en tiempo real. Tanto el módulo de detección como la habilidad de juego se han integrado completamente en la arquitectura del robot, proporcionando una experiencia de usuario fluida y natural a través de este canal de comunicación.

Citas

Andronas, D., Apostolopoulos, G., Fourtakas, N., Makris, S., 2021. Multimodal interfaces for natural human-robot interaction. Procedia Manufacturing 54, 197–202. DOI: https://doi.org/10.1016/j.promfg.2021.07.030

Borrero, J., Arrojo Fuentes, G. A., García, J., Castillo, J. C., Castro-Gonz ́alez, A., Salichs, M. Á., 2023. Implementación del juego pares o nones en un robot social. In: XLIV Jornadas de Automática. Universidade da Coru ̃na. Servizo de Publicacións, pp. 539–544. DOI: https://doi.org/10.17979/spudc.9788497498609.539

Boyd, A., Czajka, A., Bowyer, K., 2019. Deep learning-based feature extraction in iris recognition: Use existing models, fine-tune or train from scratch? In: 2019 IEEE 10th International Conference on Biometrics Theory, Applications and Systems (BTAS). IEEE, pp. 1–9. DOI: https://doi.org/10.1109/BTAS46853.2019.9185978

Chen, L., Wang, K., Li, M., Wu, M., Pedrycz, W., Hirota, K., 2022. K-means clustering-based kernel canonical correlation analysis for multimodal emotion recognition in human–robot interaction. IEEE Transactions on Industrial Electronics 70 (1), 1016–1024. DOI: https://doi.org/10.1109/TIE.2022.3150097

Fitas, R., Rocha, B., Costa, V., Sousa, A., 2021. Design and comparison of image hashing methods: A case study on cork stopper unique identification. Journal of Imaging 7 (3), 48. DOI: https://doi.org/10.3390/jimaging7030048

Himami, Z. R., Bustamam, A., Anki, P., 2021. Deep learning in image classification using dense networks and residual networks for pathologic myopia detection. In: 2021 International Conference on Artificial Intelligence and Big Data Analytics. IEEE, pp. 1–6. DOI: https://doi.org/10.1109/ICAIBDA53487.2021.9689744

Kanda, T., Ishiguro, H., 2017. Human-robot interaction in social robotics. CRC Press. DOI: https://doi.org/10.1201/b13004

Mudduluru, S., Maryada, S. K. R., Booker, W. L., Hougen, D. F., Zheng, B., Improving medical image segmentation and classification using a novel joint deep learning model. In: Medical Imaging 2023: Computer-Aided Diagnosis. Vol. 12465. SPIE, pp. 599–608. DOI: https://doi.org/10.1117/12.2654052

Quigley, M., Conley, K., Gerkey, B., Faust, J., Foote, T., Leibs, J., Wheeler, R., Ng, A. Y., et al., 2009. Ros: an open-source robot operating system. In: ICRA workshop on open source software. Vol. 3. Kobe, Japan, p. 5.

Rosebrock, A., PhD, D. H., MSc, D. M., Thanki, A., Paul, S., 2019. Raspberry pi for computer vision: Hobbyist bundle-v1. 0.1. Baltimore, MD: PyImageSearch. com.

Salichs, M. A., Castro-González, ́A., Salichs, E., Fernández-Rodicio, E., Maroto-Gómez, M., Gamboa-Montero, J. J., Marques-Villarroya, S., Castillo, J. C., Alonso-Martín, F., Malfaz, M., 2020. Mini: a new social robot for the elderly. International Journal of Social Robotics 12, 1231–1249. DOI: https://doi.org/10.1007/s12369-020-00687-0

Shrestha, S., Zha, Y., Banagiri, S., Gao, G., Aloimonos, Y., Fermuller, C., 2024. Natsgd: A dataset with speech, gestures, and demonstrations for robot learning in natural human-robot interaction. arXiv preprint arXiv:2403.02274.

Torrey, L., Shavlik, J., 2010. Transfer learning. In: Handbook of research on machine learning applications and trends: algorithms, methods, and techniques. IGI global, pp. 242–264. DOI: https://doi.org/10.4018/978-1-60566-766-9.ch011

Vrbancic, G., Podgorelec, V., 2020. Transfer learning with adaptive fine-tuning. IEEE Access 8, 196197–196211. DOI: https://doi.org/10.1109/ACCESS.2020.3034343

Zhou, Y., Kornher, T., Mohnke, J., Fischer, M. H., 2021. Tactile interaction with a humanoid robot: Effects on physiology and subjective impressions. International Journal of Social Robotics 13, 1657–1677. DOI: https://doi.org/10.1007/s12369-021-00749-x

Interpretación de gestos en tiempo real empleando GestureNet en un robot social

Autores/as

DOI:

Palabras clave:

Resumen

Citas

Descargas

Publicado

Número

Sección

Licencia

Enviar un artículo

Número actual