Sistema multimodal para la orientación de robots móviles hacia su interlocutor

Antonio Cañete; Eulogio Quemada-Torres; José-Raúl Ruiz-Sarmiento; Francisco Ángel Moreno; Javier Gonzalez-Jimenez

doi:10.17979/ja-cea.2024.45.10939

Autores/as

Antonio Cañete Universidad de Málaga
Eulogio Quemada-Torres Universidad de Málaga
José-Raúl Ruiz-Sarmiento Universidad de Málaga
Francisco Ángel Moreno Universidad de Málaga
Javier Gonzalez-Jimenez Universidad de Málaga

DOI:

https://doi.org/10.17979/ja-cea.2024.45.10939

Palabras clave:

Robótica inteligente, Aprendizaje automático, Interacción multimodal, Integración de sensores y percepción, Sistemas de control de movimiento

Resumen

Con el objetivo de lograr una interacción humano-robot lo más natural posible, es fundamental que el robot se oriente hacia su interlocutor. Este trabajo presenta un sistema multimodal que usa información visual y de sonido para lograr una orientación precisa incluso en situaciones complejas con múltiples personas, personas fuera del campo de visión del sensor, etc. En concreto, un sistema de micrófonos estéreo es el encargado de detectar el inicio y fin de la interacción, así como de calcular el ángulo de incidencia del sonido para iniciar la orientación del robot. Por su parte, la información visual proveniente de una cámara se usa para localizar la presencia del interlocutor mediante detección facial, asistida por el ángulo de incidencia del sonido. Una vez localizado, el sistema se encarga de orientarse constantemente hacia dicha persona de manera precisa. El trabajo incluye una demostración del comportamiento del sistema en escenarios límite utilizando el robot social Sancho.

Citas

Ambrosio-Cestero, G., Matez, J.-L., Ruiz-Sarmiento, J.-R., Gonzalez-Jimenez, J., 2024. Container based architecture for mobile robotics. XLV Jornadas de Automática.

Baltanas-Molero, S.-F., Ruiz-Sarmiento, J. R., Gonzalez-Jimenez, J., 2020. A face recognition system for assistive robots. In: International Conference on Applications of Intelligent Systems (APPIS). DOI: https://doi.org/10.1145/3378184.3378225 DOI: https://doi.org/10.1145/3378184.3378225

Baltanas-Molero, S.-F., Ruiz-Sarmiento, J. R., Gonzalez-Jimenez, J., jan 2021. Improving the head pose variation problem in face recognition for mobile robots. Sensors 21 (2). DOI: https://doi.org/10.3390/s21020659 DOI: https://doi.org/10.3390/s21020659

Bredin, H., Laurent, A., August 2021. End-to-end speaker segmentation for overlap-aware resegmentation. In: Proc. Interspeech 2021. Brno, Czech Republic. DOI: https://doi.org/10.21437/Interspeech.2021-560

Bredin, H., Yin, R., Coria, J. M., Gelly, G., Korshunov, P., Lavechin, M., Fustes, D., Titeux, H., Bouaziz, W., Gill, M.-P., May 2020. pyannote.audio: neural building blocks for speaker diarization. In: ICASSP 2020. DOI: https://doi.org/10.1109/ICASSP40776.2020.9052974 DOI: https://doi.org/10.1109/ICASSP40776.2020.9052974

King, D. E., 2009. Dlib-ml: A machine learning toolkit. Journal of Machine Learning Research 10, 1755–1758.

Macenski, S., Foote, T., Gerkey, B., Lalancette, C., Woodall, W., 2022. Robot operating system 2: Design, architecture, and uses in the wild. Science Robotics 7 (66), eabm6074. DOI: https://doi.org/10.1126/scirobotics.abm6074 DOI: https://doi.org/10.1126/scirobotics.abm6074

Rocha, G. D., Torres, J. C. B., Petraglia, M. R., Vorl ̈ander, M., 2021. Direction of arrival estimation of partial sound sources of vehicles with a twomicrophone array. Acta Acustica 5, 18. DOI: https://doi.org/10.1051/aacus/2021011 DOI: https://doi.org/10.1051/aacus/2021011

Ruiz-Sarmiento, J., Galindo, C., Gonzalez, J., 2011. Improving human face detection through tof cameras for ambient intelligence applications. In: 2nd International Symposium on Ambient Intelligence. pp. 125–132. DOI: https://doi.org/10.1007/978-3-642-19937-0 16 DOI: https://doi.org/10.1007/978-3-642-19937-0_16

Schroff, F., Kalenichenko, D., Philbin, J., 2015. Facenet: A unified embedding for face recognition and clustering. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 815–823. DOI: https://doi.org/10.1109/CVPR.2015.7298682

Sheridan, T. B., 2016. Human–robot interaction: status and challenges. Human factors 58 (4), 525–532. DOI: https://doi.org/10.1177/0018720816644364 DOI: https://doi.org/10.1177/0018720816644364

Zhang, K., Zhang, Z., Li, Z., Qiao, Y., 2016. Joint face detection and alignment using multi-task cascaded convolutional networks. IEEE Signal Processing Letters 23 (10), 1499–1503. DOI: https://doi.org/10.1109/LSP.2016.2603342 DOI: https://doi.org/10.1109/LSP.2016.2603342

Sistema multimodal para la orientación de robots móviles hacia su interlocutor

Autores/as

DOI:

Palabras clave:

Resumen

Citas

Descargas

Publicado

Número

Sección

Licencia

Enviar un artículo

Número actual