Contenido principal del artículo

Antonio Cañete
Universidad de Málaga
España
Eulogio Quemada-Torres
Universidad de Málaga
España
José-Raúl Ruiz-Sarmiento
Universidad de Málaga
España
Francisco Ángel Moreno
Universidad de Málaga
España
Javier Gonzalez-Jimenez
Universidad de Málaga
España
Núm. 45 (2024), Robótica
DOI: https://doi.org/10.17979/ja-cea.2024.45.10939
Recibido: jun. 5, 2024 Aceptado: jul. 3, 2024 Publicado: jul. 19, 2024
Derechos de autor

Resumen

Con el objetivo de lograr una interacción humano-robot lo más natural posible, es fundamental que el robot se oriente hacia su interlocutor. Este trabajo presenta un sistema multimodal que usa información visual y de sonido para lograr una orientación precisa incluso en situaciones complejas con múltiples personas, personas fuera del campo de visión del sensor, etc. En concreto, un sistema de micrófonos estéreo es el encargado de detectar el inicio y fin de la interacción, así como de calcular el ángulo de incidencia del sonido para iniciar la orientación del robot. Por su parte, la información visual proveniente de una cámara se usa para localizar la presencia del interlocutor mediante detección facial, asistida por el ángulo de incidencia del sonido. Una vez localizado, el sistema se encarga de orientarse constantemente hacia dicha persona de manera precisa. El trabajo incluye una demostración del comportamiento del sistema en escenarios límite utilizando el robot social Sancho.

Detalles del artículo

Citas

Ambrosio-Cestero, G., Matez, J.-L., Ruiz-Sarmiento, J.-R., Gonzalez-Jimenez, J., 2024. Container based architecture for mobile robotics. XLV Jornadas de Automática.

Baltanas-Molero, S.-F., Ruiz-Sarmiento, J. R., Gonzalez-Jimenez, J., 2020. A face recognition system for assistive robots. In: International Conference on Applications of Intelligent Systems (APPIS). DOI: https://doi.org/10.1145/3378184.3378225 DOI: https://doi.org/10.1145/3378184.3378225

Baltanas-Molero, S.-F., Ruiz-Sarmiento, J. R., Gonzalez-Jimenez, J., jan 2021. Improving the head pose variation problem in face recognition for mobile robots. Sensors 21 (2). DOI: https://doi.org/10.3390/s21020659 DOI: https://doi.org/10.3390/s21020659

Bredin, H., Laurent, A., August 2021. End-to-end speaker segmentation for overlap-aware resegmentation. In: Proc. Interspeech 2021. Brno, Czech Republic. DOI: https://doi.org/10.21437/Interspeech.2021-560

Bredin, H., Yin, R., Coria, J. M., Gelly, G., Korshunov, P., Lavechin, M., Fustes, D., Titeux, H., Bouaziz, W., Gill, M.-P., May 2020. pyannote.audio: neural building blocks for speaker diarization. In: ICASSP 2020. DOI: https://doi.org/10.1109/ICASSP40776.2020.9052974 DOI: https://doi.org/10.1109/ICASSP40776.2020.9052974

King, D. E., 2009. Dlib-ml: A machine learning toolkit. Journal of Machine Learning Research 10, 1755–1758.

Macenski, S., Foote, T., Gerkey, B., Lalancette, C., Woodall, W., 2022. Robot operating system 2: Design, architecture, and uses in the wild. Science Robotics 7 (66), eabm6074. DOI: https://doi.org/10.1126/scirobotics.abm6074 DOI: https://doi.org/10.1126/scirobotics.abm6074

Rocha, G. D., Torres, J. C. B., Petraglia, M. R., Vorl ̈ander, M., 2021. Direction of arrival estimation of partial sound sources of vehicles with a twomicrophone array. Acta Acustica 5, 18. DOI: https://doi.org/10.1051/aacus/2021011 DOI: https://doi.org/10.1051/aacus/2021011

Ruiz-Sarmiento, J., Galindo, C., Gonzalez, J., 2011. Improving human face detection through tof cameras for ambient intelligence applications. In: 2nd International Symposium on Ambient Intelligence. pp. 125–132. DOI: https://doi.org/10.1007/978-3-642-19937-0 16 DOI: https://doi.org/10.1007/978-3-642-19937-0_16

Schroff, F., Kalenichenko, D., Philbin, J., 2015. Facenet: A unified embedding for face recognition and clustering. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 815–823. DOI: https://doi.org/10.1109/CVPR.2015.7298682

Sheridan, T. B., 2016. Human–robot interaction: status and challenges. Human factors 58 (4), 525–532. DOI: https://doi.org/10.1177/0018720816644364 DOI: https://doi.org/10.1177/0018720816644364

Zhang, K., Zhang, Z., Li, Z., Qiao, Y., 2016. Joint face detection and alignment using multi-task cascaded convolutional networks. IEEE Signal Processing Letters 23 (10), 1499–1503. DOI: https://doi.org/10.1109/LSP.2016.2603342 DOI: https://doi.org/10.1109/LSP.2016.2603342