Sistema multimodal para la orientación de robots móviles hacia su interlocutor
DOI:
https://doi.org/10.17979/ja-cea.2024.45.10939Palabras clave:
Robótica inteligente, Aprendizaje automático, Interacción multimodal, Integración de sensores y percepción, Sistemas de control de movimientoResumen
Con el objetivo de lograr una interacción humano-robot lo más natural posible, es fundamental que el robot se oriente hacia su interlocutor. Este trabajo presenta un sistema multimodal que usa información visual y de sonido para lograr una orientación precisa incluso en situaciones complejas con múltiples personas, personas fuera del campo de visión del sensor, etc. En concreto, un sistema de micrófonos estéreo es el encargado de detectar el inicio y fin de la interacción, así como de calcular el ángulo de incidencia del sonido para iniciar la orientación del robot. Por su parte, la información visual proveniente de una cámara se usa para localizar la presencia del interlocutor mediante detección facial, asistida por el ángulo de incidencia del sonido. Una vez localizado, el sistema se encarga de orientarse constantemente hacia dicha persona de manera precisa. El trabajo incluye una demostración del comportamiento del sistema en escenarios límite utilizando el robot social Sancho.
Citas
Ambrosio-Cestero, G., Matez, J.-L., Ruiz-Sarmiento, J.-R., Gonzalez-Jimenez, J., 2024. Container based architecture for mobile robotics. XLV Jornadas de Automática.
Baltanas-Molero, S.-F., Ruiz-Sarmiento, J. R., Gonzalez-Jimenez, J., 2020. A face recognition system for assistive robots. In: International Conference on Applications of Intelligent Systems (APPIS). DOI: https://doi.org/10.1145/3378184.3378225 DOI: https://doi.org/10.1145/3378184.3378225
Baltanas-Molero, S.-F., Ruiz-Sarmiento, J. R., Gonzalez-Jimenez, J., jan 2021. Improving the head pose variation problem in face recognition for mobile robots. Sensors 21 (2). DOI: https://doi.org/10.3390/s21020659 DOI: https://doi.org/10.3390/s21020659
Bredin, H., Laurent, A., August 2021. End-to-end speaker segmentation for overlap-aware resegmentation. In: Proc. Interspeech 2021. Brno, Czech Republic. DOI: https://doi.org/10.21437/Interspeech.2021-560
Bredin, H., Yin, R., Coria, J. M., Gelly, G., Korshunov, P., Lavechin, M., Fustes, D., Titeux, H., Bouaziz, W., Gill, M.-P., May 2020. pyannote.audio: neural building blocks for speaker diarization. In: ICASSP 2020. DOI: https://doi.org/10.1109/ICASSP40776.2020.9052974 DOI: https://doi.org/10.1109/ICASSP40776.2020.9052974
King, D. E., 2009. Dlib-ml: A machine learning toolkit. Journal of Machine Learning Research 10, 1755–1758.
Macenski, S., Foote, T., Gerkey, B., Lalancette, C., Woodall, W., 2022. Robot operating system 2: Design, architecture, and uses in the wild. Science Robotics 7 (66), eabm6074. DOI: https://doi.org/10.1126/scirobotics.abm6074 DOI: https://doi.org/10.1126/scirobotics.abm6074
Rocha, G. D., Torres, J. C. B., Petraglia, M. R., Vorl ̈ander, M., 2021. Direction of arrival estimation of partial sound sources of vehicles with a twomicrophone array. Acta Acustica 5, 18. DOI: https://doi.org/10.1051/aacus/2021011 DOI: https://doi.org/10.1051/aacus/2021011
Ruiz-Sarmiento, J., Galindo, C., Gonzalez, J., 2011. Improving human face detection through tof cameras for ambient intelligence applications. In: 2nd International Symposium on Ambient Intelligence. pp. 125–132. DOI: https://doi.org/10.1007/978-3-642-19937-0 16 DOI: https://doi.org/10.1007/978-3-642-19937-0_16
Schroff, F., Kalenichenko, D., Philbin, J., 2015. Facenet: A unified embedding for face recognition and clustering. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 815–823. DOI: https://doi.org/10.1109/CVPR.2015.7298682
Sheridan, T. B., 2016. Human–robot interaction: status and challenges. Human factors 58 (4), 525–532. DOI: https://doi.org/10.1177/0018720816644364 DOI: https://doi.org/10.1177/0018720816644364
Zhang, K., Zhang, Z., Li, Z., Qiao, Y., 2016. Joint face detection and alignment using multi-task cascaded convolutional networks. IEEE Signal Processing Letters 23 (10), 1499–1503. DOI: https://doi.org/10.1109/LSP.2016.2603342 DOI: https://doi.org/10.1109/LSP.2016.2603342
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2024 Antonio Cañete, Eulogio Quemada-Torres, José-Raúl Ruiz-Sarmiento, Francisco Ángel Moreno, Javier Gonzalez-Jimenez
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.