Localización visual mediante imágenes omnidireccionales y técnicas de fusión temprana

Marcos Alfaro Pérez; Juan José Cabrera Mora; Oscar Reinoso García; Arturo Gil Aparicio; Luis Payá Castelló

doi:10.17979/ja-cea.2025.46.12239

Autores/as

Marcos Alfaro Universidad Miguel Hernández de Elche https://orcid.org/0009-0008-8213-557X
Juan José Cabrera Mora Universidad Miguel Hernández de Elche https://orcid.org/0000-0002-7141-7802
Oscar Reinoso García Universidad Miguel Hernández de Elche https://orcid.org/0000-0002-1065-8944
Arturo Gil Aparicio Universidad Miguel Hernández de Elche https://orcid.org/0000-0001-7811-8955
Luis Payá Castelló Universidad Miguel Hernández de Elche https://orcid.org/0000-0002-3045-4316

DOI:

https://doi.org/10.17979/ja-cea.2025.46.12239

Palabras clave:

Robótica móvil, Aprendizaje profundo, Localización visual, Cámaras omnidireccionales, Fusión sensorial

Resumen

Las cámaras omnidireccionales son una opción recomendable para la localización de robots móviles, debido a su capacidad de extraer información abundante y contextual de la escena con un campo de visión elevado. No obstante, la información visual es inherentemente sensible a los cambios de apariencia del entorno, lo que puede afectar a la robustez del sistema. Para abordar esta limitación, en este trabajo se propone combinar imágenes omnidireccionales con características intrínsecas derivadas de ellas, como la intensidad promedio o la magnitud del gradiente, mediante técnicas de fusión temprana. Posteriormente, la información fusionada es procesada por una red neuronal convolucional, previamente entrenada con extensas bases de datos para la tarea de localización visual. Los resultados obtenidos demuestran que enriquecer la información visual con estas características mejora significativamente la robustez del sistema, permitiendo una localización precisa y fiable tanto en entornos interiores como exteriores, incluso bajo condiciones de iluminación muy variadas. El código utilizado está disponible a través del siguiente enlace: https://github.com/MarcosAlfaro/LocalizacionVisualFusionTemprana/.

Biografía del autor/a

Marcos Alfaro , Universidad Miguel Hernández de Elche

Marcos es investigador predoctoral en la Universidad Miguel Hernández de Elche. Forma parte del grupo "Automatización, Robótica y Visión por Computador", y su línea de investigación se centra en el desarrollo de herramientas de aprendizaje profundo para la localización visual de robots móviles.

Referencias

Ali-Bey, A., Chaib-Draa, B., Giguere, P., 2023. MixVPR: Feature mixing for visual place recognition. In: Proceedings of the IEEE/CVF winter conference on applications of computer vision. pp. 2998–3007. DOI: 10.48550/arXiv.2303.02190

Arandjelovic, R., Gronat, P., Torii, A., Pajdla, T., Sivic, J., 2016. NetVLAD: CNN architecture for weakly supervised place recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 5297–5307. DOI: https://arxiv.org/pdf/2303.02190

Berton, G., Masone, C., Caputo, B., 2022. Rethinking visual geo-localization for large-scale applications. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 4878–4888. DOI: 10.48550/arXiv.2204.02287

Cabrera, J. J., Santo, A., Gil, A., Viegas, C., Pay´a, L., 2024. MinkUNeXt: Point cloud-based large-scale place recognition using 3D sparse convolutions. arXiv preprint arXiv:2403.07593. DOI: 10.48550/arXiv.2403.07593

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al., 2020. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. DOI: 10.48550/arXiv.2010.11929

Flores, M., Valiente, D., Gil, A., Peidr´o, A., Reinoso, O., Pay´a, L., 2021. Evaluación de descriptores locales en localización visual con imágenes ojo de pez. In: XLII Jornadas de Automática. Universidade da Coruña, Servizo de Publicacións, pp. 507–514. DOI: 10.17979/spudc.9788497498043.507

Huang, H., Liu, C., Zhu, Y., Cheng, H., Braud, T., Yeung, S.-K., June 2024. 360Loc: A dataset and benchmark for omnidirectional visual localization with cross-device queries. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 22314–22324. DOI: 10.48550/arXiv.2311.17389

Izquierdo, S., Civera, J., 2024. Optimal transport aggregation for visual place recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern recognition. pp. 17658–17668. DOI: 10.48550/arXiv.2311.15937

Karypidis, E., Kakogeorgiou, I., Gidaris, S., Komodakis, N., 2024. DINOForesight: Looking into the future with DINO. CoRR. DOI: 10.48550/arXiv.2412.11673

Lai, H., Yin, P., Scherer, S., 2022. Adafusion: Visual-LiDAR fusion with adaptive weights for place recognition. IEEE Robotics and Automation Letters 7 (4), 12038–12045. DOI: 10.1109/LRA.2022.3210880

Liu, W., Fei, J., Zhu, Z., 2022. MFF-PR: Point cloud and image multi-modal feature fusion for place recognition. In: 2022 IEEE International Symposium on Mixed and Augmented Reality (ISMAR). IEEE, pp. 647–655. DOI: 10.1109/ISMAR55827.2022.00082

Masone, C., Caputo, B., 2021. A survey on deep visual place recognition. IEEE Access 9, 19516–19547. DOI: 10.1109/ACCESS.2021.3054937

Pan, Y., Xie, J., Wu, J., Zhou, B., 2024. Camera-LiDAR fusion with latent correlation for cross-scene place recognition. IEEE Transactions on Industrial Electronics. DOI: 10.1007/978-3-031-72754-2 25

Payá, L., Reinoso, O., Berenguer, Y., Úbeda, D., 2016. Using omnidirectional vision to create a model of the environment: A comparative evaluation of global-appearance descriptors. Journal of Sensors 2016 (1), 1209507. DOI: 10.1155/2016/1209507

Pronobis, A., Caputo, B., 2009. COLD: The CoSy localization database. The International Journal of Robotics Research 28 (5), 588–594. DOI: 10.1177/0278364909103912

Santo, A., Gil, A., Valiente, D., Ballesta, M., Reinoso, O., 2023. Estimación de zonas transitables en nubes de puntos 3D con redes convolucionales dispersas. In: XLIV Jornadas de Automática. Universidade da Coruña. Servizo de Publicacións, pp. 737–737. DOI: 10.17979/spudc.9788497498609.732

Uy, M. A., Lee, G. H., 2018. PointNetVLAD: Deep point cloud based retrieval for large-scale place recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 4470–4479. DOI: 10.48550/arXiv.1804.03492

Yin, P., Jiao, J., Zhao, S., Xu, L., Huang, G., Choset, H., Scherer, S., Han, J., 2025. General place recognition survey: Towards real-world autonomy. IEEE Transactions on Robotics. DOI: 10.1109/TRO.2025.3550771

Localización visual mediante imágenes omnidireccionales y técnicas de fusión temprana

Autores/as

DOI:

Palabras clave:

Resumen

Biografía del autor/a

Referencias

Descargas

Publicado

Número

Sección

Licencia

Enviar un artículo

Últimas publicaciones

Idioma