Contenido principal del artículo

Jesús Moncada Ramírez
Universidad de Málaga
España
José Raúl Ruiz-Sarmiento
Universidad de Málaga
España
José Luis Matez-Bandera
Universidad de Málaga
España
Javier Gonzalez-Jimenez
Universidad de Málaga
España
Núm. 45 (2024), Visión por Computador
DOI: https://doi.org/10.17979/ja-cea.2024.45.10940
Recibido: jun. 5, 2024 Aceptado: jul. 1, 2024 Publicado: jul. 19, 2024
Derechos de autor

Resumen

La aparición de los modelos a gran escala permite abordar algunas de las principales limitaciones que presentan las técnicas de mapeo semántico tradicional en robótica móvil. Sin embargo, estos modelos son propensos a generar respuestas incorrectas, incoherentes o incluso inventadas, pudiendo ocasionar comportamientos erróneos del robot. Para poder desplegarse en aplicaciones reales, por tanto, es crucial desarrollar mecanismos que permitan mitigar estas errores. En este trabajo se utiliza \textit{ConceptGraphs}, un método del estado del arte basado en modelos a gran escala para construir mapas semánticos, sobre el que se plantean dos estrategias para reducir las respuestas erróneas. Primero, se propone adaptar el método para operar con modelos más recientes (por ejemplo, Gemini 1.5 y ChatGPT-4o). En segundo lugar, se incorpora una etapa de refinamiento de respuestas mediante la técnica denominada \textit{Reflexión}, que permite al modelo autoevaluar y mejorar sus propias respuestas. Finalmente, se validan las propuestas mediante experimentos en entornos reales del conjunto de datos ScanNet.

Detalles del artículo

Citas

Ambrosio-Cestero, G., Matez-Bandera, J.-L., Ruiz-Sarmiento, J.-R., Gonzalez-Jimenez, J., 2024. Container based architecture for mobile robotics. XLV Jornadas de Automática.

Chaves, D., Ruiz-Sarmiento, J.-R., Petkov, N., Gonzalez-Jimenez, J., 2019. Integration of cnn into a robotic architecture to build semantic maps of indoor environments. In: IWANN 2019. Springer, pp. 313–324. DOI: https://doi.org/10.1007/978-3-030-20518-8 27 DOI: https://doi.org/10.1007/978-3-030-20518-8_27

Dai, A., Chang, A. X., Savva, M., Halber, M., Funkhouser, T., Nießner, M., 2017. Scannet: Richly-annotated 3d reconstructions of indoor scenes. In: Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. DOI: https://doi.org/10.1109/CVPR.2017.261

Ester, M., Kriegel, H.-P., Sander, J., Xu, X., et al., 1996. A density-based algorithm for discovering clusters in large spatial databases with noise. In: kdd. Vol. 96. pp. 226–231.

Fernandez-Chaves, D., Ruiz-Sarmiento, J., Petkov, N., Gonzalez-Jimenez, J., 2021. Vimantic, a distributed robotic architecture for semantic mapping in indoor environments. Knowledge-Based Systems 232, 107440. DOI: https://doi.org/10.1016/j.knosys.2021.107440 DOI: https://doi.org/10.1016/j.knosys.2021.107440

Gu, Q., Kuwajerwala, A., Morin, S., Jatavallabhula, K., Sen, B., Agarwal, A., Rivera, C., Paul, W., Ellis, K., Chellappa, R., Gan, C., de Melo, C., Tenenbaum, J., Torralba, A., Shkurti, F., Paull, L., 2023. Conceptgraphs: Open-vocabulary 3d scene graphs for perception and planning. arXiv. DOI: https://doi.org/10.48550/arXiv.2309.16650

He, K., Gkioxari, G., Doll ́ar, P., Girshick, R., 2017. Mask r-cnn. In: Proceedings of the IEEE international conference on computer vision. pp. 2961–2969. DOI: https://doi.org/10.48550/arXiv.1703.06870 DOI: https://doi.org/10.1109/ICCV.2017.322

Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A. C., Lo, W.-Y., Doll ́ar, P., Girshick, R., 2023. Segment anything. DOI: https://doi.org/10.48550/arXiv.2304.02643 DOI: https://doi.org/10.1109/ICCV51070.2023.00371

Krishna Murthy, J., Saryazdi, S., Iyer, G., Paull, L., 2020. gradslam: Dense slam meets automatic differentiation. In: arXiv. DOI: https://doi.org/10.48550/arXiv.1910.10672

Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C. L., 2014. Microsoft coco: Common objects in context. In: Computer Vision–ECCV 2014: 13th European Conference. pp. 740–755. DOI: https://doi.org/10.48550/arXiv.1405.0312 DOI: https://doi.org/10.1007/978-3-319-10602-1_48

Madaan, A., Tandon, N., Gupta, P., Hallinan, S., Gao, L., Wiegreffe, S., Alon, U., Dziri, N., Prabhumoye, S., Yang, Y., et al., 2024. Self-refine: Iterative refinement with self-feedback. Advances in Neural Information Processing Systems 36. DOI: https://doi.org/10.48550/arXiv.2303.17651

Monroy, J., Ruiz-Sarmiento, J.-R., Moreno, F.-A., Melendez-Fernandez, F., Galindo, C., Gonzalez-Jimenez, J., 2018. A semantic-based gas source localization with a mobile robot combining vision and chemical sensing. Sensors 18 (12), 4174. DOI: https://doi.org/10.3390/s18124174 DOI: https://doi.org/10.3390/s18124174

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., Sutskever, I., 2021. Learning transferable visual models from natural language supervision. DOI: https://doi.org/10.48550/arXiv.2103.00020

Rubio, F., Valero, F., Llopis-Albert, C., 2019. A review of mobile robots: Concepts, methods, theoretical framework, and applications. International Journal of Advanced Robotic Systems 16 (2). DOI: https://doi.org/10.1177/1729881419839596

Ruiz-Sarmiento, J.-R., Galindo, C., Gonzalez-Jimenez, J., 2017a. Building multiversal semantic maps for mobile robot operation. Knowledge-Based Systems 119, 257–272. DOI: https://doi.org/10.1016/j.knosys.2016.12.016 DOI: https://doi.org/10.1016/j.knosys.2016.12.016

Ruiz-Sarmiento, J. R., Galindo, C., Gonz ́alez-Jim ́enez, J., 2017b. Robot@home, a robotic dataset for semantic mapping of home environments. International Journal of Robotics Research. DOI: https://doi.org/10.1177/0278364917695640 DOI: https://doi.org/10.1177/0278364917695640

Straub, J., Whelan, T., Ma, L., Chen, Y., Wijmans, E., Green, S., Engel, J. J., ur-Artal, R., Ren, C., Verma, S., et al., 2019. The replica dataset: A digital replica of indoor spaces. arXiv preprint arXiv:1906.05797. OI: https://doi.org/10.48550/arXiv.1906.05797

Terven, J., Cordova-Esparza, D., 2023. A comprehensive review of yolo: rom yolov1 to yolov8 and beyond. arXiv preprint arXiv:2304.00501. DOI: https://doi.org/10.48550/arXiv.2304.00501

Yao, J.-Y., Ning, K.-P., Liu, Z.-H., Ning, M.-N., Yuan, L., 2023. Llm lies: Hallucinations are not bugs, but features as adversarial examples. arXiv preprint arXiv:2310.01469. DOI: https://doi.org/10.48550/arXiv.2310.01469