Segmentación semántica bajo paradigma one-shot learning utilizando SAM y CP-CVV

Autores/as

  • Jaime Duque-Domingo Universidad de Valladolid"
  • Jaime Gómez-García-Bermejo Universidad de Valladolid
  • Eduardo Zalama Universidad de Valladolid
  • Raúl Gómez-Ramos CARTIF
  • Alberto Finzi Universit`a degli Studi di Napoli Federico II

DOI:

https://doi.org/10.17979/ja-cea.2024.45.10772

Palabras clave:

Percepción y detección, aprendizaje incremental, one-shot learning, segmentación, integración de modelos

Resumen

La detección y segmentación de objetos en escenas complejas se suele llevar a cabo mediante el entrenamiento de modelos de detección y/o segmentación que requieren el etiquetado manual de cientos de imágenes por categoría. Tanto el proceso de etiquetado como el del entrenamiento pueden llegar a ser costosos tanto computacionalmente como a nivel de esfuerzo humano. Las técnicas de segmentación genérica mediante zero-shot learning abren la posibilidad a segmentar objetos nunca antes vistos. Sin embargo, estas técnicas no son semánticas y no nos permiten identificar el objeto que se está segmentando. Nosotros proponemos el uso de un método integrado de segmentación genérica y CP-CVV para detectar y segmentar objetos a partir de una única muestra. Esta técnica permite crear un abanico de posibilidades donde se busca un aprendizaje rápido e incremental y sólo tenemos acceso a una o a un reducido número de imágenes del objeto que deseamos localizar.

Referencias

Chen, T., Xie, G.-S., Yao, Y., Wang, Q., Shen, F., Tang, Z., Zhang, J., 2021. Semantically meaningful class prototype learning for one-shot image segmentation. IEEE Transactions on Multimedia 24, 968–980.

Duque-Domingo, J., Aparicio, R. M., Rodrigo, L. M. G., 2023. One shot learning with class partitioning and cross validation voting (cp-cvv). Pattern Recognition 143, 109797.

He, K., Gkioxari, G., Dollár, P., Girshick, R., 2017. Mask r-cnn. In: Proceedings of the IEEE international conference on computer vision. pp. 2961– 2969.

Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A. C., Lo, W.-Y., et al., 2023. Segment anything. arXiv preprint arXiv:2304.02643.

Li, X., Wei, T., Chen, Y. P., Tai, Y.-W., Tang, C.-K., 2020. Fss-1000: A 1000- class dataset for few-shot segmentation. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 2869–2878.

Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.-Y., Berg, A. C., 2016. Ssd: Single shot multibox detector. In: European conference on computer vision. Springer, pp. 21–37.

Liu, Y., Zhang, X., Zhang, S., He, X., 2020. Part-aware prototype network for few-shot semantic segmentation. In: Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part IX 16. Springer, pp. 142–158.

Liu, Z., Mao, H., Wu, C.-Y., Feichtenhofer, C., Darrell, T., Xie, S., 2022. A convnet for the 2020s. arXiv preprint arXiv:2201.03545.

Luddecke, T., Ecker, A., 2021. The role of data for one-shot semantic segmentation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 2653–2658.

Redmon, J., Divvala, S., Girshick, R., Farhadi, A., 2016. You only look once: Unified, real-time object detection. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 779–788.

Shaban, A., Bansal, S., Liu, Z., Essa, I., Boots, B., 2017. One-shot learning for semantic segmentation. arXiv preprint arXiv:1709.03410.

Siddique, N., Paheding, S., Elkin, C. P., Devabhaktuni, V., 2021. U-net and its variants for medical image segmentation: A review of theory and applications. IEEE Access 9, 82031–82057.

Wang, K., Liew, J. H., Zou, Y., Zhou, D., Feng, J., 2019. Panet: Few-shot image semantic segmentation with prototype alignment. In: proceedings of the IEEE/CVF international conference on computer vision. pp. 9197–9206.

Zhang, C., Han, D., Qiao, Y., Kim, J. U., Bae, S.-H., Lee, S., Hong, C. S., 2023. Faster segment anything: Towards lightweight sam for mobile applications. arXiv preprint arXiv:2306.14289.

Zhang, C., Lin, G., Liu, F., Guo, J., Wu, Q., Yao, R., 2019. Pyramid graph networks with connection attentions for region-based one-shot semantic segmentation. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 9587–9595.

Zhang, X., Wei, Y., Li, Z., Yan, C., Yang, Y., 2021. Rich embedding features for one-shot semantic segmentation. IEEE Transactions on Neural Networks and Learning Systems 33 (11), 6484–6493.

Zhang, X.,Wei, Y., Yang, Y., Huang, T. S., 2020. Sg-one: Similarity guidance network for one-shot semantic segmentation. IEEE transactions on cybernetics 50 (9), 3855–3865.

Descargas

Publicado

12-07-2024

Número

Sección

Visión por Computador