Contenido principal del artículo

Jaime Duque-Domingo
Universidad de Valladolid"
España
Jaime Gómez-García-Bermejo
Universidad de Valladolid
España
Eduardo Zalama
Universidad de Valladolid
España
Raúl Gómez-Ramos
CARTIF
España
Alberto Finzi
Universit`a degli Studi di Napoli Federico II
Italia
Núm. 45 (2024), Visión por Computador
DOI: https://doi.org/10.17979/ja-cea.2024.45.10772
Recibido: may. 27, 2024 Aceptado: jul. 1, 2024 Publicado: jul. 12, 2024
Derechos de autor

Resumen

La detección y segmentación de objetos en escenas complejas se suele llevar a cabo mediante el entrenamiento de modelos de detección y/o segmentación que requieren el etiquetado manual de cientos de imágenes por categoría. Tanto el proceso de etiquetado como el del entrenamiento pueden llegar a ser costosos tanto computacionalmente como a nivel de esfuerzo humano. Las técnicas de segmentación genérica mediante zero-shot learning abren la posibilidad a segmentar objetos nunca antes vistos. Sin embargo, estas técnicas no son semánticas y no nos permiten identificar el objeto que se está segmentando. Nosotros proponemos el uso de un método integrado de segmentación genérica y CP-CVV para detectar y segmentar objetos a partir de una única muestra. Esta técnica permite crear un abanico de posibilidades donde se busca un aprendizaje rápido e incremental y sólo tenemos acceso a una o a un reducido número de imágenes del objeto que deseamos localizar.

Detalles del artículo

Citas

Chen, T., Xie, G.-S., Yao, Y., Wang, Q., Shen, F., Tang, Z., Zhang, J., 2021. Semantically meaningful class prototype learning for one-shot image segmentation. IEEE Transactions on Multimedia 24, 968–980.

Duque-Domingo, J., Aparicio, R. M., Rodrigo, L. M. G., 2023. One shot learning with class partitioning and cross validation voting (cp-cvv). Pattern Recognition 143, 109797.

He, K., Gkioxari, G., Dollár, P., Girshick, R., 2017. Mask r-cnn. In: Proceedings of the IEEE international conference on computer vision. pp. 2961– 2969.

Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A. C., Lo, W.-Y., et al., 2023. Segment anything. arXiv preprint arXiv:2304.02643.

Li, X., Wei, T., Chen, Y. P., Tai, Y.-W., Tang, C.-K., 2020. Fss-1000: A 1000- class dataset for few-shot segmentation. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 2869–2878.

Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.-Y., Berg, A. C., 2016. Ssd: Single shot multibox detector. In: European conference on computer vision. Springer, pp. 21–37.

Liu, Y., Zhang, X., Zhang, S., He, X., 2020. Part-aware prototype network for few-shot semantic segmentation. In: Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part IX 16. Springer, pp. 142–158.

Liu, Z., Mao, H., Wu, C.-Y., Feichtenhofer, C., Darrell, T., Xie, S., 2022. A convnet for the 2020s. arXiv preprint arXiv:2201.03545.

Luddecke, T., Ecker, A., 2021. The role of data for one-shot semantic segmentation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 2653–2658.

Redmon, J., Divvala, S., Girshick, R., Farhadi, A., 2016. You only look once: Unified, real-time object detection. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 779–788.

Shaban, A., Bansal, S., Liu, Z., Essa, I., Boots, B., 2017. One-shot learning for semantic segmentation. arXiv preprint arXiv:1709.03410.

Siddique, N., Paheding, S., Elkin, C. P., Devabhaktuni, V., 2021. U-net and its variants for medical image segmentation: A review of theory and applications. IEEE Access 9, 82031–82057.

Wang, K., Liew, J. H., Zou, Y., Zhou, D., Feng, J., 2019. Panet: Few-shot image semantic segmentation with prototype alignment. In: proceedings of the IEEE/CVF international conference on computer vision. pp. 9197–9206.

Zhang, C., Han, D., Qiao, Y., Kim, J. U., Bae, S.-H., Lee, S., Hong, C. S., 2023. Faster segment anything: Towards lightweight sam for mobile applications. arXiv preprint arXiv:2306.14289.

Zhang, C., Lin, G., Liu, F., Guo, J., Wu, Q., Yao, R., 2019. Pyramid graph networks with connection attentions for region-based one-shot semantic segmentation. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 9587–9595.

Zhang, X., Wei, Y., Li, Z., Yan, C., Yang, Y., 2021. Rich embedding features for one-shot semantic segmentation. IEEE Transactions on Neural Networks and Learning Systems 33 (11), 6484–6493.

Zhang, X.,Wei, Y., Yang, Y., Huang, T. S., 2020. Sg-one: Similarity guidance network for one-shot semantic segmentation. IEEE transactions on cybernetics 50 (9), 3855–3865.