Sistema multi-cámara de estimación de pose sin marcadores para pHRI

Santiago Asensio Huonder; Manuel Fernández Carmona; Vicente Arévalo Espejo; Cristina Urdiales García; Jesús Gómez de Gabriel

doi:10.17979/ja-cea.2024.45.10909

Autores/as

Santiago Asensio Huonder Universidad de Málaga
Manuel Fernández Carmona Dpto. de Tecnología Electrónica. Universidad de Málaga https://orcid.org/0000-0002-0512-8594
Vicente Arévalo Espejo Dpto. de Ingeniería de Sistemas y Automática. Universidad de Málaga https://orcid.org/0000-0003-0622-207X
Cristina Urdiales García Dpto. de Tecnología Electrónica. Universidad de Málaga https://orcid.org/0000-0002-9251-6447
Jesús Gómez de Gabriel Dpto. de Ingeniería de Sistemas y Automática. Universidad de Málaga https://orcid.org/0000-0001-5960-3453

DOI:

https://doi.org/10.17979/ja-cea.2024.45.10909

Palabras clave:

Programación y Visión, Diseño, modelado y análisis de HMS, Tecnología asistiva e ingeniería de rehabilitación

Resumen

Este trabajo presenta un sistema basado en visión que utiliza redes neuronales para la estimación de poses humanas en 3D. La solución desarrollada identifica en el sujeto analizado 18 "puntos clave" o keypoints mediante cuatro cámaras RGB calibradas. La utilización de múltiples cámaras permite superar problemas inherentes al uso de una sola cámara RGBD/estéreo como la pérdida de keypoints por la existencia de oclusiones o una mayor incertidumbre en la estimación de la profundidad, proporcionando una base robusta para futuras investigaciones y aplicaciones en campos como la rehabilitación física. Asimismo, se presenta un dataset, que ha sido puesto a disposición de la comunidad, con la posición 3D de los keypoints identificados durante la realización de seis ejercicios distintos. Este trabajo contribuye a la literatura actual ofreciendo un enfoque novedoso en la recopilación y análisis de datos de posturas humanas y demuestra la viabilidad de nuestra metodología, abriendo nuevas vías para investigaciones futuras en el contexto del pHRI.

Referencias

Andriluka, M., Pishchulin, L., Gehler, P., Schiele, B., June 2014. 2d human pose estimation: New benchmark and state of the art analysis. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

Branch, M., Coleman, T., li, Y., 1999. A subspace, interior, and conjugate gradient method for large-scale bound-constrained minimization problems. SIAM Journal on Scientific Computing 21 (1), 1–23.

Cao, Z., Hidalgo Martinez, G., Simon, T., Wei, S., Sheikh, Y. A., 2019. Open-pose: Realtime multi-person 2d pose estimation using part affinity fields. IEEE Transactions on Pattern Analysis and Machine Intelligence.

Cao, Z., Simon, T., Wei, S.-E., Sheikh, Y., 2017. Realtime multi-person 2d pose estimation using part affinity fields. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 1302–1310. DOI: 10.1109/CVPR.2017.143

Chen, C., Yang, Y., Nie, F., Odobez, J.-M., 2011. 3D human pose recovery from image by efficient visual feature selection. Computer Vision and Image Understanding 115 (3), 290–299, special issue on Feature-Oriented Image and Video Computing for Extracting Contexts and Semantics. DOI: 10.1016/j.cviu.2010.11.007

Droeschel, D., Behnke, S., 2011. 3d body pose estimation using an adaptive person model for articulated icp. In: Jeschke, S., Liu, H., Schilberg, D. (Eds.), Intelligent Robotics and Applications. Springer Berlin, Heidelberg, pp. 157–167.

Lin, T., Maire, M., Belongie, S. J., Bourdev, L. D., Girshick, R. B., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C. L., 2014. Microsoft COCO: common objects in context. CoRR abs/1405.0312. DOI: http://arxiv.org/abs/1405.0312

Moryossef, A., Tsochantaridis, I., Dinn, J., Camgoz, N. C., Bowden, R., Jiang, T., Rios, A., Muller, M., Ebling, S., June 2021. Evaluating the immediate applicability of pose estimation for sign language recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops. pp. 3434–3440.

Munaro, M., Basso, F., Menegatti, E., 2016. Openptrack: Open source multi-camera calibration and people tracking for rgbd camera networks. Robotics and Autonomous Systems 75, 525–538. DOI: 10.1016/j.robot.2015.10.004

Newell, A., Yang, K., Deng, J., 2016. Stacked hourglass networks for human pose estimation. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (Eds.), Computer Vision – ECCV 2016. Springer International Publishing, Cham, pp. 483–499.

Suma, E. A., Lange, B., Rizzo, A. S., Krum, D. M., Bolas, M., 2011. Faast: The flexible action and articulated skeleton toolkit. In: 2011 IEEE Virtual Reality Conference. pp. 247–248. DOI: 10.1109/VR.2011.5759491

Sun, K., Xiao, B., Liu, D., Wang, J., June 2019. Deep high-resolution representation learning for human pose estimation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

Unzueta, L., Goenetxea, J., Rodriguez, M., Linaza, M. T., 2014. Viewpoint-dependent 3d human body posing for sports legacy recovery from images and video. p. 361 – 365.

Wei, S.-E., Ramakrishna, V., Kanade, T., Sheikh, Y., June 2016. Convolutional pose machines. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

Xiao, B., Wu, H., Wei, Y., 2018a. Simple baselines for human pose estimation and tracking. In: Proceedings of the European conference on computer vision (ECCV). pp. 466–481.

Xiao, B., Wu, H., Wei, Y., 2018b. Simple baselines for human pose estimation and tracking. In: European Conference on Computer Vision (ECCV).

Yato, C., Welsh, J., 2021. trt pose. https://github.com/NVIDIA-AI-IOT/trt_pose