Contenido principal del artículo

Jaime Villa Plaza
Universidad Carlos III de Madrid
España
https://orcid.org/0009-0003-1724-4933
Arturo de la Escalera Hueso
Universidad Carlos III de Madrid
España
https://orcid.org/0000-0002-2618-857X
José María Armingol Moreno
Universidad Carlos III de Madrid
España
https://orcid.org/0000-0002-3353-9956
Núm. 45 (2024), Visión por Computador
DOI: https://doi.org/10.17979/ja-cea.2024.45.10773
Recibido: may. 27, 2024 Aceptado: jul. 1, 2024 Publicado: jul. 15, 2024
Derechos de autor

Resumen

Analizar, comprender y predecir el comportamiento peatonal es un punto clave en el desarrollo de sistemas de conducción autónoma. En los últimos años, con el desarrollo exponencial en el campo de la visión por computador y el aprendizaje profundo, se han realizado grandes avances en la estimación de la pose humana y la clasificación de secuencias de movimiento en diferentes tipos de actividades. Este artı́culo propone un nuevo método autorregresivo, enfocado en tareas de predicción de movimiento de peatones. El sistema consta de un Transformer, que le permite analizar la información temporal disponible hasta el momento y generar una predicción del futuro inmediato. Además, incluye Redes Convolucionales de Grafos que facilitan la comprensión de la estructura espacial del esqueleto. Se han realizado experimentos sobre el conjunto de datos Kinetics-Skeleton y al final de este artı́culo se discute sobre los resultados y las futuras vı́as de estudio.

Detalles del artículo

Citas

Aksan, E., Kaufmann, M., Cao, P., Hilliges, O., 2021. A spatio-temporal transformer for 3d human motion prediction, in: 2021 International Conference on 3D Vision (3DV), IEEE Computer Society, Los Alamitos, CA, USA. pp. 565–574. doi:10.1109/3DV53792.2021.00066.

Aksan, E., Kaufmann, M., Hilliges, O., 2019. Structured prediction helps 3d human motion modelling. doi:10.1109/ICCV.2019.00724.

Cao, Z., Simon, T., Wei, S.E., Sheikh, Y., 2017. Realtime multi-person 2d pose estimation using part affinity fields, in: Proceedings of the IEEE con- ference on computer vision and pattern recognition (CVPR).

Heidari, N., Iosifidis, A., 2020. Temporal attention-augmented graph convolutional network for efficient skeleton-based human action recognition. CoRR abs/2010.12221. arXiv:2010.12221.

Heidari, N., Iosifidis, A., 2021. On the spatial attention in spatio-temporal graph convolutional networks for skeleton-based human action recognition, in: 2021 International Joint Conference on Neural Networks (IJCNN), pp. 1–7. doi:10.1109/IJCNN52387.2021.9534440.

Hendrycks, D., Gimpel, K., 2016. Bridging nonlinearities and stochastic regularizers with gaussian error linear units. CoRR abs/1606.08415. arXiv:1606.08415.

Jocher, G., Chaurasia, A., Qiu, J., 2023. Ultralytics yolov8. URL: https://github.com/ultralytics/ultralytics.

Kay, W., Carreira, J., Simonyan, K., Zhang, B., Hillier, C., Vijayanarasimhan, S., Viola, F., Green, T., Back, T., Natsev, P., Suleyman, M., Zisserman, A., 2017. The kinetics human action video dataset. CoRR abs/1705.06950. arXiv:1705.06950.

Passalis, N., Pedrazzi, S., Babuska, R., Burgard, W., Dias, D., Ferro, F., Gabbouj, M., Green, O., Iosifidis, A., Kayacan, E., Kober, J., Michel, O., Nikolaidis, N., Nousi, P., Pieters, R., Tzelepi, M., Valada, A., Tefas, A., 2022. Opendr: an open toolkit for enabling high performance, low footprint deep learning for robotics, in: Proceedings of the 2022 IEEE/RSJ international conference on intelligent robots and systems.

Sherstinsky, A., 2020. Fundamentals of recurrent neural network (rnn) and long short-term memory (lstm) network. Physica D: Nonlinear Phenomena 404, 132306. doi:10.1016/j.physd.2019.132306.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L.u., Polosukhin, I., 2017. Attention is all you need, in: Guyon, I., Luxburg, U.V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., Garnett, R. (Eds.), Advances in neural information processing Systems, Curran Associates, Inc.

Yan, S., Xiong, Y., Lin, D., 2018. Spatial temporal graph convolutional networks for skeleton-based action recognition. Proceedings of the AAAI Conference on Artificial Intelligence 32. doi:10.1609/aaai.v32i1.12328.