Transformer autorregresivo de grafos esqueléticos

Autores/as

DOI:

https://doi.org/10.17979/ja-cea.2024.45.10773

Palabras clave:

Redes neuronales, Aprendizaje automático, Modelado de series temporales, Sistemas de control de tráfico, Vehı́culos autónomos

Resumen

Analizar, comprender y predecir el comportamiento peatonal es un punto clave en el desarrollo de sistemas de conducción autónoma. En los últimos años, con el desarrollo exponencial en el campo de la visión por computador y el aprendizaje profundo, se han realizado grandes avances en la estimación de la pose humana y la clasificación de secuencias de movimiento en diferentes tipos de actividades. Este artı́culo propone un nuevo método autorregresivo, enfocado en tareas de predicción de movimiento de peatones. El sistema consta de un Transformer, que le permite analizar la información temporal disponible hasta el momento y generar una predicción del futuro inmediato. Además, incluye Redes Convolucionales de Grafos que facilitan la comprensión de la estructura espacial del esqueleto. Se han realizado experimentos sobre el conjunto de datos Kinetics-Skeleton y al final de este artı́culo se discute sobre los resultados y las futuras vı́as de estudio.

Citas

Aksan, E., Kaufmann, M., Cao, P., Hilliges, O., 2021. A spatio-temporal transformer for 3d human motion prediction, in: 2021 International Conference on 3D Vision (3DV), IEEE Computer Society, Los Alamitos, CA, USA. pp. 565–574. doi:10.1109/3DV53792.2021.00066. DOI: https://doi.org/10.1109/3DV53792.2021.00066

Aksan, E., Kaufmann, M., Hilliges, O., 2019. Structured prediction helps 3d human motion modelling. doi:10.1109/ICCV.2019.00724. DOI: https://doi.org/10.1109/ICCV.2019.00724

Cao, Z., Simon, T., Wei, S.E., Sheikh, Y., 2017. Realtime multi-person 2d pose estimation using part affinity fields, in: Proceedings of the IEEE con- ference on computer vision and pattern recognition (CVPR). DOI: https://doi.org/10.1109/CVPR.2017.143

Heidari, N., Iosifidis, A., 2020. Temporal attention-augmented graph convolutional network for efficient skeleton-based human action recognition. CoRR abs/2010.12221. arXiv:2010.12221.

Heidari, N., Iosifidis, A., 2021. On the spatial attention in spatio-temporal graph convolutional networks for skeleton-based human action recognition, in: 2021 International Joint Conference on Neural Networks (IJCNN), pp. 1–7. doi:10.1109/IJCNN52387.2021.9534440. DOI: https://doi.org/10.1109/IJCNN52387.2021.9534440

Hendrycks, D., Gimpel, K., 2016. Bridging nonlinearities and stochastic regularizers with gaussian error linear units. CoRR abs/1606.08415. arXiv:1606.08415.

Jocher, G., Chaurasia, A., Qiu, J., 2023. Ultralytics yolov8. URL: https://github.com/ultralytics/ultralytics.

Kay, W., Carreira, J., Simonyan, K., Zhang, B., Hillier, C., Vijayanarasimhan, S., Viola, F., Green, T., Back, T., Natsev, P., Suleyman, M., Zisserman, A., 2017. The kinetics human action video dataset. CoRR abs/1705.06950. arXiv:1705.06950.

Passalis, N., Pedrazzi, S., Babuska, R., Burgard, W., Dias, D., Ferro, F., Gabbouj, M., Green, O., Iosifidis, A., Kayacan, E., Kober, J., Michel, O., Nikolaidis, N., Nousi, P., Pieters, R., Tzelepi, M., Valada, A., Tefas, A., 2022. Opendr: an open toolkit for enabling high performance, low footprint deep learning for robotics, in: Proceedings of the 2022 IEEE/RSJ international conference on intelligent robots and systems. DOI: https://doi.org/10.1109/IROS47612.2022.9981703

Sherstinsky, A., 2020. Fundamentals of recurrent neural network (rnn) and long short-term memory (lstm) network. Physica D: Nonlinear Phenomena 404, 132306. doi:10.1016/j.physd.2019.132306. DOI: https://doi.org/10.1016/j.physd.2019.132306

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L.u., Polosukhin, I., 2017. Attention is all you need, in: Guyon, I., Luxburg, U.V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., Garnett, R. (Eds.), Advances in neural information processing Systems, Curran Associates, Inc.

Yan, S., Xiong, Y., Lin, D., 2018. Spatial temporal graph convolutional networks for skeleton-based action recognition. Proceedings of the AAAI Conference on Artificial Intelligence 32. doi:10.1609/aaai.v32i1.12328. DOI: https://doi.org/10.1609/aaai.v32i1.12328

Descargas

Publicado

15-07-2024

Número

Sección

Visión por Computador