Transformer autorregresivo de grafos esqueléticos
DOI:
https://doi.org/10.17979/ja-cea.2024.45.10773Palabras clave:
Redes neuronales, Aprendizaje automático, Modelado de series temporales, Sistemas de control de tráfico, Vehı́culos autónomosResumen
Analizar, comprender y predecir el comportamiento peatonal es un punto clave en el desarrollo de sistemas de conducción autónoma. En los últimos años, con el desarrollo exponencial en el campo de la visión por computador y el aprendizaje profundo, se han realizado grandes avances en la estimación de la pose humana y la clasificación de secuencias de movimiento en diferentes tipos de actividades. Este artı́culo propone un nuevo método autorregresivo, enfocado en tareas de predicción de movimiento de peatones. El sistema consta de un Transformer, que le permite analizar la información temporal disponible hasta el momento y generar una predicción del futuro inmediato. Además, incluye Redes Convolucionales de Grafos que facilitan la comprensión de la estructura espacial del esqueleto. Se han realizado experimentos sobre el conjunto de datos Kinetics-Skeleton y al final de este artı́culo se discute sobre los resultados y las futuras vı́as de estudio.
Citas
Aksan, E., Kaufmann, M., Cao, P., Hilliges, O., 2021. A spatio-temporal transformer for 3d human motion prediction, in: 2021 International Conference on 3D Vision (3DV), IEEE Computer Society, Los Alamitos, CA, USA. pp. 565–574. doi:10.1109/3DV53792.2021.00066. DOI: https://doi.org/10.1109/3DV53792.2021.00066
Aksan, E., Kaufmann, M., Hilliges, O., 2019. Structured prediction helps 3d human motion modelling. doi:10.1109/ICCV.2019.00724. DOI: https://doi.org/10.1109/ICCV.2019.00724
Cao, Z., Simon, T., Wei, S.E., Sheikh, Y., 2017. Realtime multi-person 2d pose estimation using part affinity fields, in: Proceedings of the IEEE con- ference on computer vision and pattern recognition (CVPR). DOI: https://doi.org/10.1109/CVPR.2017.143
Heidari, N., Iosifidis, A., 2020. Temporal attention-augmented graph convolutional network for efficient skeleton-based human action recognition. CoRR abs/2010.12221. arXiv:2010.12221.
Heidari, N., Iosifidis, A., 2021. On the spatial attention in spatio-temporal graph convolutional networks for skeleton-based human action recognition, in: 2021 International Joint Conference on Neural Networks (IJCNN), pp. 1–7. doi:10.1109/IJCNN52387.2021.9534440. DOI: https://doi.org/10.1109/IJCNN52387.2021.9534440
Hendrycks, D., Gimpel, K., 2016. Bridging nonlinearities and stochastic regularizers with gaussian error linear units. CoRR abs/1606.08415. arXiv:1606.08415.
Jocher, G., Chaurasia, A., Qiu, J., 2023. Ultralytics yolov8. URL: https://github.com/ultralytics/ultralytics.
Kay, W., Carreira, J., Simonyan, K., Zhang, B., Hillier, C., Vijayanarasimhan, S., Viola, F., Green, T., Back, T., Natsev, P., Suleyman, M., Zisserman, A., 2017. The kinetics human action video dataset. CoRR abs/1705.06950. arXiv:1705.06950.
Passalis, N., Pedrazzi, S., Babuska, R., Burgard, W., Dias, D., Ferro, F., Gabbouj, M., Green, O., Iosifidis, A., Kayacan, E., Kober, J., Michel, O., Nikolaidis, N., Nousi, P., Pieters, R., Tzelepi, M., Valada, A., Tefas, A., 2022. Opendr: an open toolkit for enabling high performance, low footprint deep learning for robotics, in: Proceedings of the 2022 IEEE/RSJ international conference on intelligent robots and systems. DOI: https://doi.org/10.1109/IROS47612.2022.9981703
Sherstinsky, A., 2020. Fundamentals of recurrent neural network (rnn) and long short-term memory (lstm) network. Physica D: Nonlinear Phenomena 404, 132306. doi:10.1016/j.physd.2019.132306. DOI: https://doi.org/10.1016/j.physd.2019.132306
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L.u., Polosukhin, I., 2017. Attention is all you need, in: Guyon, I., Luxburg, U.V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., Garnett, R. (Eds.), Advances in neural information processing Systems, Curran Associates, Inc.
Yan, S., Xiong, Y., Lin, D., 2018. Spatial temporal graph convolutional networks for skeleton-based action recognition. Proceedings of the AAAI Conference on Artificial Intelligence 32. doi:10.1609/aaai.v32i1.12328. DOI: https://doi.org/10.1609/aaai.v32i1.12328
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2024 Jaime Villa Plaza, Arturo de la Escalera Hueso, José María Armingol Moreno
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.