Sistema multi-cámara de estimación de pose sin marcadores para pHRI
Contenido principal del artículo
Resumen
Este trabajo presenta un sistema basado en visión que utiliza redes neuronales para la estimación de poses humanas en 3D. La solución desarrollada identifica en el sujeto analizado 18 "puntos clave" o keypoints mediante cuatro cámaras RGB calibradas. La utilización de múltiples cámaras permite superar problemas inherentes al uso de una sola cámara RGBD/estéreo como la pérdida de keypoints por la existencia de oclusiones o una mayor incertidumbre en la estimación de la profundidad, proporcionando una base robusta para futuras investigaciones y aplicaciones en campos como la rehabilitación física. Asimismo, se presenta un dataset, que ha sido puesto a disposición de la comunidad, con la posición 3D de los keypoints identificados durante la realización de seis ejercicios distintos. Este trabajo contribuye a la literatura actual ofreciendo un enfoque novedoso en la recopilación y análisis de datos de posturas humanas y demuestra la viabilidad de nuestra metodología, abriendo nuevas vías para investigaciones futuras en el contexto del pHRI.
Palabras clave:
Detalles del artículo
Citas
Andriluka, M., Pishchulin, L., Gehler, P., Schiele, B., June 2014. 2d human pose estimation: New benchmark and state of the art analysis. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR). DOI: https://doi.org/10.1109/CVPR.2014.471
Branch, M., Coleman, T., li, Y., 1999. A subspace, interior, and conjugate gradient method for large-scale bound-constrained minimization problems. SIAM Journal on Scientific Computing 21 (1), 1–23. DOI: https://doi.org/10.1137/S1064827595289108
Cao, Z., Hidalgo Martinez, G., Simon, T., Wei, S., Sheikh, Y. A., 2019. Open-pose: Realtime multi-person 2d pose estimation using part affinity fields. IEEE Transactions on Pattern Analysis and Machine Intelligence.
Cao, Z., Simon, T., Wei, S.-E., Sheikh, Y., 2017. Realtime multi-person 2d pose estimation using part affinity fields. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 1302–1310. DOI: 10.1109/CVPR.2017.143 DOI: https://doi.org/10.1109/CVPR.2017.143
Chen, C., Yang, Y., Nie, F., Odobez, J.-M., 2011. 3D human pose recovery from image by efficient visual feature selection. Computer Vision and Image Understanding 115 (3), 290–299, special issue on Feature-Oriented Image and Video Computing for Extracting Contexts and Semantics. DOI: 10.1016/j.cviu.2010.11.007 DOI: https://doi.org/10.1016/j.cviu.2010.11.007
Droeschel, D., Behnke, S., 2011. 3d body pose estimation using an adaptive person model for articulated icp. In: Jeschke, S., Liu, H., Schilberg, D. (Eds.), Intelligent Robotics and Applications. Springer Berlin, Heidelberg, pp. 157–167. DOI: https://doi.org/10.1007/978-3-642-25489-5_16
Lin, T., Maire, M., Belongie, S. J., Bourdev, L. D., Girshick, R. B., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C. L., 2014. Microsoft COCO: common objects in context. CoRR abs/1405.0312. DOI: http://arxiv.org/abs/1405.0312
Moryossef, A., Tsochantaridis, I., Dinn, J., Camgoz, N. C., Bowden, R., Jiang, T., Rios, A., Muller, M., Ebling, S., June 2021. Evaluating the immediate applicability of pose estimation for sign language recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops. pp. 3434–3440. DOI: https://doi.org/10.1109/CVPRW53098.2021.00382
Munaro, M., Basso, F., Menegatti, E., 2016. Openptrack: Open source multi-camera calibration and people tracking for rgbd camera networks. Robotics and Autonomous Systems 75, 525–538. DOI: 10.1016/j.robot.2015.10.004 DOI: https://doi.org/10.1016/j.robot.2015.10.004
Newell, A., Yang, K., Deng, J., 2016. Stacked hourglass networks for human pose estimation. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (Eds.), Computer Vision – ECCV 2016. Springer International Publishing, Cham, pp. 483–499. DOI: https://doi.org/10.1007/978-3-319-46484-8_29
Suma, E. A., Lange, B., Rizzo, A. S., Krum, D. M., Bolas, M., 2011. Faast: The flexible action and articulated skeleton toolkit. In: 2011 IEEE Virtual Reality Conference. pp. 247–248. DOI: 10.1109/VR.2011.5759491 DOI: https://doi.org/10.1109/VR.2011.5759491
Sun, K., Xiao, B., Liu, D., Wang, J., June 2019. Deep high-resolution representation learning for human pose estimation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). DOI: https://doi.org/10.1109/CVPR.2019.00584
Unzueta, L., Goenetxea, J., Rodriguez, M., Linaza, M. T., 2014. Viewpoint-dependent 3d human body posing for sports legacy recovery from images and video. p. 361 – 365.
Wei, S.-E., Ramakrishna, V., Kanade, T., Sheikh, Y., June 2016. Convolutional pose machines. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). DOI: https://doi.org/10.1109/CVPR.2016.511
Xiao, B., Wu, H., Wei, Y., 2018a. Simple baselines for human pose estimation and tracking. In: Proceedings of the European conference on computer vision (ECCV). pp. 466–481.
Xiao, B., Wu, H., Wei, Y., 2018b. Simple baselines for human pose estimation and tracking. In: European Conference on Computer Vision (ECCV). DOI: https://doi.org/10.1007/978-3-030-01231-1_29
Yato, C., Welsh, J., 2021. trt pose. https://github.com/NVIDIA-AI-IOT/trt_pose