GeneraRX framework de generación automática de modelos 3D para RV
Contenido principal del artículo
Resumen
Recientemente, la realidad extendida (RX) ha tomado importancia en diferentes áreas como la educación, la salud, y la industria, aumentando la necesidad de la generación de contenido 3D de calidad personalizado. Sin embargo, esta tecnología presenta un alto nivel de complejidad técnica y grandes costes asociados. Para abordar estos problemas, presentamos GeneraRX, un framework de generación automática de modelos 3D, que busca democratizar esta tecnología implementando Inteligencia Artificial Generativa (IAG) y Modelos de Lenguaje a Gran Escala (LLM). Esta herramienta incluye todos los pasos necesarios para la generación de un objeto 3D y está completamente automatizada. Además, integra métodos del estado del arte como Zero123++ y InstantMesh, así como el novedoso Llama 3. Finalmente, GeneraRX se ha validado mediante un experimento que evalúa la usabilidad a través de un test SUS, demostrando que se ha conseguido simplificar la creación de contenido 3D, permitiendo una interacción más natural para todo tipo de usuarios y eliminando las barreras técnicas.
Palabras clave:
Detalles del artículo
Citas
Brooke, J., et al., 1996. Sus-a quick and dirty usability scale. Usability evaluation in industry 189 (194), 4–7.
Chen, H., Gu, J., Chen, A., Tian,W., Tu, Z., Liu, L., Su, H., 2023. Single-stage diffusion nerf: a unified approach to 3d generation and reconstruction. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. DOI: https://doi.org/10.1109/ICCV51070.2023.00229
pp. 2416–2425. DOI: 10.48550/arXiv.2304.06714
Deitke, M., Schwenk, D., Salvador, J., Weihs, L., Michel, O., VanderBilt, E., Schmidt, L., Ehsani, K., Kembhavi, A., Farhadi, A., 2023. Objaverse: a universe of annotated 3d objects. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 13142–13153. DOI: 10.48550/arXiv.2212.08051 DOI: https://doi.org/10.1109/CVPR52729.2023.01263
Kenton, J. D. M.-W. C., Toutanova, L. K., 2019. Bert: Pre-training of deep bidirectional transformers for language understanding. In: Proceedings of naacL-HLT. Vol. 1. p. 2.
Liu, R., Wu, R., Van Hoorick, B., Tokmakov, P., Zakharov, S., Vondrick, C., 2023. Zero-1-to-3: zero-shot one image to 3d object. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 9298–9309. DOI: 10.48550/arXiv.2303.11328 DOI: https://doi.org/10.1109/ICCV51070.2023.00853
Meta Platforms, I., 2024a. Introducing meta llama 3: the most capable openly available llm to date. URL: https://ai.meta.com/blog/meta-llama-3/
Meta Platforms, I., 2024b. Wit.ai. URL: https://wit.ai/
Podell, D., English, Z., Lacey, K., Blattmann, A., Dockhorn, T., Müller, J., Penna, J., Rombach, R., 2023. Sdxl: improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952. DOI: 10.48550/arXiv.2307.01952
Radford, A., Narasimhan, K., Salimans, T., Sutskever, I., et al., 2018. Improving language understanding by generative pre-training. Preprint. Reis, R., 2021. Trilib 2. URL: https://ricardoreis.net/trilib-2/
Reis, R., 2021. Trilib 2. URL: https://ricardoreis.net/trilib-2/
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B., 2022. Highresolution image synthesis with latent diffusion models. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 10684–10695. DOI: 10.48550/arXiv.2112.10752 DOI: https://doi.org/10.1109/CVPR52688.2022.01042
Sauro, J., Lewis, J. R., 2016. Quantifying the user experience: practical statistics for user research. Morgan Kaufmann. DOI: https://doi.org/10.1016/B978-0-12-802308-2.00002-3
Shi, R., Chen, H., Zhang, Z., Liu, M., Xu, C.,Wei, X., Chen, L., Zeng, C., Su, H., 2023. Zero123++: a single image to consistent multi-view diffusion base model. arXiv preprint arXiv:2310.15110. DOI: 10.48550/arXiv.2310.15110
Szymanowicz, S., Rupprecht, C., Vedaldi, A., 2023. Splatter image: ultra-fast single-view 3d reconstruction. arXiv preprint arXiv:2312.13150. DOI: 10.48550/arXiv.2312.13150
Wang, N., Zhang, Y., Li, Z., Fu, Y., Liu, W., Jiang, Y.-G., 2018. Pixel2mesh: generating 3d mesh models from single rgb images. In: Proceedings of the European conference on computer vision (ECCV). pp. 52–67. DOI: 10.48550/arXiv.1804.01654 DOI: https://doi.org/10.1007/978-3-030-01252-6_4
Xu, J., Cheng, W., Gao, Y., Wang, X., Gao, S., Shan, Y., 2024. Instantmesh: efficient 3d mesh generation from a single image with sparse-view large reconstruction models. arXiv preprint arXiv:2404.07191. DOI: 10.48550/arXiv.2404.07191
Zhao, R., Wang, Z., Wang, Y., Zhou, Z., Zhu, J., 2024. Flexidreamer: single image-to-3d generation with flexicubes. arXiv preprint arXiv:2404.00987. DOI: 10.48550/arXiv.2404.00987
Zhou, L., Du, Y., Wu, J., 2021. 3d shape generation and completion through point-voxel diffusion. In: Proceedings of the IEEE/CVF international conference on computer vision. pp. 5826–5835. DOI: 10.48550/arXiv.2104.03670 DOI: https://doi.org/10.1109/ICCV48922.2021.00577