GeneraRX

framework de generación automática de modelos 3D para RV

Autores/as

  • Pau Mora García UPV
  • Eugenio Ivorra Martínez UPV
  • Mariano Luis Alcañiz Raya UPV

DOI:

https://doi.org/10.17979/ja-cea.2024.45.10826

Palabras clave:

Técnicas de inteligencia artificial, Aprendizaje automático, Interfaces hombre-máquina, Trabajo en entornos reales y virtuales, Internet de las cosas

Resumen

Recientemente, la realidad extendida (RX) ha tomado importancia en diferentes áreas como la educación, la salud, y la industria, aumentando la necesidad de la generación de contenido 3D de calidad personalizado. Sin embargo, esta tecnología presenta un alto nivel de complejidad técnica y grandes costes asociados. Para abordar estos problemas, presentamos GeneraRX, un framework de generación automática de modelos 3D, que busca democratizar esta tecnología implementando Inteligencia Artificial Generativa (IAG) y Modelos de Lenguaje a Gran Escala (LLM). Esta herramienta incluye todos los pasos necesarios para la generación de un objeto 3D y está completamente automatizada. Además, integra métodos del estado del arte como Zero123++ y InstantMesh, así como el novedoso Llama 3. Finalmente, GeneraRX se ha validado mediante un experimento que evalúa la usabilidad a través de un test SUS, demostrando que se ha conseguido simplificar la creación de contenido 3D, permitiendo una interacción más natural para todo tipo de usuarios y eliminando las barreras técnicas.

Citas

Brooke, J., et al., 1996. Sus-a quick and dirty usability scale. Usability evaluation in industry 189 (194), 4–7.

Chen, H., Gu, J., Chen, A., Tian,W., Tu, Z., Liu, L., Su, H., 2023. Single-stage diffusion nerf: a unified approach to 3d generation and reconstruction. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. DOI: https://doi.org/10.1109/ICCV51070.2023.00229

pp. 2416–2425. DOI: 10.48550/arXiv.2304.06714

Deitke, M., Schwenk, D., Salvador, J., Weihs, L., Michel, O., VanderBilt, E., Schmidt, L., Ehsani, K., Kembhavi, A., Farhadi, A., 2023. Objaverse: a universe of annotated 3d objects. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 13142–13153. DOI: 10.48550/arXiv.2212.08051 DOI: https://doi.org/10.1109/CVPR52729.2023.01263

Kenton, J. D. M.-W. C., Toutanova, L. K., 2019. Bert: Pre-training of deep bidirectional transformers for language understanding. In: Proceedings of naacL-HLT. Vol. 1. p. 2.

Liu, R., Wu, R., Van Hoorick, B., Tokmakov, P., Zakharov, S., Vondrick, C., 2023. Zero-1-to-3: zero-shot one image to 3d object. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 9298–9309. DOI: 10.48550/arXiv.2303.11328 DOI: https://doi.org/10.1109/ICCV51070.2023.00853

Meta Platforms, I., 2024a. Introducing meta llama 3: the most capable openly available llm to date. URL: https://ai.meta.com/blog/meta-llama-3/

Meta Platforms, I., 2024b. Wit.ai. URL: https://wit.ai/

Podell, D., English, Z., Lacey, K., Blattmann, A., Dockhorn, T., Müller, J., Penna, J., Rombach, R., 2023. Sdxl: improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952. DOI: 10.48550/arXiv.2307.01952

Radford, A., Narasimhan, K., Salimans, T., Sutskever, I., et al., 2018. Improving language understanding by generative pre-training. Preprint. Reis, R., 2021. Trilib 2. URL: https://ricardoreis.net/trilib-2/

Reis, R., 2021. Trilib 2. URL: https://ricardoreis.net/trilib-2/

Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B., 2022. Highresolution image synthesis with latent diffusion models. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 10684–10695. DOI: 10.48550/arXiv.2112.10752 DOI: https://doi.org/10.1109/CVPR52688.2022.01042

Sauro, J., Lewis, J. R., 2016. Quantifying the user experience: practical statistics for user research. Morgan Kaufmann. DOI: https://doi.org/10.1016/B978-0-12-802308-2.00002-3

Shi, R., Chen, H., Zhang, Z., Liu, M., Xu, C.,Wei, X., Chen, L., Zeng, C., Su, H., 2023. Zero123++: a single image to consistent multi-view diffusion base model. arXiv preprint arXiv:2310.15110. DOI: 10.48550/arXiv.2310.15110

Szymanowicz, S., Rupprecht, C., Vedaldi, A., 2023. Splatter image: ultra-fast single-view 3d reconstruction. arXiv preprint arXiv:2312.13150. DOI: 10.48550/arXiv.2312.13150

Wang, N., Zhang, Y., Li, Z., Fu, Y., Liu, W., Jiang, Y.-G., 2018. Pixel2mesh: generating 3d mesh models from single rgb images. In: Proceedings of the European conference on computer vision (ECCV). pp. 52–67. DOI: 10.48550/arXiv.1804.01654 DOI: https://doi.org/10.1007/978-3-030-01252-6_4

Xu, J., Cheng, W., Gao, Y., Wang, X., Gao, S., Shan, Y., 2024. Instantmesh: efficient 3d mesh generation from a single image with sparse-view large reconstruction models. arXiv preprint arXiv:2404.07191. DOI: 10.48550/arXiv.2404.07191

Zhao, R., Wang, Z., Wang, Y., Zhou, Z., Zhu, J., 2024. Flexidreamer: single image-to-3d generation with flexicubes. arXiv preprint arXiv:2404.00987. DOI: 10.48550/arXiv.2404.00987

Zhou, L., Du, Y., Wu, J., 2021. 3d shape generation and completion through point-voxel diffusion. In: Proceedings of the IEEE/CVF international conference on computer vision. pp. 5826–5835. DOI: 10.48550/arXiv.2104.03670 DOI: https://doi.org/10.1109/ICCV48922.2021.00577

Descargas

Publicado

24-07-2024

Número

Sección

Visión por Computador