u/CreepyArea3141 — reddlx

Vale, antes que nada, por favor, tened paciencia conmigo. Llevo 3 días viendo tutoriales de YouTube y sigo sintiendo que estoy leyendo jeroglíficos antiguos. Vengo en son de paz y de verdad que no sé lo que estoy haciendo.

Lo que intento conseguir es crear un modelo de IA (una persona) hiperrealista, con calidad fotográfica y editorial, que pueda colocar en cualquier lugar, en cualquier situación, con la ropa que quiera. Imaginad esas fotos de influencers con IA increíblemente realistas que veis en Instagram, indistinguibles de las fotos reales. Nada de dibujos animados. No parece una imagen generada por IA. Parece una fotografía real.

Lo he dividido en lo que creo que son 3 flujos de trabajo distintos, aunque sinceramente no sé si esa es la palabra correcta o si lo estoy abordando bien. Por favor, corrígeme si todo este plan es una tontería:

Flujo de trabajo 1: Creación del conjunto de datos de entrenamiento

Empiezo con UNA foto de mi personaje generada por IA y uso alguna herramienta o flujo de trabajo para generar unas 60 imágenes diferentes de esa misma persona: con distinta iluminación, distancias, ángulos, expresiones, entornos, interiores, exteriores, primeros planos, cuerpo entero, de todo. El objetivo es un conjunto de datos coherente pero variado. Pero no tengo ni idea de cómo conseguir que la persona parezca la misma persona en las 60 imágenes. ¿Uso img2img? ¿ControlNet? ¿Alguna herramienta de reconocimiento facial? Ayuda.

Flujo de trabajo 2: Entrenamiento del LoRA + colocación del personaje en cualquier lugar

Una vez que tenga esas 60 imágenes, quiero entrenar un LoRA con ellas. Luego, usar ese LoRA para generar fotos donde mi personaje aparezca en la ubicación o escenario que elija. Pero aquí está el problema: necesito que se vea auténticamente hiperrealista. Como una fotografía editorial. No "fantasía de IA". Hablamos de textura de piel real, interacción de iluminación real, profundidad de campo real. ¿Qué modelo base debería usar? ¿SDXL? ¿Flux? ¿Algún otro? ¿Qué ajustes son realmente importantes para el fotorrealismo? He visto que se mencionan la escala CFG y los muestreadores, pero no tengo ni idea de qué significa todo eso en la práctica.

Flujo de trabajo 3: Añadir objetos/ropa/productos del mundo real

Aquí es donde estoy más perdido. Quiero poder añadir objetos reales específicos a mi personaje. Como una sudadera de una marca, un producto real, un artículo concreto que fotografíe en la vida real. No solo "lleva una camiseta roja", sino que quiero insertar una prenda u objeto real en la imagen y que parezca natural. ¿Es esto un método LoRA diferente? ¿Relleno de imágenes? ¿Alguna combinación de Photoshop e IA? Sinceramente, no tengo ni idea de si esto es posible con alta calidad o si solo estoy soñando.

Y siendo totalmente sincero: Todavía no he podido generar ni una sola imagen hiperrealista. Ni una. Con ningún modelo, ninguna consigna, ninguna referencia facial ni rostro inventado. Todo lo que genero tiene esa cara rara de IA que todo el mundo reconoce a kilómetros de distancia. Así que, antes incluso de pensar en métodos LoRA y flujos de trabajo, necesito entender cómo demonios se genera una imagen que parezca una foto real en ComfyUI. ¿Es el modelo base? ¿La consigna? ¿Los parámetros? ¿Algún punto de control específico para el fotorrealismo? Siento que me estoy saltando un paso fundamental y construyendo castillos en el aire.

Para que quede claro: me refiero a local, en ComfyUI. Sé que puedo obtener buenos resultados con Gemini o ChatGPT o herramientas en línea, pero no es lo que quiero. Quiero que todo funcione en mi propia máquina, gratis, de código abierto, sin suscripciones a la nube. Lo máximo que podría gastar sería una suscripción a Patreon si realmente vale la pena, pero tengo muy poco presupuesto, así que necesito estar seguro antes de gastar nada.

De hecho, me encontré coneste flujo de trabajo de Patreony no estoy seguro de si es exactamente lo que necesito. ¿Alguien lo conoce? ¿Vale la pena para lo que intento hacer?

Contexto adicional:

Mi equipo es un Lenovo Legion 5i con un Intel Core i9-14900HX, 32 GB de RAM DDR5, 1 TB de SSD y una NVIDIA RTX 4070 con 8 GB de VRAM. Creo que es suficiente para ejecutarlo localmente, pero sinceramente no sé si los 8 GB de VRAM serán un cuello de botella, especialmente para el entrenamiento de LoRa.
Uso ComfyUI, pero apenas; puedo seguir un tutorial, pero no puedo crear desde cero.
Tengo instalada la versión estable de Diffusion, pero no sé qué versión debería usar para este objetivo.
Estoy dispuesto a aprender; solo necesito que alguien me indique nombres de flujos de trabajo concretos, modelos recomendados y el orden en que debo abordar las cosas.
Prefiero claramente las API locales y gratuitas a las de pago.

¿Es este un objetivo realista para alguien sin experiencia en aprendizaje automático? ¿Lo estoy complicando demasiado? ¿Hay alguna forma más sencilla que se me esté escapando? Por favor, corríjanme con amabilidad o indíquenme dónde encontrar recursos. He buscado en Google, pero la mitad de los resultados son de 2022 y este tema parece cambiar cada tres semanas, así que no sé qué sigue siendo relevante.

Resumen: Todavía no puedo generar una sola imagen hiperrealista. Quiero crear un personaje de IA consistente con LoRA, colocarlo en cualquier lugar (flujo de trabajo 2) y añadirle ropa y objetos reales (flujo de trabajo 3). Todo local, todo gratuito o casi gratuito. RTX 4070 de 8 GB, 32 GB de RAM. Necesito ayuda para entender todo el proceso desde cero. Por favor, ayuden a alguien que no tiene ni idea 🙏