u/DepartureWorried5546

Tenía un montón de pdfs que quería digitalizar y extraer su información, y lo que hice fue lanzar 3 modelos a la vez, Qwen, KimiDev y Pixtral con vLLM, Pixtral en este caso lo usé para eliminar páginas vacias que no contenían texto y eran más imágenes por lo que quería primero filtrar contenido relevante, estos 3 modelos los lancé en una AMD MI300X y me tomó como 1 hora y media hacerlo todo aunque sigo pensando si había alguna mejor manera. Kimi Dev lo usé más para revisar las salidas en jsonl, y qwen lo usé como orquestador. Este es el flujo de manera muy simplificada, aunque la extracción no fue del todo buena digamos que pude extraer un 75% de información válida.

reddit.com
u/DepartureWorried5546 — 12 days ago

Para mi es algo nuevo y muy interesante, básicamente te instalas KASM en tu vps y puedes acceder a espacios aislados dentro de tu navegador, para poner un ejemplo, pudimos correr un editor de video KDENLIVE desde la laptop de mi amigo que no es muy potente, porque el editor se ejecuta en el vps, y nosotros la controlamos desde el navegador, es como un escritorio remoto pero sin toda esa complejidad, sino que tienes un dashboard y todo, alguien lo ha probado? O si no es este el foro para hablar de eso donde se puede intercambiar cosas como estas pero en Ecuador, saludos!

reddit.com
u/DepartureWorried5546 — 19 days ago