u/Ichigonixsun — reddlx

Eu sei que é um "feito" nada impressionante, mas ainda assim eu fico admirado com o quão fácil é configurar essas coisas hoje em dia e com o tanto de progresso que foi feito com as LLM open-source e todas as ferramentas de suporte em torno delas.

Com o llama.cpp, foi só instalar o CUDA, clonar o repositório do git, mandar compilar o projeto, baixar uns modelos GGUF (o Qwen3.6 foi 20.6GB) e mandar bala.

É claro, os modelos que cabem na minha VRAM+RAM são bem menos inteligentes que os modelos open-source maiores (Deepseek v4), quem dirá então dos grandes modelos comerciais (Gemini, ChatGPT, Claude, etc...), mas pros meus usos mais casuais, como transcrever fórmulas de imagem pra LaTex, revisão de texto, criar scripts a partir de instruções detalhadas, criar testes, etc... eles me atendem muito bem! O tempo de resposta também é bem razoável, com uma velocidade em torno de ~90 tokens/s.

Existem modelos muito menores até do que o Qwen3.6 35B, mas eu sinceramente nunca achei um uso bom pra eles porque a qualidade é tão ruim que dá mais trabalho corrigir a IA do que fazer tudo você mesmo.

Queria saber qual a experiência de vocês, quais modelos vocês utilizam? Quais tarefas vocês automatizam com LLM local?

Edit: colocando aqui as minhas configurações de hardware pra referência:
CPU: AMD Ryzen 9 9900X
RAM: 32 GiB DDR5 6400 MT/s
GPU: NVIDIA GeForce RTX 5070 Ti