u/AlanHelu

Anyone with similar bug?

Mas o motivo real de estarmos nessa etapa é que o Ollama v0.20.2 tem um bug

de Metal shaders no macOS Tahoe 26.3.1 — os tipos bfloat/half não compilam

nos shaders do MetalPerformancePrimitives. Nenhum modelo carrega via

Ollama nessa versão do macOS. Por isso troquei para o MLX-LM (framework

nativo da Apple para inferência em Apple Silicon), que tem sua própria

implementação Metal e deve funcionar.

Resumo do caminho até aqui:

forma)

Uma vez que o modelo MLX baixar, a inferência em si deve ser rápida (~50-80

tok/s no M5).