BLOG · 2026-06-23

Home Assistant + IA: como agentes locais transformam automação residencial em 2026

Home Assistant rodando local + LLM (Llama/Gemma) + Whisper local + TTS. Casa inteligente sem mandar áudio pra nuvem da Amazon ou Google. Arquitetura, hardware mínimo, integração com agentes via MCP e os 5 cuidados que evitam viagens.

Por João Soares · Fundador, AUMI Group · publicado em 2026-06-23

Por que isso virou interessante agora

Até 2024, "casa inteligente com IA" era Alexa entendendo "acende a luz" pelo cloud. Sem privacidade, sem customização real, sem coragem de mandar dado sensível.

Em 2026, mudou: Home Assistant (open source, 1M+ instalações) integra nativamente com LLMs locais via Ollama e com MCP servers. Llama 3.3 ou Gemma 3 rodam em hardware de R$ 3.000. Whisper local transcreve melhor que o assistente comercial. Você tem assistente residencial mais capaz que Alexa, sem mandar 1 byte pra fora de casa.

Stack mínimo que funciona

Home Assistant OS rodando em Raspberry Pi 5 (8GB) ou mini-PC Intel N100. Custo: R$ 800-1.500.
Servidor de IA local separado: mini-PC com NVIDIA RTX 3060 (12GB VRAM) ou Mac Mini M4. Roda Llama 3.3 70B quantizado ou Gemma 3 27B. Custo: R$ 4.000-8.000.
Ollama servindo modelos via API REST. Conexão Home Assistant→Ollama nativa.
Whisper.cpp ou faster-whisper pra transcrição de voz local. Latency ~300ms em GPU modesta.
Piper TTS pra voz de resposta sintetizada local. Vozes pt-BR decentes.
Microfone + speaker distribuídos por cômodo — ESP32-S3 BOX-3, Atom Echo, ou repurpose de Echo antigo flashed.

O que dá pra fazer (de verdade, hoje)

Controle por voz natural: "baixa a luz da sala pra 30% e põe jazz" — o LLM entende intenção composta, não frase enlatada.
Automação contextual: "se chover e eu não estiver em casa, fecha as janelas elétricas" — o agente raciocina sobre estado + previsão.
Briefing matinal personalizado: o agente lê agenda, clima, energia consumida na noite, e gera briefing falado de 30s.
Detecção de anomalia: consumo elétrico fora do padrão, porta aberta tempo demais — alerta no celular antes do dispar de sensor.
Memória: integrado com vault de memória, o agente lembra preferência ("deixa luz quente à noite") sem reconfigurar.

Os 5 cuidados que evitam viagens

Não dê poder de ação irreversível. Desligar disjuntor, destrancar porta, transferir dinheiro — nada disso passa pelo agente sem confirmação explícita. Veja os 7 cortes de agente em produção.
Quantize o modelo certo. Llama 3.3 70B em Q4 (4-bit) usa 40GB RAM. Gemma 3 27B em Q5 cabe em 24GB. Tente rodar Q8 sem GPU e você vai chorar.
Timeout agressivo. Voz parou de responder? Cai pra automação clássica (acende a luz padrão). Nunca trave a casa esperando o LLM.
Backup do Home Assistant cloud-encrypted. Você não quer reconfigurar 80 automções porque o SD card morreu.
Atualização testada. Update do Home Assistant pode quebrar integração. Sempre snapshot antes.

Por que isso importa pra quem não é hobbyist

O mesmo padrão — LLM local + ferramentas restritas + gate humano — é o que funciona em agente corporativo de produção. Quem opera Home Assistant + LLM em casa entende intuitivamente o que vai precisar pra um agente serioe na empresa: observabilidade, escopo mínimo, fallback gracioso, memória persistente.

Casa é o laboratório mais barato pra calibrar o instinto.

Onde a AUMI usa esse padrão

O modelo de IA local + agentes restritos + Brain persistente que descrevemos aqui é o mesmo que a AUMI implementa em cliente que não pode mandar dado pra cloud pública — financeiro, saúde, setor público. Stack diferente (modelos maiores, hardware dedicado), filosofia idêntica. Detalhe no plano HYPER ou comece pelo assessment.

Perguntas frequentes

Quanto custa montar Home Assistant + IA local?

Setup básico: R$ 800-1.500 (Raspberry Pi 5 + acessórios). Setup com IA local potente: + R$ 4.000-8.000 (mini-PC com NVIDIA RTX 3060 ou Mac Mini M4 pra rodar Llama 3.3 70B quantizado).

Funciona offline?

Sim. Whisper.cpp pra STT, Piper pra TTS, Llama/Gemma pra LLM, tudo local. Sem mandar nada pra cloud da Big Tech.

Posso usar Claude/GPT em vez de modelo local?

Pode. Configuração suporta API. Mas perde privacidade (áudio sai pra cloud) e ganha latência + custo por uso. Trade-off honesto.

Como evitar que o agente delete arquivo ou desligue disjuntor por engano?

Princípio de menor privilégio: cada agente tem escopo mínimo. Ações irreversíveis (transferir, apagar, destrancar) **sempre** passam por confirmação humana explícita. Sem exceção.

Por que isso importa pra quem não é hobbyist?

O mesmo padrão (LLM local + ferramentas restritas + gate humano) é o que funciona em agente corporativo de produção. Casa é o laboratório mais barato pra calibrar o instinto.