IA aplicada

Assistente conversacional sem lock-in de plataforma

Chatbots que você hospeda, controla e pode auditar. Sem custo por mensagem, sem vendor lock-in, sem dados de clientes saindo da sua infraestrutura.

conclusão de exames

Assistente para uma clínica de gastroenterologia (~380 pacientes/mês). Llama 3 + LangChain self-hosted, respostas ancoradas só nas diretrizes clínicas. Resultado: +25% de comparecimento a consultas e +40% de conclusão de exames de endoscopia, com a recepção mais leve.

O problema que resolvemos

Plataformas como Blip, Intercom e Zendesk cobram por conversa e retêm seus dados. Quando você quiser sair, o histórico fica — e o custo por mensagem cresce junto com o seu sucesso, punindo justamente o crescimento. Além disso, chatbots genéricos erram no contexto do negócio: respondem com confiança sobre o que não sabem, porque não têm acesso confiável à sua base de conhecimento.

Para setores regulados — saúde, financeiro — há um problema a mais: dados de cliente trafegando por uma plataforma de terceiros é um risco de conformidade que muitas vezes inviabiliza a adoção.

Como construímos

Stack open source (Llama, Mistral) ou Claude via sua própria API, combinada com RAG sobre a sua base de conhecimento, em uma interface que você hospeda. Você fica com tudo: o código, a interface, o histórico e a infraestrutura.

RAG (Retrieval-Augmented Generation) significa que o chatbot responde com base nos seus documentos — PDF, Notion, Confluence, banco de dados — citando a fonte. Não é treino de modelo: você atualiza os documentos e o chatbot passa a usar o conteúdo novo na próxima consulta, sem re-treinar nada. Isso mantém as respostas ancoradas no seu conteúdo real e reduz drasticamente a alucinação.

Quando privacidade é inegociável — como na clínica de gastroenterologia que atendemos (cerca de 380 pacientes/mês) — usamos modelos self-hosted, e os dados nunca deixam a infraestrutura do cliente. Lá, o assistente roda em Llama 3 + LangChain com as respostas restritas às diretrizes clínicas: quando a pergunta sai das fontes que ele tem, ele se recusa a responder em vez de inventar. Entregue via app e WhatsApp, com quiosques de autoatendimento que aliviaram a recepção, o resultado foi +25% de comparecimento a consultas e +40% de conclusão de exames de endoscopia. Uma GPU pequena costuma ser suficiente; ajudamos a dimensionar.

O que você recebe

Um assistente conversacional em produção, integrado ao seu canal (WhatsApp, app, web), respondendo sobre a sua base de conhecimento com citação de fonte. Sem custo por mensagem, sem lock-in, com o histórico e o controle nas suas mãos.

Está pagando por plataforma de chat e quer sair?

Conta a situação — vemos juntos se self-hosted faz sentido no seu caso.

RAG sobre PDF, Notion, Confluence ou banco, com citação de fonte
Stack open source (Llama, Mistral) ou Claude via sua própria API
Interface e dados hospedados na sua infraestrutura
Integração com WhatsApp, app ou backend existente
Sem custo por mensagem e sem retenção de histórico por terceiros
Atualização de conteúdo sem re-treinar modelo

Como entregamos

Engenharia que vira produto

Um time sênior assume o problema de ponta a ponta — do Discovery à entrega em produção.

Sem terceirização opaca: você acompanha as decisões e fica dono do resultado.

Faixas de investimento

Projeto Micro

PoC, site institucional, WhatsApp e chatbots pequenos. Setor não-regulamentado ou seu primeiro projeto de IA.

R$ 25.000 – R$ 65.000

Entrega em semanas
RAG + harness leve

Projeto Pequeno

Escopo bem definido: automação pontual, MVP enxuto, integração focada.

R$ 65.000 – R$ 250.000

Escopo fechado
Entrega em semanas

Projeto Médio

Chatbot com RAG, agente de IA empresarial, MVP SaaS, execução de performance.

R$ 250.000 – R$ 750.000

Arquitetura dedicada
Integrações

Projeto Grande

Modernização de legado, reescrita de sistema, transformação multi-fase.

A partir de R$ 800.000

Múltiplas fases
Time dedicado

Faixas por tier — o serviço define onde você cai. O valor do seu Discovery é fechado na call de 30 min (grátis); a faixa qualitativa do projeto (o build) é refinada no próprio Discovery, e o Discovery é 100% creditado se o projeto seguir.

FAQ

Posso usar com meus documentos internos?

Sim. RAG (Retrieval-Augmented Generation) sobre PDF, Notion, Confluence, banco de dados — o chatbot responde com base no seu conteúdo, com citação de fonte.

Preciso de servidor dedicado?

Para modelos self-hosted (Llama, Mistral), sim — uma GPU pequena é suficiente. Para Claude/GPT via API, qualquer servidor funciona. Ajudamos a dimensionar a infraestrutura.

É difícil treinar com o nosso conteúdo?

Não é treino — é RAG. Você atualiza os documentos e o chatbot passa a usar o conteúdo novo na próxima consulta. Sem re-treinar modelo.

Quanto custa em comparação a uma plataforma SaaS?

O investimento é de projeto, não de mensalidade por mensagem. Depois de entregue, o custo operacional é o do seu servidor. Estimamos em faixa qualitativa no Discovery, descontado se o projeto seguir.

Tem um projeto assim?

Estimar Projeto