Assistente conversacional sem lock-in de plataforma
Chatbots que você hospeda, controla e pode auditar. Sem custo por mensagem, sem vendor lock-in, sem dados de clientes saindo da sua infraestrutura.
conclusão de exames
Assistente para uma clínica de gastroenterologia (~380 pacientes/mês). Llama 3 + LangChain self-hosted, respostas ancoradas só nas diretrizes clínicas. Resultado: +25% de comparecimento a consultas e +40% de conclusão de exames de endoscopia, com a recepção mais leve.
O problema que resolvemos
Plataformas como Blip, Intercom e Zendesk cobram por conversa e retêm seus dados. Quando você quiser sair, o histórico fica — e o custo por mensagem cresce junto com o seu sucesso, punindo justamente o crescimento. Além disso, chatbots genéricos erram no contexto do negócio: respondem com confiança sobre o que não sabem, porque não têm acesso confiável à sua base de conhecimento.
Para setores regulados — saúde, financeiro — há um problema a mais: dados de cliente trafegando por uma plataforma de terceiros é um risco de conformidade que muitas vezes inviabiliza a adoção.
Como construímos
Stack open source (Llama, Mistral) ou Claude via sua própria API, combinada com RAG sobre a sua base de conhecimento, em uma interface que você hospeda. Você fica com tudo: o código, a interface, o histórico e a infraestrutura.
RAG (Retrieval-Augmented Generation) significa que o chatbot responde com base nos seus documentos — PDF, Notion, Confluence, banco de dados — citando a fonte. Não é treino de modelo: você atualiza os documentos e o chatbot passa a usar o conteúdo novo na próxima consulta, sem re-treinar nada. Isso mantém as respostas ancoradas no seu conteúdo real e reduz drasticamente a alucinação.
Quando privacidade é inegociável — como na clínica de gastroenterologia que atendemos (cerca de 380 pacientes/mês) — usamos modelos self-hosted, e os dados nunca deixam a infraestrutura do cliente. Lá, o assistente roda em Llama 3 + LangChain com as respostas restritas às diretrizes clínicas: quando a pergunta sai das fontes que ele tem, ele se recusa a responder em vez de inventar. Entregue via app e WhatsApp, com quiosques de autoatendimento que aliviaram a recepção, o resultado foi +25% de comparecimento a consultas e +40% de conclusão de exames de endoscopia. Uma GPU pequena costuma ser suficiente; ajudamos a dimensionar.
O que você recebe
Um assistente conversacional em produção, integrado ao seu canal (WhatsApp, app, web), respondendo sobre a sua base de conhecimento com citação de fonte. Sem custo por mensagem, sem lock-in, com o histórico e o controle nas suas mãos.
Está pagando por plataforma de chat e quer sair?
Conta a situação — vemos juntos se self-hosted faz sentido no seu caso.
- RAG sobre PDF, Notion, Confluence ou banco, com citação de fonte
- Stack open source (Llama, Mistral) ou Claude via sua própria API
- Interface e dados hospedados na sua infraestrutura
- Integração com WhatsApp, app ou backend existente
- Sem custo por mensagem e sem retenção de histórico por terceiros
- Atualização de conteúdo sem re-treinar modelo
Faixas de investimento
Projeto Micro
PoC, site institucional, WhatsApp e chatbots pequenos. Setor não-regulamentado ou seu primeiro projeto de IA.
R$ 25.000 – R$ 65.000
- Entrega em semanas
- RAG + harness leve
Projeto Pequeno
Escopo bem definido: automação pontual, MVP enxuto, integração focada.
R$ 65.000 – R$ 250.000
- Escopo fechado
- Entrega em semanas
Projeto Médio
Chatbot com RAG, agente de IA empresarial, MVP SaaS, execução de performance.
R$ 250.000 – R$ 750.000
- Arquitetura dedicada
- Integrações
Projeto Grande
Modernização de legado, reescrita de sistema, transformação multi-fase.
A partir de R$ 800.000
- Múltiplas fases
- Time dedicado
Faixas qualitativas. O valor exato sai no Discovery, e é 100% creditado no projeto.
FAQ
Posso usar com meus documentos internos?
Sim. RAG (Retrieval-Augmented Generation) sobre PDF, Notion, Confluence, banco de dados — o chatbot responde com base no seu conteúdo, com citação de fonte.
Preciso de servidor dedicado?
Para modelos self-hosted (Llama, Mistral), sim — uma GPU pequena é suficiente. Para Claude/GPT via API, qualquer servidor funciona. Ajudamos a dimensionar a infraestrutura.
É difícil treinar com o nosso conteúdo?
Não é treino — é RAG. Você atualiza os documentos e o chatbot passa a usar o conteúdo novo na próxima consulta. Sem re-treinar modelo.
Quanto custa em comparação a uma plataforma SaaS?
O investimento é de projeto, não de mensalidade por mensagem. Depois de entregue, o custo operacional é o do seu servidor. Estimamos em faixa qualitativa no Discovery, descontado se o projeto seguir.