Você fala, ele entende e ele faz. Não é mágica nem coisa de programador — é uma sequência de peças simples encaixadas. Aqui você entende cada uma e monta a sua.
O que acontece, do momento em que você fala até a resposta — sem mágica, peça por peça.
"Ei, Jarvis" ou a tecla espaço dão o start.
O microfone grava até você parar de falar.
Sua fala é transcrita em palavras.
O cérebro entende e decide o que fazer.
Usa ferramentas: cérebro, arquivos, campanhas…
Fala de volta com a sua voz clonada.
A onda no centro pulsa com a fala.
Três peças trabalham juntas pra transformar o som da sua voz em algo que a IA entende.
O Claude recebe seu texto + o histórico + o contexto do Segundo Cérebro — e decide.
É aqui que o Obsidian entra: a memória do JARVIS. Uma pasta de notas no seu PC que ele lê e escreve — como um caderno pessoal que ele consulta e atualiza.
Se o Cérebro decide, as Mãos executam. Cada ferramenta nova é uma coisa a mais que ele faz por você.
As quatro perguntas que travam todo mundo — respondidas.
A lista de peças. Faça na ordem — cada item desbloqueia o próximo.
O passo a passo certo (e as pegadinhas que fazem a chave "não funcionar").
Abra o Claude Code numa pasta vazia e cole. Ele faz perguntas, te orienta a pegar as chaves e constrói em etapas, testando cada uma.
Você é meu engenheiro pessoal e vai me CONDUZIR, do zero e em passos curtos, a construir um assistente por voz estilo JARVIS: app desktop em Electron, captura de microfone, transcrição com ElevenLabs Scribe, envio ao Claude via API com tool use, e resposta falada com ElevenLabs TTS (voz clonada opcional). UI minimalista: fundo preto com uma linha de onda no centro que reage ao áudio (meu e do JARVIS) e muda de cor por estado (idle/ouvindo/pensando/falando). Chaves num .env (nunca commitar; pedir permissão de microfone). No FIM, opcional: palavra de ativação "Ei Jarvis" via openWakeWord (Python). Sou iniciante: explique simples, faça UMA etapa por vez e TESTE cada uma antes de seguir. ANTES de codar, me pergunte meu sistema, se já tenho as chaves (e onde pegar), quais ferramentas o assistente terá e o caminho do meu Obsidian. Aguarde minhas respostas e então comece.
Você é meu engenheiro de software pessoal e meu guia. Vamos construir JUNTOS, do zero, um assistente pessoal por voz estilo JARVIS — um app de computador que eu falo e ele me responde por voz. Eu sou INICIANTE, então sua missão é me CONDUZIR passo a passo, explicando tudo em linguagem simples (sem jargão; quando um termo técnico for inevitável, explique como se eu tivesse 12 anos). == O QUE VAMOS CONSTRUIR == 1. App desktop em Electron (janela própria, não no navegador). 2. Captura do microfone. 3. Transcrição da fala (voz → texto) com ElevenLabs Scribe. 4. Envio do texto ao Claude pela API da Anthropic, COM TOOL USE. 5. Resposta falada (texto → voz) com ElevenLabs TTS, com opção de voz clonada. 6. Interface minimalista: fundo preto e UMA linha de onda no centro que REAGE ao áudio (minha voz e a do JARVIS) e MUDA DE COR por estado: idle, ouvindo, pensando, falando. 7. Chaves de API num arquivo .env (nunca no código nem no Git). 8. ETAPA OPCIONAL no fim: palavra de ativação "Ei Jarvis" com openWakeWord (Python). == COMO ME CONDUZIR (regras de ouro) == - PRIMEIRO faça as perguntas abaixo e ESPERE minhas respostas. Não escreva código antes. - Trabalhe em ETAPAS CURTAS. A cada etapa: (a) explique em 2-3 frases o que vamos fazer; (b) diga os comandos exatos e os arquivos a criar; (c) explique em 1 frase o que cada arquivo faz; (d) diga COMO TESTAR; (e) só avance quando eu confirmar que funcionou. - Quando der ERRO: explique em linguagem simples a causa, a correção e o comando exato. - Suponha que eu não sei usar o terminal — explique cada comando antes de eu rodar. - Boas práticas: segredos só no .env; criar .gitignore (ignorando .env e node_modules) ANTES de qualquer commit; explicar a permissão de microfone. Prefira código simples e comentado. == PERGUNTAS QUE VOCÊ DEVE ME FAZER AGORA (e aguardar) == 1. Meu sistema operacional (Windows, macOS ou Linux) e versão? 2. Já tenho Node.js, Git e um editor? (Se eu não souber, me ensine a verificar e instalar.) 3. Já tenho as chaves? Anthropic (Claude) e ElevenLabs. Se não, me diga PASSO A PASSO onde criar cada uma, o cuidado do crédito na Anthropic, e como achar o Voice ID / clonar a voz. 4. Quais FERRAMENTAS o JARVIS deve ter no começo? Sugira de 2 a 4 simples e me deixe escolher. 5. Quero memória lendo minhas notas do Obsidian? Se sim, qual o caminho da pasta (vault)? 6. Voz clonada ou uma voz pronta no começo? Depois que eu responder, me mostre o PLANO em etapas numeradas e comece pela Etapa 1 (ambiente + janela Electron preta com a linha reagindo ao microfone), testando antes de seguir. Vá uma etapa de cada vez, sempre confirmando comigo. Pode começar fazendo as perguntas.
> DICA: depois que funcionar, vá pedindo melhorias ("deixa minimalista", "muda a cor", "adiciona tal ferramenta"). O segredo é a conversa, não acertar de primeira.
Instale, gere a primeira chave e ouça ele responder. O "impossível" começa a funcionar no minuto em que você tenta.