🧠 MythraMind IA (V1.5)
Synapse+ Neuro-Grammatical Engine
License: MIT
Language: PT
Hardware: WebGPU / WASM
Architecture: Gram-GRU-Attn
Uma engine híbrida de IA ultra-leve, de baixo consumo, pensada para rodar e treinar localmente no navegador, inclusive em smartphones.
🎯 Filosofia
Os modelos de linguagem modernos enfrentam dois grandes gargalos em dispositivos móveis: a largura de banda de memória e o custo quadrático da atenção.
O MythraMind IA aborda esse problema dividindo a geração de linguagem em duas camadas principais:
Estrutura sintática
O modelo gera primeiro o esqueleto gramatical da resposta em um espaço latente reduzido, com menos de 100 categorias gramaticais (POS tags).Preenchimento léxico (Lexicon Infiller)
Um motor de inferência rápido completa a estrutura com palavras reais, usando o contexto disponível no momento.
💡 Resultado: menor uso de memória de contexto e geração mais eficiente em dispositivos móveis, com suporte a geração multi-token em paralelo.
🏗️ Arquitetura híbrida: Gram-GRU-Attn
A topologia neural substitui blocos densos de Transformers por uma arquitetura recorrente de alta eficiência:
┌──────────────────────┐
│ Query do usuário │
└──────────┬───────────┘
▼
┌──────────────────────┐
│ Embeddings de categoria │
└──────────┬───────────┘
├──────────────────────┐
▼ ▼
┌──────────────────────┐ ┌──────────────────────┐
│ Gram-GRU │ │ Atenção linear │
│ (sintaxe curta) │ │ (contexto longo) │
└──────────┬───────────┘ └──────────┬───────────┘
└──────────┬─────────────┘
▼
┌──────────────────────────┐
│ Projeção multi-cabeça │
│ (MTP Select) │
└──────────────────────────┘
Características amigáveis ao hardware
- Atenção linear constante O(1): reduz o peso do cache KV e ajuda o histórico de conversa a permanecer estável mesmo em celulares.
- Gram-GRU local: recorrência otimizada para auxiliar concordância, tempos verbais, singular/plural e consistência textual.
🚀 Principais inovações da V1.5
1. Multi-Token Prediction (MTP) configurável
Escolha a velocidade ideal para o dispositivo na hora de gerar a estrutura:
- Mono-token (1x): decodificação focada em máxima precisão sintática.
- Multi-token (2x ou 3x): projeta múltiplos tokens na mesma passada matemática, aumentando a taxa de geração.
2. Treino local via cadeia de pensamento (Q:T:A)
Ajuste fino local na CPU/GPU do dispositivo, sem enviar dados para a nuvem:
- Question (Q) → Thinking (T) → Answer (A)
- O modelo reflete sobre a semântica abstrata (T) antes de realizar a tradução léxica estruturada (A).
3. Escudo de estabilidade integrado
Salvaguardas matemáticas para reduzir colapso catastrófico durante aprendizado local:
- Regularização por entropia de temperatura:
L_reg = -β · H(P)para previsões mais estáveis. - Clipping de gradiente adaptativo (AGC): ajuda a estabilizar gradientes em conjuntos de dados menores e privados.
📊 Especificações técnicas e formato do modelo
O pacote compactado de distribuição usa o formato lógico .mind.
Divisão dos componentes do formato .mind
| Módulo | Tipo | Função principal | Estruturas principais |
|---|---|---|---|
| M — Motor | Estático | Léxico estável, estatísticas BM25+ e índices trigramáticos | brain, clauses, triIdx, idfCache |
| G — Gramática | Treinável | Pesos neurais das transições sintáticas e atenção linear | Gram-GRU, linear_proj, MTP_heads |
| S — Sessão | Dinâmico | Estado temporário da conversa e buffers de treino | ctxVec, usedHashes, mutSlots |
🛠️ Como funciona o fluxo de execução
Quando o usuário envia uma mensagem sobre um tema específico, a engine executa este pipeline:
Recuperação de contexto (Synapse+): busca entidades relacionadas via BM25+ dinâmico e busca tolerante a erros (Char Trigram Fuzzy).
Atenção relacional: a rede conecta o histórico ao contexto atual.
Decisão do esqueleto (Gram-GRU):
Sintaxe gerada: [ART:M:S] → [SUB:M:S] → [VERB:PRES:3P] → [ADJ:M:S]Composição (Lexicon Infiller):
Texto final: "O" → "computador" → "pensa" → "rápido."
📅 Roadmap de desenvolvimento
- V1.0 — Base de conhecimento: lançamento da engine clássica e do parser do fluxo de busca híbrida.
- V1.5 — Motor neuro-gramatical (atual): integração da Gram-GRU, suporte a MTP dinâmico e treino contínuo no browser.
- V2.0 — Aceleração nativa (próxima fase): shaders WebGPU dedicados a otimizar a atenção linear em processadores móveis.
📄 Licença
Distribuído sob a licença MIT. Consulte o arquivo LICENSE para mais detalhes.