Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Avi Chawla
Tutoriais diários e insights sobre DS, ML, LLMs e RAGs • Co-fundador @dailydoseofds_ • IIT Varanasi • ex-engenheiro de IA @ MastercardAI
Esse novo banco de dados de grafos é 496x mais rápido que o Neo4j!
(código aberto)
Deixe-me explicar o porquê:
Um banco de dados tradicional de grafos armazena duas coisas: nós (entidades) e arestas (relações entre elas).
Quando você consulta um banco de dados tradicional de grafos, ele percorre por meio de "perseguir ponteiros":
→ Comece em um nó
→ Siga um ponteiro para o nó conectado
→ Siga outra dica
→ Repita
Isso é inerentemente sequencial. Um pulo de cada vez. E conforme seu gráfico cresce, isso fica dolorosamente lento.
FalkorDB faz uma pergunta diferente:
E se representarmos o grafo inteiro como uma matriz?
Veja como funciona:
Imagine uma grade simples. Linhas são nós de origem, colunas são nós de destino.
Se Mary seguir Bob, você define a posição [Mary, Bob] = 1.
É isso. Seu grafo inteiro agora é uma matriz de 1s e 0s.
Vamos chamar isso de matriz Follows (F).
Aqui é onde fica interessante:
Descobrir quem os amigos da Mary seguem? Em uma base de dados tradicional de grafos, você pula duas vezes: Mary → amigos → amigos dos amigos.
Mas com matrizes, você multiplica a matriz de Follows por si mesma: F × F = F².
Basta uma operação, e pronto!
Da mesma forma, um padrão complexo como "A segue B, B gosta de C" se torna: Segue × Gostos.
Isso significa que você pode representar a travessia como operações matemáticas.
Por que isso importa:
- Operações matriciais otimizadas há 50+ anos
- Hardware moderno (CPUs/GPUs) é feito para processar matrizes
- Operações rodam em paralelo (a perseguição de ponteiros simplesmente não pode)
Embora haja algumas otimizações a mais envolvidas (como usar matrizes esparsas, escritas em C, etc.), essa abordagem torna o FalkorDB 496x mais rápido que o Neo4j.
O gráfico abaixo mostra essa diferença claramente.
Bancos de dados tradicionais de grafos passam por Cypher QL → Travessia Baseada em Ponteiros, enquanto o FalkorDB utiliza um Planejador Consciente de Matrizes que converte consultas em operações matriciais.
FalkorDB é construído inteiramente sobre este princípio:
- Módulo Redis nativo (em memória, ultra-rápido)
- Alimentado por GraphBLAS para operações de matriz esparsa
- Autotraduz consultas de cifra em álgebra matricial
Isso é extremamente importante para aplicações de IA porque...
Agentes modernos de IA e sistemas RAG precisam atravessar relacionamentos complexos em tempo real. Quando um agente raciocina por meio de um grafo de conhecimento, conectando usuários a ações e resultados, cada milissegundo de latência se acumula.
Bases de dados vetoriais capturam similaridade semântica. Mas eles não percebem relacionamentos explícitos.
Grafos de conhecimento preenchem essa lacuna.
E quando seu agente precisa realizar raciocínio multi-hop entre milhares de entidades conectadas, a travessia baseada em matrizes facilita a escalabilidade da sua aplicação de IA sem enfrentar gargalos de latência.
FalkorDB é 100% open-source, e você pode ver a implementação completa no GitHub e testar por conta própria.
Compartilhei um link para o repositório do GitHub deles nas respostas.
4,54K
8 arquiteturas de modelos de IA, explicadas visualmente:
Todo mundo fala sobre LLMs, mas existe toda uma família de modelos especializados fazendo coisas incríveis.
Aqui vai um resumo rápido:
1. LLM (Grandes Modelos de Linguagem)
O texto entra, é tokenizado em embeddings, processado por transformadores e o texto sai.
↳ GPT, Claude, Gêmeos, Lhama.
2. LCM (Modelos Conceituais Grandes)
Funciona no nível conceitual, não nos tokens. A entrada é segmentada em frases, passada por embeddings SONAR e então usa difusão antes da saída.
↳ O LCM do Meta é o pioneiro.
3. LAM (Modelos de Ação Grande)
Transforma a intenção em ação. A entrada passa por percepção, reconhecimento de intenção, decomposição de tarefas e depois planejamento de ações com memória antes da execução.
↳ Coelho R1, Microsoft UFO, Claude Uso de Computador.
4. MoE (Mistura de Especialistas)
Um roteador decide quais "especialistas" especializados lidam com sua consulta. Apenas especialistas relevantes ativam. Os resultados passam pela seleção e processamento.
↳ Mixtral, GPT-4, DeepSeek.
5. VLM (Modelos de Visão-Linguagem)
Imagens passam por um codificador de visão, o texto por um codificador de texto. Ambos se fundem em um processador multimodal, então um modelo de linguagem gera saída.
↳ GPT-4V, Gemini Pro Vision, LLaVA.
6. SLM (Modelos de Linguagem Pequeno)
LLMs otimizados para dispositivos de borda. Tokenização compacta, transformadores eficientes e quantização para implantação local.
↳ Phi-3, Gemma, Mistral 7B, Lhama 3.2 1B.
7. MLM (Modelos de Linguagem Mascarada)
Tokens são mascarados, convertidos em embeddings e então processados bidirecionalmente para prever palavras ocultas.
↳ BERT, RoBERTa, DeBERTa busca de poder e análise de sentimento.
8. SAM (Modelos de Segmento de Qualquer Coisa)
Prompts e imagens passam por codificadores separados, alimentando um decodificador de máscara para produzir segmentação pixel-perfeita.
↳ O SAM da Meta impulsiona edição de fotos, imagem médica e veículos autônomos.
O que mais você acrescentaria?
👉 No meu próximo tweet, compartilhei meu mais recente Guia de Engenharia de IA (380+ páginas) com 150+ lições básicas.
Tudo é 100% open-source (25k+ estrelas 🌟)

367
Camadas de observabilidade em sistemas de IA, explicadas visualmente:
Se você está implantando aplicativos com LLM para usuários reais, precisa saber o que está acontecendo dentro do seu pipeline a cada etapa.
Aqui está o modelo mental (veja o diagrama anexado):
Pense no seu pipeline de IA como uma série de etapas. Para simplificar, considere o RAG.
Um usuário faz uma pergunta, ela flui por vários componentes e, eventualmente, uma resposta surge.
Cada uma dessas etapas leva tempo, cada etapa pode falhar, e cada etapa tem seu próprio custo. E se você só olhar para a entrada e saída do sistema todo, nunca terá visibilidade total.
É aí que entram as trilhas e as variações.
> A Trace captura toda a jornada, desde o momento em que o usuário envia uma consulta até o momento em que recebe uma resposta. Veja a coluna "Traçar" no diagrama abaixo. Uma barra contínua que abrange tudo.
> Spans são as operações individuais dentro desse traço. Cada caixa colorida à direita representa um vão.
Vamos entender o que cada vão captura neste caso:
- Intervalo de consulta: O usuário envia uma pergunta. É aqui que seu rastreamento começa. Você captura a entrada bruta, o carimbo de tempo e as informações da sessão.
- Embedding Span: A consulta atinge o modelo de embedding e se torna um vetor. Esse intervalo acompanha a contagem de tokens e a latência. Se sua API de embedding estiver lenta ou atingindo limites de taxa, você vai perceber isso aqui.
- Alcance de Recuperação: O vetor vai para seu banco de dados para busca por similaridade. Nossa observação sugere que é aí que a maioria dos problemas de RAG se esconde, com as razões mais comuns sendo chunks ruins, baixas pontuações de relevância, valores top-k errados, etc. O período de recuperação expõe tudo isso.
- Contexto Span: Nesse intervalo, os chunks recuperados são montados com o prompt do seu sistema. Esse intervalo mostra exatamente o que está sendo fornecido ao LLM. Então, se o contexto for muito longo, você verá aqui.
- Período de Gestão: Por fim, o LLM produz uma resposta. Esse vão geralmente é o mais longo e caro. Tokens de entrada, tokens de saída, latência, raciocínio (se houver), etc., tudo é registrado para acompanhamento de custos e depuração.
Isso deve deixar claro que, sem rastreamento em nível de span, a depuração é quase impossível.
Você simplesmente saberia que a resposta foi ruim, mas nunca saberia se foi por causa da má recuperação, do contexto ruim ou da alucinação do LLM.
O acompanhamento de custos é outro grande ponto. O rastreamento em nível de amplitude permite que você veja para onde o dinheiro realmente vai.
Mais uma coisa: os sistemas de IA se degradam com o tempo. O que funcionou no mês passado pode não funcionar hoje. Métricas em nível de span permitem que você perceba a deriva cedo e ajuste cada componente de forma independente.
Por fim, para esclarecer, um Trace é o contêiner que conecta tudo para uma única solicitação. Quando um usuário envia uma consulta, um ID de Trace único é gerado. Todo intervalo que ocorre como parte dessa requisição carrega esse mesmo ID de Rastreamento.
Então, se seu sistema processa 1000 consultas, você tem 1000 traços. Cada traço contém múltiplos spans (embedding, recuperação, geração, etc.), mas todos estão vinculados por aquele único ID de Traço.
A coluna "Trace" mostra uma barra contínua longa. Esse é o rastreamento – começa quando a consulta chega e termina quando a resposta é enviada. Todos os vãos coloridos à direita estão aninhados dentro dele, ligados pelo mesmo ID de Traço.
Se você quiser ver como observabilidade em nível de componente + avaliações são implementadas na prática, compartilhei um trecho abaixo que usa o framework open-source DeepEval.
608
Melhores
Classificação
Favoritos
