Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Je viens d'avoir une pensée aléatoire : les LLM comme ChatGPT doivent être un énorme atout pour les ministres gouvernementaux incompétents dans les petits pays qui ont obtenu leurs postes par népotisme ou réseaux de patronage.
Ces personnes ont souvent un véritable pouvoir, mais elles sont souvent contraintes de cacher leur incompétence à leurs subordonnés, aux dirigeants politiques et à la population, pour des raisons évidentes.
Par exemple, je suis sûr qu'il y a des ministres des mines qui ne savent que très peu de choses sur l'exploitation minière, les affaires ou l'économie, mais qui sont néanmoins chargés de négocier avec des entreprises minières internationales sophistiquées.
Ou des gouverneurs de banques centrales qui ne comprennent pas vraiment les bases de la macroéconomie ou comment fonctionnent le crédit et l'inflation.
Dans le passé, ces personnes devaient essentiellement "improviser" et espérer le meilleur, ou se fier à leurs subordonnés légèrement moins incompétents et prier pour que les choses ne se passent pas trop mal. Ou elles pouvaient dépenser beaucoup d'argent pour des consultants experts, ce qui a ses propres inconvénients.
Maintenant, ces ministres peuvent simplement ouvrir ChatGPT dans l'intimité de leur bureau et expliquer leurs problèmes et les décisions qu'ils doivent prendre, télécharger des documents et des formulaires du FMI ou d'ailleurs, et obtenir des conseils d'experts assez bons gratuitement d'un modèle de pointe. Tout cela sans révéler à quiconque qu'ils ne savent pas ce qu'ils font.
Il serait si fascinant de savoir combien de personnes utilisent les LLM de cette manière aujourd'hui. Cela semble être une bonne chose. Le monde manque cruellement d'expertise. Ou plutôt, ceux qui ont accès au pouvoir ne sont souvent pas ceux qui possèdent les compétences ou les connaissances pertinentes.
J'espère juste que ces personnes paient pour l'abonnement de 200 $/mois et utilisent le modèle GPT-5 Pro. Mais j'en doute un peu…
7,1K
Les bonnes intentions n'ont pas d'importance dans des affaires comme celle-ci. Ce qui compte, ce sont les véritables conséquences dans le monde réel des décisions et des actions que nous prenons sur la manière de développer et de déployer l'IA et la robotique. Tout ce qui nous ralentit ou nous désavantage par rapport à la Chine au nom de la "sécurité" est mauvais.

Reid Hoffman20 oct., 22:09
1/ Je veux le dire clairement : dans toutes les industries, en particulier dans l'IA, il est important de soutenir les bonnes personnes.
Anthropic est l'une des bonnes personnes.
Plus de réflexions sur pourquoi nous devons alimenter l'innovation et parler de sécurité en même temps :
5,39K
DeepSeek vient de publier un nouvel article assez choquant. Ils ont vraiment enterré le lede ici en le désignant simplement comme DeepSeek OCR.
Bien que ce soit un modèle OCR très performant, son objectif et les implications de leur approche vont bien au-delà de ce que vous pourriez attendre d'« un autre modèle OCR ».
Traditionnellement, les tokens LLM visuels semblaient presque être une réflexion après coup ou un « ajout » au paradigme LLM. Et 10 000 mots en anglais prendraient beaucoup plus de place dans un LLM multimodal lorsqu'ils sont exprimés sous forme de pixels intelligibles que lorsqu'ils sont exprimés sous forme de tokens.
Ainsi, ces 10 000 mots pourraient se transformer en 15 000 tokens, ou 30 000 à 60 000 « tokens visuels ». Donc, les tokens visuels étaient beaucoup moins efficaces et ne faisaient vraiment sens que pour des données qui ne pouvaient pas être efficacement transmises par des mots.
Mais cela s'inverse maintenant avec les idées de cet article. DeepSeek a découvert comment obtenir une compression 10 fois meilleure en utilisant des tokens visuels que des tokens textuels ! Vous pourriez donc théoriquement stocker ces 10 000 mots dans seulement 1 500 de leurs tokens visuels compressés spéciaux.
Cela pourrait ne pas être aussi inattendu que cela en a l'air si vous pensez à la façon dont votre propre esprit fonctionne. Après tout, je sais que lorsque je cherche une partie d'un livre que j'ai déjà lu, je l'imagine visuellement et je me souviens toujours de quel côté du livre elle se trouvait et approximativement où elle était sur la page, ce qui suggère une sorte de représentation de mémoire visuelle en action.
Maintenant, il n'est pas clair comment cela interagit exactement avec les autres fonctions cognitives en aval d'un LLM ; le modèle peut-il raisonner aussi intelligemment sur ces tokens visuels compressés qu'il le peut en utilisant des tokens textuels normaux ? Cela rend-il le modèle moins articulé en le forçant dans une modalité plus orientée vers la vision ?
Mais vous pouvez imaginer que, selon les compromis exacts, cela pourrait être un nouvel axe très excitant pour élargir considérablement les tailles de contexte effectives. Surtout lorsqu'il est combiné avec l'autre article récent de DeepSeek d'il y a quelques semaines sur l'attention sparse.
Pour autant que nous sachions, Google aurait déjà pu découvrir quelque chose comme cela, ce qui pourrait expliquer pourquoi Gemini a une taille de contexte si énorme et est si bon et rapide dans les tâches OCR. S'ils l'ont fait, ils ne le diraient probablement pas car cela serait considéré comme un secret commercial important.
Mais la bonne chose à propos de DeepSeek, c'est qu'ils ont rendu l'ensemble du projet open source et ouvert en termes de poids et ont expliqué comment ils l'ont fait, donc maintenant tout le monde peut l'essayer et explorer.
Même si ces astuces rendent l'attention plus perdante, le potentiel d'obtenir un LLM de pointe avec une fenêtre de contexte de 10 ou 20 millions de tokens est assez excitant.
Vous pourriez essentiellement entasser tous les documents internes clés d'une entreprise dans un préambule de prompt et le mettre en cache avec OpenAI, puis ajouter simplement votre requête ou prompt spécifique par-dessus et ne pas avoir à gérer des outils de recherche tout en restant rapide et rentable.
Ou mettre un code source entier dans le contexte et le mettre en cache, puis continuer à ajouter l'équivalent des diffs git au fur et à mesure que vous apportez des modifications au code.
Si vous avez déjà lu des histoires sur le grand physicien Hans Bethe, il était connu pour avoir mémorisé d'énormes quantités de faits physiques aléatoires (comme l'ensemble du tableau périodique ; les points d'ébullition de diverses substances, etc.) afin qu'il puisse penser et calculer sans jamais avoir à interrompre son flux pour chercher quelque chose dans une table de référence.
Avoir d'énormes quantités de connaissances spécifiques à une tâche dans votre mémoire de travail est extrêmement utile. Cela semble être une approche très astucieuse et additive pour potentiellement élargir cette banque de mémoire par 10 fois ou plus.
184,89K
Meilleurs
Classement
Favoris