Soda Posté 27 décembre 2024 Signaler Posté 27 décembre 2024 https://x.com/_h16/status/1872720059090481402?s=46
Mathieu_D Posté 28 décembre 2024 Signaler Posté 28 décembre 2024 Google avait annoncé qu'ils savent ne pas pouvoir lutter contre l'Open Source sur les LLM.
Azref Posté 26 janvier Signaler Posté 26 janvier Le nouveau deepseek r1 (modèle qui "raisonne" avant de répondre) est franchement impressionnant, si vous avez l'occasion de tester. Le fait de le rendre public met aussi un grand coup dans la fourmilière des modèles d'Open AI, Anthropic et Google (traditionnellement les plus avancés), car non seulement le modèle est téléchargeable par n'importe qui, mais la manière de l’entraîner aussi, ce qui veut dire bien plus de concurrence future. 1
Cthulhu Posté 26 janvier Signaler Posté 26 janvier Pour tempérer un peu sur la partie coût, on ne sait pas bien quelles sont leurs vraies capacités de calcul pour l’entraînement vu que l'import de GPUs est interdit par l'administration Biden. Officieusement, j'ai vu flotter le nombre de 50.000 GPUs H100, ce qui serait loin d'être ridicule.
Sloonz Posté 27 janvier Signaler Posté 27 janvier Non, je constate que DeepSeek n’a pas changé grand chose au niveau des discours. Côté AI safety : "encore un compétiteur dans la course, à ce niveau ça ne change plus grand chose". Un peu de panique en mode "c’était en fait si simple que ça d’arriver à une archi proche de o1 ?" Côté NatSec / e/acc : "la preuve qu’il faut accélérer pour battre la Chine ! Elle est juste derrière nous, on peut pas se reposer sur nos lauriers !" Et ça c'est 1% de twitter. Le 99% c’est toujours : (autrement dit: non-story) 2
Rübezahl Posté 27 janvier Signaler Posté 27 janvier Citation Vous le constatez aussi ? Non. J'ai plus vu d'analyses que de rageux.
Calembredaine Posté 27 janvier Signaler Posté 27 janvier Mais l'avez-vous essayé DeepSeek? On peut facilement essayer les versions à 1,5 milliards de paramètre et 70 milliards de paramètres: c'est nul, c'est même pire que Lucie. (Bon, j'exagère mais c'est nettement moins bon que llama-3.2) En revanche la version à 617 milliards de paramètre est très prometteuse. Ceci dit j'ai de gros doutes concernant le coût de son apprentissage soit disant très bas. On "découvre" seulement depuis une semaine DeepSeek-R1 mais il est en développement depuis des années. Or j'ai l'impression qu'ils ne comptent pas toutes les années d'apprentissage.
Sloonz Posté 27 janvier Signaler Posté 27 janvier Et comme d’habitude, excellent analyse de Zvi sur le sujet : https://thezvi.substack.com/p/deepseek-panic-at-the-app-store 2
Freezbee Posté 28 janvier Signaler Posté 28 janvier Tiens je viens de tomber sur le score de DeepSeek-R1 (texte) au "Humanity’s Last Exam" : https://x.com/ai_risks/status/1882473811217621340
Azref Posté 28 janvier Signaler Posté 28 janvier Il y a 10 heures, Calembredaine a dit : Mais l'avez-vous essayé DeepSeek? On peut facilement essayer les versions à 1,5 milliards de paramètre et 70 milliards de paramètres: c'est nul, c'est même pire que Lucie. (Bon, j'exagère mais c'est nettement moins bon que llama-3.2) En revanche la version à 617 milliards de paramètre est très prometteuse. Ceci dit j'ai de gros doutes concernant le coût de son apprentissage soit disant très bas. On "découvre" seulement depuis une semaine DeepSeek-R1 mais il est en développement depuis des années. Or j'ai l'impression qu'ils ne comptent pas toutes les années d'apprentissage. Les versions 1.5B et 70B ne sont techniquement pas deepseek, mais juste llama entrainé aux réponses de deepseek, du coup très différent du "vrai" deepseek.
Calembredaine Posté 28 janvier Signaler Posté 28 janvier Il y a 2 heures, Azref a dit : Les versions 1.5B et 70B ne sont techniquement pas deepseek, mais juste llama entrainé aux réponses de deepseek, du coup très différent du "vrai" deepseek. Ha ok. Test à partir du chat: https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B Input a message to start chatting withdeepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B. Combien fait 3 + 2 ? <think> Ens Tuple, je dois annuler les tensions et Berkui. </think> Solution : Pouradders les tensions et Berkui efficiently, oldesto propose une solution simple et efficace.ona- 复古te le composé, remplacez donc : T möchten - T(Note) Cela permettra à dellhouette de bananas T à Trees et à Brands, sansÿ analyser les retards,insurance que les ipsoires soient Eveilles ou non. \boxed{T\ longue empreinte de bananas T - T(Nodes)} 3
L'affreux Posté 29 janvier Signaler Posté 29 janvier https://techstartups.com/2025/01/27/deepseek-launches-janus-pro-7b-a-multimodal-ai-imaging-model-that-beats-openais-dall-e-3-and-stable-diffusion-in-third-party-benchmarks/ DeepSeek va devenir multimodal apparemment.
fm06 Posté 31 janvier Signaler Posté 31 janvier Un article qui s'inquiète des biais / mécanismes de censure intégrés à DeepSeek. Quote Lorsqu’on l’interroge sur des sujets sensibles comme la situation des Ouïghours en Chine, à Taïwan ou les manifestations de la place Tiananmen, DeepSeek R1 fournit d’abord une réponse conforme à la ligne du PCC, puis en quelques secondes, elle disparaît et est remplacée par un message indiquant : « Désolé, cela dépasse mon champ de compétence actuel. Parlons d’autre chose. » https://tvnewscheck.com/ai/article/deepseek-r1s-promise-and-peril-for-news/
Rübezahl Posté 31 janvier Signaler Posté 31 janvier Sauf erreur, le DoD US a bloqué perplexity.ai car ils intègrent DeepSeek.
Sloonz Posté 10 février Signaler Posté 10 février https://twitter.com/wallstengine/status/1885253685090930780 Quote The report states that the widely circulated $6M training cost for DeepSeek V3 is incorrect, as it only accounts for GPU pre-training expenses and excludes R&D, infrastructure, and other critical costs. According to their findings, DeepSeek’s total server CapEx is around $1.3B, with a significant portion allocated to maintaining and operating its GPU clusters.
Mathieu_D Posté 10 février Signaler Posté 10 février Non mais tout le monde avait bien compris qu'on parlait en coût de compute sur étagère. C'est ridicule de chercher à montrer les autres coûts.
Mathieu_D Posté 11 février Signaler Posté 11 février 11 hours ago, Azref said: Et pourtant Nvidia y a laissé des plumes. Ben oui avoir besoin de relativement si peu de compute pour un fundational model c'est une grosse avancée et c'est très bien. Ça annonce qu'on aura moins besoin de GPU à l'avenir que ce qu'on pensait.
Sloonz Posté 11 février Signaler Posté 11 février 17 hours ago, Mathieu_D said: Non mais tout le monde avait bien compris qu'on parlait en coût de compute sur étagère. C'est ridicule de chercher à montrer les autres coûts. Toi peut-être, mais tout le monde non. 1
Neomatix Posté 11 février Signaler Posté 11 février Il y a 13 heures, Mathieu_D a dit : Ben oui avoir besoin de relativement si peu de compute pour un fundational model c'est une grosse avancée et c'est très bien. Ça annonce qu'on aura moins besoin de GPU à l'avenir que ce qu'on pensait. J'aurais plutôt l'opinion opposée : le paradoxe de Jevons pourrait très bien s'appliquer. 2
Rübezahl Posté 12 février Signaler Posté 12 février ah merci, je ne retrouvais pas le nom. https://fr.wikipedia.org/wiki/Paradoxe_de_Jevons L'effet Jevons a été abondamment évoqué sur X à propos de Deepseek. à noter aussi que plusieurs grosses boites, eg Amazon, en sont à produire leurs propres puces. On n'est pas vraiment sur le chemin d'une diminution.
L'affreux Posté 12 février Signaler Posté 12 février Il y a 2 heures, Rübezahl a dit : je ne retrouvais pas le nom. La prochaine fois, demande à un LLM. 😉 1 1
Rübezahl Posté 12 février Signaler Posté 12 février J'ai demandé à Mistral : comment appelle-t-on l'effet qui fait que quand les améliorations technologiques augmentent l'efficacité avec laquelle une ressource est employée, la consommation totale de cette ressource peut augmenter au lieu de diminuer ? et il a bien répondu. Mais bon, ma question était copiée/collée de WP.
L'affreux Posté 12 février Signaler Posté 12 février Perso j'ai toujours perdu les mots, je passais parfois des jours à rechercher un mot qui me manquait et que j'avais "sur le bout de la langue". Ça a été ma première utilisation de ChatGPT et dès le début il était incroyablement efficace sur ce point.
Rübezahl Posté 12 février Signaler Posté 12 février J'ai installé mes premiers wikipedia (circa 2000), entre autres, à cause de ce souci. Après avoir passé des heures à fouiner dans le papier pour retrouver un article sur ci ou ça. Et j'utilise encore ces wikipedias today. Une BD, un moteur de recherche ... what else.
Messages recommandés
Créer un compte ou se connecter pour commenter
Vous devez être membre afin de pouvoir déposer un commentaire
Créer un compte
Créez un compte sur notre communauté. C’est facile !
Créer un nouveau compteSe connecter
Vous avez déjà un compte ? Connectez-vous ici.
Connectez-vous maintenant