Soda Posted December 27, 2024 Report Posted December 27, 2024 https://x.com/_h16/status/1872720059090481402?s=46
Mathieu_D Posted December 28, 2024 Report Posted December 28, 2024 Google avait annoncé qu'ils savent ne pas pouvoir lutter contre l'Open Source sur les LLM.
Azref Posted January 26 Report Posted January 26 Le nouveau deepseek r1 (modèle qui "raisonne" avant de répondre) est franchement impressionnant, si vous avez l'occasion de tester. Le fait de le rendre public met aussi un grand coup dans la fourmilière des modèles d'Open AI, Anthropic et Google (traditionnellement les plus avancés), car non seulement le modèle est téléchargeable par n'importe qui, mais la manière de l’entraîner aussi, ce qui veut dire bien plus de concurrence future. 1
Cthulhu Posted January 26 Report Posted January 26 Pour tempérer un peu sur la partie coût, on ne sait pas bien quelles sont leurs vraies capacités de calcul pour l’entraînement vu que l'import de GPUs est interdit par l'administration Biden. Officieusement, j'ai vu flotter le nombre de 50.000 GPUs H100, ce qui serait loin d'être ridicule.
Sloonz Posted January 27 Report Posted January 27 Non, je constate que DeepSeek n’a pas changé grand chose au niveau des discours. Côté AI safety : "encore un compétiteur dans la course, à ce niveau ça ne change plus grand chose". Un peu de panique en mode "c’était en fait si simple que ça d’arriver à une archi proche de o1 ?" Côté NatSec / e/acc : "la preuve qu’il faut accélérer pour battre la Chine ! Elle est juste derrière nous, on peut pas se reposer sur nos lauriers !" Et ça c'est 1% de twitter. Le 99% c’est toujours : (autrement dit: non-story) 2
Rübezahl Posted January 27 Report Posted January 27 Citation Vous le constatez aussi ? Non. J'ai plus vu d'analyses que de rageux.
Calembredaine Posted January 27 Report Posted January 27 Mais l'avez-vous essayé DeepSeek? On peut facilement essayer les versions à 1,5 milliards de paramètre et 70 milliards de paramètres: c'est nul, c'est même pire que Lucie. (Bon, j'exagère mais c'est nettement moins bon que llama-3.2) En revanche la version à 617 milliards de paramètre est très prometteuse. Ceci dit j'ai de gros doutes concernant le coût de son apprentissage soit disant très bas. On "découvre" seulement depuis une semaine DeepSeek-R1 mais il est en développement depuis des années. Or j'ai l'impression qu'ils ne comptent pas toutes les années d'apprentissage.
Sloonz Posted January 27 Report Posted January 27 Et comme d’habitude, excellent analyse de Zvi sur le sujet : https://thezvi.substack.com/p/deepseek-panic-at-the-app-store 2
Freezbee Posted January 28 Report Posted January 28 Tiens je viens de tomber sur le score de DeepSeek-R1 (texte) au "Humanity’s Last Exam" : https://x.com/ai_risks/status/1882473811217621340
Azref Posted January 28 Report Posted January 28 Il y a 10 heures, Calembredaine a dit : Mais l'avez-vous essayé DeepSeek? On peut facilement essayer les versions à 1,5 milliards de paramètre et 70 milliards de paramètres: c'est nul, c'est même pire que Lucie. (Bon, j'exagère mais c'est nettement moins bon que llama-3.2) En revanche la version à 617 milliards de paramètre est très prometteuse. Ceci dit j'ai de gros doutes concernant le coût de son apprentissage soit disant très bas. On "découvre" seulement depuis une semaine DeepSeek-R1 mais il est en développement depuis des années. Or j'ai l'impression qu'ils ne comptent pas toutes les années d'apprentissage. Les versions 1.5B et 70B ne sont techniquement pas deepseek, mais juste llama entrainé aux réponses de deepseek, du coup très différent du "vrai" deepseek.
Calembredaine Posted January 28 Report Posted January 28 Il y a 2 heures, Azref a dit : Les versions 1.5B et 70B ne sont techniquement pas deepseek, mais juste llama entrainé aux réponses de deepseek, du coup très différent du "vrai" deepseek. Ha ok. Test à partir du chat: https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B Input a message to start chatting withdeepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B. Combien fait 3 + 2 ? <think> Ens Tuple, je dois annuler les tensions et Berkui. </think> Solution : Pouradders les tensions et Berkui efficiently, oldesto propose une solution simple et efficace.ona- 复古te le composé, remplacez donc : T möchten - T(Note) Cela permettra à dellhouette de bananas T à Trees et à Brands, sansÿ analyser les retards,insurance que les ipsoires soient Eveilles ou non. \boxed{T\ longue empreinte de bananas T - T(Nodes)} 3
L'affreux Posted January 29 Report Posted January 29 https://techstartups.com/2025/01/27/deepseek-launches-janus-pro-7b-a-multimodal-ai-imaging-model-that-beats-openais-dall-e-3-and-stable-diffusion-in-third-party-benchmarks/ DeepSeek va devenir multimodal apparemment.
fm06 Posted January 31 Report Posted January 31 Un article qui s'inquiète des biais / mécanismes de censure intégrés à DeepSeek. Quote Lorsqu’on l’interroge sur des sujets sensibles comme la situation des Ouïghours en Chine, à Taïwan ou les manifestations de la place Tiananmen, DeepSeek R1 fournit d’abord une réponse conforme à la ligne du PCC, puis en quelques secondes, elle disparaît et est remplacée par un message indiquant : « Désolé, cela dépasse mon champ de compétence actuel. Parlons d’autre chose. » https://tvnewscheck.com/ai/article/deepseek-r1s-promise-and-peril-for-news/
Rübezahl Posted January 31 Report Posted January 31 Sauf erreur, le DoD US a bloqué perplexity.ai car ils intègrent DeepSeek.
Sloonz Posted February 10 Report Posted February 10 https://twitter.com/wallstengine/status/1885253685090930780 Quote The report states that the widely circulated $6M training cost for DeepSeek V3 is incorrect, as it only accounts for GPU pre-training expenses and excludes R&D, infrastructure, and other critical costs. According to their findings, DeepSeek’s total server CapEx is around $1.3B, with a significant portion allocated to maintaining and operating its GPU clusters.
Mathieu_D Posted February 10 Report Posted February 10 Non mais tout le monde avait bien compris qu'on parlait en coût de compute sur étagère. C'est ridicule de chercher à montrer les autres coûts.
Mathieu_D Posted February 11 Report Posted February 11 11 hours ago, Azref said: Et pourtant Nvidia y a laissé des plumes. Ben oui avoir besoin de relativement si peu de compute pour un fundational model c'est une grosse avancée et c'est très bien. Ça annonce qu'on aura moins besoin de GPU à l'avenir que ce qu'on pensait.
Sloonz Posted February 11 Report Posted February 11 17 hours ago, Mathieu_D said: Non mais tout le monde avait bien compris qu'on parlait en coût de compute sur étagère. C'est ridicule de chercher à montrer les autres coûts. Toi peut-être, mais tout le monde non. 1
Neomatix Posted February 11 Report Posted February 11 Il y a 13 heures, Mathieu_D a dit : Ben oui avoir besoin de relativement si peu de compute pour un fundational model c'est une grosse avancée et c'est très bien. Ça annonce qu'on aura moins besoin de GPU à l'avenir que ce qu'on pensait. J'aurais plutôt l'opinion opposée : le paradoxe de Jevons pourrait très bien s'appliquer. 2
Rübezahl Posted February 12 Report Posted February 12 ah merci, je ne retrouvais pas le nom. https://fr.wikipedia.org/wiki/Paradoxe_de_Jevons L'effet Jevons a été abondamment évoqué sur X à propos de Deepseek. à noter aussi que plusieurs grosses boites, eg Amazon, en sont à produire leurs propres puces. On n'est pas vraiment sur le chemin d'une diminution.
L'affreux Posted February 12 Report Posted February 12 Il y a 2 heures, Rübezahl a dit : je ne retrouvais pas le nom. La prochaine fois, demande à un LLM. 😉 1 1
Rübezahl Posted February 12 Report Posted February 12 J'ai demandé à Mistral : comment appelle-t-on l'effet qui fait que quand les améliorations technologiques augmentent l'efficacité avec laquelle une ressource est employée, la consommation totale de cette ressource peut augmenter au lieu de diminuer ? et il a bien répondu. Mais bon, ma question était copiée/collée de WP.
L'affreux Posted February 12 Report Posted February 12 Perso j'ai toujours perdu les mots, je passais parfois des jours à rechercher un mot qui me manquait et que j'avais "sur le bout de la langue". Ça a été ma première utilisation de ChatGPT et dès le début il était incroyablement efficace sur ce point.
Rübezahl Posted February 12 Report Posted February 12 J'ai installé mes premiers wikipedia (circa 2000), entre autres, à cause de ce souci. Après avoir passé des heures à fouiner dans le papier pour retrouver un article sur ci ou ça. Et j'utilise encore ces wikipedias today. Une BD, un moteur de recherche ... what else.
Recommended Posts
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now