DeepSeek, LLM open-source et chinois

Soda · 27 décembre 2024

https://x.com/_h16/status/1872720059090481402?s=46

Mathieu_D · 28 décembre 2024

Google avait annoncé qu'ils savent ne pas pouvoir lutter contre l'Open Source sur les LLM.

Azref · 26 janvier

Le nouveau deepseek r1 (modèle qui "raisonne" avant de répondre) est franchement impressionnant, si vous avez l'occasion de tester. Le fait de le rendre public met aussi un grand coup dans la fourmilière des modèles d'Open AI, Anthropic et Google (traditionnellement les plus avancés), car non seulement le modèle est téléchargeable par n'importe qui, mais la manière de l’entraîner aussi, ce qui veut dire bien plus de concurrence future.

Cthulhu · 26 janvier

Pour tempérer un peu sur la partie coût, on ne sait pas bien quelles sont leurs vraies capacités de calcul pour l’entraînement vu que l'import de GPUs est interdit par l'administration Biden. Officieusement, j'ai vu flotter le nombre de 50.000 GPUs H100, ce qui serait loin d'être ridicule.

Soda · 27 janvier

Vous le constatez aussi ?

Sloonz · 27 janvier

Non, je constate que DeepSeek n’a pas changé grand chose au niveau des discours.

Côté AI safety : "encore un compétiteur dans la course, à ce niveau ça ne change plus grand chose". Un peu de panique en mode "c’était en fait si simple que ça d’arriver à une archi proche de o1 ?"

Côté NatSec / e/acc : "la preuve qu’il faut accélérer pour battre la Chine ! Elle est juste derrière nous, on peut pas se reposer sur nos lauriers !"

Et ça c'est 1% de twitter. Le 99% c’est toujours :

MAN, THAT'S CRAZY, CATCH THE. GAME LAST NIGHT?

(autrement dit: non-story)

Rübezahl · 27 janvier

Citation

Vous le constatez aussi ?

Non. J'ai plus vu d'analyses que de rageux.

Calembredaine · 27 janvier

Mais l'avez-vous essayé DeepSeek?

On peut facilement essayer les versions à 1,5 milliards de paramètre et 70 milliards de paramètres: c'est nul, c'est même pire que Lucie. (Bon, j'exagère mais c'est nettement moins bon que llama-3.2)

En revanche la version à 617 milliards de paramètre est très prometteuse. Ceci dit j'ai de gros doutes concernant le coût de son apprentissage soit disant très bas. On "découvre" seulement depuis une semaine DeepSeek-R1 mais il est en développement depuis des années. Or j'ai l'impression qu'ils ne comptent pas toutes les années d'apprentissage.

Lameador · 27 janvier

Sloonz · 27 janvier

Et comme d’habitude, excellent analyse de Zvi sur le sujet : https://thezvi.substack.com/p/deepseek-panic-at-the-app-store

Freezbee · 28 janvier

Tiens je viens de tomber sur le score de DeepSeek-R1 (texte) au "Humanity’s Last Exam" :

https://x.com/ai_risks/status/1882473811217621340

Gh_jx9PawAAO2Xu?format=jpg&name=medium

Azref · 28 janvier

Il y a 10 heures, Calembredaine a dit :

Mais l'avez-vous essayé DeepSeek?

On peut facilement essayer les versions à 1,5 milliards de paramètre et 70 milliards de paramètres: c'est nul, c'est même pire que Lucie. (Bon, j'exagère mais c'est nettement moins bon que llama-3.2)

En revanche la version à 617 milliards de paramètre est très prometteuse. Ceci dit j'ai de gros doutes concernant le coût de son apprentissage soit disant très bas. On "découvre" seulement depuis une semaine DeepSeek-R1 mais il est en développement depuis des années. Or j'ai l'impression qu'ils ne comptent pas toutes les années d'apprentissage.

Les versions 1.5B et 70B ne sont techniquement pas deepseek, mais juste llama entrainé aux réponses de deepseek, du coup très différent du "vrai" deepseek.

Calembredaine · 28 janvier

Il y a 2 heures, Azref a dit :

Les versions 1.5B et 70B ne sont techniquement pas deepseek, mais juste llama entrainé aux réponses de deepseek, du coup très différent du "vrai" deepseek.

Ha ok.

Test à partir du chat:

https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

Input a message to start chatting withdeepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B.

Combien fait 3 + 2 ?

<think>
Ens Tuple, je dois annuler les tensions et Berkui.
</think>

Solution :

Pouradders les tensions et Berkui efficiently, oldesto propose une solution simple et efficace.ona-

复古te le composé, remplacez donc :

T möchten - T(Note)

Cela permettra à dellhouette de bananas T à Trees et à Brands, sansÿ analyser les retards,insurance que les ipsoires soient Eveilles ou non.

\boxed{T\ longue empreinte de bananas T - T(Nodes)}

L'affreux · 29 janvier

https://techstartups.com/2025/01/27/deepseek-launches-janus-pro-7b-a-multimodal-ai-imaging-model-that-beats-openais-dall-e-3-and-stable-diffusion-in-third-party-benchmarks/

DeepSeek va devenir multimodal apparemment.

fm06 · 31 janvier

Un article qui s'inquiète des biais / mécanismes de censure intégrés à DeepSeek.

Quote

Lorsqu’on l’interroge sur des sujets sensibles comme la situation des Ouïghours en Chine, à Taïwan ou les manifestations de la place Tiananmen, DeepSeek R1 fournit d’abord une réponse conforme à la ligne du PCC, puis en quelques secondes, elle disparaît et est remplacée par un message indiquant : « Désolé, cela dépasse mon champ de compétence actuel. Parlons d’autre chose. »

https://tvnewscheck.com/ai/article/deepseek-r1s-promise-and-peril-for-news/

Rübezahl · 31 janvier

~~Sauf erreur,~~ le DoD US a bloqué perplexity.ai car ils intègrent DeepSeek.

Sloonz · 10 février

https://twitter.com/wallstengine/status/1885253685090930780

Quote

The report states that the widely circulated $6M training cost for DeepSeek V3 is incorrect, as it only accounts for GPU pre-training expenses and excludes R&D, infrastructure, and other critical costs. According to their findings, DeepSeek’s total server CapEx is around $1.3B, with a significant portion allocated to maintaining and operating its GPU clusters.

Mathieu_D · 10 février

Non mais tout le monde avait bien compris qu'on parlait en coût de compute sur étagère. C'est ridicule de chercher à montrer les autres coûts.

Azref · 10 février

Et pourtant Nvidia y a laissé des plumes.

Mathieu_D · 11 février

11 hours ago, Azref said:

Et pourtant Nvidia y a laissé des plumes.

Ben oui avoir besoin de relativement si peu de compute pour un fundational model c'est une grosse avancée et c'est très bien.

Ça annonce qu'on aura moins besoin de GPU à l'avenir que ce qu'on pensait.

Sloonz · 11 février

17 hours ago, Mathieu_D said:

Non mais tout le monde avait bien compris qu'on parlait en coût de compute sur étagère. C'est ridicule de chercher à montrer les autres coûts.

Toi peut-être, mais tout le monde non.

Neomatix · 11 février

Il y a 13 heures, Mathieu_D a dit :

Ben oui avoir besoin de relativement si peu de compute pour un fundational model c'est une grosse avancée et c'est très bien.

Ça annonce qu'on aura moins besoin de GPU à l'avenir que ce qu'on pensait.

J'aurais plutôt l'opinion opposée : le paradoxe de Jevons pourrait très bien s'appliquer.

Rübezahl · 12 février

ah merci, je ne retrouvais pas le nom.
https://fr.wikipedia.org/wiki/Paradoxe_de_Jevons

L'effet Jevons a été abondamment évoqué sur X à propos de Deepseek.

à noter aussi que plusieurs grosses boites, eg Amazon, en sont à produire leurs propres puces.

On n'est pas vraiment sur le chemin d'une diminution.

L'affreux · 12 février

Il y a 2 heures, Rübezahl a dit :

je ne retrouvais pas le nom.

La prochaine fois, demande à un LLM. 😉

Rübezahl · 12 février

J'ai demandé à Mistral :
comment appelle-t-on l'effet qui fait que quand les améliorations technologiques augmentent l'efficacité avec laquelle une ressource est employée, la consommation totale de cette ressource peut augmenter au lieu de diminuer ?

et il a bien répondu.

Mais bon, ma question était copiée/collée de WP.

L'affreux · 12 février

Perso j'ai toujours perdu les mots, je passais parfois des jours à rechercher un mot qui me manquait et que j'avais "sur le bout de la langue". Ça a été ma première utilisation de ChatGPT et dès le début il était incroyablement efficace sur ce point.

Rübezahl · 12 février

J'ai installé mes premiers wikipedia (circa 2000), entre autres, à cause de ce souci.

Après avoir passé des heures à fouiner dans le papier pour retrouver un article sur ci ou ça.

Et j'utilise encore ces wikipedias today.

Une BD, un moteur de recherche ... what else.

DeepSeek, LLM open-source et chinois

Messages recommandés

Créer un compte ou se connecter pour commenter

Créer un compte

Se connecter

Contenu similaire