Aller au contenu

DeepSeek, LLM open-source et chinois


Soda

Messages recommandés

  • 5 weeks later...
Posté

Le nouveau deepseek r1 (modèle qui "raisonne" avant de répondre) est franchement impressionnant, si vous avez l'occasion de tester. Le fait de le rendre public met aussi un grand coup dans la fourmilière des modèles d'Open AI, Anthropic et Google (traditionnellement les plus avancés), car non seulement le modèle est téléchargeable par n'importe qui, mais la manière de l’entraîner aussi, ce qui veut dire bien plus de concurrence future.

 

  • Yea 1
Posté

Pour tempérer un peu sur la partie coût, on ne sait pas bien quelles sont leurs vraies capacités de calcul pour l’entraînement vu que l'import de GPUs est interdit par l'administration Biden. Officieusement, j'ai vu flotter le nombre de 50.000 GPUs H100, ce qui serait loin d'être ridicule.

Posté

Non, je constate que DeepSeek n’a pas changé grand chose au niveau des discours.

 

Côté AI safety : "encore un compétiteur dans la course, à ce niveau ça ne change plus grand chose". Un peu de panique en mode "c’était en fait si simple que ça d’arriver à une archi proche de o1 ?"

Côté NatSec / e/acc : "la preuve qu’il faut accélérer pour battre la Chine ! Elle est juste derrière nous, on peut pas se reposer sur nos lauriers !"

Et ça c'est 1% de twitter. Le 99% c’est toujours :

 

MAN, THAT'S CRAZY, CATCH THE. GAME LAST NIGHT?

 

(autrement dit: non-story)

  • Yea 2
Posté

Mais l'avez-vous essayé DeepSeek?

On peut facilement essayer les versions à 1,5 milliards de paramètre et 70 milliards de paramètres: c'est nul, c'est même pire que Lucie. (Bon, j'exagère mais c'est nettement moins bon que llama-3.2)

En revanche la version à 617 milliards de paramètre est très prometteuse. Ceci dit j'ai de gros doutes concernant le coût de son apprentissage soit disant très bas. On "découvre" seulement depuis une semaine DeepSeek-R1 mais il est en développement depuis des années. Or j'ai l'impression qu'ils ne comptent pas toutes les années d'apprentissage.

Posté
Il y a 10 heures, Calembredaine a dit :

Mais l'avez-vous essayé DeepSeek?

On peut facilement essayer les versions à 1,5 milliards de paramètre et 70 milliards de paramètres: c'est nul, c'est même pire que Lucie. (Bon, j'exagère mais c'est nettement moins bon que llama-3.2)

En revanche la version à 617 milliards de paramètre est très prometteuse. Ceci dit j'ai de gros doutes concernant le coût de son apprentissage soit disant très bas. On "découvre" seulement depuis une semaine DeepSeek-R1 mais il est en développement depuis des années. Or j'ai l'impression qu'ils ne comptent pas toutes les années d'apprentissage.

Les versions 1.5B et 70B ne sont techniquement pas deepseek, mais juste llama entrainé aux réponses de deepseek, du coup très différent du "vrai" deepseek.

Posté
Il y a 2 heures, Azref a dit :

Les versions 1.5B et 70B ne sont techniquement pas deepseek, mais juste llama entrainé aux réponses de deepseek, du coup très différent du "vrai" deepseek.

Ha ok.

 

Test à partir du chat:

https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

 

 

Input a message to start chatting withdeepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B.

Combien fait 3 + 2 ?

<think>
Ens Tuple, je dois annuler les tensions et Berkui.
</think>

Solution :

Pouradders les tensions et Berkui efficiently, oldesto propose une solution simple et efficace.ona-

复古te le composé, remplacez donc : 

T möchten - T(Note)

Cela permettra à dellhouette de bananas T à Trees et à Brands, sansÿ analyser les retards,insurance que les ipsoires soient Eveilles ou non.

\boxed{T\ longue empreinte de bananas T - T(Nodes)}

 

 

  • Haha 3
Posté

Un article qui s'inquiète des biais / mécanismes de censure intégrés à DeepSeek.

 

Quote

Lorsqu’on l’interroge sur des sujets sensibles comme la situation des Ouïghours en Chine, à Taïwan ou les manifestations de la place Tiananmen, DeepSeek R1 fournit d’abord une réponse conforme à la ligne du PCC, puis en quelques secondes, elle disparaît et est remplacée par un message indiquant : « Désolé, cela dépasse mon champ de compétence actuel. Parlons d’autre chose. »

 

https://tvnewscheck.com/ai/article/deepseek-r1s-promise-and-peril-for-news/

 

 

  • 2 weeks later...
Posté

https://twitter.com/wallstengine/status/1885253685090930780

 

Quote

The report states that the widely circulated $6M training cost for DeepSeek V3 is incorrect, as it only accounts for GPU pre-training expenses and excludes R&D, infrastructure, and other critical costs. According to their findings, DeepSeek’s total server CapEx is around $1.3B, with a significant portion allocated to maintaining and operating its GPU clusters.

 

Posté

Non mais tout le monde avait bien compris qu'on parlait en coût de compute sur étagère. C'est ridicule de chercher à montrer les autres coûts.

Posté
11 hours ago, Azref said:

Et pourtant Nvidia y a laissé des plumes.

Ben oui avoir besoin de relativement si peu de compute pour un fundational model c'est une grosse avancée et c'est très bien.

Ça annonce qu'on aura moins besoin de GPU à l'avenir que ce qu'on pensait.

Posté
17 hours ago, Mathieu_D said:

Non mais tout le monde avait bien compris qu'on parlait en coût de compute sur étagère. C'est ridicule de chercher à montrer les autres coûts.

Toi peut-être, mais tout le monde non.

  • Yea 1
Posté
Il y a 13 heures, Mathieu_D a dit :

Ben oui avoir besoin de relativement si peu de compute pour un fundational model c'est une grosse avancée et c'est très bien.

Ça annonce qu'on aura moins besoin de GPU à l'avenir que ce qu'on pensait.

J'aurais plutôt l'opinion opposée : le paradoxe de Jevons pourrait très bien s'appliquer.

  • Yea 2
Posté

J'ai demandé à Mistral :
comment appelle-t-on l'effet qui fait que quand les améliorations technologiques augmentent l'efficacité avec laquelle une ressource est employée, la consommation totale de cette ressource peut augmenter au lieu de diminuer ?

et il a bien répondu.

 

Mais bon, ma question était copiée/collée de WP.

Posté

Perso j'ai toujours perdu les mots, je passais parfois des jours à rechercher un mot qui me manquait et que j'avais "sur le bout de la langue". Ça a été ma première utilisation de ChatGPT et dès le début il était incroyablement efficace sur ce point.

Posté

J'ai installé mes premiers wikipedia (circa 2000), entre autres, à cause de ce souci.

Après avoir passé des heures à fouiner dans le papier pour retrouver un article sur ci ou ça.

Et j'utilise encore ces wikipedias today.

Une BD, un moteur de recherche ... what else.

Créer un compte ou se connecter pour commenter

Vous devez être membre afin de pouvoir déposer un commentaire

Créer un compte

Créez un compte sur notre communauté. C’est facile !

Créer un nouveau compte

Se connecter

Vous avez déjà un compte ? Connectez-vous ici.

Connectez-vous maintenant
×
×
  • Créer...