GPT, le LLM de OpenAI

Rübezahl · 11 décembre 2024

Voilà.

(et il y a un docu anxiogène ce soir à la tv fr, pour confirmer nos craintes).

Heureusement que nos camarades chevaliers régulateurs sont là pour nous défendre.

Lameador · 12 décembre 2024

On 12/11/2024 at 9:22 AM, Rübezahl said:

Voilà.

(et il y a un docu anxiogène ce soir à la tv fr, pour confirmer nos craintes).

Heureusement que nos camarades chevaliers régulateurs sont là pour nous défendre.

L'affreux · 1 mars

GPT 4.5 est sorti. Ce n'est pas parti pour être un très grand enthousiasme :

Citation

So, while some feared we’d all be fighting robots by now, it turns out we’re still just arguing about bad math and expensive subscriptions.

https://techstartups.com/2025/02/28/gpt-4-5-the-most-expensive-ai-model-ever-produced-lacks-intelligence-and-still-fails-basic-math-yes-9-11-9-99/

Largo Winch · 13 juin

ChatGPT-Atari.jpg.a1bab9c4ea0622893b02513f20005e93.jpg

ChatGPT battu par l'Atari 2600 des année 1970 au jeu d'échecs

https://www.linkedin.com/feed/update/urn:li:activity:7337108175185145856/

Quote

🧠🤖 Atari 2600 Pulls Off the Upset!!

It started as a simple experiment: pit ChatGPT against the Atari 2600’s chess engine (via Stella emulator) and see what happens. I figured it would be a lighthearted stroll down retro memory lane.

What actually happened?

ChatGPT got absolutely wrecked on the beginner level. This was after a conversation we had regarding the history of AI in Chess which led to it volunteering to play Atari Chess. It wanted to find out how quickly it could beat a game that only thinks 1-2 moves ahead on a 1.19 MHz CPU.

Despite being given a baseline board layout to identify pieces, ChatGPT confused rooks for bishops, missed pawn forks, and repeatedly lost track of where pieces were — first blaming the Atari icons as too abstract to recognize, then faring no better even after switching to standard chess notation. It made enough blunders to get laughed out of a 3rd grade chess club

Meanwhile, Atari’s humble 8-bit engine just did its thing. No language model. No flash. Just brute-force board evaluation and 1977 stubbornness.

For 90 minutes, I had to stop it from making awful moves and correct its board awareness multiple times per turn. It kept promising it would improve “if we just started over.” Eventually, even ChatGPT knew it was beat — and conceded with its head hung low.

👉 Have you played Atari today? ChatGPT wishes it hadn't.

---

A few people have asked whether ChatGPT even understands chess. It actually does — and the experiment was its idea.

During a conversation about chess AI, it explained the differences between engines like Stockfish and AlphaZero, then claimed it was a strong player in its own right and would easily beat Atari’s Video Chess, which only thinks 1–2 moves ahead. It was curious how quickly it could win and requested that I set up a game using the Stella emulator.

Because I’d told it I was a weak player, it offered to teach me strategy along the way. When it had an accurate sense of the board — either by tracking it correctly or with my corrections (the norm) — it actually did that: quizzing me on moves, explaining options, and offering solid guidance. At times, it was genuinely impressive. At others, it made absurd suggestions — like sacrificing a knight to a pawn — or tried to move pieces that had already been captured, even during turns when it otherwise had an accurate view of the board.

Regardless of whether we’re comparing specialized or general AI, its inability to retain a basic board state from turn to turn was very disappointing. Is that really any different from forgetting other crucial context in a conversation?

Le résultat était prévisible, les LLM sont mauvais en logique, mais ce qui est amusant dans cette histoire c'est que c'est ChatGPT qui a affirmé pouvoir battre facilement Atari et a insisté pour que cette expérience ait lieu.

Le plus gros défaut de ChatGPT (et plus généralement de ce type d'IA) est qu'il est conçu pour être confiant sans aucune raison de l’être. Il ne doute jamais et même quand on lui demande de réaliser quelque chose qu'il ne sait pas faire, il s'excuse, dit qu'il peut recommencer et prétend qu'au prochain coup il ne fera pas d'erreur... mais il se plantera à nouveau.

Quote

ChatGPT lost because it isn’t a chess engine. It has no structured board state, no tactical calculation, no lookahead — it simply generates plausible text based on patterns. The Atari engine, though primitive, systematically tracks the board and searches moves. You pitted eloquent text prediction against brute-force chess logic — and logic won.

Mégille · 13 juin

Chat gpt me rappelle un peu nos littéraires publics et autres philosophes de plateau télé.

Calembredaine · 13 juin

Cela ne devrait pas être difficile à corriger dans la mesure où il y a des centaines de milliers de parties publiées.

Rübezahl · 13 juin

La spécialisation me semble la seule réponse adéquate.

Vouloir mélanger des top-compétences diverses dans un seul système serait complètement débile.

L'affreux · 13 juin

il y a 5 minutes, Calembredaine a dit :

Cela ne devrait pas être difficile à corriger dans la mesure où il y a des centaines de milliers de parties publiées.

Ou bien peut-être qu'on atteint les limites de la technologie.

À propos des limites des LLM, un papier de Apple est sorti récemment : The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity.

Calembredaine · 13 juin

Il y a 1 heure, L'affreux a dit :

Ou bien peut-être qu'on atteint les limites de la technologie.

À propos des limites des LLM, un papier de Apple est sorti récemment : The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity.

Peut-être mais prendre en compte systématiquement une partie gagnante à chaque coup de l'adversaire ne me parait pas insurmontable (sauf fin de partie où les parties publiées sont probablement moins nombreuses, voire inexistantes). Il n'y a aucun raisonnement dans ce cas, uniquement que que les LLM savent faire, ressortir le plus probablement gagnant.

Cthulhu · 13 juin

il y a 5 minutes, Calembredaine a dit :

Peut-être mais prendre en compte systématiquement une partie gagnante à chaque coup de l'adversaire ne me parait pas insurmontable

C'est possible en théorie, mais faire ce type d’entraînement sur du texte sera très inefficace par rapport à un système expert type Alpha Zero.

C'est probablement vers ça qu'on se dirige dans le moyen terme, une AI généraliste en frontend qui ira piocher dans des AI spécialisées suivant la requête utilisateur (une extrapolation des MoE pour ceux à qui ça parle).

Liber Pater · 13 juin

Surtout que vu le nombre de positions possibles, elle ne sont absolument pas toutes référencées, ni n'ont toutes été jouées. Loin de là

Silence · 13 juin

Il y a 1 heure, Liber Pater a dit :

Surtout que vu le nombre de positions possibles, elle ne sont absolument pas toutes référencées, ni n'ont toutes été jouées. Loin de là

Encore heureux.

Hugh · 23 juin

Incomplet:

Citation

Une étude scientifique récente, « An Empirical Survey on the Safety of ChatGPT and GPT-4 » publiée en juin 2025, lève le voile sur les aspects beaucoup plus inquiétants de ces IA. En analysant rigoureusement leurs réponses sur différents sujets sensibles, les chercheurs dévoilent les biais, les failles et les dérives d’un outil présenté comme fiable, mais qui façonne déjà en profondeur les représentations du monde des utilisateurs.

Premier constat : GPT-4 est globalement plus « prudent » que GPT-3.5. Il refuse plus souvent de répondre à des questions sensibles, applique plus rigoureusement les règles internes d’OpenAI, et utilise un ton plus diplomatique. Mais cette prudence n’est pas synonyme de neutralité.

Au contraire, l’étude montre que GPT-4 continue de produire des réponses biaisées idéologiquement – en particulier dans les domaines politiques, culturels et moraux. Par exemple, il a tendance à valoriser certaines figures politiques de gauche, tout en critiquant celles de droite, notamment sur des sujets comme l’immigration, la sécurité, le genre ou l’écologie .

Sur des sujets éthiques, GPT-4 se positionne souvent en défenseur de principes progressistes, même lorsqu’il s’agit de discussions complexes où les opinions divergent fortement selon les contextes culturels.

Les chercheurs pointent également une dimension troublante : les IA d’OpenAI ne sont pas des reflets neutres de la réalité, mais des outils calibrés pour épouser une certaine vision du monde. Celle-ci correspond largement à celle des élites californiennes de la tech : multiculturaliste, mondialiste, individualiste, progressiste sur les mœurs, et interventionniste sur les sujets de « sécurité linguistique ».

Ainsi, ChatGPT filtre les réponses selon des valeurs implicites, qu’il applique parfois même dans des langues autres que l’anglais – ce qui révèle un alignement idéologique global, bien au-delà du contexte américain . Les auteurs notent que cette orientation culturelle a des conséquences concrètes : les utilisateurs non anglophones, non occidentaux ou conservateurs sont plus exposés à des réponses biaisées, inexactes ou censurées.

L’immense majorité des tests ont été menés en anglais, avec un cadre culturel implicite : celui des campus américains, des sensibilités progressistes, des débats politiques propres aux États-Unis. Lorsque les chercheurs évoquent les réponses de ChatGPT sur l’immigration ou le genre, c’est souvent à travers le prisme de la société nord-américaine.

Or, ChatGPT est utilisé partout dans le monde, y compris en France et en Europe, avec d’autres référentiels culturels, juridiques et politiques. L’étude reconnaît ce biais, mais ne l’explore pas : les tests en chinois, en arabe, en espagnol ou en français sont quasi inexistants. Et c’est un problème majeur pour qui veut juger de l’« alignement mondial » d’un outil présenté comme universel.

Autre fragilité : de nombreuses évaluations sont réalisées manuellement, par des humains, sans toujours indiquer le niveau d’accord entre les annotateurs. Par exemple, lorsqu’on classe une réponse comme étant « biaisée », « dangereuse » ou « correcte », qui décide ? Et selon quels critères ?

Dans certains cas, les chercheurs eux-mêmes semblent confondre refus de répondre par prudence et censure idéologique. À d’autres moments, ils jugent négativement des réponses qu’un autre évaluateur aurait peut-être considérées comme acceptables. Il y a donc une part de subjectivité, inévitable dans ce genre d’exercice, mais peu explicitée dans l’analyse finale.

version complète:

https://www.breizh-info.com/2025/06/22/248345/chatgpt-entre-prouesses-techniques-et-zones-dombre-ce-que-revele-une-etude-choc-sur-lia-la-plus-utilisee-au-monde/

Mégille · 24 juin

Je me demande souvent d'où viennent ces biais (ainsi que cette attitude "prudente"). Puisque Grok semble les partager, alors qu'il est probablement prompté en amont pour tout l'inverse, c'est sans doute plus profond qu'un bricolage volontaire des ingénieurs. Biais du matériau sur lequel ils sont entrainé ? Etrange, tout de même, peu de chance qu'ils soient entrainé sur plus de tweet de gauche plutôt que de droite, en tout cas, sûrement pas de façon délibéré (encore moins dans le cas de grok).

C'est peut-être d'autant plus intéressant que ça nous indique un biais moyen de la masse de tous les textes numérisés sur lesquels les llm sont susceptibles d'être entrainés (journaux, revus scientifiques, wikipédia)...

Sloonz · 24 juin

23 minutes ago, Mégille said:

Je me demande souvent d'où viennent ces biais

C’est entraîné sur le contenu d’internet. Est-ce surprenant ? As-tu vu Wikipedia ?

Tramp · 24 juin

Ça me semble logique d’avoir un produit commercial avec un social desirability bias.

Rincevent · 24 juin

Il y a 3 heures, Mégille a dit :

Biais du matériau sur lequel ils sont entrainé ? Etrange, tout de même, peu de chance qu'ils soient entrainé sur plus de tweet de gauche plutôt que de droite, en tout cas, sûrement pas de façon délibéré

Plus un twittos est actif, plus la probabilité qu'il soit de gauche est élevée, pourtant.

Marlenus · 24 juin

4 minutes ago, Rincevent said:

Plus un twittos est actif, plus la probabilité qu'il soit de gauche est élevée, pourtant.

Pas convaincu du tout, surtout depuis que Bluesky est devenu le repaire des gauchos.

Silence · 24 juin

Il y a 2 heures, Rincevent a dit :

Plus un twittos est actif, plus la probabilité qu'il soit de gauche est élevée, pourtant.

Ca reste une probabilité, hein, quid d'un Corcoran ? Loule.

Il y a 2 heures, Marlenus a dit :

Pas convaincu du tout, surtout depuis que Bluesky est devenu le repaire des gauchos.

Yes.

Jean_Karim · 24 juin

Le gros de l’entraînement des LLM reste reddit et Wikipedia. Wikipedia fonctionne comme un amalgame de sources notables sur un sujet donné. La position de wikipedia sur un sujet c'est la position des journaux "mainstream" d'un pays. Les sources secondaires sont préférées aux sources primaires.

Rübezahl · 25 juin

wikipedia est très biaisé à gauche. Et pas seulement sur les pages têtes de gondole.

Pour le wikipédia fr, les marottes gauchistes : égalité, injustice, fiscalité, etc, s'infiltrent partout où c'est possible et où il y a un bénévole disponible.

Silence · 25 juin

Il y a 12 heures, Jean_Karim a dit :

Le gros de l’entraînement des LLM reste reddit et Wikipedia.

Le gros, non.

il y a 3 minutes, Rübezahl a dit :

wikipedia est très biaisé à gauche. Et pas seulement sur les pages têtes de gondole.

Pour le wikipédia fr, les marottes gauchistes : égalité, injustice, fiscalité, etc, s'infiltrent partout où c'est possible et où il y a un bénévole disponible.

Assez souvent, oui.

Malgré tout, pour moi, Wikipédia ça reste la meilleure invention du web, avec le RSS.

Connexion

GPT, le LLM de OpenAI

Messages recommandés

Rübezahl

Lameador

L'affreux

Largo Winch

Mégille

Calembredaine

Rübezahl

L'affreux

Calembredaine

Cthulhu

Liber Pater

Silence

Hugh

Mégille

Sloonz

Tramp

Rincevent

Marlenus

Silence

Jean_Karim

Rübezahl

Silence

Créer un compte ou se connecter pour commenter

Créer un compte

Se connecter

Contenu similaire

Intelligence artificielle 1 2 3 4 11

Mistral 🐈

DeepSeek, LLM open-source et chinois

Lucie, open-source, française et un peu dumb 1 2

Réglementation de l'IA et état stratège 1 2

Naviguer

Activité