ChatGPT et les LLMs de OpenAI

Calembredaine · 13 juin

Cela ne devrait pas être difficile à corriger dans la mesure où il y a des centaines de milliers de parties publiées.

Rübezahl · 13 juin

La spécialisation me semble la seule réponse adéquate.

Vouloir mélanger des top-compétences diverses dans un seul système serait complètement débile.

L'affreux · 13 juin

il y a 5 minutes, Calembredaine a dit :

Cela ne devrait pas être difficile à corriger dans la mesure où il y a des centaines de milliers de parties publiées.

Ou bien peut-être qu'on atteint les limites de la technologie.

À propos des limites des LLM, un papier de Apple est sorti récemment : The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity.

Calembredaine · 13 juin

Il y a 1 heure, L'affreux a dit :

Ou bien peut-être qu'on atteint les limites de la technologie.

À propos des limites des LLM, un papier de Apple est sorti récemment : The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity.

Peut-être mais prendre en compte systématiquement une partie gagnante à chaque coup de l'adversaire ne me parait pas insurmontable (sauf fin de partie où les parties publiées sont probablement moins nombreuses, voire inexistantes). Il n'y a aucun raisonnement dans ce cas, uniquement que que les LLM savent faire, ressortir le plus probablement gagnant.

Cthulhu · 13 juin

il y a 5 minutes, Calembredaine a dit :

Peut-être mais prendre en compte systématiquement une partie gagnante à chaque coup de l'adversaire ne me parait pas insurmontable

C'est possible en théorie, mais faire ce type d’entraînement sur du texte sera très inefficace par rapport à un système expert type Alpha Zero.

C'est probablement vers ça qu'on se dirige dans le moyen terme, une AI généraliste en frontend qui ira piocher dans des AI spécialisées suivant la requête utilisateur (une extrapolation des MoE pour ceux à qui ça parle).

Liber Pater · 13 juin

Surtout que vu le nombre de positions possibles, elle ne sont absolument pas toutes référencées, ni n'ont toutes été jouées. Loin de là

Hugh · 23 juin

Incomplet:

Citation

Une étude scientifique récente, « An Empirical Survey on the Safety of ChatGPT and GPT-4 » publiée en juin 2025, lève le voile sur les aspects beaucoup plus inquiétants de ces IA. En analysant rigoureusement leurs réponses sur différents sujets sensibles, les chercheurs dévoilent les biais, les failles et les dérives d’un outil présenté comme fiable, mais qui façonne déjà en profondeur les représentations du monde des utilisateurs.

Premier constat : GPT-4 est globalement plus « prudent » que GPT-3.5. Il refuse plus souvent de répondre à des questions sensibles, applique plus rigoureusement les règles internes d’OpenAI, et utilise un ton plus diplomatique. Mais cette prudence n’est pas synonyme de neutralité.

Au contraire, l’étude montre que GPT-4 continue de produire des réponses biaisées idéologiquement – en particulier dans les domaines politiques, culturels et moraux. Par exemple, il a tendance à valoriser certaines figures politiques de gauche, tout en critiquant celles de droite, notamment sur des sujets comme l’immigration, la sécurité, le genre ou l’écologie .

Sur des sujets éthiques, GPT-4 se positionne souvent en défenseur de principes progressistes, même lorsqu’il s’agit de discussions complexes où les opinions divergent fortement selon les contextes culturels.

Les chercheurs pointent également une dimension troublante : les IA d’OpenAI ne sont pas des reflets neutres de la réalité, mais des outils calibrés pour épouser une certaine vision du monde. Celle-ci correspond largement à celle des élites californiennes de la tech : multiculturaliste, mondialiste, individualiste, progressiste sur les mœurs, et interventionniste sur les sujets de « sécurité linguistique ».

Ainsi, ChatGPT filtre les réponses selon des valeurs implicites, qu’il applique parfois même dans des langues autres que l’anglais – ce qui révèle un alignement idéologique global, bien au-delà du contexte américain . Les auteurs notent que cette orientation culturelle a des conséquences concrètes : les utilisateurs non anglophones, non occidentaux ou conservateurs sont plus exposés à des réponses biaisées, inexactes ou censurées.

L’immense majorité des tests ont été menés en anglais, avec un cadre culturel implicite : celui des campus américains, des sensibilités progressistes, des débats politiques propres aux États-Unis. Lorsque les chercheurs évoquent les réponses de ChatGPT sur l’immigration ou le genre, c’est souvent à travers le prisme de la société nord-américaine.

Or, ChatGPT est utilisé partout dans le monde, y compris en France et en Europe, avec d’autres référentiels culturels, juridiques et politiques. L’étude reconnaît ce biais, mais ne l’explore pas : les tests en chinois, en arabe, en espagnol ou en français sont quasi inexistants. Et c’est un problème majeur pour qui veut juger de l’« alignement mondial » d’un outil présenté comme universel.

Autre fragilité : de nombreuses évaluations sont réalisées manuellement, par des humains, sans toujours indiquer le niveau d’accord entre les annotateurs. Par exemple, lorsqu’on classe une réponse comme étant « biaisée », « dangereuse » ou « correcte », qui décide ? Et selon quels critères ?

Dans certains cas, les chercheurs eux-mêmes semblent confondre refus de répondre par prudence et censure idéologique. À d’autres moments, ils jugent négativement des réponses qu’un autre évaluateur aurait peut-être considérées comme acceptables. Il y a donc une part de subjectivité, inévitable dans ce genre d’exercice, mais peu explicitée dans l’analyse finale.

version complète:

https://www.breizh-info.com/2025/06/22/248345/chatgpt-entre-prouesses-techniques-et-zones-dombre-ce-que-revele-une-etude-choc-sur-lia-la-plus-utilisee-au-monde/

Mégille · 24 juin

Je me demande souvent d'où viennent ces biais (ainsi que cette attitude "prudente"). Puisque Grok semble les partager, alors qu'il est probablement prompté en amont pour tout l'inverse, c'est sans doute plus profond qu'un bricolage volontaire des ingénieurs. Biais du matériau sur lequel ils sont entrainé ? Etrange, tout de même, peu de chance qu'ils soient entrainé sur plus de tweet de gauche plutôt que de droite, en tout cas, sûrement pas de façon délibéré (encore moins dans le cas de grok).

C'est peut-être d'autant plus intéressant que ça nous indique un biais moyen de la masse de tous les textes numérisés sur lesquels les llm sont susceptibles d'être entrainés (journaux, revus scientifiques, wikipédia)...

Sloonz · 24 juin

23 minutes ago, Mégille said:

Je me demande souvent d'où viennent ces biais

C’est entraîné sur le contenu d’internet. Est-ce surprenant ? As-tu vu Wikipedia ?

Tramp · 24 juin

Ça me semble logique d’avoir un produit commercial avec un social desirability bias.

Rincevent · 24 juin

Il y a 3 heures, Mégille a dit :

Biais du matériau sur lequel ils sont entrainé ? Etrange, tout de même, peu de chance qu'ils soient entrainé sur plus de tweet de gauche plutôt que de droite, en tout cas, sûrement pas de façon délibéré

Plus un twittos est actif, plus la probabilité qu'il soit de gauche est élevée, pourtant.

Marlenus · 24 juin

4 minutes ago, Rincevent said:

Plus un twittos est actif, plus la probabilité qu'il soit de gauche est élevée, pourtant.

Pas convaincu du tout, surtout depuis que Bluesky est devenu le repaire des gauchos.

Jean_Karim · 24 juin

Le gros de l’entraînement des LLM reste reddit et Wikipedia. Wikipedia fonctionne comme un amalgame de sources notables sur un sujet donné. La position de wikipedia sur un sujet c'est la position des journaux "mainstream" d'un pays. Les sources secondaires sont préférées aux sources primaires.

Rübezahl · 25 juin

wikipedia est très biaisé à gauche. Et pas seulement sur les pages têtes de gondole.

Pour le wikipédia fr, les marottes gauchistes : égalité, injustice, fiscalité, etc, s'infiltrent partout où c'est possible et où il y a un bénévole disponible.

L'affreux · 17 juillet

Un retour d'expérience d'un ancien employé d'OpenAI qui a quitté récemment. Et j'apprends que l'agent de programmation OpenAI Codex n'était pas un projet utilisé en interne comme j'avais pu l'imaginer en début d'année.

Citation

From start (the first lines of code written) to finish, the whole product was built in just 7 weeks.

The Codex sprint was probably the hardest I've worked in nearly a decade. Most nights were up until 11 or midnight. Waking up to a newborn at 5:30 every morning. Heading to the office again at 7a. Working most weekends. We all pushed hard as a team, because every week counted. It reminded me of being back at YC.

https://calv.info/openai-reflections

Rübezahl · 17 juillet

Très intéressant. Merci.

L'affreux · 6 août

OpenAI a sorti des modèles open-source.

https://openai.com/index/introducing-gpt-oss/

L'affreux · 7 août

GPT 5 est sorti.

https://openai.com/gpt-5/

Daumantas · 7 août

C'est plutôt décevant, non ? Après l'aspect impressionnant est la diminution du taux d'hallucination, je n'ai aucune connaissance en gestion de systèmes mais est-ce qu'on ne commencerait pas à s'approcher d'un outil utilisable en milieu pro ?

L'affreux · 8 août

https://www.interconnects.ai/p/gpt-5-and-bending-the-arc-of-progress

Citation

Cheaper, thinking models that work well in applications are far more useful than scaling

D'après cet article, GPT-5 va se faire maltraiter par les critiques mais va très bien marcher.

Rübezahl · 8 août

Il y a 12 heures, Daumantas a dit :

est-ce qu'on ne commencerait pas à s'approcher d'un outil utilisable en milieu pro ?

vu qu'il y a des abonnements payants souscrits ... ça doit déjà être le cas.

cedric.org · 8 août

1 hour ago, Rübezahl said:

vu qu'il y a des abonnements payants souscrits ... ça doit déjà être le cas.

On paye ce truc à tout le monde chez nous. gains de productivité incroyable.

Et la moitié de mes amis le prennent en perso.

Rübezahl · 8 août

Vous utilisez chatGPT par habitude, parce que c'est le premier ? ou vous le trouvez objectivement plus puissant que les concurrents ?

(je lis eg que Grok est supérieur à chatGPT).

Ils font quoi les ingés avec ? (si pas indiscret).

Neomatix · 8 août

C'est un peu comme Google : j'en ai essayé d'autres mais reviens toujours à ChatGPT.

Gemini, même pro, est lent et hallucine trop souvent (et l'appli est buggée malgré mon environnement 100% Google)

Copilot est une catastrophe.

Claude j'ai tenté un peu par le passé, ça vaut peut-être le coup de réessayer.

Grok pas essayé.

Il y a un lock-in assez fort pour moi : l'historique des conversations donne pas mal de contexte et rend les réponses plus adaptées à ce que je préfère. Les custom instructions sont aussi très pratiques.

L'affreux · 8 août

De notre côté dans la boîte c'est Claude parce qu'on a besoin de nos outils MCP. Claude est top aussi.

il y a 36 minutes, Neomatix a dit :

C'est un peu comme Google

Par contre Google j'ai perdu le réflexe. Je suis passé sur Perplexity depuis des mois.

cedric.org · 8 août

1 hour ago, Rübezahl said:

Vous utilisez chatGPT par habitude, parce que c'est le premier ? ou vous le trouvez objectivement plus puissant que les concurrents ?

(je lis eg que Grok est supérieur à chatGPT).

Ils font quoi les ingés avec ? (si pas indiscret).

C'était les premiers !

Mcp aussi, on a aussi copilot ou Claude code ou API openai/claude pour aider / cursor selon les personnes.

Hugh · 8 août

Il y a 3 heures, Rübezahl a dit :

Vous utilisez chatGPT par habitude, parce que c'est le premier ? ou vous le trouvez objectivement plus puissant que les concurrents ?

(je lis eg que Grok est supérieur à chatGPT).

Ils font quoi les ingés avec ? (si pas indiscret).

Gemini et Grok.

Johnnieboy · 8 août

Flemme d’essayer les autres sans être vraiment capable de les évaluer + historique ChatGPT précieux.

Marlenus · 8 août

Je viens d'essayer en lui demandant de m'expliquer le pop darts.

Point positif:

Il n'a pas halluciné et il a reconnu longtemps ne pas savoir.

Au 5ème post, après un lien vers une chaine YT qui en parle, 2 secs. pour me donner les règles.

C'est marrant.

Déjà de le voir incapable de répondre pendant longtemps, incapable de répondre même en lui disant ce que c'était avant de lui mettre moi même le lien sous les yeux, puis mettre même pas 2 sec. pour tout me dire une fois le lien vers la vidéo YT donné.

(on parle d'un sport confidentiel mais qui passe sur ESPN).

Oui, cela n'a rien à voir avec comment vous l'utilisez pour le job.

Moi je suis plus le mec "grand public" qui va voir si cela va prendre ou rester niche.

Marlenus · 9 août

Bon c'est toujours très faillible pour les personnes comme moi qui l'utilisent comme google amélioré.

Je lui demande une liste (celle des ingrédients dans skyrim) avec les noms anglais et français.

Des erreurs dans la traduction, je lui signale, mais faut que je lui signale une par une car si je ne le signale pas, il va m'asséner des choses fausses.

Par exemple il m'a écrit clairement que taproot n'avait pas été traduit et que c'était sans doute un choix des traducteurs.

Quand je lui dis que je doute, en 1 seconde il me dit que j'ai raison et qu'il s'est trompé.

J'avoue qu'heureusement que je n'ai pas besoin d'utiliser cela dans le milieu pro, car j'avoue que le fait qu'il y ait toujours des hallucinations proférées avec assurances me ferait peur.

ChatGPT et les LLMs de OpenAI

Messages recommandés

Créer un compte ou se connecter pour commenter

Créer un compte

Se connecter

Contenu similaire