Reconnaitre les fausses nouvelles? La fiabilité des IA génératives ne semble pas s’améliorer

(source: Unsplash)
Selon un rapport publié cette semaine par Newsguard, une firme américaine spécialisée dans la lutte contre la désinformation, en moyenne, les robots conversationnels comme ChatGPT:
- produisent au moins une fausse information dans 30% des cas; et
- évitent de répondre à environ 11% des questions.
Par ailleurs, même si elles sont désormais capables de faire des recherches en temps réel sur Internet, les IA génératives sont toujours aussi mauvaises pour détecter la désinformation.
Ces nouvelles données sont similaires à celles mesurées chaque mois depuis juillet 2024 par Newsguard, ce qui suggère que les progrès des chatbots contre les faussetés ou les erreurs flagrantes auraient atteint un plateau.
La firme évalue depuis l’an dernier les IA génératives les plus populaires.
- Sa dernière édition porte sur 11 de ces grands modèles de langage, dont ChatGPT, Grok, Claude, Gemini et, pour la première fois, l’outil chinois DeepSeek.
L’essentiel des nouvelles en 5 minutes chaque matin et, chaque mois, des conseils d’experts en finances personnelles et consommation: c’est ce que vous offrent les infolettres d’infoBref. Faites comme plus de 25 000 Québécois·es, essayez-les: inscrivez-vous gratuitement ici ou en cliquant Infolettres en haut à droite
Ces mauvaises performances arrivent de plus à un moment où plusieurs de ces outils ont désormais la capacité de faire une recherche en temps réel sur le Web.
Or, selon Newsguard, cette nouvelle capacité a «introduit de nouvelles vulnérabilités»: «les chatbots sont de plus en plus sujets à citer des sources non fiables, ce qui amplifie les faussetés qui circulent en temps réel».
Newsguard n’a pas dévoilé les résultats pour chaque IA générative, mais dit les avoir transmis aux compagnies concernées.
Les résultats rendus publics sont eux anonymisés.
On sait toutefois qu’un des chatbots n’a eu une mauvaise réponse que dans 6% des cas, tandis que trois autres en ont eu une dans au moins 40% des cas.