La semaine dernière, on a appris que le New York Times, jusqu’ici le fer de lance du combat contre l’intelligence artificielle grâce à leurs poursuites contre OpenAI, permet désormais une utilisation plus grande de l’IA au sein de son équipe éditoriale. Et puis, avec chaque mois qui passe, les outils utilisant l’intelligence artificielle sont de plus en plus nombreux et de moins en moins chers. Alors, on embarque tous dans la révolution IA? Certes, il y a des avantages indéniables. Mais il faut aussi connaître les obstacles et les dangers.
Les principales utilités de l’IA pour les médias d’information
Quand on dit IA, on pense ChatGPT : un chatbot qui peut générer tout type de texte en quelques secondes grâce à tes prompts. Alors commençons avec ça.
(Il y a d’autres utilités à l’IA, mais je les aborderai à la fin.)
Les chatbots de ce type ont essentiellement deux utilités dans une salle de nouvelles : l’aide à la recherche et la production de contenu.
La recherche
Un bon chatbot comme ChatGPT peut t’aider à aiguiller tes recherches quand tu ne sais même pas par où commencer. Ce n’est pas une panacée, il faut quand même aller vérifier l’information, mais c’est au moins aussi utile que Google et c’est drôlement plus rapide.
Ceci étant dit, ça ne t’aidera pas à communiquer avec les élus ou à faire une demande d’accès à l’information. Quoique, avec le développement des « agents IA », ce sera peut-être possible dans un avenir pas trop lointain…
La production de contenu
C’est ce que nous craignons tous… L’IA peut, d’ores et déjà, produire une grande partie du contenu actuellement rédigé par des journalistes. C’est plus compliqué pour les vidéos et les photos parce qu’on ne peut quand même pas faire semblant qu’on a capté un événement alors qu’on n’y était pas – en tout cas, pas si on est journaliste – mais c’est très simple de créer une vidéo avec des images génériques et coller l’information par-dessus.
Joie…
Il y a déjà, aujourd’hui, de sites web de nouvelles plus ou moins legit qui diffusent du contenu entièrement généré par l’intelligence artificielle. Parfois avec une bonne dose d’édition humaine, d’autres fois vraiment peu. Un exemple : Hoodline.
Mais c’est aussi utilisé à bien meilleur escient par des médias traditionnels aux pratiques bien ancrées dans la déontologie journalistique. L’Associated Press l’utilise pour produire des nouvelles simples sur des profits d’entreprises ou des résultats sportifs (entre autres choses). Le but est de dégager les journalistes en chair et en os pour produire du contenu à plus forte valeur ajoutée.
On peut aussi utiliser l’IA comme aide à la rédaction. Tu insères tes infos, ça te fournit un premier brouillon de texte en quelques secondes, et ensuite tu l’adaptes comme tu veux.
Alors qu’est-ce que ça veut dire pour toi comme journaliste? Et bien… si ta job principale c’est de rédiger des textes à partir des communiqués de presse et des tweets, de gérer la page d’accueil, de créer des listicles ou de remâcher le contenu sur différentes plateformes, il y a de fortes chances que tu puisses être remplacé par l’IA. Ou, dans le meilleur des mondes, qu’on t’assigne à des tâches à plus forte valeur ajoutée comme les enquêtes.
Alors, on licencie la moitié de la salle de rédac et les autres deviennent tous des têtes d’affiche, c’est ça?
Peut-être. Mais pas si vite.
Les risques de l’IA pour les médias
Pour les entreprises qui peuvent développer leurs propres modèles d’IA, il y a peu de risques. L’Associated Press, ou au Canada le Globe and Mail, peuvent dormir sur leurs deux oreilles. Mais si, pour éviter les coûts de recherche et développement, tu songes à faire affaire avec ChatGPT ou encore DeepSeek, il y a de sérieuses questions à te poser en amont.
Les redevances de droit d’auteur
Le droit d’auteur est au cœur des hésitations à utiliser les modèles d’IA externes comme ChatGPT. On se doute déjà que les firmes comme OpenAI et d’autres ont utilisé des œuvres protégées par le droit d’auteur pour entraîner leurs LLM et qu’elles continuent de les utiliser quotidiennement pour générer des réponses. L’espoir de bien des entreprises, c’est de toucher des redevances pour ces droits d’auteur. Soit grâce à une entente avec OpenAI, ou par le biais d’une poursuite.
Or, il est plutôt difficile d’interdire à OpenAI d’utiliser tes œuvres ou de demander une contrepartie alors que ces œuvres ont été créées en partie grâce à ChatGPT…
Donc avant de commencer à utiliser l’IA dans vos activités de presse, assurez-vous d’abord que vous avez un objectif clair quant aux redevances.
Empêcher les crawlers d’utiliser vos infos
Peu importe que vous souhaitiez éventuellement obtenir des redevances ou non, je vous suggère, à court terme, de bloquer les crawlers qui parcourent le web pour alimenter les différents LLM utilisant l’intelligence artificielle. Ça pourra faire partie de vos négociations.
Comment on fait ça? Bon… j’avoue que je suis largement en-dehors de mon champ d’expertise, mais selon le magazine Wired, il existe plusieurs options tout dépendant des plateformes que tu utilises. Pour ton site web, ça a l’air qu’il existe un fichier assez standard, robots.txt, que tu alimentes avec un code qui bloque des crawlers spécifiques. Le problème avec ça, c’est qu’il faut connaître le code du crawler en question, et il y en a une infinité qui peuvent être créés.
Pour savoir à quoi ressemble ce code et comment bloquer certains crawlers spécifiques, je recommande ce texte.
On entraîne l’IA avec nos informations confidentielles
En plus de ce que les crawlers fournissent aux LLM, l’utilisation de l’IA par les journalistes complexifie la question des droits d’auteur et ajoute de nouvelles questions liées à la confidentialité de leur travail.
Pour en savoir plus sur les questions de sécurité, j’ai discuté avec Stéphane Ricoul, vice-président de la firme Talsom et expert en économie numérique.
« Si une compagnie utilise la version grand public de ChatGPT, toute l’information que tu lui donnes va nourrir l’outil pour améliorer le modèle de langage. Toute l’information fournie à ChatGPT, par exemple pour bâtir un texte, va à l’extérieur », dit-il.
Par contre, ce n’est pas pareil quand on utilise une option payante. Dans ce cas, on construit une série de règles connues sous l’acronyme « RAG » (retrieval-augmented generation). Ces règles permettent à ChatGPT d’utiliser les informations internes de la compagnie – par exemple, les archives d’un journal ou les différentes banques de données utilisées – pour les besoins de la compagnie, mais ces données ne sont pas supposées être utilisées pour informer les réponses à une question d’un usager externe.
« Avec un RAG, l’entreprise dit à l’IA "voici le jeu de données que tu peux utiliser; tu peux aller chercher des choses et l’amener dans mon carré de sable, mais tu ne peux pas sortir des infos du carré de sable." Dans ce cas, c’est davantage conforme à la protection des droits d’auteur », affirme M. Ricoul.
Donc, en théorie, l’article sur François Legault que tu as bâtis en utilisant une version payante de ChatGPT avec un RAG adéquat ne sera pas utilisé quand Jean Untel demande à ChatGPT ce qui s’est passé aujourd’hui à l’Assemblée nationale.
Sauf que… le LLM est tout de même entraîné avec les mots que tu lui fournis. Il se peut donc que, par accident, une information confidentielle que tu as introduite dans ta requête se retrouve bel et bien entre les mains de quelqu’un d’autre.
Donc mieux vaut écrire tes propres textes.
Les données soutirées par des « portes dérobées » (backdoors)
Mais possiblement le plus gros problème avec les outils IA, c’est les « portes dérobées » (appelées backdoors en anglais). Ce sont des morceaux de code cachés qui permettent à la personne ayant la « clé » – généralement, on parle du gouvernement du pays d’origine de l’IA – de s’infiltrer et soutirer les données des utilisateurs.
« Étant données les dispositions de lois comme le Patriot Act, il se peut fort bien que le gouvernement américain demande aux compagnies technologiques d’ajouter des portes dérobées à leurs LLM », souligne Stéphane Ricoul.
« Ah », me dis-tu, « dans ce cas je devrais utiliser DeepSeek! C’est Chinois, et en plus c’est open source, donc je peux l’héberger sur mes propres serveurs. »
Malheureusement, selon M. Ricoul, ça ne t’aidera pas : la Chine impose le même genre de portes dérobées à ses entreprises technologiques, et elle demeure accessible même si c’est sur ton serveur. D’ailleurs, semble-t-il que la porte de DeepSeek ne soit pas verrouillée à double tour.
Alors on se retrouve à choisir à qui on fait davantage confiance : la Chine ou les États-Unis…
Les autres utilités de l’IA en salle de presse
Ceci étant dit, l’IA a d’autres utilités que de remplacer des journalistes – ou, si on est généreux, les « dégager » des tâches plus plates pour les réaffecter à des tâches à plus forte puissance de frappe.
Si on garde les exemples déjà cités du Globe and Mail et de l’AP, on retient quelques utilités supplémentaires pour l’IA :
- Estimer la performance potentielle de chaque contenu selon la plateforme;
- Déterminer quels contenus mettre derrière un paywall;
- Générer une page d’accueil personnalisée pour chaque utilisateur;
- Évaluer la performance des contenus produits;
- Transcrire les sous-titres des vidéos;
- Générer des vidéos simples à partir des reportages écrits;
- Générer des étiquettes et catégoriser les articles;
- Améliorer le moteur de recherche du site web;
- Assurer une veille plus exhaustive des réseaux sociaux;
- Etc.
Pour les petites et moyennes salles de presse, certaines de ces utilités ne seraient probablement pas un bon investissement. Il n’est pas nécessaire, par exemple, pour une radio locale de scanner les réseaux sociaux pour être immédiatement au courant d’un tsunami au Bangladesh. À l’inverse, on peut tous utiliser un coup de main pour mieux comprendre où diffuser notre contenu sans perdre notre temps.
Mon cas de figure préféré, c’est la gestion du paywall. Je suis un grand défenseur du paywall pour la majorité des publications, même celles qui n’ont jamais fonctionné à l’abonnement. Si, jusqu’à récemment, ton modèle d’affaires c’était le Publisac, il est fort probable que l’entreprise n’a pas trop d’expertise dans la gestion des abonnements. Qu’est-ce qu’on met derrière un paywall et pour qui? Et bien, l’IA Sophi du Globe and Mail va te le dire!
Et en plus, c’est disponible comme plugin pour Wordpress.
Le seul hic, c’est que le Globe and Mail a vendu Sophi à une entreprise américaine, Mathers Economics, en 2023. Alors on se retrouve avec la même question que pour ChatGPT et les autres : qui aura accès aux backdoors, et peut-on leur faire confiance?
Peu importe les options choisies, les décisions concernant l’IA ne devraient pas se prendre à la légère. Ça prend une vision développée et un plan concret.
Vous songez à utiliser l’IA au sein de votre équipe et vous voulez en savoir davantage sur les options et les stratégies? Écrivez-moi!
Abonnez-vous à mon infolettre pour rester à l’affût des nouveaux développements et obtenir des conseils sur le journalisme numérique.