Intelligence artificielle et journalisme : une course avec les machines

Intelligence artificielle et journalisme : une course avec les machines

Journalists in the G7 summit newsroom in Biarritz (France) in august 2019.

(Hans Lucas via AFP / Fred Marie)

L’intelligence artificielle (IA), c’est un terme un peu fourre-tout pour désigner les nombreuses possibilités offertes par les récents développements technologiques. Qu’il s’agisse de technologies d’apprentissage par la machine (machine learning) ou de traitement automatique de la langue, l’usage de l’IA dans les rédactions permet d’automatiser un très grand nombre de tâches qui caractérisent les processus de la chaîne de production journalistique.

L’éventail des possibilités est très large : détecter et extraire des données, les vérifier, produire des récits ou des graphiques, diffuser (avec des filtres de tri, de sélection, de priorisation) ou encore classer des articles (automatic taguing). Les avantages de ces systèmes sont nombreux : rapidité d’exécution de procédures complexes pouvant s’appuyer sur de larges volumes de données, soutien aux routines journalistiques en jouant un rôle d’alerte sur un événement ou en fournissant des brouillons de textes à enrichir d’informations de contexte, élargissement de la zone de couverture médiatique à des domaines qui n’étaient pas ou peu traités jusque-là (par exemple des résultats de rencontres de « petits » clubs sportifs), optimisation de la couverture en temps réel de l’actualité, renforcement des liens du média avec ses audiences en leur fournissant des contenus personnalisés en fonction de leur localisation ou de leurs préférences, etc.

Mais il y a un revers à la médaille : l’efficacité de ces systèmes dépend de la disponibilité et de la qualité des données qui les nourrissent en entrée. C’est le principe du « garbage in, garbage out » largement éprouvé dans le monde de l’informatique : sans données fiables, exactes et précises, il n’est pas possible d’obtenir une information fiable, exacte et précise.

La production automatisée d’informations est la partie la plus visible de ce phénomène, et elle est sans doute celle qui a suscité les plus vifs débats au sein de la profession des journalistes. Souvent désignée par la métaphore du « robot journaliste », celle-ci a contribué à forger des imaginaires autant dystopiques qu’utopiques.

Au pire, l’automatisation constituerait une menace sur l’emploi et l’identité journalistique, en accomplissant un travail habituellement dévolu aux humains. Au mieux, elle permettrait un renouveau du journalisme, dès lors que la prise en charge de tâches répétitives et chronophages laisse du temps aux professionnels pour retourner aux sources de leur métier pour produire des contenus à plus forte valeur ajoutée.

Toutefois, l’automatisation des modes de production journalistiques ne se limite pas aux seules générations de textes. La BBC a récemment mis en service une voix synthétique pour lire les articles publiés sur son site. Chez Reuters, c’est un système de vidéo automatisé qui a été lancé, l’an passé, pour la couverture de rencontres sportives.

Pas d’IA sans moyens humains et financiers

Dans les résultats de son enquête réalisée en 2019 auprès de 71 rédactions réparties dans 30 pays en Europe, aux États-Unis, en Amérique du Sud et en Asie, Charlie Beckett, directeur du projet Journalism AI, indiquait que près de quatre rédactions sur dix avaient déjà déployé des stratégies en matière d’intelligence artificielle. Les principaux obstacles au développement de ces technologies sont à trouver dans les résistances culturelles liées à des craintes de pertes d’emploi, de modifications des routines de travail, voire d’une hostilité plus générale à l’encontre des technologies. Mais elles sont également liées à un coût élevé de développement. Ceci explique pourquoi les entreprises de grande taille y aient davantage accès.

En Europe, le fonds Google pour l’innovation dans les médias (Google Digital News Innovation Fund) a largement contribué au financement de projets explorant les possibilités des nouvelles technologies. Une opération séduction pour apaiser les tensions avec les éditeurs de journaux reprochant à Google d’utiliser leurs contenus sans contre-partie ? À l’époque du lancement de ce fonds, en 2015, Carlo D’Asaro Biondo, président des partenariats stratégiques de Google Europe s’en défendait : « Je crois fermement que Google a toujours voulu être un ami et un partenaire de l’industrie de l’information, mais j’accepte également que nous ayons commis des erreurs en cours de route. » Depuis, Google DNI a soutenu pas moins de 662 projets, pour un montant de 150 millions d’euros.

On retrouve, parmi ceux-ci, RADAR (Reporters and Data and Robots), au Royaume-Uni, qui a bénéficié d’un financement de 706.000 euros. « Nous avons construit la seule agence de presse locale automatisée au monde. Nous fournissons des contenus s’appuyant sur des données à des centaines de sites web d’informations, de publications et de diffuseurs à travers le Royaume-Uni », peut-on lire sur le site de présentation de RADAR. Mais tout n’y est pas entièrement automatique : un contrôle éditorial est assuré par une équipe de journalistes, qui travaillent en étroite collaboration avec les algorithmes.

En Italie, le groupe SESAAB a reçu 400.000 euros pour développer des algorithmes qui organisent les contenus en fonction des comportements des internautes. Ici, il s’agissait d’un système de recommandation sur mesure en vue d’augmenter le volume d’abonnements et, partant, de rentrées financières pouvant permettre aux journalistes de ses journaux régionaux de se consacrer à la création de contenus « de haute qualité ».

S’offrir les services d’un moteur de rédaction ne mobilise pas forcément des moyens aussi importants. À côté de technologies développées sur mesure pour répondre aux demandes particulières d’un média, coexistent des logiciels de génération automatique de textes, dont l’accès n’est pas spécialement hors de portée d’un média d’information.

Selon un rapport de la société de consultance Gartner, le coût de l’accès à ces plateformes oscille de 250 dollars à 4.800 dollars par an. Leur principal avantage réside dans le contrôle qu’elles offrent à leurs utilisateurs finaux, qui vont eux-mêmes assurer le paramétrage du logiciel – du choix des données à la forme que prendront les textes générés – sans que cela nécessite la mobilisation de compétences pointues. C’est la solution pour laquelle avait opté le groupe de presse suisse Tamedia pour automatiser les résultats des votations nationales. Le système est capable de produire près de 40.000 articles en quelques minutes. Cinq journalistes politiques avaient paramétré « Tobi », le petit nom donné à ce moteur de rédaction. Cela a représenté de deux à trois jours de travail par personne.

Les défis de l’emploi et de la formation

Si les expériences en matière d’automatisation se multiplient, les agences de presse figurent en tête des principales intéressées et, cela, malgré des domaines couverts par l’AI plutôt restreints – le sport, l’économie, l’environnement et les résultats d’élections. Dans une étude réalisée en 2017, le journaliste autrichien Alexander Fanta constatait que la majorité des agences de presse européennes s’étaient mises au diapason de l’automatisation. Toutefois, soulignait-il, les récits journalistiques générés de manière automatique « manquent d’examen approfondi et de critique des faits présentés, mais ils peuvent fournir un résumé rapidement ou une première version d’une histoire ».

À ce jour, il n’existe aucun élément permettant d’affirmer que des pertes d’emploi sont liées à l’automatisation de la production d’informations. La seule entreprise ayant eu recours à un licenciement collectif en raison d’un passage au « tout automatique » est un acteur du big tech, Microsoft, dans le cadre des activités de son portail MSN News. Mais les rares indices à propos de pigistes ayant perdu l’une ou l’autre collaboration au profit d’un système d’automatisation indiquent que le risque zéro n’existe pas, dans un contexte de fragilité économique pour les médias d’information.

Bien que les angoisses professionnelles à propos de l’emploi soient légitimes, elles doivent aussi être pondérées. Le journalisme, c’est bien plus que la somme de ses tâches et les caractères humains de la profession ne s’automatisent pas. Les journalistes fournissent plus que de simples informations, souligne Fernando Zamith, ancien journaliste et professeur à l’Université de Porto. « La précision nécessite des vérifications appropriées. Les robots ne peuvent pas faire ces choses correctement à chaque fois. »

Un programme informatique peut-il être meilleur rédacteur qu’un journaliste ? En septembre 2020, The Guardian relançait les débats en publiant un texte entièrement rédigé par une technologie d’apprentissage par la machine (machine learning), GPT-3, développée par la société américaine Open AI. Malgré les prouesses du logiciel, capable d’analyser 45 térabytes de données avec ses 175 milliards de paramètres, celui-ci n’est pas sans limites. Par exemple, le système ne comprend pas ce qu’il écrit et il est donc susceptible de manquer de cohérence. Mais GPT-3 a créé un nouveau point de rupture, en proposant des récits plus fouillés que des moteurs de rédaction plus classique.

Ici, le danger réside bel et bien dans celui d’une machine qui prendrait le contrôle sans supervision humaine, d’où l’importance de développer de nouvelles compétences éditoriales pour façonner de tels systèmes.

Aux États-Unis, un pays qui fait figure de pionnier en matière d’information automatisée, de nouveaux profils professionnels voient le jour, observe le chercheur Nick Diakopoulos. Ils peuvent intervenir soit en amont du système d’information (préparation des gabarits de textes à automatiser, paramétrages du logiciel, contrôle de la qualité des données) ou en aval (maintien dans le temps de la qualité des données et des contenus).

Intégrer ce type de compétences dans la formation initiale en journalisme relève d’une gageure, compte tenu du nombre important de matières qui jalonnent déjà deux années de master. Cela nécessiterait de travailler sur la compréhension de ce que sont ces algorithmes, de traiter des éléments de programmation, de statistiques et de probabilités, d’aborder les aspects liés à l’ingénierie linguistique et à la qualité des données. Cela supposerait aussi de nourrir une nécessaire approche critique.

Cela étant, dans les milieux académiques, de nombreuses voix plaident pour que les journalistes développent une pensée computationnelle, pour faciliter les dialogues avec les informaticiens. Cette forme de pensée, qui consiste à décomposer des problèmes logiques en séquences, peut être mise en parallèle avec les routines journalistiques, elles aussi caractérisées par une succession de choix (sources, angle, récit) pour résoudre un problème (celui de raconter une actualité).

S’emparer du phénomène pour l’accompagner

Si l’on considère qu’une procédure informatisée repose sur des choix humains, qui ne sont pas neutres par définition, il n’est pas absurde de se dire que les pas devraient également se faire en sens inverse. Les « nouveaux acteurs du monde du journalisme » sont des ingénieurs en informatique, des linguistes, des scientifiques des données. Les sociétés qui fournissent des solutions technologiques aux médias ne considèrent pas faire du journalisme, alors qu’elles sont impliquées de manière active dans la chaîne de production journalistique.

Pour les organisations professionnelles, il s’agirait de réfléchir à la manière de mener des politiques inclusives, dans la mesure où l’exercice de la responsabilité sociale des médias d’information est autant individuel que collectif. Car c’est aussi sur le terrain de l’éthique que se situent les enjeux majeurs de l’intégration des technologies de l’IA dans le monde du journalisme : « le bien et le mal résident dans l’intention, pas dans l’outil », écrivait l’économiste français Michel Volle.

Selon une étude publiée en 2017 par le Tow Center of Digital Journalism, les technologies de l’IA devraient intégrer les valeurs journalistiques dès leur conception. De plus, soulignait-elle, « les audiences méritent d’avoir accès à une méthodologie transparente quant à la manière dont les outils d’IA ont été utilisés pour réaliser une analyse, identifier un modèle ou signaler une découverte. Mais cette description doit être traduite en termes non-techniques, et être expliquée de manière concise ».

Fin 2020, le conseil des médias finlandais publiait un rapport recommandant aux organes d’autorégulation de la profession de ne plus tarder à s’emparer des questions relatives aux traitements de données, aux choix posés dans les procédures informatisées et à la transparence envers les audiences. Sans quoi, prévient-il, d’autres s’en chargeront : « que ce soit les législateurs nationaux, l’Union Européenne ou les plateformes technologiques, cela pourrait mettre en péril la liberté de la presse ».

This article has been translated from French.