le 14 avril 2023
L’ère numérique a créé une abondance de données brutes. Ces données ont besoin d’être bien comprises pour être un atout utile pour les décideurs des organisations. Bien qu’il y ait eu de grands progrès dans la collecte de renseignements d’affaires à partir de données structurées, l’analyse de données non structurées telles que des informations écrites reste difficile. Par exemple, les données non structurées comprennent la plupart des données au sein des organisations, et le traitement manuel de ces volumes élevés de données peut prendre beaucoup de main-d’œuvre et de temps. Des exemples de données textuelles non structurées comprennent des notes d’entrevue, des articles web et du texte dans n’importe quel document ou courriel.
L’Agence du revenu du Canada (ARC) utilise une forme d’intelligence artificielle — le traitement automatique du langage naturel (TALN) — pour analyser ces données textuelles non structurées. L’objectif du TALN est de lire, de déchiffrer, de comprendre et de donner un sens au langage humain d’une manière qui est précieuse. La technologie a permis aux auditeurs de l’ARC de comprendre et d’analyser de grands volumes de données textuelles non structurées contenues dans les notes d’entrevue, les articles web et les rapports finaux. L’ARC a trouvé le TALN particulièrement efficace pour résumer, modéliser les sujets et analyser les sentiments.
Résumé automatique du texte
En 20 minutes environ, les auditeurs ont pu traiter les notes d’une centaine d’entrevues contenant environ 140 000 mots. |
Résumer le texte dans les documents prend beaucoup de temps. L’utilisation du TALN pour automatiser ce processus réduit les documents volumineux à une fraction de leur taille originale tout en conservant la majeure partie de leur sens. De plus, la synthèse automatique du texte peut augmenter la vitesse à laquelle les auditeurs internes examinent les documents tout en réduisant l’effort et le temps nécessaires pour lire et préparer manuellement les résumés.
L’Agence numérise automatiquement les articles web en fonction des termes de recherche et applique un résumé automatique du texte pour produire des résumés relativement précis. Dans la plupart des cas, les documents volumineux sont réduits à moins d’un dixième de leur taille originale, ce qui permet aux praticiens de compléter plus rapidement leurs examens initiaux. La Division de la gestion des risques d’entreprise de l’ARC, par exemple, utilise ces sommaires pour faciliter la communication de l’information sur les risques, et jusqu’à présent, la réaction a été positive.
De plus, l’ARC a exploré deux possibilités d’utiliser des résumés de texte automatisés dans la phase de planification d’une mission. Une application consiste à traiter et à résumer un grand volume de notes d’entrevue pour un examen à l’échelle de l’organisation. En 20 minutes environ, les auditeurs ont pu traiter les notes d’une centaine d’entrevues contenant environ 140 000 mots. La deuxième application résume un grand nombre de renseignements d’entreprise internes stockés sur l’intranet de l’ARC afin d’accélérer la collecte des contrôles internes existants, comme les mandats, les politiques et les procédures liés à l’entité auditée en question.
Modélisation et visualisation des thèmes
La modélisation thématique est le processus de classification des sujets et thèmes importants contenus dans un corps de texte ou une collection de documents. L’utilisation du TALN pour la modélisation de sujets peut fournir à un analyste un large éventail de thèmes ou de sujets globaux à une vitesse et une portée de détails qui dépassent celles d’une personne. Cela peut permettre aux analystes d’économiser du temps et des efforts pour classer manuellement les documents en fonction de leurs catégories logiques.
De plus, les auditeurs peuvent visualiser les sujets dans les documents pour révéler leur prévalence ainsi que l’intensité des corrélations entre les sujets et les documents. Par exemple, les analystes des risques de l’ARC ont utilisé des méthodes de visualisation des sujets pour découvrir automatiquement les sujets dans les énoncés de risque et la façon dont ils sont corrélés (voir « Visualisation des connexions », ci‑dessous).
La modélisation thématique peut également être combinée à des résumés automatiques de texte pour aider les analystes à comprendre plus rapidement le contenu des documents et à se concentrer sur certains thèmes ou sujets d’intérêt. Par exemple, un analyste des risques pourrait être intéressé de savoir comment quelques dizaines de revues et de journaux en ligne ont rendu compte des activités de l’organisation au cours de plusieurs années. Un analyste de données pourrait recueillir des articles de presse qui mentionnent l’organisation et appliquer des algorithmes de TALN pour créer un modèle de sujet afin d’identifier les thèmes d’intérêt. Ensuite, les articles pourraient être automatiquement résumés, ce qui pourrait permettre à l’analyste des risques de les examiner rapidement pour identifier les risques.
Visualisation des connexionsLes praticiens de l’ARC ont utilisé la visualisation d'écrite pour montrer l’interconnectivité des énoncés de risque aux sujets (nœuds) et les forces de corrélation associées (épaisseur de ligne). Dans ce cas, il y avait 31 énoncés de risque (petits nœuds) connectés à 8 sujets différents (grands nœuds). Le risque 7 et le risque 14 sont fortement associés au sujet 7, mais le risque 5 et le risque 1 sont moins associés à ce sujet. Le risque 1 est plus fortement associé au sujet 1. Ce diagramme de réseau montre comment les énoncés de risque peuvent être classés en thèmes (sujets) et comment certains énoncés de risque sont liés à plusieurs thèmes.
|
Analyse des sentiments
L’analyse des sentiments est le processus d’analyse d’un texte écrit pour en déterminer le ton. Le ton peut être positif, négatif ou neutre. Le TALN automatise ce processus en analysant des articles entiers au niveau de la phrase pour déterminer le ton global. Par exemple, les auditeurs peuvent attribuer des mots tels que grand, heureux et amical à un sentiment positif, et attribuer des mots tels que terrible, en colère et ennuyeux à un sentiment négatif.
Les analystes de données de l’ARC ont utilisé le langage de programmation R pour découvrir les sentiments des réponses à 20 questions d’entrevue, qui ont été posées dans de nombreuses entrevues. L’analyse a permis de déterminer que 15 questions d’entrevue ont suscité une réponse négative, mais que seulement cinq questions ont suscité une réponse positive. Cela s’explique notamment par le fait que les questions ont été formulées de manière à mettre au jour des faiblesses ou des problèmes, de sorte qu’on s’attendrait à une réponse plus négative. Cet exemple démontre pourquoi les auditeurs doivent être prudents lorsqu’ils utilisent l’analyse des sentiments, car le contexte doit être connu à l’avance. Bien que l’analyse des sentiments puisse donner un aperçu général de ce que les répondants peuvent ressentir à propos d’un sujet, les auditeurs doivent rechercher ce qui pourrait expliquer ce sentiment.
L’ARC a également utilisé l’analyse des sentiments pour déterminer le ton des constatations dans les rapports d’audit interne de l’Agence qui sont accessibles au public. Dans les cas où il était préférable d’établir des rapports équilibrés, les auditeurs ont eu recours à une analyse des sentiments pour déterminer si les rapports comportaient un équilibre entre les constatations démontrant que certains contrôles internes fonctionnaient bien et celles établissant que d’autres devaient être améliorés. En créant des diagrammes de dispersion de points des constatations par année, les auditeurs ont pu voir la tendance tonale du sentiment au fil du temps.
Découvrir des connaissances
Comme l’ARC l’a découvert, le TALN peut accroître les efforts de collecte de renseignements des auditeurs en les aidant à découvrir des connaissances et à relier l’information à de grands volumes de données textuelles. La Direction générale de la vérification, de l’évaluation et des risques de l’ARC encourage les praticiens à utiliser le TALN et d’autres méthodes d’IA pour traiter et analyser les grands volumes de données textuelles non structurées stockées au sein des organisations.
Pour commencer, il suffit d’embaucher un étudiant ou un nouveau diplômé avec une certaine expertise dans l’exploitation des outils de programmation disponibles gratuitement, tels que R et Python. Ces outils de source ouverte et les algorithmes d’IA disponibles sont ouverts à l’examen et à l’amélioration continue. Avant de les utiliser, les fonctions d’audit interne devraient consulter leur service informatique pour s’assurer que les outils ont été configurés et certifiés pour un usage interne par leurs organisations.
Mourad Nizar, CISA, est directeur, Division des pratiques professionnelles et de l’analyse des données à l’Agence du revenu du Canada à Ottawa
Jasbir Singh, CISA, est chef de projet, Innovation en analyse de données, à l’Agence du revenu du Canada à Ottawa
jasbir.singh@cra-arc.gc.ca
Francis Hamel est directeur, Services et analyse de données, à la Commission de la fonction publique du Canada à Ottawa
AVIS : Les opinions exprimées dans cet article sont celles des auteurs et ne reflètent pas nécessairement le point de vue de la Fondation.
Cet article a été réimprimé avec la permission du numéro d’avril 2022 de Internal Auditor, publié par L’Institut des auditeurs internes, Inc., www.theiia.org.
Consultez les autres articles de la série Sur le terrain