Interprétabilité vs explicabilité : L’Interprétabilité selon différentes approches (2/3)

Public ciblé : Tout public 

Dernière mise à jour : 20/10/2020

Cet article est également co-publié sur le Blog Binaire blog de médiation du magazine "Pour la Science" 

Si les réseaux de neurones artificiels font partie des algorithmes de Machine Learning les plus précis, ils sont cependant aujourd’hui les plus obscurs pour l’humain (Figure 1). 

En effet, dans l’approche que les chercheurs et développeurs ont eu pendant des années, ils ont souvent négligé ou oublié l’interprétabilité et la transparence de ces algorithmes au profit de la performance.

Second article d'une série de trois qui questionnent sur les concepts d'interprétabilité et d’explicabilité des réseaux de neurones, cet article offre une vue globale sur les  approches d’interprétabilité existantes selon les objectifs recherchés et tente d’apporter des éléments de réponses à la question “comment ouvrir les “boîtes noires” que sont les réseaux de neurones?”

Figure 1 – Niveaux d’interprétabilité des algorithmes de Machine Learning. Image adaptée à partir de Dam et al. [2018]


Interprétabilité locale ou globale ?

 

Lorsque l’on évoque l’interprétabilité des réseaux de neurones artificiels il est primordial de savoir ce que nous cherchons à expliquer et l’usage que nous souhaitons en faire. En effet, les techniques qui en découlent se distinguent selon plusieurs critères.

Tout d’abord, il est nécessaire de savoir quel type de comportement nécessite d’être analysé. Cherchons-nous à fournir une explication au comportement de la totalité du modèle ou en revanche son comportement sur un résultat en particulier ?

La première approche, nommée interprétabilité globale tend donc à fournir une explication sur le comportement global du réseau et ce, sur l’ensemble des données qu’il a apprises. Elle permet de rendre le processus de prise de décision transparent pour toutes les données et s’avère être un moyen précieux pour évaluer la pertinence de ce que le modèle a appris [Clapaud, 2019]. D’autre part, l’interprétabilité locale tend à fournir une explication pour un résultat précis, c’est-à-dire pour une décision en particulier sur une échelle très réduite. Elle est particulièrement pertinente lorsqu’il est nécessaire d’analyser un cas en particulier pour les besoins d’une personne (patient, client…) par exemple [Guidotti, 2018].

Illustrons cela par un exemple : Imaginons avoir accès à un four à micro-ondes High-Tech dont nous aurions perdu le mode d’emploi, et donc, dont nous ignorions le fonctionnement. Nous pouvons alors toujours observer la réaction du micro-ondes lorsqu’on appuie sur les boutons au fur et à mesure. En faisant cela, on associe un résultat (plat chauffé) à l’arrivée d’une information (j’ai appuyé sur un bouton en particulier). C’est ce qui revient, en fait, à interpréter localement le comportement de la machine (ici le four à micro-ondes) en fonction d’informations entrantes puisque nous associons une action et un résultat par le biais d’une fonction. Nous sommes alors dans une dimension d’interprétabilité locale : 

Dans le cas du micro-ondes : 

Fonctions du micro-ondes (bouton de chauffage appuyé) = plat chauffé

Dans un cas plus générique :

Fonctions d’un réseau de neurones (donnée entrante à l’instant t)  = résultat/prédiction à l’instant t 

 

L’interprétabilité globale correspond à une description simple et globale du fonctionnement complet du micro-ondes. Autrement dit, il s’agit de donner dans les grandes lignes son mode de fonctionnement :  on saura quel type de boutons permet de décongeler, quel autre type de boutons permet de chauffer, quel type de boutons permet d’ajuster le temps de chauffage, etc. Mais nous n’aurons pas accès directement aux comportements précis, tel que “pour décongeler un aliment il faut d’abord en sélectionner le type, puis le poids, puis vérifier le temps régulièrement afin d’atteindre le résultat souhaité 1.

En résumé, l’interprétabilité globale permet d’accéder aux chapitres et grandes sections du mode d’emploi, là où l’interprétabilité locale permet d’accéder à des fonctions bien spécifiques du micro-ondes.

Etudier un raisonnement “en cours” ou “construit” ?

 

Le deuxième usage qu’il est important de déterminer consiste à définir le moment où l’extraction des connaissances du réseau sera faite.

Si la phase d’interprétabilité est effectuée pendant l’apprentissage du réseau de neurones il s’agit d’une méthode pédagogique car il est possible d’observer le comportement de celui-ci à plusieurs moments de son apprentissage. En effet il est admis, que lors de cette étape, le réseau de neurones arrive à identifier et à extraire des caractéristiques des données qui lui permettent de s’auto ajuster, i.e. apprendre par la modification des poids. 

En revanche, si l’extraction se fait à posteriori de l’apprentissage, i.e. pendant la phase de test, on parle de méthode de décomposition car on observe, dans ce cas, l’activité de chaque couche cachée du réseau séparément avant de les combiner. 

Par exemple, considérons une tâche d’apprentissage supervisé où un réseau doit apprendre à classifier des images de tortues et de chatons. Au fur et à mesure de son apprentissage, donc au fur et à mesure qu’il reçoit des exemples, ce réseau va identifier les caractéristiques des images qui sont spécifiques à chaque classe : pixels, code couleur, positionnement d’un ensemble de pixels, etc. Ainsi, plus il va traiter d’exemples, plus il identifiera ces caractéristiques (features en anglais) et donc plus il pourra s’ajuster pour faire correspondre la bonne image à la bonne classe.

Dans ce cas précis, si on applique une méthode pédagogique sur ce réseau il est possible d’observer à différents moments de son apprentissage (par exemple tous les 100 exemples présentés) l’évolution de cette phase d’identification des caractéristiques. Autrement dit, on pourra observer ce qu’il apprend et la construction de son « raisonnement ».

A contrario, si on utilise la méthode de décomposition on va venir étudier le comportement du réseau de neurones (i.e. les activités des unités de la ou des couches cachées) à chaque fois qu’il reçoit une image à posteriori de son apprentissage.

A ce stade, donc durant la phase de test, le réseau a fini d’apprendre et il est possible d’extraire et d’analyser son activité au niveau de ses couches cachées (son comportement ou activité interne) face à chaque image selon l’apprentissage réalisé précédemment. Autrement dit, lors de ce processus, on extrait des comportements individuels des couches cachées avant de les combiner pour obtenir le comportement global du réseau et donc comprendre son « raisonnement ».

Analyser un réseau de neurones après apprentissage via une méthode de décomposition permet donc en quelque sorte d’évaluer son apprentissage implicite en l’explicitant. 

Que retenir ? 

 

S’il ne fallait retenir qu’une chose, c’est qu’en termes d’interprétabilité, comme en Machine Learning en général, il n’existe pas une approche possible mais plusieurs. Selon la question à laquelle on souhaite répondre (expliquer un comportement local ou global du réseau) et ce que l’on souhaite comprendre (comment apprend-t-il à partir des données ou comment fait-il ses prédictions ?) la ou les approches d’interprétabilité des réseaux de neurones adoptées seront différentes. 

En effet, il est possible de vouloir expliquer ou comprendre le comportement du réseau dans sa totalité, i.e faire de l’interprétabilité globale : quelles sont l’ensemble des règles que le réseau a appris implicitement pour classer des tortues et des chatons ? Ou au contraire s’intéresser plus particulièrement à un exemple en faisant de l’interprétabilité locale : pourquoi cette image précise a été classée ainsi ? 

Sur le même principe, cherchons-nous à comprendre comment le raisonnement du réseau se construit en “temps réel” ou une fois celui-ci terminé

Souhaiter répondre à ces questions nécessite de choisir, d’implémenter et/ou d’utiliser la technique d’interprétabilité adéquate parmi les nombreuses existantes. Pour en savoir plus à ce sujet, il est possible d’explorer des domaines de recherche du Machine Learning comme le Representation learning connu aussi sous le nom de feature learning [Bengio et al, 2013] et Rules Extraction [Jacobson, 2005].

De plus, se questionner sur l'interprétabilité et l’explicabilité des réseaux de neurones nous amène en tant que chercheurs et utilisateurs de ces algorithmes, à nous pencher sur leur impact dans notre vie quotidienne et par extension à des questions d’ordre éthique et d’acceptabilité : sommes-nous prêts à accepter plus d’IA si nous n’avons pas de garantie au niveau de l’éthique, de l’inclusion et de la justice ? Surtout, avons-nous les moyens de répondre à nos questionnements sur ce sujet ? Ces relations complexes entre interprétabilité, biais, éthique et transparence seront justement présentées dans le troisième et dernier article de cette série !


1 Merci à Frédéric Alexandre, Directeur de l’équipe mnemosyne, INRIA Bordeaux, pour son aide à l’élaboration de cet exemple “grand public autour de l'interprétabilité locale et globale”


Cet article est le fruit de la collaboration de Marine LHUILLIER et Ikram CHRAIBI KAADOUD.
- Ingénieure R&D en informatique en passe d’être diplômée de l’EPSI Bordeaux, Marine s’est spécialisée lors de sa dernière mission dans la recherche à la jonction de l’IA et des Sciences cognitives, notamment dans le domaine de l’interprétabilité.
- Quant à Ikram, chercheuse en IA & Sciences cognitives, ainsi qu’ancienne EPSIenne, elle se passionne pour la modélisation de la cognition ou autrement dit comment faire de l’IA inspirée de l’humain. Toutes deux ont collaboré dans le cadre d'un projet de recherche en Machine Learning sur l'interprétabilité des réseaux de neurones chez l'entreprise onepoint.

Pour citer cet article : 

Lhuillier M et Chraibi Kaadoud I, Interprétabilité vs explicabilité : L’Interprétabilité selon différentes approches (2/3) ?. Publication sur le blog de https://scilogs.fr/intelligence-mecanique, Octobre 2020

Références 

 

  • Bengio, Y., Courville, A., & Vincent, P. (2013). Representation learning: A review and new perspectives. IEEE transactions on pattern analysis and machine intelligence, 35(8), 1798-1828.
  • Clapaud, Alain (2019). Explicabilité des IA : quelles solutions mettre en oeuvre ? Publié sur LeMagIT. URL : https://www.lemagit.fr/conseil/Explicabilite-des-IA-quelles-solutions-mettre-en-uvre
  • Dam, H. K., Tran, T., & Ghose, A. (2018). Explainable software analytics. In Proceedings of the 40th International Conference on Software Engineering: New Ideas and Emerging Results (pp. 53-56).
  • Guidotti, R., Monreale, A., Ruggieri, S., Turini, F., Giannotti, F., & Pedreschi, D. (2018). A survey of methods for explaining black box models. ACM computing surveys (CSUR), 51(5), 1-42.
  • Jacobsson, H. (2005). Rule extraction from recurrent neural networks: A taxonomy and review. Neural Computation, 17(6), 1223-1263

 


3 commentaires pour “Interprétabilité vs explicabilité : L’Interprétabilité selon différentes approches (2/3)”

Publier un commentaire