Data.gouv.fr et les algorithmes à l’épreuve de la médiation numérique : retour sur le Forum Open d’Etat #4

Le quatrième forum Open d’Etat s’est tenu le 13 septembre 2018 à Nantes lors des rencontres Numérique en Commun[s] propulsées par la mission Société Numérique de l’agence du Numérique et la coopérative de la médiation numérique. Le forum s’est intéressé à deux engagements pris par la mission Etalab dans le cadre de la mise en œuvre de la loi pour une République numérique : le développement de nouvelles fonctionnalités pour la plateforme data.gouv.fr et l’étude d’algorithmes publics avec la société civile.

L’inclusion de ce forum Open d’Etat au programme de Numérique en Commun[s] visait à s’appuyer sur la contribution des professionnels de la médiation numérique pour répondre à ces enjeux.

Le forum portait donc sur les engagements 4 et 6 du plan d’action national pour une action publique transparente et collaborative :

  • L’engagement 4 du plan d’action prévoit de “poursuivre le développement de data.gouv.fr et y intégrer de nouvelles fonctionnalités” afin d’accroître l’utilité et l’impact des données ouvertes pour l’économie et la société. A partir d’octobre 2017, la loi impose un principe d’ouverture des données par défaut à toutes les administrations, tous les acteurs investis d’une mission de service public
  • L’engagement 6 du plan d’action doit associer la société civile à l’étude des algorithmes publics pour en identifier les enjeux techniques, juridiques et organisationnels. En effet, la loi prévoit que chaque citoyen, lorsqu’une décision individuelle le concernant a été prise à son encontre à l’aide d’un algorithme puisse obtenir la communication sur demande des « règles » et « principales caractéristiques de mise en œuvre » de ce programme informatique, au regard de sa situation individuelle.

Comme pour chaque forum Open d’Etat, un kit d’appropriation a été transmis aux participants pour assurer une meilleure compréhension des enjeux et donner les éléments de contexte nécessaires. Le kit présente les grands principes du gouvernement ouvert et de l’open data, le contexte juridique de la transparence administrative, les enjeux de la transparence des algorithmes et de la “littératie” de données.

Consulter le kit d’appropriation

Après un mot d’accueil de Laure Lucchesi, la directrice de la mission Etalab, quatre intervenants ont introduit les sujets de ce forum afin d’approfondir les enjeux traités dans les deux ateliers.

Compte-rendu des interventions

Dorie Bruyas (Fréquence Écoles) : les données publiques, trop arides pour la médiation en milieu scolaire

Dorie Bruyas, la directrice de l’association Fréquence Écoles, a présenté le travail de l’association en faveur de la compréhension des données par les jeunes. Pour en favoriser l’appropriation par le plus grand nombre, le cas des données publiques ouvertes semble être idéal lorsqu’il s’agit de développer des actions de médiation à la donnée. Or ces actions n’ont toujours été concluantes. Par exemple, pendant deux ans, des journalistes ont conduit des ateliers avec des lycéens sur les transports en région Rhône-Alpes. La majeure partie du temps du projet a consisté à nettoyer les données pour un résultat mitigé du point de vue de la réalisation finale mais riche d’enseignement en ce qui concerne le processus.

Fréquence Écoles s’est donc orientée vers des données plus familières des lycéens en travaillant sur les données de YouTube et non sur des données publiques. L’association a développé un jeu de cartes qui explique les mécanismes de l’algorithme de recommandation et le rôle des données dans l’évolution des recommandations. Fréquence Écoles a aussi présenté à Numérique en Commun une cabane de médiation tangible autour des données qui sera aussi présentée les 16 et 17 décembre 2018 à SuperDemain. Elle recommande donc d’utiliser des données plus familières et ludiques pour faire de la médiation auprès d’un public jeune comme l’avait fait Simon Chignard dans un atelier avec les données des prénoms ou Etalab dans son calendrier de l’avent.

Bénédicte Roullier (DINSIC) : avant la médiation, des principes pour une démarche en ligne réussie

Ensuite, Bénédicte Roullier, responsable qualité des services en ligne à la DINSIC (Direction Interministérielle du Numérique et du Système d’Information et de Communication de l’Etat), a présenté les 10 principes d’une démarche exemplaire  pour apporter un éclairage sur les principes d’utilisabilité des services en ligne. Ces principes visent à améliorer la qualité de l’expérience utilisateur au moment où la personne fait sa démarche en ligne.

Parmi les facteurs de succès d’une démarche en ligne, la capacité à trouver facilement le bon lien vers la démarche est essentielle. Les cas d’arnaque aux démarches administratives sont révélatrices des problèmes de référencement et de visibilité des sites officiels. Une fois sur le bon site, le choix des mots est essentiel ainsi que la possibilité de disposer d’un espace de démonstration en bac à sable. Ce dernier permet à des médiateurs de montrer le fonctionnement de la démarche en ligne sans que la personne n’ait à exposer ses données personnelles ni à craindre une fausse manipulation.

Xavier Berne (NextINpact) : faire appliquer l’obligation d’explicitation des décisions prises par un algorithme

Troisième intervenant, Xavier Berne, journaliste chez NextINpact, un site dédié à l’actualité du numérique, a présenté ses démarches pour faire appliquer l’obligation de transparence et d’explicitation des algorithmes prévus par la loi pour une République Numérique. Il a signalé d’abord qu’il était impossible de trouver une mention explicite dans les sites et courriers officiels pour avertir les usagers qu’ils peuvent demander à se faire expliquer comment l’algorithme est intervenu dans une prise de décision les concernant. Il a fait des demandes d’explicitation des algorithmes auprès de l’administration fiscale, de Pôle Emploi et de la Caisse des Affaires Familiales. Seule cette dernière institution s’est pliée à l’exercice sur la prime d’activité en détaillant la formule de calcul et en l’adaptant à sa situation personnelle.

Il a regretté que l’administration fiscale n’ait jamais répondu à sa demande d’explicitation malgré une décision favorable fin 2017 de la Commission d’accès aux documents administratifs (Cada) sur l’algorithme de calcul de la taxe d’habitation. Le code de source de ce dernier a été publié le lendemain par Etalab.

Simon Chignard (Etalab) : les algorithmes, un élément indispensable et incontournable de la décision publique

Simon Chignard, conseiller stratégique d’Etalab, est d’abord revenu sur le rôle des algorithmes dans la sphère publique. Ils ciblent principalement des opérations répétitives, reproductives et qui concernent un grand nombre de cas, particulièrement dans le domaine socio-fiscal. Les algorithmes publics ont pour particularité d’être incontournables. Les algorithmes sont aussi très utilisés dans la gestion des ressources humaines (par exemple, le système de points pour la mutation des enseignants) et prennent parfois des décisions vitales comme l’attribution des greffons.

Lawrence Lessig avait montré que, dans certains domaines, le code informatique régule des secteurs avec la même force que la loi (“code is law”). Mais il est fréquent aussi que la loi devienne du code informatique (“law is code”). Est-ce que le code correspond aux dispositions prévues par loi ? Etalab a accompagné la Direction Générale des Finances Publiques (DGFIP) sur la publication du code source de la taxe d’habitation pour montrer qu’il y avait concordance entre les dispositions de la loi et l’algorithme. Dans le cas d’Admission Post Bac (APB), l’algorithme ne concordait pas totalement car la loi n’était pas assez précise. Les codeurs ont donc dû faire des choix. Par exemple, quand la demande excède l’offre, la loi dit qu’il faut tenir compte du domicile du candidat mais faut-il prendre en compte l’adresse de sa résidence universitaire ou celle de ses parents ? La transparence des algorithmes interroge le législateur : faut-il penser la loi pour qu’elle soit codable ?

Loup Cellard, Simon Chignard et Bénédicte Roullier. © Aurélien Mahot (CC BY-SA)

Compte-rendu des ateliers

Atelier A : tester des formats de médiation autour des algorithmes publics

L’atelier visait à tester des formats de médiation autour d’un traitement algorithmique particulier, celui du calcul de la taxe d’habitation. La métaphore de la recette de cuisine est fréquemment mobilisée dès qu’il s’agit d’expliquer le plus simplement possible ce qu’est un algorithme. Confronté à un exemple réel de recette de cuisine, les participants ont identifié la structure-type d’une recette de cuisine. La discussion avec les participants a permis d’identifier des correspondances entre les grands items qui composent une recette de cuisine et les dispositions issues de la loi pour une République numérique sur la transparence des algorithmes :

  • les ingrédients (et leur provenance) : les données traitées (et leur source),
  • les quantités : les paramètres, leur pondération appliquée à la situation de l’intéressé,
  • la progression de la recette : les opérations effectuées par le traitement.

La deuxième partie de l’atelier constituait en une mise en situation où les participants devaient comprendre comment a été calculé le montant de la taxe d’habitation qui leur a été réclamé. Il est ressorti que la valeur locative brute, spécifique à chaque logement, constitue l’ingrédient de base de la recette. C’est le point de départ du traitement, et le montant sur lequel sera calculé, après abattements, les taux d’imposition fixés par les différentes collectivités.

La dernière partie de l’atelier a été consacrée à la question de l’intelligibilité : comment rendre le calcul de la taxe compréhensible pour le plus grand nombre de foyers ? Une notice explicative, préparée par la DGFiP, a été présentée. Les participants ont imaginé d’autres formes de médiation possibles:

  • la feuille augmentée, avec des liens qui permettent de comprendre individuellement chaque élément et chaque étape de manière interactive ;
  • le re-design de l’avis pour mettre en avant les sources des données ;
  • une information sur la finalité de la taxe d’habitation et sur l’usage de l’impôt collecté ;
  • l’indication des acteurs qui interviennent dans la détermination des taux d’imposition (conseils municipaux, etc.) ;
  • le recours à un simulateur comme celui développé par Marion Paclot (Etalab) qui permet de recalculer le montant de sa taxe d’habitation.

L’atelier a enfin permis d’identifier deux pistes pour rendre les algorithmes publics plus intelligibles pour ceux qui sont concernés par ces traitements.

  • La première consiste à restituer les données : l’administration communique à un individu l’ensemble des données qu’elle possède sur lui et qui interviennent dans un traitement algorithmique.
  • La seconde piste consiste à mieux contextualiser l’information fournie aux individus en fournissant des éléments permettant à un individu de se repérer, de comparer sa situation individuelle ou son territoire.

>> Consulter le compte-rendu complet de l’atelier

Atelier B : faire de data.gouv.fr un outil pour la médiation numérique

Le deuxième atelier visait à comprendre comment data.gouv.fr pourrait s’adresser à un public plus large et appuyer plus fortement la médiation numérique dans ses actions. Comme lors du troisième forum, la méthode DAKI (Drop, Add, Keep, Improve) a permis de catégoriser les éléments d’un produit à abandonner, à ajouter, à garder, ou à améliorer. Le support de l’atelier était un poster divisé en quatre parties (nommées ci-dessus) permettant d’y inscrire les commentaires et retours des participants concernant data.gouv.fr.

Les participants devaient se mettre à la place d’un néophyte qui n’a jamais recherché de données sur un portail open data et effectuer une recherche “élections présidentielles” sur data.gouv.fr. En apportant un regard neuf sur le portail, les participants ont fait remonter des pistes d’amélioration à chaque étape de la recherche. D’autres recherches étaient prévues mais les commentaires sur la thématique des élections étaient si nombreux qu’ils ont occupé tout le temps prévu à l’atelier.

  • Concernant la page d’accueil, plusieurs participants l’ont trouvé trop austère et technique pour faire de la médiation et auraient préféré des histoires concrètes à une abondance de données et de réutilisations. Une option évoquée consiste à structurer la page par public pour donner des informations ciblées et présenter un parcours adapté aux besoins du visiteur. Il est ressorti à plusieurs reprises que le moteur de recherche n’était pas assez visible et qu’il manquait une possibilité de recherche multicritères dès la page d’accueil. Les thématiques ont fait l’objet de nombreux débats : superflues pour certains, pas assez visibles pour d’autres qui les trouvent utiles pour clarifier l’utilité du portail. Enfin, il est ressorti que le service public de la donnée n’était pas assez visible alors que ce sont des données emblématiques.
  • La page des résultats de recherche “élections présidentielles” a aussi fait l’objet de nombreux débats. Les résultats présentent de nombreuses données “moissonnées”, c’est-à-dire importées automatiquement d’autres portails,. Plus largement, les résultats présentent des données issues de collectivités locales, d’entreprises, d’organismes de recherche. Cela peut être surprenant sur un portail gouvernemental où l’on peut s’attendre à ne voir que des données publiques d’Etat. Plusieurs fonctionnalités de tri (par exemple, par nombre de réutilisations) ont été réclamées par les participants alors qu’elles étaient présentes, il semblerait que leur visibilité n’est pas suffisante. Enfin, en observant des données issues de la commune de Brocas en Nouvelle-Aquitaine (785 habitants) en sixième position, plusieurs participants ont réclamé que la couverture spatiale et temporelle détermine l’ordre des résultats.
  • Enfin, les participants ont sélectionné le premier résultat qui semblait correspondre à la recherche : le jeu de données “résultats de l’intégralité des élections depuis 2001” publié par le ministère de l’Intérieur. Les participants ont réclamé une pré-visualisation du fichier, une fonctionnalité qui sera prochainement déployée. Il est aussi remonté que plusieurs termes dans la page devaient être clarifiés, en particulier concernant les formats de données dont les caractéristiques et les conditions d’utilisation ne sont explicitées nul part. En l’occurrence, le jeu de données choisi étaient au format XML mais les participants ont été très surpris en téléchargeant les données d’arriver sur un serveur comprenant des centaines de fichiers répartis dans des dossiers variés sans documentation particulière concernant leur organisation et leur contenu.

>> Consulter le compte-rendu complet de l’atelier

Open d’État, la suite !

Les travaux d’Etalab sur la transparence des algorithmes et la médiation des données vont se poursuivre prochainement en se nourrissant des conclusions des ateliers de ce quatrième forum Open d’Etat.

  • Sur la médiation des algorithmes, Etalab a partagé dans un billet de blog les résultats d’une expérience inédite : re-coder la taxe d’habitation à partir des documents officiels et des données disponibles sur data.gouv.fr et réaliser un outil pour mieux comprendre comment elle est calculée.
  • L’éditorialisation de data.gouv.fr fera l’objet d’un nouvel atelier qui portera principalement sur les métadonnées et la documentation des données et qui se déroulera le 11 octobre à Paris lors des journées de l’open data par principe.

Nous remercions chaleureusement la mission Société Numérique de l’agence du Numérique, la coopérative de la médiation numérique et l’association PING d’avoir accueilli ce forum Open d’Etat au sein de Numérique en Commun. Un grand merci aux participants pour leur contribution et leur mobilisation pendant tout l’événement. Le prochain forum Open d’Etat se tiendra début décembre et portera sur l’ouverture des données environnementales. Plus d’infos prochainement !

Le Forum Open d’État suivant?

Le forum Open d’État #5 a eu lieu le 12 décembre 2018 sur le thème de la transparence de la commande publique.