{"id":12260,"date":"2019-10-29T17:43:37","date_gmt":"2019-10-29T16:43:37","guid":{"rendered":"https:\/\/www.etalab.gouv.fr\/?p=12260"},"modified":"2019-10-29T21:41:01","modified_gmt":"2019-10-29T20:41:01","slug":"ia-decouvrez-et-participez-au-projet-piaf-pour-des-ia-francophones","status":"publish","type":"post","link":"https:\/\/preprod.etalab.gouv.fr\/ia-decouvrez-et-participez-au-projet-piaf-pour-des-ia-francophones","title":{"rendered":"#IA D\u00e9couvrez et participez au projet PIAF – Pour des intelligences artificielles francophones"},"content":{"rendered":"\n

En application du rapport Villani, et au titre de l’action \u00ab\u00a0Lab IA\u00a0\u00bb<\/a>, visant \u00e0 accompagner les administrations dans l’exp\u00e9rimentation et l’usage de l’intelligence artificielle, Etalab lance le projet \u00ab\u00a0PIAF : Pour des IA francophones<\/em><\/strong>\u00ab\u00a0. <\/p>\n\n\n\n

Les enjeux<\/strong> : \u00e9valuer l’apport d’un jeu de donn\u00e9es de questions-r\u00e9ponses construit nativement en fran\u00e7ais (plut\u00f4t qu’\u00e0 partir de traduction automatique de datasets anglophones) sur l’entra\u00eenement des IA. PIAF vise ainsi \u00e0 la fois \u00e0 r\u00e9pondre \u00e0 une<\/strong> question scientifique<\/strong> dans le champ du traitement automatique du langage naturel, et \u00e0 construire, dans une d\u00e9marche contributive, un jeu de donn\u00e9es r\u00e9utilisable<\/strong>. En associant largement contributeurs et partenaires au sein de l’administration et de la soci\u00e9t\u00e9 civile, il permet aussi de mieux faire comprendre les d\u00e9fis de l’intelligence artificielle.<\/strong><\/p>\n\n\n\n

Disposer de donn\u00e9es critiques pour des applications en IA, un enjeu de souverainet\u00e9<\/h3>\n\n\n\n

La strat\u00e9gie nationale pour l’intelligence artificielle<\/strong> d\u00e9finie en mars 2018 \u00e0 la suite du rapport Villani \u00ab\u00a0Donner un sens \u00e0 l’intelligence artificielle<\/em>\u00a0\u00bb a donn\u00e9 lieu \u00e0 la mise en place \u00e0 la Direction interminist\u00e9rielle du num\u00e9rique d’un Lab IA<\/strong>. Annonc\u00e9 lors du CITP d’octobre 2018 et port\u00e9 par Etalab, ce programme vise \u00e0 accompagner les administrations dans des projets d’IA, \u00e0 animer une communaut\u00e9 et am\u00e9liorer l’expertise publique et le partage d’exp\u00e9rience sur l’IA, ainsi qu’\u00e0 mettre \u00e0 disposition des outils et infrastructures mutualis\u00e9s.<\/p>\n\n\n\n

Le projet PIAF s’inscrit pleinement dans cette strat\u00e9gie : mettre \u00e0 disposition \u00ab\u00a0des donn\u00e9es critiques pour les applications en IA<\/em><\/strong>\u00a0\u00bb (extrait du rapport Villani). L’ouverture et la mutualisation de donn\u00e9es pour am\u00e9liorer l’entra\u00eenement des IA peuvent concerner des diff\u00e9rents types de donn\u00e9es (images, texte…). <\/p>\n\n\n\n

Dans le champ du texte<\/strong>, et plus pr\u00e9cis\u00e9ment du traitement automatique du langage, la mise \u00e0 disposition de donn\u00e9es d’entra\u00eenement de questions-r\u00e9ponses en fran\u00e7ais appara\u00eet comme un premier cas d’application : <\/strong>il n’existe pas, \u00e0 ce jour, de jeux de donn\u00e9es de questions-r\u00e9ponses ouverts pour entra\u00eener des applications d’IA francophones. L’objectif \u00e0 terme est ainsi d’am\u00e9liorer la performance d’agents conversationnels ou de moteurs de recherche<\/strong>. Proposer une telle ressource constitue un enjeu de souverainet\u00e9 et de performance publique, autant pour les administrations que pour la communaut\u00e9 scientifique et les entreprises. <\/p>\n\n\n\n

<\/p>\n\n\n\n

Une premi\u00e8re \u00e9tape scientifique : tester la performance d’IA entra\u00een\u00e9es avec des donn\u00e9es de questions-r\u00e9ponses francophones<\/h3>\n\n\n\n

PIAF repose en partie sur une question scientifique. Il s’agit d’identifier si le fait de disposer de donn\u00e9es d’entra\u00eenement natives en fran\u00e7ais apporte une r\u00e9elle plus-value par rapport \u00e0 l’usage de donn\u00e9es traduites automatiquement.<\/p>\n\n\n\n

Pour r\u00e9pondre \u00e0 cette question, un protocole scientifique a \u00e9t\u00e9 \u00e9labor\u00e9, inspir\u00e9 du projet anglophone \u00ab\u00a0SQuAD\u00a0\u00bb<\/a> men\u00e9 \u00e0 l’universit\u00e9 de Stanford. Des mod\u00e8les d’IA existants seront entra\u00een\u00e9s sur des bases en fran\u00e7ais natives (PIAF) et traduites en anglais afin de comparer leur performance. <\/p>\n\n\n\n

Comme dans beaucoup de projets d’IA, une phase d’annotation manuelle est n\u00e9cessaire pour permettre l’apprentissage supervis\u00e9. Pour constituer le jeu de donn\u00e9es natives en fran\u00e7ais, des extraits d’articles Wikip\u00e9dia francophone seront \u00ab\u00a0annot\u00e9s\u00a0\u00bb sur une plateforme d\u00e9velopp\u00e9e en interne. L’annotation consiste ici \u00e0 formuler une question dont la r\u00e9ponse se trouve dans le paragraphe affich\u00e9, et \u00e0 localiser en regard la r\u00e9ponse dans le texte. <\/p>\n\n\n\n

\"\"
Aper\u00e7u de l’interface d’annotation PIAF <\/em><\/figcaption><\/figure>\n\n\n\n

La premi\u00e8re phase d’annotation vise \u00e0 constituer une base de 20 000 questions-r\u00e9ponses qui validera ou invalidera l’hypoth\u00e8se scientifique \u00ab\u00a0les IA de questions-r\u00e9ponses sont-elles plus performantes lorsqu’elles sont entra\u00een\u00e9es sur des donn\u00e9es natives en fran\u00e7ais ?<\/strong>\u00ab\u00a0. En fonction de ces r\u00e9sultats, une phase d’annotation plus large sera ouverte pour atteindre 100 000 questions-r\u00e9ponses et structurer une base de donn\u00e9es francophones ouverte.<\/p>\n\n\n\n

Une d\u00e9marche contributive et apprenante <\/h3>\n\n\n\n

Au-del\u00e0 du projet scientifique et des enjeux de souverainet\u00e9 pr\u00e9-cit\u00e9s, le projet PIAF a pour ambition d’explorer, par l’action, les diff\u00e9rents enjeux et d\u00e9fis du d\u00e9veloppement de l’IA dans la sph\u00e8re publique. <\/strong><\/p>\n\n\n\n

S’inspirant des initiatives de sciences participatives et de projets contributifs comme Common Voice<\/a>, PIAF fait le pari de la contribution volontaire.<\/strong> <\/p>\n\n\n\n

La premi\u00e8re \u00e9tape d’annotation, visant \u00e0 produire les 20 000 questions-r\u00e9ponses d’\u00e9valuation, se construit en particulier avec les agents publics. Comment ? : <\/p>\n\n\n\n