Chez Etalab, l’équipe qui produit data.gouv.fr s’interroge régulièrement sur les fonctions les plus susceptibles de contribuer à la politique d’ouverture et de partage des données publiques.
Data.gouv.fr, un outil pas une finalité
Mais au fait, à quoi se mesure la réussite de cette politique publique d’open data ? Au nombre de jeux de données référencés ? Probablement pas. La semaine dernière nous avons “perdu” temporairement les 6000 jeux de données de Eurostat (qui étaient jusqu’à présent moissonnées et hébergées par Data Publica) sans que cela ne perturbe en rien l’open data Français. Alors à quoi mesure-t-on le succès de l’open data ? Principalement en observant les réutilisations de jeux de données créant deux types de richesse : de la transparence sur l’action publique (marchés publics, subventions, déclaration d’intérêt des élus..), et des opportunités d’innovation pour les acteurs publics et privés (fournir un géocodage facile et gratuit, moderniser les taxis, augmenter les déplacements multimodaux, supprimer les activités redondantes de constitution de référentiels de données ainsi que celles de redressement de données liées à la mauvaise qualité de ces référentiels, etc..).
Ainsi le nombre de données référencées sur data.gouv.fr n’est pas corrélé à la quantité de réutilisations utiles. En revanche la qualité des données, c’est à dire la longueur temporelle des séries, leur densité et leur couverture géographique, leur fréquence de mise à jour, est la clé principale qui fixe le potentiel des réutilisations : peu de gains ont par exemple été obtenus sur la transparence de la commande publique car nous peinons à réunir dans un jeu de données l’ensemble des marchés publics sur tout le territoire. En revanche, diffuser sur 6 années les accidents corporels de la circulation au niveau le plus fin a permis d’exhiber des zones accidentogènes et de lancer des politiques publiques adéquates dans certaines collectivités.
Depuis son inauguration fin 2013, la stratégie de data.gouv.fr a consisté à améliorer la recherche et le référencement, et à simplifier la publication et l’ouvrir à tous, permettant non seulement aux services publics de publier des données publiques, mais également aux citoyens, associations, entreprises ou particuliers, de produire, d’enrichir, de compléter ces données ou de partager des données d’intérêt public.
Sur ce volet “quantité”, les efforts de data.gouv.fr vont donc se limiter en 2015 à la mise à disposition d’une infrastructure de moissonnage, permettant d’être automatiquement intégrée sur data.gouv.fr. Il est ainsi possible d’écrire son propre moissonneur en s’inspirant du code des moissonneurs existants, fournis en Open Source (comme tout le reste du site data.gouv.fr, distribué sous le nom uData). Cette tâche est très aisée comme en témoigne la contribution d’OpenDataSoft. Le moissonnage n’est pas le seul moyen de synchroniser des données avec data.gouv.fr, il est possible (voir recommandé) d’utiliser l’API data.gouv.fr pour pousser ses données, à l’instar de la passerelle Inspire.
A l’image du développement de la Base Adresse Nationale (BAN), nous devons désormais passer une étape et nous intéresser beaucoup plus à la montée en qualité de la centaine de jeux de données massifs qui permettront les réutilisations les plus impactantes.
Améliorer la qualité des données
Dès aujourd’hui, en tant que producteur vous êtes notifié si un de vos jeux de données n’est plus accessible. Très bientôt vous le serez aussi s’il n’a pas été mis à jour conformément à la périodicité avec laquelle vous vous êtes engagé à le rafraîchir.
Fin 2015, nous irons plus loin et proposerons un label qualité “référentiel national” : vous vous engagez, nous nous engageons.
La règle du jeu est simple : le producteur qui souhaite obtenir le label pour un de ses jeux de données s’engage à fournir la donnée brute, à respecter strictement son cycle de mise à jour, et à répondre à J+2 à tout signalement ou demande.
De son côté, data.gouv.fr, met en avant le jeu de donnée, mais surtout le transforme en API, c’est à dire le rend requêtable. Votre application a besoin de saisir un nom d’établissement scolaire ? Plus besoin de recopier la table ou de développer des composants graphiques, il vous suffira d’utiliser les API data.gouv.fr pour obtenir en quelques minutes d’intégration HTML, un sélecteur de collège/lycée totalement intégré à votre application, comme par exemple le sélecteur d’adresse réutilisable de adresse.data.gouv.fr.
Cette décision va transformer data.gouv.fr en composant critique, et c’est un choix assumé, car nous continuerons à offrir une disponibilité H24 aux applications qui souhaitent utiliser ces référentiels ouverts, comme la BAN, premier référentiel national à être distribué aujourd’hui. A vous maintenant de nous dire quels sont selon vous les jeux de données publiques qui devront obtenir ce label en priorité !
inspire.data.gouv.fr & territoire.data.gouv.fr : intégrer l’information géographique
Les standards de la géomatique ne sont pas ceux du Web et pourtant ils structurent l’immense capital d’informations accumulé depuis plusieurs dizaines d’années. D’un côté des normes comme Inspire, WFS, WCS, CSW, Shapefiles … de l’autre GeoJSON, KML, des outils gratuits comme OpenStreetMap ou Google Earth. La passerelle Inspire, en production depuis ce début d’année, permet aux producteurs et aux réutilisateurs d’exploiter au mieux ces gisements de données colossaux, en les rendant automatiquement disponibles dans les standards du Web. Besoin d’une carte des zones d’inondation en Bourgogne ? Cliquez sur le jeu de données et visualisez-le dans une carte OpenStreet Map n’a jamais été aussi simple.
Fin 2015, le moteur Inspire de data.gouv.fr permettra surtout de réunir les données géographiques produites au plus près du terrain par les collectivités dans des référentiels nationaux fédérés. Ce dispositif permettra notamment d’élargir le périmètre de l’API Carto, destiné à simplifier la création de démarches en ligne ayant une composante géographique (déclaration de travaux, demande d’autorisation de ruchers, action associative sur une zone Politique de la Ville, etc.). API Carto sera quant à lui amené à diffuser de la donnée non-publique, soumise au consentement de l’usager, comme des données cadastrales personnelles. API Carto sera donc un distributeur des référentiels nationaux géographiques.
C’est une donnée géographique homogène qui permettra l’émergence d’algorithmes au service de la transition énergétique, de la transparence des politiques d’aménagement, des politiques agricoles…
Enfin, l’intégration géographique permettra de projeter des jeux de données nationaux dans les territoires, promesse de territoire.data.gouv.fr. Pour une organisation inscrite sur data.gouv.fr, il suffira d’activer l’option, puis de choisir les jeux de données nationaux qu’elle souhaite diffuser sur son compte : comptabilité locale issue de la Direction Générale des Finances, indicateurs socio-économiques INSEE, élections, etc. En miroir, tout producteur national pourra suivre un guide simple pour rendre un jeu de données national compatible avec territoire.data.gouv.fr. Tout référentiel national est bien sûr naturellement intégré dans territoire.data.gouv.fr, par exemple les collèges et lycées sur votre département ou votre région.
Augmenter l’engagement de la communauté
La promotion des référentiels nationaux et d’une information géographique de qualité va aussi renforcer les besoins en fonctions sociales au sein de data.gouv.fr, qui sont le témoin de l’activité des réutilisateurs, et donc de l’impact de l’open data.
Aujourd’hui les fils d’activité des membres, les notifications des producteurs sur signalement ou sur publication de réutilisations, ou encore les fils de discussion sur les jeux de données ont ciblé les interactions entre producteurs et réutilisateurs. Nous allons poursuivre dans ce sens pour augmenter l’engagement des producteurs, et notamment le moissonnage automatique d’articles de presse de data journalistes comme DataGueule, ou J’ai du Bon Data du Monde qui leur permettra d’être notifié des usages effectifs de leurs données, qui ont aujourd’hui du mal à remonter en tant que “réutilisation”.
Fin 2015, de nouveaux outils intensifieront les conversations entre réutilisateurs.
Un bouton “partager” va désormais permettre d’intégrer un jeu de données ou une réutilisation sur n’importe quelle page web (blog, site de collectivités ..). Un tel “EMBED” favorise les conversations sur ce jeu de données ou cette réutilisation : il est possible d’interagir avec pour en faire un favori, commenter, signaler … Ces widgets, seront coproduits grâce à l’API avec l’Infrastructure de Données Géographique en région Midi-Pyrénées (IDG MIPYGéo).
Structurellement connectée au centre – il n’y a qu’un seul registre de données, une seule communauté de membres – cette stratégie n’éparpille pas la communauté mais au contraire lui offre la possibilité d’être active au plus près des territoires, des communautés d’intérêt. Ces widgets ambitionnent donc d’accompagner les collectivités locales, et notamment les petites et moyennes, dans leur déploiement de l’open data.
Deuxième aspect : le référencement d’outils, aujourd’hui sous la forme de pages de téléchargement, va être amélioré, et il sera désormais possible d’intégrer une fonctionnalité externe par l’API data.gouv.fr. Ce référencement, tel une « place de marché », permettra à chacun de bénéficier des meilleurs outils pour visionner, éditer, analyser, redresser ou travailler en collaboratif sur des données. Data.gouv.fr privilégiera toujours l’Open Source et les outils gratuits, mais ne l’imposera pas. Une charte précisera les modalités d’intégration et en particulier l’obligation d’offrir un chemin gratuit entre data.gouv.fr et l’outil (pas de paywal après un clic sur data.gouv.fr !), ce premier niveau d’offre pouvant être limité. Les producteurs d’outils viendront grossir les rangs de la communauté, déjà forte de bientôt 10 000 membres.
Qualité des données et Engagement de la communauté, une priorité dont nous devons mesurer les progrès
Comment mesurer le succès ou l’échec de nos nouvelles fonctionnalités ?
Nous l’avons vu, la valeur de l’open data, son impact, est assez subjectif. Il serait donc trompeur de mesurer nos progrès à l’aide d’indicateurs purement quantitatifs. Vaut-il mieux 1000 nouveaux jeux de données sans réutilisation marquante ou un seul, mais utilisé par une application qui résout un problème national ? Nous faisons donc le pari que les référentiels nationaux permettront de telles réutilisations à fort impact. Leur nombre et la liste des réutilisations marquantes seront donc notre principal tableau de bord de la qualité. Si nous devions réaliser ce reporting aujourd’hui, nous serions à 1, la BAN, et 1 réutilisation : le calculateur d’itinéraires multi-modaux de l’agglomération Grenobloise…
Du côté de l’engagement, le tableau de bord producteur (exemple) mesure l’activité en terme de pages vues et de réutilisations. Le nombre de discussions ouvertes et le nombre de réponses y seront associés, ainsi que des éléments de comparaison permettant de se situer vis à vis des autres producteurs. L’engagement de la communauté n’est pas une fin en soi, mais une mesure indirecte de son activité. Il répond à un enjeu interne fort : limiter nos actions de support pour permettre aux acteurs de résoudre leurs problèmes entre eux.
Aidez-nous à faire mieux !
Voilà donc notre meilleure vision du futur de data.gouv.fr. Mais au fond, les utilisateurs c’est vous. C’est vous qui pouvez nous aider à décrire les fonctionnalités qui auront le plus d’impact sur nos objectifs … Alors à vos commentaires 😉
Bonjour,
Superbes nouvelles mais du boulot en perspective.
Plusieurs demandes :
* est il possible d’intégrer un forum ou un lieu de discussions et d’échanges qui permettent d’échanger sur les événements, les outils, les autres sites, etc. ? et de demander de l’aide sur des points précis (projection, normes, etc.)
* est il possible d’avoir le guide pour que nos données soient descendues automatiquement sur territoire.data.gouv.fr ?
* prévoyez vous des ateliers en province pour accompagner. Par exemple pour Inspire. Les personnes (surtout moi) gérant l’opendata ne sont pas nécessairement au fait de toutes les normes, référentiels, etc.
Merci d’avance
Thomas
Bonsoir à tous,
J’utilise et je lis beaucoup ce qui s’écrit sur « data.gouv.fr », le site est vraiment très pratique et bien pensé, bravo à tous ceux qui le font avancer.
J’imagine qu’avec les nouveaux outils qui vont être annoncés en fin d’année, le site va encore franchir un palier.
Je trouve votre article très instructif, merci pour tous ces éléments. Comme le dit le vielle adage « Le bien-être est la loi des corps, mais l’ordre est la loi des esprits ». Bonne continuation !
Belle initiative !
Très bonne initiative, et vraiment des superbes nouvelles.
Merci pour la publication
super article très instructif! et site très pratique. Merci
Fred
Bonjour,
Je trouve que votre article est très utile, merci!
La nouvelle version du site est une belle alliance entre le côté pratique et esthétique. L’OpenData est bien dans l’air du temps. Vivement les nouveaux outils tel que le bouton « partager » qui va être très utile.
Grace a data.gouv.fr il est devenu beaucoup plus simple et rapide d’être précis pour la géololocalisation des adresses de mes clients qui souhaite obtenir un dépannage
Bravo et merci pour cette belle initiative !
Etant créatrice de dataviz votre initiative est géniale. Souvent ce qui peut manquer pour faire ce travail, ce sont les sources!
Je vais suivre de près votre actualité
J’aime beaucoup votre initiative mais faire bougé le peuple reste toujours une étape très compliqué, il faudrait peut être faire une vidéo afin de touchez plus de monde par exemple.
En tout cas bonne initiative !!! to be continued …
L’initiative est intéressante et pourvue de sens. Par contre comment comptez vous mettre en avant le fait que l’information soit accessible dans l’ensemble du territoire, lorsqu’on sait que toutes les régions de France ne possèdent pas les même infrastructures (fibre optique, ADSL, téléphone, etc)
Belle initiative, bravo !!
Je suis sûr que les nouvelles fonctionnalités vont réellement améliorer les choses. Très bonnes initiatives et curieux de voir un nouveau bilan des résultats qui sera sûrement positif !