Le 15 novembre, l’Insee et Etalab organisaient le hackathon #OpenSirene au SenseSpace. Durant une journée, près d’une centaine de participants ont croisé et réutilisé les données des 10 millions d’établissements et 9 millions d’entreprises, centralisées par Sirene. Tant le nombre de participants que la qualité des réalisations ont témoigné de l’engouement suscité par l’ouverture prochaine en open data de cette base de référence.
Des données disponibles en open data dès le 4 janvier
En vertu de la loi pour une République numérique, les données Sirene seront ouverte en open data à partir de début janvier 2017. Des informations économiques clefs – comme la localisation, l’activité principale, les tranches d’effectifs ou la nature juridique des établissements – seront alors réutilisables par tous, et ce gratuitement.
Le directeur de l’Insee a ainsi rappelé dans son discours que « la base Sirene était réactualisée plus de 10 000 fois par jour », et serait ouverte à un rythme quotidien, « preuve que l’institut ne fait pas les choses à moitié. » Pour la ministre Axelle Lemaire, il s’agit là d’une illustration concrète du service public de la donnée.
Les participants à #OpenSirene ont permis de tester la mise à disposition de ces données, puisqu’ils ont eu accès à :
- un fichier stock, « photographie » de la base au 30 juin 2016
- les fichiers de mise à jour quotidiens (jours ouvrés) du mois de juillet et d’août 2016
Ces données avaient été enrichies par l’équipe d’Etalab, qui avait notamment géocodé la base Sirene en la croisant avec la Base Adresse Nationale. Les participants se sont engagés à ne pas rediffuser ces données, ni à en faire une utilisation commerciale, avant l’ouverture effective de la base en open data.
Des travaux d’enrichissement des données d’information économique
Plusieurs projets réalisés durant #OpenSirene ont cherché à enrichir les données de la base Sirene ou de bases connexes :
- Annuaire des données des entreprises : un groupe a réalisé un prototype fonctionnel d’un annuaire des entreprises rassemblant les données Sirene et d’autres issues de bases de données en open data (marques, brevets, annonces légales…), incluant un moteur de recherche et des filtres.
- Annuaire de l’administration : les travaux de ce groupe, disponibles sur GitHub, ont permis de croiser les données de l’annuaire de l’administration de la DILA, en open data, et les données Sirene et d’imaginer de nouvelles manières pour faire remonter automatiquement ces données, notamment en cas de changement de nom, via une API.
- OpenStreetMap : après des travaux de géo-codage de la base grâce à la Base Adresse Nationale, le groupe s’est attaché à comparer les données de localisation des entreprises dans la carte libre d’OpenStreetMap et Sirene, afin de corriger des erreurs et de proposer des rapprochements.
- WikiData : après l’extraction des données des entreprises présentes sur Wikipédia, via Wikidata, le groupe a travaillé à l’enrichissement des données Sirene, tout en remarquant que seules 4000 entreprises françaises étaient à ce jour présentes sur Wikidata.
Des cas d’usages démontrés sur l’emploi ou le tissu économique
D’autres projets se sont employés à utiliser la base Sirene pour résoudre des problèmes d’intérêt général :
- Economie locale : en croisant la base Sirene avec des données concernant les effectifs des entreprises, un groupe a pu identifier les métiers en croissance sur des territoires et les manques d’entreprises du secteur sur des territoires comparables. Par exemple, les travaux ont démontré que la fabrication de lunette était en déclin dans la région de Bourgogne, tandis que la R&D s’y trouvait en forte croissance.
- Emploi : le projet « Boost Emploi » visait à accompagner la recherche d’emploi de chômeurs en utilisant les codes APE des entreprises, ainsi que de nombreuses autres données disponibles sur la formation et l’emploi, tant au niveau régional que gouvernemental.
- Tissu industriel : un groupe a conçu un jeu de société fondé sur les données Sirene permettant aux joueurs de mieux connaître les caractéristiques des entreprises, représentées sous forme de cartes.
- Indemnisation agricole : une équipe venue du Ministère de l’agriculture a proposé un cas d’usage sur l’indemnisation des exploitants en cas de calamité agricole utilisant la base Sirene. Par exemple, sur une zone géographique sinistrée par une tempête, les données Sirene permettent d’identifier les entreprises susceptibles d’avoir été touchées, par secteur d’activité.
En conclusion des travaux, la directrice d’Etalab a souligné le potentiel économique de l’ouverture de la base, sans autre égale dans le monde. Le directeur de l’Insee a rappelé la stratégie de diffusion résolument open data de l’Insee et annoncé que la porte de l’Insee était grande ouverte aux réutilisateurs de données. La Secrétaire d’Etat chargée du Numérique et de l’Innovation a finalement célébré un « vrai » hackathon et le nouveau rôle de l’Insee comme animateur d’une communauté d’innovateurs de la data.
[:]