{"id":10670,"date":"2018-01-12T16:27:02","date_gmt":"2018-01-12T15:27:02","guid":{"rendered":"https:\/\/www.etalab.gouv.fr\/?p=10670"},"modified":"2019-06-18T10:37:11","modified_gmt":"2019-06-18T08:37:11","slug":"predire-les-vols-de-voitures","status":"publish","type":"post","link":"https:\/\/preprod.etalab.gouv.fr\/predire-les-vols-de-voitures","title":{"rendered":"Pr\u00e9dire les vols de voitures ?"},"content":{"rendered":"\n
R\u00e9sum\u00e9 :<\/strong><\/p>\n\n\n\n En 2015, l\u2019\u00e9quipe de l\u2019Administrateur g\u00e9n\u00e9ral des donn\u00e9es au sein de \nla DINSIC a d\u00e9velopp\u00e9 en collaboration avec le Service des technologies \net des syst\u00e8mes d\u2019information de la S\u00e9curit\u00e9 int\u00e9rieure (ST(SI)\u00e8), un \nmod\u00e8le de pr\u00e9diction des vols li\u00e9s aux v\u00e9hicules. Cette collaboration a \npermis de d\u00e9velopper Predvol<\/strong>, un outil d\u2019aide \u00e0 la \nd\u00e9cision pour les policiers et les gendarmes, comprenant une pr\u00e9diction \nquotidienne du risque de vols, une carte de l\u2019historique des vols et une\n typologie des quartiers en fonction de la nature des infractions qui y \nsont commises.<\/p>\n\n\n\n Ce projet, qui fut l\u2019un des premiers de l\u2019AGD, vit le jour lors d\u2019une\n rencontre entre Etalab et le ST(SI)\u00e8. Les responsables du ST(SI)\u00e8, \nsoucieux de tirer parti des avanc\u00e9es en mati\u00e8re de data-sciences, \ncherchaient un appui scientifique pour exp\u00e9rimenter des techniques \nd\u2019apprentissage automatique (machine learning<\/em>) sur un territoire.\n Le d\u00e9partement de l\u2019Oise, particuli\u00e8rement expos\u00e9 aux vols de voitures,\n r\u00e9unissait les conditions pour lancer un projet.<\/p>\n\n\n\n D\u00e9finir une probl\u00e9matique claire est indispensable au \nd\u00e9marrage d’un projet de data-sciences. S’agissant des vols de voitures,\n nous sommes partis du constat suivant :<\/p>\n\n\n\n \n Un simple coup d’\u0153il permet de s’apercevoir que \ncertaines zones tr\u00e8s surveill\u00e9es par les forces de l’ordre, observent \naussi de nombreux vols de v\u00e9hicules (zones A), tandis que d’autres, bien\n que tr\u00e8s touch\u00e9es par les vols de v\u00e9hicules, sont tr\u00e8s peu emprunt\u00e9es \npar les patrouilles (zones B).\n<\/p>\n\n\n\n \n Dans quelle mesure serait-il possible d’anticiper \nles vols de voitures afin d’aboutir \u00e0 une meilleure orientation des \npatrouilles de police et de gendarme ?<\/em>\n<\/p>\n\n\n\n \n Afin de r\u00e9pondre \u00e0 cette probl\u00e9matique, le ST(SI)\u00e8 \nnous a transmis des donn\u00e9es provenant directement des bases de d\u00e9p\u00e8ts de\n plaintes aupr\u00e8s de la police et de la gendarmerie : LRPPN et LRPGN. En \ntout, 3 ans d’historique de vols li\u00e9s aux v\u00e9hicules en ont \u00e9t\u00e9 extraits.\n Chaque ligne correspondait \u00e0 une infraction d\u00e9finie par un lieu \n(coordonn\u00e9es XY), une date ainsi que quelques informations \u2013 souvent \nmanquantes \u2013 sur le v\u00e9hicule vol\u00e9.\n<\/p>\n\n\n\n \n Par ailleurs, un contact r\u00e9gulier avec les utilisateurs finaux<\/strong>\n s’est tr\u00e8s vite impos\u00e9 afin d’identifier pr\u00e9cis\u00e9ment les probl\u00e9matiques\n des acteurs de terrain et leurs fa\u00e7ons de travailler. Deux besoins tr\u00e8s\n distincts ont tout de suite fait surface :\n<\/p>\n\n\n\n \n 1) Cibler les zones les plus \u00e0 risques en amont de la patrouille\n<\/p>\n\n\n\n \n 2) Un outil d’aide \u00e0 la d\u00e9cision pendant la patrouille\n<\/p>\n\n\n\n \n Sur ce premier point, il convenait tout d’abord de d\u00e9finir un d\u00e9coupage g\u00e9ographique optimal afin d’entra\u00eener<\/em>\n nos algorithmes. Le d\u00e9coupage IRIS propos\u00e9 par l’INSEE, apportant le \nmeilleur arbitrage taille\/quantit\u00e9 de donn\u00e9es disponibles, s’imposa \ncomme le meilleur candidat. Ce dernier permit en effet d’enrichir notre \nbase de donn\u00e9es d’apprentissage avec plus de 600 variables socio-d\u00e9mographiques sur ces zones <\/strong>(taux\n de ch\u00e8mage, scolarisation des jeunes, nombre de commerces \u00e0 proximit\u00e9, \n\u00e8ges moyens, ‘). Ajout\u00e9 \u00e0 cela, nous avons calcul\u00e9 d’autres indicateurs \nsur les circonstances temporelles des vols : Y-avait-il eu un vol la \nveille ? L’avant-veille ? Dans les quartier voisins ? Quelle \u00e9tait la \nm\u00e9t\u00e9o du jour ? ‘\n<\/p>\n\n\n\n \n Le principe est en effet d’amener, sans a priori<\/strong>,\n le maximum de variables dans notre base de donn\u00e9es (ici plus de 650 \nvariables) puis de laisser les algorithmes de machine learning \ns\u00e9lectionner les meilleures pr\u00e9dicteurs pour anticiper les vols de \nvoitures.\n<\/p>\n\n\n\n \n Nous avons alors test\u00e9 3 grandes familles \nd’algorithmes afin d’anticiper au mieux, chaque jour, les vols li\u00e9s au \nv\u00e9hicules dans les 799 quartiers l’Oise :\n<\/p>\n\n\n\n \n A) Des algorithmes bas\u00e9s sur une grande quantit\u00e9 de variables\n<\/p>\n\n\n\n \n Ces algorithmes figurent parmi les plus classiques de\n la litt\u00e9rature en mati\u00e8re de machine learning : r\u00e9gression logistique, \nfor\u00e8ts al\u00e9atoires, boosting, for\u00e8ts al\u00e9atoires extr\u00e8mement randomis\u00e9es, \nXGBoost’ Ces algorithmes utilisent une tr\u00e8s grande quantit\u00e9 de \nvariables, s\u00e9lectionnent les meilleurs pr\u00e9dicteurs en leur associant des\n pond\u00e9rations et les utilisent pour tenter anticiper la variable \nd’int\u00e9r\u00e8t.\n<\/p>\n\n\n\n \n B) Les algorithmes de PredPol, une entreprise am\u00e9ricaine connue dans ce domaine \n<\/p>\n\n\n\n \n Revendiquant la place num\u00e9ro 1 en mati\u00e8re de predictive policing<\/em>,\n la soci\u00e9t\u00e9 PredPol utilise des algorithmes initialement d\u00e9velopp\u00e9s par \nun sismologue fran\u00e7ais, David Marsan, afin de pr\u00e9dire les r\u00e9pliques des \ns\u00e9ismes. PredPol a fait l’hypoth\u00e8se que les crimes se comportent comme les s\u00e9ismes<\/strong> :\n<\/p>\n\n\n\n \n \u2013 il existe un risque-terrain <\/strong>: des zones plus sujettes au crime (calcul\u00e9 en fonction du pass\u00e9)\n<\/p>\n\n\n\n \n \u2013 les crimes entra\u00eenent des r\u00e9pliques (on parle d’effet de \u00ab\u00a0contagion\u00a0\u00bb)<\/strong>\n c’est-\u00e9-dire que lorsqu’il y a un crime dans une zone, la probabilit\u00e9 \nqu’il en survienne un autre dans une zone g\u00e9ographique proche est plus \ngrande et d\u00e9cro\u00e9t avec le temps.\n<\/p>\n\n\n\n \n Nous avons impl\u00e9ment\u00e9 leurs algorithmes et les avons test\u00e9 sur les vols li\u00e9s aux v\u00e9hicules. Voici les r\u00e9sultats :\n<\/p>\n\n\n\n \n Deux constats :\n<\/p>\n\n\n\n \n Ce deuxi\u00e8me constat nous a alors conduit \u00e0 tester notre troisi\u00e8me algorithme.\n<\/p>\n\n\n\n \n C) Les cartes de chaleurs \u00e9volutives\n<\/p>\n\n\n\n \n Une carte de chaleur est finalement exactement comme \nle mod\u00e8le de PredPol sauf qu’on enl\u00e8ve la complexit\u00e9 du facteur de \ncontagion. On pr\u00e9dira comme zone la plus risqu\u00e9e demain, la zone dans \nlaquelle ont \u00e9t\u00e9 observ\u00e9s le plus de vols dans le pass\u00e9. Il convient \nd\u00e9sormais de d\u00e9finir ce fameux \u00ab\u00a0pass\u00e9\u00a0\u00bb. En effet, la technique des \n\u00ab\u00a0punaises sur la carte\u00a0\u00bb (infractions du dernier mois) est toujours \ncouramment utilis\u00e9e par la police et la gendarmerie. Notre id\u00e9e ici \n\u00e9tait de trouver l’historique optimal <\/strong>qu’il faut utiliser afin d’obtenir la carte de chaleur pr\u00e9dictive la plus pertinente.<\/strong>\n<\/p>\n\n\n\n \n Nous avons compar\u00e9 les diff\u00e9rents historiques \nutilis\u00e9s selon les deux facteurs cl\u00e9s d’un mod\u00e8le pr\u00e9dictif : la \ncapacit\u00e9 pr\u00e9dictive et la pr\u00e9cision du mod\u00e8le. Un historique trop petit \n(les fameuses punaises) p\u00e9nalisent grandement la capacit\u00e9 pr\u00e9dictive du \nmod\u00e8le, tandis qu’un historique trop grand p\u00e9nalise sa pr\u00e9cision. Afin \nd’obtenir le meilleur ratio capacit\u00e9 pr\u00e9dictive \/ pr\u00e9cision, construire notre carte de chaleur sur neuf mois semblait le seuil optimal.<\/strong>\n<\/p>\n\n\n\n \n Une fois nos mod\u00e8les construits, il s’agissait \nensuite de les comparer. La m\u00e9thodologie est tr\u00e8s classique : les \nalgorithmes ont \u00e9t\u00e9 entra\u00e9n\u00e9s sur une partie de la base de donn\u00e9es (la \npremi\u00e8re ann\u00e9e d’infractions) puis test\u00e9s sur une seconde partie que les\n algorithmes n’avaient jamais vu (les deux derni\u00e8res ann\u00e9es). Les \nr\u00e9sultats furent sans appel :\n<\/p>\n\n\n\n \n Les mod\u00e8les pr\u00e9dictifs donnaient tous d’excellents r\u00e9sultats : cibler en moyenne 10 % des quartiers pr\u00e9dits les plus risqu\u00e9s par le mod\u00e8le permettait de couvrir 50% des vols.<\/strong>\n<\/p>\n\n\n\n \n De plus, le mod\u00e8le le plus simple <\/strong>(carte de chaleur pr\u00e9dictive) permettait d’obtenir des r\u00e9sultats quasiment identiques aux mod\u00e8les les plus complexes <\/strong>(celui de PredPol, notamment)\n<\/p>\n\n\n\n \n Simple is Beautiful. <\/em>Cet adage bien connu prit alors tout son sens. Pourquoi ajouter un co\u00fbt en complexit\u00e9 important lorsqu’on peut faire presque <\/em>aussi\n bien avec un mod\u00e8le simplissime ? Cela est d’autant plus vrai d\u00e8s lors \nqu’on envisage d’int\u00e9grer nos travaux lors de la mise en production dans\n les syst\u00e8mes d’information de l’\u00e9tat dont les environnements ne sont \npas toujours pr\u00e8ts \u00e9 recevoir des calculs complexes.\n<\/p>\n\n\n\n \n Le mod\u00e8le choisi, nous avons construit un outil \nbaptis\u00e9 \u00ab\u00a0PredVol\u00a0\u00bb, optimis\u00e9 pour un usage en mobilit\u00e9 (sur tablette) \nafin de rendre disponibles les r\u00e9sultats des pr\u00e9dictions journali\u00e8res \naux op\u00e9rationnels de terrain. Nous avons dot\u00e9 PredVol de 3 onglets, l’un\n permettant de visualiser les quartiers pr\u00e9dits les plus risqu\u00e9s par le \nmod\u00e8le, le second affichant une typologie des quartiers en fonctions des\n types de vols les plus pr\u00e9sents dans chaque quartier, et un troisi\u00e8me \npermettant de visualiser les faits pass\u00e9s sur une carte.\n<\/p>\n\n\n\n \n C\u00f4t\u00e9 Gendarmerie, l’outil a \u00e9t\u00e9 int\u00e9gr\u00e9 aux outils \nd\u00e9cisionnels et test\u00e9 au sein de la compagnie de Compi\u00e8gne \u00e0 partir de \nmai 2016. C\u00f4t\u00e9 Police nationale, l’outil a \u00e9t\u00e9 test\u00e9 par les agents de \nla Direction d\u00e9partementale de la s\u00e9curit\u00e9 publique (DDSP) de Beauvais \net notamment en patrouille par la brigade anti-criminalit\u00e9 (BAC).\n<\/p>\n\n\n\n \n Pendant 6 mois d’exp\u00e9rimentation, nous avons eu \nl’occasion d’am\u00e9liorer l’outil PredVol afin qu’il r\u00e9ponde au mieux aux \nusages op\u00e9rationnels. Cette \u00e9tape cruciale nous a par exemple permis, en\n patrouillant avec la BAC de Beauvais, de r\u00e9aliser que les boutons de \ns\u00e9lection \u00e9taient trop petits pour \u00e8tre utilis\u00e9s dans les virages.\u00e9Apr\u00e8s\n 6 mois d’exp\u00e9rimentation, nous avons r\u00e9alis\u00e9 que l’essentiel de \nl’attention des patrouilles se dirigeait non pas sur les pr\u00e9dictions \nquotidiennes, mais sur la simple visualisation des faits pass\u00e9s. En \neffet,si les pr\u00e9dictions \u2013 bien que toujours tr\u00e8s \nperformantes \u2013 ne permettaient que de confirmer les zones \u00e9 risques \nconnues par les op\u00e9rationnels<\/strong>, la simple visualisation des faits (onglet 3) repr\u00e9sentait un tr\u00e8s net progr\u00e8s dans leur usage quotidien.\n<\/p>\n\n\n\n Fort de ce constat, nous avons d\u00e9velopp\u00e9 un nouvel outil sur-mesure \npour les brigades et cette fois enti\u00e8rement port\u00e9 sur la visualisation \ndes infractions :<\/p>\n\n\n\n \n Ainsi qu’un autre permettant de visualiser les d\u00e9couvertes de v\u00e9hicules vol\u00e9s<\/strong>,\n permettant ainsi aux brigades d’orienter leurs recherches lorsqu’un \nv\u00e9hicule est vol\u00e9, en fonction de sa marque et de son mod\u00e8le.\n<\/p>\n\n\n\n \n Enfin, permettre aux agents du terrain de visualiser les faits qu’ils renseignent au moment des plaintes amorce un cercle vertueux<\/strong>\n : cela les encourage \u00e0 recueillir des donn\u00e9es de qualit\u00e9, condition \nn\u00e9cessaire \u2013 datascience ou pas \u2013 \u00e0 l’obtention de r\u00e9sultats pertinents.\n<\/p>\n","protected":false},"excerpt":{"rendered":" R\u00e9sum\u00e9 : En 2015, l\u2019\u00e9quipe de l\u2019Administrateur g\u00e9n\u00e9ral des donn\u00e9es au sein de la DINSIC a d\u00e9velopp\u00e9 en collaboration avec le Service des technologies et des syst\u00e8mes d\u2019information de la S\u00e9curit\u00e9 int\u00e9rieure (ST(SI)\u00e8), un mod\u00e8le de pr\u00e9diction des vols li\u00e9s aux v\u00e9hicules. Cette collaboration a permis de d\u00e9velopper Predvol, un outil d\u2019aide \u00e0 la d\u00e9cision …<\/p>\n