{"id":10670,"date":"2018-01-12T16:27:02","date_gmt":"2018-01-12T15:27:02","guid":{"rendered":"https:\/\/www.etalab.gouv.fr\/?p=10670"},"modified":"2019-06-18T10:37:11","modified_gmt":"2019-06-18T08:37:11","slug":"predire-les-vols-de-voitures","status":"publish","type":"post","link":"https:\/\/preprod.etalab.gouv.fr\/predire-les-vols-de-voitures","title":{"rendered":"Pr\u00e9dire les vols de voitures ?"},"content":{"rendered":"\n

R\u00e9sum\u00e9 :<\/strong><\/p>\n\n\n\n

En 2015, l\u2019\u00e9quipe de l\u2019Administrateur g\u00e9n\u00e9ral des donn\u00e9es au sein de \nla DINSIC a d\u00e9velopp\u00e9 en collaboration avec le Service des technologies \net des syst\u00e8mes d\u2019information de la S\u00e9curit\u00e9 int\u00e9rieure (ST(SI)\u00e8), un \nmod\u00e8le de pr\u00e9diction des vols li\u00e9s aux v\u00e9hicules. Cette collaboration a \npermis de d\u00e9velopper Predvol<\/strong>, un outil d\u2019aide \u00e0 la \nd\u00e9cision pour les policiers et les gendarmes, comprenant une pr\u00e9diction \nquotidienne du risque de vols, une carte de l\u2019historique des vols et une\n typologie des quartiers en fonction de la nature des infractions qui y \nsont commises.<\/p>\n\n\n\n

Ce projet, qui fut l\u2019un des premiers de l\u2019AGD, vit le jour lors d\u2019une\n rencontre entre Etalab et le ST(SI)\u00e8. Les responsables du ST(SI)\u00e8, \nsoucieux de tirer parti des avanc\u00e9es en mati\u00e8re de data-sciences, \ncherchaient un appui scientifique pour exp\u00e9rimenter des techniques \nd\u2019apprentissage automatique (machine learning<\/em>) sur un territoire.\n Le d\u00e9partement de l\u2019Oise, particuli\u00e8rement expos\u00e9 aux vols de voitures,\n r\u00e9unissait les conditions pour lancer un projet.<\/p>\n\n\n\n

\"\"
Vols de v\u00e9hicules dans l’Oise en 2015 (Source : Datafrance)<\/em> <\/figcaption><\/figure>\n\n\n\n

D\u00e9finir une probl\u00e9matique claire est indispensable au \nd\u00e9marrage d’un projet de data-sciences. S’agissant des vols de voitures,\n nous sommes partis du constat suivant :<\/p>\n\n\n\n

\"\"
Patrouilles vs R\u00e9partition des vols (2014)<\/em> <\/figcaption><\/figure>\n\n\n\n

\n Un simple coup d’\u0153il permet de s’apercevoir que \ncertaines zones tr\u00e8s surveill\u00e9es par les forces de l’ordre, observent \naussi de nombreux vols de v\u00e9hicules (zones A), tandis que d’autres, bien\n que tr\u00e8s touch\u00e9es par les vols de v\u00e9hicules, sont tr\u00e8s peu emprunt\u00e9es \npar les patrouilles (zones B).\n<\/p>\n\n\n\n

\n Dans quelle mesure serait-il possible d’anticiper \nles vols de voitures afin d’aboutir \u00e0 une meilleure orientation des \npatrouilles de police et de gendarme ?<\/em>\n<\/p>\n\n\n\n

\n Afin de r\u00e9pondre \u00e0 cette probl\u00e9matique, le ST(SI)\u00e8 \nnous a transmis des donn\u00e9es provenant directement des bases de d\u00e9p\u00e8ts de\n plaintes aupr\u00e8s de la police et de la gendarmerie : LRPPN et LRPGN. En \ntout, 3 ans d’historique de vols li\u00e9s aux v\u00e9hicules en ont \u00e9t\u00e9 extraits.\n Chaque ligne correspondait \u00e0 une infraction d\u00e9finie par un lieu \n(coordonn\u00e9es XY), une date ainsi que quelques informations \u2013 souvent \nmanquantes \u2013 sur le v\u00e9hicule vol\u00e9.\n<\/p>\n\n\n\n

\n Par ailleurs, un contact r\u00e9gulier avec les utilisateurs finaux<\/strong>\n s’est tr\u00e8s vite impos\u00e9 afin d’identifier pr\u00e9cis\u00e9ment les probl\u00e9matiques\n des acteurs de terrain et leurs fa\u00e7ons de travailler. Deux besoins tr\u00e8s\n distincts ont tout de suite fait surface :\n<\/p>\n\n\n\n

\n 1) Cibler les zones les plus \u00e0 risques en amont de la patrouille\n<\/p>\n\n\n\n

\n 2) Un outil d’aide \u00e0 la d\u00e9cision pendant la patrouille\n<\/p>\n\n\n\n

\n Sur ce premier point, il convenait tout d’abord de d\u00e9finir un d\u00e9coupage g\u00e9ographique optimal afin d’entra\u00eener<\/em>\n nos algorithmes. Le d\u00e9coupage IRIS propos\u00e9 par l’INSEE, apportant le \nmeilleur arbitrage taille\/quantit\u00e9 de donn\u00e9es disponibles, s’imposa \ncomme le meilleur candidat. Ce dernier permit en effet d’enrichir notre \nbase de donn\u00e9es d’apprentissage avec plus de 600 variables socio-d\u00e9mographiques sur ces zones <\/strong>(taux\n de ch\u00e8mage, scolarisation des jeunes, nombre de commerces \u00e0 proximit\u00e9, \n\u00e8ges moyens, ‘). Ajout\u00e9 \u00e0 cela, nous avons calcul\u00e9 d’autres indicateurs \nsur les circonstances temporelles des vols : Y-avait-il eu un vol la \nveille ? L’avant-veille ? Dans les quartier voisins ? Quelle \u00e9tait la \nm\u00e9t\u00e9o du jour ? ‘\n<\/p>\n\n\n\n

\n Le principe est en effet d’amener, sans a priori<\/strong>,\n le maximum de variables dans notre base de donn\u00e9es (ici plus de 650 \nvariables) puis de laisser les algorithmes de machine learning \ns\u00e9lectionner les meilleures pr\u00e9dicteurs pour anticiper les vols de \nvoitures.\n<\/p>\n\n\n\n

\n Nous avons alors test\u00e9 3 grandes familles \nd’algorithmes afin d’anticiper au mieux, chaque jour, les vols li\u00e9s au \nv\u00e9hicules dans les 799 quartiers l’Oise :\n<\/p>\n\n\n\n

\n A) Des algorithmes bas\u00e9s sur une grande quantit\u00e9 de variables\n<\/p>\n\n\n\n

\n Ces algorithmes figurent parmi les plus classiques de\n la litt\u00e9rature en mati\u00e8re de machine learning : r\u00e9gression logistique, \nfor\u00e8ts al\u00e9atoires, boosting, for\u00e8ts al\u00e9atoires extr\u00e8mement randomis\u00e9es, \nXGBoost’ Ces algorithmes utilisent une tr\u00e8s grande quantit\u00e9 de \nvariables, s\u00e9lectionnent les meilleurs pr\u00e9dicteurs en leur associant des\n pond\u00e9rations et les utilisent pour tenter anticiper la variable \nd’int\u00e9r\u00e8t.\n<\/p>\n\n\n\n

\n B) Les algorithmes de PredPol, une entreprise am\u00e9ricaine connue dans ce domaine \n<\/p>\n\n\n\n

\n Revendiquant la place num\u00e9ro 1 en mati\u00e8re de predictive policing<\/em>,\n la soci\u00e9t\u00e9 PredPol utilise des algorithmes initialement d\u00e9velopp\u00e9s par \nun sismologue fran\u00e7ais, David Marsan, afin de pr\u00e9dire les r\u00e9pliques des \ns\u00e9ismes. PredPol a fait l’hypoth\u00e8se que les crimes se comportent comme les s\u00e9ismes<\/strong> :\n<\/p>\n\n\n\n

\n \u2013 il existe un risque-terrain <\/strong>: des zones plus sujettes au crime (calcul\u00e9 en fonction du pass\u00e9)\n<\/p>\n\n\n\n

\n \u2013 les crimes entra\u00eenent des r\u00e9pliques (on parle d’effet de \u00ab\u00a0contagion\u00a0\u00bb)<\/strong>\n c’est-\u00e9-dire que lorsqu’il y a un crime dans une zone, la probabilit\u00e9 \nqu’il en survienne un autre dans une zone g\u00e9ographique proche est plus \ngrande et d\u00e9cro\u00e9t avec le temps.\n<\/p>\n\n\n\n

\n Nous avons impl\u00e9ment\u00e9 leurs algorithmes et les avons test\u00e9 sur les vols li\u00e9s aux v\u00e9hicules. Voici les r\u00e9sultats :\n<\/p>\n\n\n\n

\"\"
Nombre de r\u00e9pliques<\/em> <\/figcaption><\/figure>\n\n\n\n

\n Deux constats :\n<\/p>\n\n\n\n