{"id":10710,"date":"2016-06-23T17:23:28","date_gmt":"2016-06-23T15:23:28","guid":{"rendered":"https:\/\/www.etalab.gouv.fr\/?p=10710"},"modified":"2019-06-18T10:34:32","modified_gmt":"2019-06-18T08:34:32","slug":"les-techniques-standards-appliquees-a-opensolarmap-13","status":"publish","type":"post","link":"https:\/\/preprod.etalab.gouv.fr\/les-techniques-standards-appliquees-a-opensolarmap-13","title":{"rendered":"Les techniques standards appliqu\u00e9es \u00e9 OpenSolarMap (1\/3)"},"content":{"rendered":"\n<p><strong>Lorsqu\u2019un algorithme simple ne convient pas, la \ndeuxi\u00e8me \u00e9tape d\u2019un projet de machine learning est d\u2019essayer des \n\u00ab&nbsp;grands classiques&nbsp;\u00bb. Ces algorithmes sont plus complexes d\u2019un point de\n vue th\u00e9orique, mais des impl\u00e9mentations toutes pr\u00eates existent et cette\n \u00e9tape est g\u00e9n\u00e9ralement rapide \u00e0 mettre en oeuvre.<\/strong><\/p>\n\n\n\n<h1 class=\"wp-block-heading\" id=\"r\u00e9gression-logistique\">R\u00e9gression logistique<\/h1>\n\n\n\n<p>La <a href=\"https:\/\/fr.wikipedia.org\/wiki\/R%C3%A9gression_logistique\">r\u00e9gression logistique<\/a>\n porte un nom d\u00e9routant puisque cette m\u00e9thode est utilis\u00e9e autant pour \ndes probl\u00e8mes de r\u00e9gression que de classification. De plus, le choix par\n Pierre Fran\u00e7ois Verhulst du terme \u00ab&nbsp;logistique&nbsp;\u00bb est aujourd\u2019hui un \nmyst\u00e8re. Pourtant, la r\u00e9gression logistique est sans doute la m\u00e9thode la\n plus r\u00e9pandue pour traiter des probl\u00e8mes de classification comme c\u2019est \nle cas ici.<\/p>\n\n\n\n<p>Il existe une multitude d\u2019impl\u00e9mentations de la r\u00e9gression logistique. La m\u00e9thode utilis\u00e9e pour OpenSolarMap est celle de <a href=\"http:\/\/scikit-learn.org\/\">Scikit-Learn<\/a>. Scikit-Learn est un ensemble d\u2019impl\u00e9mentation en <a href=\"https:\/\/www.python.org\/\">langage Python<\/a> d\u2019algorithmes courants. Cette librairie maintenue par l\u2019INRIA est tr\u00e8s populaire partout dans le monde. <a href=\"http:\/\/scikit-learn.org\/stable\/modules\/generated\/sklearn.linear_model.LogisticRegression.html\">Voir la documentation de l\u2019impl\u00e9mentation<\/a>.<\/p>\n\n\n\n<p>Entra\u00eener puis tester un mod\u00e8le de r\u00e9gression logistique requiert d\u2019\u00e9crire un peu de code :<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">train_data, val_data, test_data = load.load_all_data(train_ids, val_ids, test_ids, l, color)\nmodel = sklearn.linear_model.LogisticRegression(penalty='l2', C=1e10)\nmodel.fit(train_data, train_labels)\npredictions = model.predict(val_data)\nerr = (predictions != val_labels).sum() \/ len(val_labels)\n<\/pre>\n\n\n\n<p>Passons en revue chaque ligne :<\/p>\n\n\n\n<ol><li>Les donn\u00e9es sont charg\u00e9es dans les variables <code>train_data<\/code>, <code>val_data<\/code> et <code>test_data<\/code>. La fonction <code>load.load_all_data()<\/code>, sp\u00e9cifique a notre probl\u00e8me, prend en param\u00e8tre la liste des identifiants de toits \u00e0 charger, la taille <code>l<\/code>\n des images voulue et le nombre de canaux de couleur voulu (rouge, vert \net bleu ou noir et blanc). Les images de toitures sont s\u00e9par\u00e9es en 3 \n\u00e9chantillons :\n    <ul><li>Un \u00e9chantillon d\u2019apprentissage ;<\/li><li>Un \u00e9chantillon de test ;<\/li><li>Un \u00e9chantillon de validation.<\/li><\/ul>\n  <\/li><li>Un objet python encapsulant un mod\u00e8le de r\u00e9gression lin\u00e9aire est cr\u00e9\u00e9. Les param\u00e8tres <code>penalty<\/code> et <code>C<\/code> configurent la r\u00e9gularisation. La <a href=\"https:\/\/en.wikipedia.org\/wiki\/Regularization_(mathematics)\">r\u00e9gularisation<\/a>\n est utile lorsque le nombre de features est comparable \u00e0 la taille de \nl\u2019\u00e9chantillon. Ici, il y a plusieurs milliers d\u2019exemples dans \nl\u2019\u00e9chantillon d\u2019apprentissage et quelques centaines de features tout au \nplus. Pour simplifier, le param\u00e8tre <code>C<\/code> a une valeur tr\u00e8s \u00e9lev\u00e9e (<code>1e10 = 10.000.000.000<\/code>) ce qui correspond \u00e0 une r\u00e9gularisation n\u00e9gligeable.<\/li><li>Le mod\u00e8le est entra\u00een\u00e9 sur l\u2019\u00e9chantillon d\u2019apprentissage. Le mod\u00e8le a acc\u00e8s aux features (<code>train_data<\/code>) mais aussi aux labels (<code>train_labels<\/code>) pour pouvoir se corriger et s\u2019am\u00e9liorer.<\/li><li>Le mod\u00e8le fait des pr\u00e9dictions sur l\u2019\u00e9chantillon de test. Maintenant le mod\u00e8le n\u2019a pas acc\u00e8s aux labels.<\/li><li>Le taux d\u2019erreurs de la pr\u00e9diction du mod\u00e8le est calcul\u00e9 comme le quotient du nombre d\u2019erreurs sur la taille de l\u2019\u00e9chantillon.<\/li><\/ol>\n\n\n\n<figure class=\"wp-block-image\"><a href=\"https:\/\/agd.data.gouv.fr\/wp-content\/uploads\/2016\/04\/lr.png\"><img decoding=\"async\" src=\"https:\/\/agd.data.gouv.fr\/wp-content\/uploads\/2016\/04\/lr-300x209.png\" alt=\"lr\" class=\"wp-image-598\"\/><\/a><\/figure>\n\n\n\n<p>\n    Figure 1 : choix des hyperparam\u00e8tres pour la r\u00e9gression logistique\n  <\/p>\n\n\n\n<p>On choisit la taille des images <code>l<\/code>\n et le choix de couleurs (rouge, vert et bleu ou noir et blanc) en \nessayant plusieurs combinaison. La figure 1 montre que la taille qui \ndonne les meilleurs r\u00e9sultats est de 6 pixels par 6 pixels. Le fait de \ntester successivement plusieurs hyper-param\u00e8tres (les param\u00e8tres comme <code>l<\/code>, qui sont ext\u00e9rieurs au mod\u00e8le de r\u00e9gression logistique et d\u00e9finis par le data-scientist) peut provoquer un ph\u00e9nom\u00e8ne appel\u00e9 <a href=\"https:\/\/fr.wikipedia.org\/wiki\/Surapprentissage\">surapprentissage<\/a>.\n Il est n\u00e9cessaire de valider la performance sur un \u00e9chantillon qui n\u2019a \n\u00e9t\u00e9 utilis\u00e9 ni durant l\u2019apprentissage ni durant la phase de test, l\u2019<a href=\"https:\/\/en.wikipedia.org\/wiki\/Test_set#Validation_set\">\u00e9chantillon de validation<\/a>. Dans notre situation, le taux d\u2019erreur sur l\u2019\u00e9chantillon de validation est de 12.5%.<\/p>\n\n\n\n<p>##Support Vector Machines<\/p>\n\n\n\n<p>Si la r\u00e9gression logistique a \u00e9t\u00e9 d\u00e9velopp\u00e9e dans la fin des ann\u00e9es \n60 par le statisticien David Cox et elle est maintenant consid\u00e9r\u00e9e comme\n un outil de statistique classique, les \u00ab&nbsp;machines \u00e0 vecteurs de \nsupport&nbsp;\u00bb sont d\u00e9velopp\u00e9es depuis les ann\u00e9es 90 et constituent encore un\n domaine de recherche tr\u00e8s actif. Cette diff\u00e9rence d\u2019\u00e2ge, ainsi que le \nfait que l\u2019analyse math\u00e9matique de ces deux m\u00e9thodes est tr\u00e8s diff\u00e9rente\n fait souvent oublier que les performances, tant en pr\u00e9diction qu\u2019en \ntemps de calcul, sont souvent tr\u00e8s semblables.<\/p>\n\n\n\n<p>Passer de la r\u00e9gression logistique au <a href=\"http:\/\/scikit-learn.org\/stable\/modules\/generated\/sklearn.svm.LinearSVC.html\">Support Vector Classifier (SVC)<\/a> est presque imm\u00e9diat, il faut remplacer la ligne<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">model = sklearn.linear_model.LogisticRegression(penalty='l2', C=1e10)\n<\/pre>\n\n\n\n<p>par la ligne<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">model = sklearn.svm.LinearSVC(penalty='l2', C=1e10, dual=False)\n<\/pre>\n\n\n\n<p>Le param\u00e8tre <code>dual=False<\/code> \ncommande \u00e0 la librairie Scikit-Learn de ne pas utiliser l\u2019impl\u00e9mentation\n \u00ab&nbsp;duale&nbsp;\u00bb, qui est appropri\u00e9e dans les cas o\u00f9 le nombre de features est\n plus important que la taille de l\u2019\u00e9chantillon.<\/p>\n\n\n\n<p>Le meilleur r\u00e9sultat est toujours obtenu avec une taille de 6 pixels \npar 6 pixels, mais cette fois-ci en couleurs (rouge, vert et bleu). Le \nr\u00e9sultat de l\u2019\u00e9tape de la validation est aussi de 12.5%.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><a href=\"https:\/\/agd.data.gouv.fr\/wp-content\/uploads\/2016\/04\/svm.png\"><img decoding=\"async\" src=\"https:\/\/agd.data.gouv.fr\/wp-content\/uploads\/2016\/04\/svm-300x213.png\" alt=\"svm\" class=\"wp-image-599\"\/><\/a><\/figure>\n\n\n\n<p>\n    Figure 2 : choix des hyperparam\u00e8tres pour la SVM\n  <\/p>\n\n\n\n<h1 class=\"wp-block-heading\" id=\"quels-sont-les-grands-classiques-\">Quels sont les grands classiques ?<\/h1>\n\n\n\n<p>Pour beaucoup de probl\u00e8mes de machine learning, il existe un ou \nplusieurs algorithmes classiques \u00e0 essayer en priorit\u00e9. Pour aider \u00e0 \nfaire ce choix, le projet Scikit-Learn a \u00e9dit\u00e9 un <a href=\"http:\/\/scikit-learn.org\/stable\/tutorial\/machine_learning_map\/index.html\">arbre de d\u00e9cision<\/a> tr\u00e8s pratique :<\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter\"><a href=\"https:\/\/agd.data.gouv.fr\/wp-content\/uploads\/2016\/04\/ml_map.png\"><img decoding=\"async\" src=\"https:\/\/agd.data.gouv.fr\/wp-content\/uploads\/2016\/04\/ml_map-1024x638.png\" alt=\"ml_map\" class=\"wp-image-600\"\/><\/a><\/figure><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Lorsqu\u2019un algorithme simple ne convient pas, la deuxi\u00e8me \u00e9tape d\u2019un projet de machine learning est d\u2019essayer des \u00ab&nbsp;grands classiques&nbsp;\u00bb. Ces algorithmes sont plus complexes d\u2019un point de vue th\u00e9orique, mais des impl\u00e9mentations toutes pr\u00eates existent et cette \u00e9tape est g\u00e9n\u00e9ralement rapide \u00e0 mettre en oeuvre. R\u00e9gression logistique La r\u00e9gression logistique porte un nom d\u00e9routant puisque &hellip;<\/p>\n<p class=\"read-more\"> <a class=\"\" href=\"https:\/\/preprod.etalab.gouv.fr\/les-techniques-standards-appliquees-a-opensolarmap-13\"> <span class=\"screen-reader-text\">Les techniques standards appliqu\u00e9es \u00e9 OpenSolarMap (1\/3)<\/span> Lire la suite\u00a0\u00bb<\/a><\/p>\n","protected":false},"author":27,"featured_media":10711,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_uag_custom_page_level_css":"","site-sidebar-layout":"default","site-content-layout":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"default","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":""},"categories":[271],"tags":[96,275],"uagb_featured_image_src":{"full":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd19.png",403,281,false],"thumbnail":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd19-150x150.png",150,150,true],"medium":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd19-300x209.png",300,209,true],"medium_large":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd19.png",403,281,false],"large":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd19.png",403,281,false],"1536x1536":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd19.png",403,281,false],"2048x2048":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd19.png",403,281,false],"rpwe-thumbnail":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd19-45x45.png",45,45,true]},"uagb_author_info":{"display_name":"Michel Blancard","author_link":"https:\/\/preprod.etalab.gouv.fr\/author\/michel"},"uagb_comment_info":0,"uagb_excerpt":"Lorsqu\u2019un algorithme simple ne convient pas, la deuxi\u00e8me \u00e9tape d\u2019un projet de machine learning est d\u2019essayer des \u00ab&nbsp;grands classiques&nbsp;\u00bb. Ces algorithmes sont plus complexes d\u2019un point de vue th\u00e9orique, mais des impl\u00e9mentations toutes pr\u00eates existent et cette \u00e9tape est g\u00e9n\u00e9ralement rapide \u00e0 mettre en oeuvre. R\u00e9gression logistique La r\u00e9gression logistique porte un nom d\u00e9routant puisque\u2026","_links":{"self":[{"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/posts\/10710"}],"collection":[{"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/users\/27"}],"replies":[{"embeddable":true,"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/comments?post=10710"}],"version-history":[{"count":1,"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/posts\/10710\/revisions"}],"predecessor-version":[{"id":10712,"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/posts\/10710\/revisions\/10712"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/media\/10711"}],"wp:attachment":[{"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/media?parent=10710"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/categories?post=10710"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/tags?post=10710"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}