Logo du site

Sciences de la vie et de la Terre

Data mining en SVT

25 / 06 / 2018 | Lydie Desprat

À l’heure du big data, il ne suffit plus de collecter et de stocker des données dans des bases de données, il faut aussi savoir les explorer. C’est le but du data mining, terme datant des années 1990 qui peut être traduit par "exploration de données", "forage ou fouille ou prospection de données". L’objectif de cette "fouille" est d’extraire des connaissances exploitables à partir d’une grande quantité de données.
En 2010, un nouveau terme apparaît, la data science qui est l’application du data mining aux bigs datas.
Très utilisé dans le domaine du marketing, le data mining s’est développé dans d’autres domaines et notamment en sciences :
Les applications du data mining. (© Ramaba, Wikiversity, CC by-3.0)

JPEG - 44.1 ko

Voici une définition plus précise du data mining [1] :
"Le data ming est l’ensemble des :
 techniques et méthodes
 ... destinées à l’exploration et l’analyse
 ... de (souvent) grandes bases de donnérs informatiques
 ... en vue de détecter dans ces données des règles, des associations, des tendances inconnues (non fixées à priori), des structures particulières restituant de façon concise l’essentiel de l’information utile
 ... pour l’aide à la décision.
Le data mining utilise une démarche que l’on peut résumer ainsi :

Selon le MIT, le data mining est l’une des 10 technologies émergentes qui « changeront le monde » au XXIe siècle. Et si nous essayions d’initier nos élèves à cette démarche... Voici l’exemple d’une séquence réalisée avec des élèves de terminale S spécialité SVT dans le thème 2 du programme "Enjeux planétaires contemporains-Atmosphère, hydrosphère, climats : du passé à l’avenir".

  • Contexte et objectifs :
     Contexte et pré-requis :
    Les élèves ont été placés dans une démarche de projet (cf Travail collaboratif sur le climat en terminale spécialité) visant à expliquer les conclusions et les prévisions des scientifiques pour le climat futur (réchauffement climatique/rapport GIEC) alors que d’autres observations (climato-sceptiques notamment) s’y opposent. L’hypothèse émise par les élèves est la suivante : les activités humaines en augmentant la quantité des gaz à effet de serre dans l’atmosphère sont responsables du réchauffement climatique. Mais pour expliquer les prévisions des scientifiques pour le climat futur, il faut connaître ce qui conditionne le climat de notre planète sans les activités humaines, c’est-à-dire le climat passé.
    Une conférence donnée par une paléoclimatologue leur a permis de découvrir les proxies paléoclimatiques utilisés (apports de connaissances). Les élèves se répartissent en groupes de travail et prennent en charge l’étude d’indicateurs paléoclimatiques différents (données des carottes de glaces EPICA et NGRIP, données sur les carottes sédimentaires marines et terrestres, indices sédimentaires et stomatique pour le passé lointain) et celle des mécanismes (effet de serre, albédo). Chaque groupe communique son travail par le biais d’outils collaboratifs (choix laissé aux élèves : Google slides, Genial.ly) de manière à construire une production collaborative.
Capacités évaluées Connaissances construites Attitudes évaluées
.Concevoir un principe expérimental .Mettre en œuvre un protocole expérimental .Présenter les résultats pour les communiquer.
.Exploiter les données obtenues (à l’issue de l’expérience ou à l’issue de la saisie
d’informations de différentes ressources) afin de répondre au problème.
.Communiquer en construisant une production.
Les indices fournis par l’étude des pollens et des foraminifères fossiles des carottes sédimentaires permettent de retracer les variations climatiques du passé récent de notre planète (alternance interglaciaire/glaciaire). Ces indices sont à corréler avec les variations climatiques identifiées grâce aux indices fournis par l’étude des carottes de glace. .Travailler de façon collaborative .Faire preuve de curiosité, d’intérêt .Faire preuve d’esprit critique
.Travailler en autonomie
.Faire preuve de rigueur

  L’objectif est de permettre aux élèves de reconstituer le climat du passé récent de notre planète à partir de données scientifiques publiées et obtenues par l’étude des pollens et des foraminifères fossiles contenus dans des carottes sédimentaires. L’exploration des données d’une carotte sédimentaire prélevée à un endroit donné du globe (marge ibérique), à l’aide d’un tableur leur permet de déterminer les variations climatiques à l’échelle locale et ainsi de reconstituer le climat passé au niveau de cette région du globe. Pour vérifier que ces variations climatiques sont observables à l’échelle globale, il faut utiliser d’autres données. L’exploration de banques de données issues de l’étude de 51 carottes marines et continentales pour les biomes (12673 lignes de données) et 19 carottes marines pour les foraminifères (4911 lignes de données) n’est plus réalisable avec un tableur, il est donc nécessaire d’utiliser un autre outil. L’outil utilisé est R studio, un logiciel libre de programmation dédié aux statistiques et à l’analyse de données. L’un des packages utilisé, Rattle est dédié au datamining, il permet de trier, de traiter et de visualiser graphiquement les données pertinentes choisies au sein de tables de données afin de répondre au problème posé : Comment reconstituer le climat du passé récent à l’échelle mondiale en utilisant les données de carottes sédimentaires ? .

  • Outils numériques utilisés : Logiciels Excel, R Studio ainsi que Rattle.
  • Déroulé des étapes du travail et remarques diverses :
    Chaque séance dure 2 heures.
    -Séances 1 et 2 :
    Compétences des séances  : Identifier et mettre en évidence les variations climatiques grâce aux données polliniques (de 0 à -138 000 ans) et aux données apportées par les foraminifères (de 0 à -58 000 ans) contenus dans une carotte sédimentaire de la marge ibérique (MD95-2042) en utilisant une démarche expérimentale.
    • Matériel requis :
       Ordinateur avec logiciels tableur, et d’acquisition et de traitement d’images
       Microscope optique et caméra oculaire
       Lames, lamelles, compte-gouttes
       Loupe binoculaire
       Verres de montre, pinceau
       2 assemblages de foraminifères (un contenant des espèces ayant des exigences climatiques froides et un autre contenant des espèces ayant des exigences climatiques tempérées à chaudes) issus de carottes marines (pouvant être présents à 2 profondeurs de la carotte étudiée)
       2 suspensions de pollens (mélange de pollens du commerce pouvant être présents à 2 profondeurs de la carotte étudiée et dont les assemblages correspondent à des espèces ayant des exigences climatiques froides pour l’un et des exigences climatiques tempérées à chaudes pour l’autre)
       Fichiers Excel : données polliniques (espèces en nombre de grains de pollen), données du biome forêt tempérée (en %), données foraminifères (espèces en %) de la carotte MD95-2042 en fonction du temps.
      Excel - 30 ko Excel - 30 ko Excel - 188.6 ko
      Ces fichiers sont libres d’utilisation en citant les sources. Pour les fichiers pollen et biomes, ils sont issus de la banque « The ACER pollen and charcoal database ».
    • Ressources documentaires fournies :
       Matériel à disposition et informations sur la carotte sédimentaire marine
       Ressources sur les exigences écologiques et climatiques de quelques végétaux
      PDF - 60.4 ko
       Clés de détermination de pollens et de foraminifères. PDF - 197.5 ko PDF - 161.6 ko
       Cartes de répartition latitudinale des biomes actuels et des espèces de foraminifères. PDF - 247.2 ko
    • Les étapes mises en œuvre sont les suivantes :
       À l’aide du matériel à disposition, concevoir un principe expérimental qui permettent de reconstituer le climat passé de la marge ibérique.
       Mettre en œuvre le protocole expérimental établi.
       Communiquer les résultats obtenus pour les présenter.
       Exploiter les résultats obtenus afin de reconstituer le climat régnant au niveau de la marge ibérique durant les derniers 130000 ans.
      Remarques :
       Ce travail avec Excel constitue une première étape pour appréhender l’exploration de données car, par exemple le fichier biome contient 320 lignes et des colonnes qui ne leur servent à rien (méthodes utilisées pour la datation par les scientifiques). Ils vont donc réfléchir à un tri des données au regard de ce qu’ils cherchent. Il en est de même pour les fichiers Excel pollens et foraminifères où un tri des espèces à utiliser est en plus nécessaire.
       À l’issue de ces séances, les élèves ont montré les variations climatiques suivantes au niveau de la marge ibérique :
        De -130000 à -70000 ans, climat tempéré à chaud
        De -70000 à -20000 ans, climat froid
        De -10000 à 0 ans, climat tempéré à chaud
      avec entre chacune de ces périodes des périodes de transition climatique notamment de -20000 à -10000 ans.
      Ils ont aussi observé que des oscillations climatiques de courtes durées existaient au sein des périodes plus longues définies précédemment.
      -Séances 3, 4 et travail maison :
      Compétences des séances : Reconstituer le climat du passé récent (0-130000 ans) à l’échelle mondiale, en explorant des bases de données scientifiques contenant les résultats de l’étude de carottes sédimentaires (biomes, foraminifères) grâce à l’utilisation d’un outil de programmation (console R Studio/licence open source) et de ses packages dont un permettant de faire du data mining (Rattle).
      Les problèmes à résoudre : La reconstitution du climat pour un site (carotte sédimentaire ibérique) est-elle valable pour l’ensemble des sites (carottes sédimentaires) ? Retrouve-t-on ces variations climatiques locales à l’échelle mondiale ?
    • Matériel requis :
       Ordinateur sur lesquels R studio ainsi que les packages ont été installés au préalable
       Un dossier contenant tous les fichiers (.csv) de la banque de données (un pour chaque site où les carottes ont été réalisées), le fichier data-biomes.txt et le fichier data-info pollen.csv (à installer sur les ordinateurs et qui constituera le bureau de R Studio ou Working directory)
       Fichiers Biomes-data.txt et Foram-data.csv exploitable avec R Studio
      Les fichiers sont libres d’utilisation en citant les sources. Pour les fichiers pollen et biomes, ils sont issus de la banque « The ACER pollen and charcoal database » [2]
      Comma Separated Values - 50.6 ko Texte - 1.7 Mo Texte - 1.9 Mo Comma Separated Values - 1024 ko
    • Documents fournis aux élèves :
       Fiches protocoles pour utiliser le logiciel R Studio et le package Rattle.
      PDF - 628.3 ko
       Carte de répartition des différents sites où les carottes sédimentaires ont été prélevées. PDF - 340.6 ko
       Cartes de répartition latitudinale des biomes actuels et des espèces de foraminifères déjà utilisées.
    • Les étapes mises en œuvre sont les suivantes :
      Prise de conscience de la part des élèves dans un premier temps, de l’impossibilité de traiter ces données avec un tableur car il y en a trop.
      L’enseignant leur propose donc d’utiliser un logiciel adapté afin de pouvoir explorer ces données.
      Étapes de la démarche avec l’apport d’aides par l’enseignant en phase dialoguée en fonction des besoins et/ou des difficultés :
      1. À l’aide de Rattle, afficher les informations contenues dans la table de données chargée afin d’identifier les variables pour pouvoir les trier judicieusement ensuite afin d’obtenir des résultats exploitables.
      2. Modifier la table de données avec la console R Studio en fonction du tri choisi et du traitement des données envisagées :
       ajouter les zones temporelles de variations climatiques identifiées lors des séances précédentes pour la marge ibérique.
       ajouter à la table de données une colonne zones latitudinales
      3. Représenter graphiquement les données triées et choisies grâce à Rattle, par exemple sous la forme de graphiques en boîtes (box-plot) ou d’histogrammes.
      Exemples de résultats pour le biome "Forêt tempérée" :
      JPEG - 73.9 ko
      JPEG - 74.1 ko
      JPEG - 72.7 ko
      JPEG - 84.9 ko
      JPEG - 71 ko

      4. Exploiter les résultats obtenus.
      5. Corréler ces variations climatiques à l’échelle mondiale déduites des données des carottes sédimentaires avec celles déduites des données des carottes glaciaires (NGRIP et EPICA) (réalisées par un autre groupe d’élèves avec un tableur)
      Pour l’enseignant, voici les scripts R utilisés :
       pour les données sur les foraminifères : Zip - 754 octets
       pour les données sur les biomes : Zip - 1.2 ko
      D’autres exemples de résultats de datavisualisation obtenus avec rattle : PDF - 519.8 ko PDF - 102.5 ko PDF - 696.7 ko

-* Bilan :  :
-Côté élèves  : La première réaction a été la surprise en ce qui concerne le nombre de données (lignes visibles avec le tableur), ils ne sont pas habitués à exploiter autant de résultats mais aussi au fait d’utiliser un logiciel de programmation en SVT. L’une des remarques des élèves a été : « Les scientifiques ont compté réellement tous ces pollens ou tous ces foraminifères ». Je leur ai répondu : « oui » mais je leur ai aussi expliqué que la banque a été constituée à partir de la mise en commun des travaux de tous les scientifiques ayant travaillé sur ce sujet dans le monde, dans le but d’harmoniser et de rassembler l’ensemble des données collectées individuellement dans une banque mondiale afin de pouvoir les corrélées entre elles plus facilement.
Passée cette surprise, ils se sont pris au jeu et ont été assez fiers de travailler sur de vraies données scientifiques publiées.
Voici la production construite à l’aide de Genially grâce au travail collaboratif réalisé par les différents groupes d’élèves :

-Côté enseignant :
• La banque de données (pollens, biomes) disponible sur le site Pangeae n’est pas utilisable telle qu’elle par les élèves. L’enseignant doit à partir de tous les fichiers téléchargés (.cvs) construire une table de données exploitable par les élèves en utilisant R Studio (cf script R biomes). Cela demande donc à l’enseignant de s’approprier le langage de programmation (des aides existent par exemple : https://cran.r-project.org/doc/cont... ), ce qui est un peu chronophage. L’utilisation de Rattle est plus intuitive. Ce travail pourrait être envisagé avec des élèves, mais dans le cadre d’un projet où le nombre de séances disponibles seraient plus importantes ou dans le cadre d’un projet interdisciplinaire avec l’enseignement de mathématiques, par exemple. L’interdisciplinarité SVT/Mathématiques permettrait notamment d’aller plus loin sur l’exploitation graphique des box-plot par exemple, ce qui n’a pu être réalisé dans le cadre de ces Traam. Surtout que la programmation avec R est utilisé dans l’enseignement supérieur, ce qui constitue pour des élèves de lycée, une première approche de ce langage et de cette démarche.
• La banque de données sur les foraminifères n’est pas encore publiée sur Pangeae, elle le sera très prochainement. Le fichier .csv sur lequel les élèves ont travaillé a été élaboré grâce à la collaboration avec le laboratoire de paléoclimatologie et paléoenvironnements marins de l’université de Bordeaux et plus particulièrement avec Mme Desprat Stéphanie (Enseignant-Chercheur EPHE), dont l’aide au cours de ces traam m’a été précieuse et je l’en remercie.
Pour aller plus loin sur le data mining et l’utilisation de Rattle, un livre est disponible (en anglais) : Data Mining with Rattle and R : The Art of Excavating Data for Knowledge Discovery (Use R !) par Graham Williams - Springer ; 2011 edition (August 4, 2011)

[1Stéphane Tuffery (Data Mining et statistiques décisionnelles, éditions Technip, 2012. Modélisation prédictive et apprentissage statistique avec R, éditions Technip, 2015)

[2Article scientifique Acer database pour avoir plus d’informations sur la base de données : PDF - 6.4 Mo

 

Portfolio