Logo du site

Sciences de la vie et de la Terre

SVT et Web Sémantique

25 / 06 / 2018 | Justin Zallio

1. Définition

« Le web sémantique permet aux données d’être partagées et réutilisées entre plusieurs applications, entreprises et groupes d’ordinateurs ». Voici comment le World Wide Web Consortium définit le web sémantique. Il s’agit d’un réseau de données qui peuvent être traitées directement ou indirectement pour aider les utilisateurs à créer de nouvelles connaissances. En d’autres termes, il s’agit de faire émerger des connaissances à partir de masses de données retrouvées sur internet.

Le web sémantique, qu’on appelle aussi le web des métadonnées, repose sur un ensemble de technologies censées rendre le contenu des ressources (images, textes, vidéos, etc.) du web plus accessibles et utilisables par les humains. Ce système permet de relier entre elles les informations qui jusque-là étaient traitées séparément. Le fonctionnement du web sémantique intègre donc au web actuel la possibilité d’agréger plusieurs données liées entre elles soit sémantiquement, soit par des attributs qui les déterminent.

« Le web sémantique, c’est le web qu’on veut faire parler… ».

Afin de fonctionner, il faut mettre en lien toutes les données existantes. C’est-à-dire structurer au préalable les sources d’informations pertinentes en leur attribuant des métadonnées lisibles par l’Homme et la machine et surtout standardisées.

Concrètement une page web doit être annotée en fonction des informations qu’elle contient, et ce, selon un vocabulaire standardisé : ce sont les métadonnées (syntaxe RDF [1], vocabulaire de Schema.org [2], identifiant Wikidata [3]...).

Une recherche grâce au web sémantique nous permettra de répondre à des questions comme :

  • Quelles sont les plus grandes villes du monde qui ont une femme maire ?
  • Quels aéroports sont situés dans un rayon de 100 km de Berlin ?
  • Qui sont tous les descendants connus de Gengis Khan ?

2. Les champs d’application du web sémantique

L’ensemble du web est impacté par le web sémantique. Les réseaux sociaux, les blogs, la recherche scientifique, la recherche d’information sur internet, le e-commerce…

Pourquoi faire découvrir ce concept à nos élèves ?

Simplement parce que le web sémantique c’est le web d’aujourd’hui. C’est comment l’ensemble des données communiquent entre elles sur internet et c’est ce qui permet aux entreprises de les exploiter.

3. Où faire une recherche ?

Wikidata est une base de données liées libre qui peut être lue et modifiée par les êtres humains et les machines. Wikidata sert de dépôt central à des données structurées utilisées pour les projets frères de Wikimédia, parmi lesquels Wikipédia, Wikivoyage, Wikisource et d’autres.

Dans Wikidata, un concept, un sujet ou un objet est représenté par un élément. Chaque élément dispose d’une page spécifique commençant par Q. Par exemple, pour l’humain « Marie Curie » on retrouvera la page Q7186. Pour l’objet « Continent Amérique du Sud », la page concernée est Q18. Un volcan (édifice géologique) aura la page Q8072.

Dans Wikidata, les déclarations permettent de stocker des informations à propos d’un élément. Cela se fait en formant une paire : une propriété avec au moins une valeur. Cette paire est le cœur de la déclaration. Les déclarations peuvent être complétées ou contextualisées à l’aide de valeurs additionnelles, comme les qualificatifs, les références ou les rangs. Elles permettent de relier les éléments les uns aux autres, formant ainsi un graphe d’éléments : les données sont structurées.
Par exemple, Marie Curie (élément Q7186), possède un lieu de naissance (propriété P19) qui se trouve être la ville de Varsovie (valeur Q270).

Graphiquement, cela peut être représenté ainsi :

PNG - 30.2 ko

4. Rechercher sur Wikidata

Faire une recherche sur Wikidata consiste à requêter (c’est-à-dire interroger) la base de données de Wikidata. Pour ce faire, on peut utiliser l’assistant de requêtes de Wikidata ou bien interroger la base de données en lui parlant le SPARQL…

Le langage SPARQL (SPARQL Protocol and RDF Query Language) est un langage de requête et un protocole qui permet de rechercher, d’ajouter, de modifier ou de supprimer des données disponibles à travers internet. Ce langage se rapproche du SQL (pour travailler sur certaines bases de données).

L’assistant de requêtes de Wikidata est bien plus convivial et bien plus intuitif !
Pour lancer une requête, il faut se rendre sur https://query.wikidata.org puis sélectionner, à l’aide des filtres, les éléments et les propriétés recherchées. L’intérêt avec l’assistant de requêtes, c’est qu’il propose des auto-complétions (qui permettent de proposer des éléments de recherche par intuition). On peut aussi voir dans le volet de droite la requête s’afficher en langage SPARQL.

PNG - 10.3 ko

Wikidata propose une série d’exemples de recherches, pratique pour se lancer au début et pour comprendre le langage SPARQL si on le souhaite.
Les résultats s’affichent en bas de la page. Une multitude de formats est disponible pour l’affichage des résultats (tableau, grilles d’images, cartes, graphiques…).
Il faut noter que les résultats obtenus sont uniquement ceux référencés dans Wikidata.

5. Application en SVT

Mais alors, comment appliquer tout ça aux SVT ? Je vous propose dans la suite de l’article un exemple de recherches réalisables et exploitables par les élèves (cycle 4 – 4e).

Faire des requêtes afin d’évaluer le risque volcanique dans différentes régions du globe (Islande et Japon) :

Ce scénario permet aux élèves de découvrir Wikidata et le web sémantique.

Les élèves ont vu précédemment la définition de risque. Ils savent donc que le risque dépend de l’aléa et de la vulnérabilité de la région concernée.

Ils ont vu aussi que le type d’une éruption et les risques associés dépendent largement de l’ampleur de l’éruption, de la composition du magma émis et de l’environnement dans lequel a lieu cette éruption.

L’idée ici est de leur faire rechercher le risque volcanique une zone géographique donnée en étudiant l’ampleur d’une éruption (via l’indice d’explosivité volcanique) et le nombre d’habitants.

Ils devront donc croiser deux recherches :
1. L’indice d’explosivité volcanique des différents volcans et l’afficher sur une carte pour que ce soit plus accessible.
2. La densité de population de la zone étudiée.

Afin de les laisser parcourir Wikidata pour évaluer ce risque, on peut leur donner quelques recherches simples en exemple : faire une requête pour trouver quelles sont les îles dans l’océan Pacifique qui sont volcaniques et dont on peut trouver une photo sur Wikidata pour l’illustrer

Voici la recherche en images :


Dans l’assistant de requête, on va rentrer les informations suivantes : Ile, volcan et océan Pacifique. Pour cela on clique sur le bouton « + Filtre ».

Ensuite on indique ce qu’on souhaite afficher. Dans notre requête, on veut comme résultat, l’ensemble des îles volcaniques dans le Pacifiques qui sont répertoriées dans Wikidata et qui possède une image d’illustration. On clique alors sur « + Afficher » et on rentre « image ». On lance la recherche (flèche blanche dans le carré bleu à gauche).

A ce stade on observe que les résultats se peaufinent au fur et à mesure dans la partie inférieure de notre page. Sur la droite, on observe la requête dans le fameux langage SPARQL.
Afin de ne voir que des images comme résultats, on peut cliquer sur l’œil à gauche et on sélectionne ainsi « Image Grid ». Voici le résultat final de notre recherche :

Ce premier exemple permet à l’élève de découvrir les commandes de « filtres » et « d’affichage ». De plus, l’élève comprend qu’il peut choisir un mode de représentation des résultats (grille d’image, tableau, carte…).

Une fois cet exemple présenté, l’élève teste pour effectuer sa recherche.

Il peut commencer par chercher la localisation des volcans actifs, ou bien chercher l’effectif de la population d’une région donnée.

Afin de l’aiguiller sur l’indice d’explosivité volcanique, on peut lui donner un document y faisant référence. On peut aussi l’aider en lui donnant un document faisant référence à la densité de population et son calcul.

Recherche de l’indice de l’explosivité volcanique en fonction du volcan : Lien de la recherche Wikdiata


Recherche de l’effectif de population en fonction des pays : Lien de la recherche Wikdiata


Recherche de la superficie des pays : Lien de la recherche Wikidata


En croisant ses recherches, l’élève se rend compte que :

  • Pour l’Islande, la densité de population est faible et l’indice d’explosivité de beaucoup de volcans est élevé.
  • Pour le Japon, la densité de population est forte et l’indice d’explosivité de beaucoup de volcans est élevé aussi.

Il peut alors croiser ces informations avec la définition de risque étudiée plus tôt. Il se rend compte alors que le risque volcanique est globalement faible sur le territoire islandais alors qu’il est élevé sur les îles japonaises.

6. Pour aller plus loin avec Wikidata...

Introduction à Wikidata : https://www.wikidata.org/wiki/Wikidata:Introduction/fr
Les déclarations : https://www.wikidata.org/wiki/Help:Statements/fr
Service de requête SPARQL/Une introduction en douceur au service de requête de Wikidata : https://www.wikidata.org/wiki/Wikidata:SPARQL_query_service/A_gentle_introduction_to_the_Wikidata_Query_Service/fr

Bien sûr, Wikidata est un projet collaboratif. Si vous souhaitez y contribuer, n’hésitez pas !

7. Bilan de l’expérimentation

Cette expérimentation aura permis aux élèves de :

  • découvrir le web sémantique
  • découvrir la notion de base de données et de data mining
  • construire des connaissances à partir de données

8. Conclusion

Le web sémantique se veut être un outil très puissant pour produire de la connaissance à partir des données issues d’Internet.

C’est sur ce principe que se basent aujourd’hui les moteurs de recherche. On peut s’en rendre compte rien qu’en faisant une recherche sous forme de question. Il arrive que le moteur de recherche y réponde directement, avant de nous proposer ses liens de recherche classique. Par exemple, si on demande à Google quelle est la hauteur de la tour Eiffel, il nous répond directement [4] :

Les sites comme Wikidata nous permettent de comprendre les bases et les coulisses du web sémantique et c’est là tout l’intérêt pédagogique avec nos élèves. Ils décortiquent ainsi comment on associe des termes lors d’une recherche et comprennent la notion de base de données. Ce dernier point est primordial dans notre discipline, vue la masse de données liée aux sciences de la Vie et de la Terre générée chaque minute ! C’est indispensable pour maitriser les recherches internet à l’heure du Web 3.0.

 

Portfolio