Quantcast
Channel: C/blog » cloud computing
Viewing all articles
Browse latest Browse all 4

Le grand chantier de DBpedia : lier les données du web

$
0
0

DBpedia est un projet basé sur une participation communautaire, dont le but est d’extraire des informations structurées à partir de Wikipédia et de les mettre à disposition sur le Web. Ce qu’offre DBpedia, c’est avant tout une banque de données qui (1) est largement utilisée par les cercles académiques et dans le monde de l’entreprise, qui (2) est gérée par les contributeurs de Wikipédia et les éditeurs de DBpedia, et qui (3) est devenue un point de cristallisation central et une infrastructure essentielle pour le Web de données. DBpedia est l’un des meilleurs exemples en matière de Linked Data (terme consacré pour désigner les « données liées ») et il s’agit actuellement du plus grand hub sur le Web pour ces données (Fig. 1). Les données RDF extraites de la version anglophone de Wikipédia sont publiées et reliées selon les règles propres aux données liées.

Figure 1 : Aperçu des datasets reliés à DBpedia.

Dans sa version actuelle, la version 3.7, DBpedia contient plus de 3,64 millions d’éléments, parmi lesquels 1,83 millions sont classés selon une ontologie cohérente. On relève, dans ce classement, 416 000 personnes, 526 000 lieux, 106 000 albums de musique, 60 000 films, 17 500 jeux vidéo, 169 000 organisations, 183 000 espèces et 5 400 maladies. Le dataset (un « ensemble de données ») propose des marquages et des descriptions pour 3,64 millions d’éléments, et ce jusque dans 97 langues différentes ; 2 724 000 liens vers des images et 6 300 000 liens redirigeant vers des sites Internet extérieurs ; 6 200 000 liens externes reliés à d’autres ensembles de données RDF, et 740 000 entrées Wikipédia. Le dataset est constitué d’un milliard d’éléments informatifs (triplets RDF), parmi lesquels 385 millions sont extraits de la version anglophone de Wikipédia et environ 665 millions proviennent de versions dans d’autres langues, avec une redirection vers d’autres datasets. Le dataset DBpedia est utilisé par des applications comme Faceted Wikipedia Search, outil dit de « recherche par facettes », qui permet de répondre à des questions complexes comme « Quels scientifiques français sont nés au 19ème siècle ? » ou « Quels sont les gratte-ciel de Chine qui sont constitués de plus de 50 étages ? », sur la base des informations contenues dans Wikipédia. Une autre application faisant usage de ces données est DBpedia Mobile, qui se sert des données DBpedia pour la conception de cartes et permet aux utilisateurs de profiter de DBpedia – et du Web des données en général – lorsqu’ils ont recours à des services mobile.

Figure 2 : Principe d’utilisation de données extraites dans le cadre d’un mapping DBpedia-Wiki.
Figure 3 : Navigateur de l’outil de recherche par facettes de DBpedia.

Actuellement, l’ontologie retenue pour DBpedia continue de suivre une approche de crowd-sourcing, ce qui permet aux utilisateurs d’opérer librement des modifications sur un mapping créé à partir de Wikipédia : chaque classe OWL peut être modélisée sur une page Wiki et les axiomes de type SubClassOf (décrit sur la Figure 2, à gauche) sont créés manuellement. La classification des articles selon des classes, définies par l’ontologie, suit des règles précises. Dans la Figure 2, l’article est classé en tant que dbp-owl : Mountain, pour la simple raison qu’il contient l’infobox « Infobox Mountain » dans sa source.

Développement international de DBpedia

Les premières versions du modèle d’extraction d’information de DBpedia (« DBpedia Information Extraction Framework ») utilisaient pour seule source la version anglophone de Wikipédia. Mais, depuis, cette exclusivité a été mise de côté pour évoluer vers un dataset combinant des informations issues de plusieurs versions de Wikipédia. La version anglaise reste la première source utilisée, dans la mesure où c’est elle qui est le plus abondamment nourrie en matière d’articles et de volume d’information. Malheureusement, durant le processus de fusion, certaines informations, portées par des termes de langage bien spécifiques, ont été perdues ou ignorées. Le but des recherches actuelles sur les conditions du développement de DBpedia à l’international est d’établir de meilleures pratiques (accompagnées de logiciels adaptés) qui permettraient à la communauté de DBpedia de produire, d’entretenir et de relier correctement les différentes versions linguistiques de DBpedia, et ce en toute simplicité. Dans un premier temps, nous avons créé une version de DBpedia clairement définie du point de vue linguistique en utilisant le Wikipédia grec, dans l’idée d’en faire un prototype, pour des développements futurs. Très vite cependant, l’approche a été généralisée et a été appliquée à 15 autres versions linguistiques de Wikipédia, avec notamment un DBpedia pensé pour le public français. Le Wikipédia français est actuellement le troisième Wikipédia le plus dense de la version 4.0, avec environ 1,1 million d’articles. Ces chiffres en font également le troisième DBpedia local le plus important, avec 88,2 millions de triplets RDF. La communauté française active sur les mappings DBpedia-Wiki a commencé à créer des mappings pour des Infobox et on atteint aujourd’hui une couverture d’environ 38,81 %.

Plus important encore, DBpedia donne accès à un savoir spécialisé pour environ 3,64 millions d’entités (1,1 million d’entre elles en langue française) : ce savoir spécialisé, qui relève d’une capacité d’expertise, est gage de ce qu’il convient d’appeler une stabilité ou une « confiance numérique ». Cette dernière dépend en grande partie de la pertinence du travail de connection entre un identifiant DBpedia et le sens du contenu. En d’autres termes, une fois qu’un texte ou contenu a été correctement relié à un identifiant DBpedia, ce dernier représentant un sens donné, on peut considérer que ce texte ou contenu est stable et mérite un certain crédit.

DBpedia Spotlight

On trouve un exemple d’utilisation de DBpedia avec DBpedia Spotlight, un outil qui permet d’insérer dans le texte des références à des données DBpedia : on propose ainsi une solution pour relier un ensemble d’informations non structurées au nuage de données ouvertes et liées (« Linked Open Data ») par l’intermédiaire de DBpedia. DBpedia Spotlight permet d’extraire des entités déjà identifiées. L’outil permet également de détecter des entités et sert également aux opérations de résolution de noms (« Name Resolution »). Les dernières améliorations concernant DBpedia Spotlight ont consisté, d’une part, à développer des versions pour l’international et, d’autre part, à développer des services de désambiguïsation des entités pour les versions allemande et coréenne. Les travaux sur ce dernier point sont toujours en cours. D’autres versions, dans d’autres langues, devraient bientôt voir le jour. Il s’agira également, dans ce cadre, d’évaluer la performance des algorithmes dans les différentes versions linguistiques.

Chris Bizer
Professeur-chercheur à la Freie Universität Berlin

Photo Article – dbpedia.org
Design graphique Image de Une : Jean-François Hénane


Viewing all articles
Browse latest Browse all 4

Latest Images





Latest Images