SOS-DS

Système optimal de sélection des données spatiales
couplé à un data warehouse

SOS-SD
A Data Warehouse-Based System
for the Optimized Selection of Spatial Data

François Létourneau, B. Sc. A., Candidat M. Sc. A.
Yvan Bédard, Ph. D., professeur et chercheur
Marie-Josée Proulx, M Sc., professionnelle de recherche

 

Centre de recherche en géomatique
Pavillon L.-J.-Casault, local 0609
Université Laval
Québec, Canada
G1K 7P4
crg@crg.scg.ulaval.ca

D-Lib Magazine, March 1997

ISSN 1082-9873

Résumé

L’hétérogénéité des géorépertoires est un problème de taille pour quiconque devant chercher dans plusieurs géorépertoires quelles sont les meilleures sources de données spatiales nécessaires à la réalisation d’un projet. Des différences dans le contenu, les normes, l’interface à l’usager, la sémantique, la structure de base de données, etc. sont la règle dans les géorépertoires se trouvant sur Internet. De plus, les usagers n’ont aucun outil à leur disposition pour les aider à sélectionner la meilleure source de données après qu’ils aient clairement définis leurs besoins et qu’ils aient trouvé nombre de documents répondant à leur requête dans les différents géorépertoires.

L’utilisation de la technologie data warehouse, couplée avec un outil de transformation et d’intégration des données et avec un système d’aide à la sélection des documents, le tout fonctionnant sur Internet, nous paraît être une solution prometteuse pour régler les problèmes d’hétérogénéité et de la sélection des meilleures sources. Les data warehouses sont utilisés pour dupliquer et intégrer des jeux de données provenant de bases de données ou de fichiers opérationnels et pour créer de nouveaux jeux de données synthétisés permettant d’assister les gestionnaires dans leur prise de décision. L’utilisation d’un data warehouse comme source de données pour un système d’aide à la sélection des données ouvre la voie à une solution nouvelle et innovatrice. Ce concept, appelé Système optimal de sélection des données spatiales (SOS-DS) est présentement en développement au Centre de recherche en géomatique de l’Université Laval, où il fait l’objet de travaux de recherche dans un projet de maîtrise.

Mots-clés :

Géorépertoires, métadonnées, data warehouse spatial, intégration de données spatiales


Table des matières


1. Introduction

De plus en plus de gens utilisent l’Internet pour acquérir et distribuer des données spatiales. Toutefois, la distribution et la consultation des données spatiales requièrent plus qu’un simple transfert de fichier par ftp ou une consultation de cartes sur le Web. Une infrastructure doit être établie afin de permettre aux différents usagers de trouver facilement et d’analyser les données couvrant un territoire défini. Ces opérations sont effectuées dans un géorépertoire (c.f. Proulx et al. pour plus de détails sur les géorépertoires [1]). Malheureusement, les géorépertoires sur Internet sont passablement différents entre eux ; leur contenu, les normes utilisées, l’interface à l’usager, la sémantique, la structure de base de données etc. sont tous susceptibles d’être différents d’un géorépertoire à l’autre. Dans ce contexte, il n’est donc pas surprenant de constater qu’il n’y a présentement aucun outil sur Internet permettant à l’usager d’être assisté lorsque vient le temps de sélectionner les meilleures sources de données, une fois que les besoins sont clairement définis. Cet article présente ces problèmes et suggère quelques moyens pour les résoudre. C’est un résumé d’un projet de recherche présentement en cours à l’Université Laval, lequel projet est mené par l’auteur principal sous la direction du deuxième auteur.

2. L’hétérogénéité des géorépertoires sur Internet

Le développement de plusieurs géorépertoires sur Internet, par des ministères et autres organismes, a mené à l'apparition d’un ensemble hétérogène de géorépertoires. Une enquête, réalisée en octobre 1995 et mise à jour en juillet 1996 [2] nous donne une bonne indication de l’hétérogénéité des géorépertoires sur Internet. Parmi les 26 sites identifiés, 38% ne présentaient qu’une liste de documents disponibles, 36% n’utilisaient que les normes minimales de métadonnées, tandis que 28% utilisaient les normes complètes. Parmi les 26 mêmes sites, presque 60% n’étaient pas reliés à une base de données et finalement, 36% d’entre eux n’affichaient aucune carte permettant de localiser le territoire couvert par le géorépertoire et aidant ainsi l’usager à localiser la couverture cartographique des divers documents contenus dans le géorépertoire. Quiconque visitera quelques géorépertoires sur Internet notera que :

Ces faits et statistiques, en plus d’une foule d’autres que nous retrouvons dans l’enquête, démontrent clairement l’hétérogénéité des géorépertoires. Cette problématique est illustrée à la figure 1. Conséquemment, dans le but de trouver l’information désirée, les usagers doivent comprendre chaque interface et processus nécessaires à l’obtention de l’information. D’une certaine manière, ce problème est analogue à celui de la recherche de l’information sur Internet avec les différents engins de recherche, mais il comporte en plus un important problème géospatial et un contexte d’interface à l’usager qui ne se pose pas de la même manière avec les engins de recherche.


Figure 1 : problème initial

En plus du problème d’hétérogénéité auquel fait face l’usager avec les géorépertoire sur Internet, les problèmes liés à la sémantique sont tout aussi importants. Les problèmes de sémantique sont présents tout autant dans la définition de la structure des géorépertoires et dans la définition des données. Par exemple, les problèmes sémantiques associés à la structure peuvent être de cet ordre : dans un géorépertoire donné, un champ de base de données peut être nommé « type d’objets » tandis que dans un autre géorépertoire, ce même type de champ sera nommé « entité spatiale ». On retrouve aussi des mots représentant deux concepts différents, par exemple, le mot norme peut représenter le concept de norme d’acquisition de données dans un géorépertoire, tandis que dans l’autre, le même mot représente une norme de structure de données ou une norme de sémiologie graphique, indifféremment. Finalement, un autre problème peut se présenter lorsque l’on utilise les mots système de référence spatiale sans préciser s’il s’agit d’une projection cartographique ou d’un datum. L’autre grande catégorie de problèmes d’ordre sémantique est liée à l’utilisation de différents mots pour représenter le même concept, la même entité. Par exemple, si un usager veut trouver de l’information sur les cartes du réseau d’aqueduc d’une municipalité, il se peut que cette collection de cartes soit identifiée dans un géorépertoire comme cartes de l’aqueduc, tandis que dans un autre géorépertoire, elle est identifiée comme cartes du réseau d’adduction en eau ou cartes du réseau d’aqueduc dans un troisième géorépertoire. L’usager doit donc être conscient de ces disparités sémantiques, car s’il n’en tient pas compte, le résultat de ses requêtes ne sera pas complet. Évidemment, de tels problèmes de nature sémantique sont beaucoup plus importants pour les géorépertoires qui ne respectent pas l’une ou l’autre des normes de métadonnées.

3. Difficultés pour sélectionner la meilleure source de données

Une fois que l’usager a trouvé un ensemble de documents répondant potentiellement à ses besoins, en ayant fait une recherche dans un ou plusieurs géorépertoires, il est possible que le résultat de ses requêtes se traduise par une très longue liste de documents disponibles. La difficulté d’analyser une telle liste peut être diminuée en utilisant un outil d’aide à la décision. Il y a de fortes chances qu’un usager soit dépassé par la liste des documents répondants à ses besoins, de sorte qu’il est probable qu’il ne choisisse pas les documents répondant le mieux à ses besoins. De plus, en raison d’un manque d’expertise ou d’un contexte mal défini, ses besoins risquent d’être mal définis ou définies de manière floue, aggravant ainsi la situation. Cette problématique peut s’énoncer ainsi : parmi les données et documents disponibles, il est difficile de choisir ceux qui répondent le mieux à des besoins exprimés par un usager. Encore une fois, cette problématique s’apparente à celle que l’on rencontre avec les engins de recherche sur le Web. Jusqu’à maintenant, à notre connaissance, il n’y a pas de géorépertoires sur le Web qui permette à un usager de définir clairement ses besoins et d’utiliser cette information pour trouver les meilleurs documents disponibles pour un projet en particulier. Voilà pourquoi nous avons décidé de concevoir le système SOS-DS (Système optimal de sélection des données spatiales).

4. SOS-DS

On peut imaginer quelques stratégies pour solutionner les problèmes susmentionnés. L’utilisation d’une norme de métadonnées commune et d’une interface graphique à l’usager unique permettrait de surmonter une grande partie de ces problèmes. En fait, ce n’est pas une solution envisageable et cela ne risque pas de se produire en raisons des immenses efforts requis pour modifier une norme ou se conformer à une nouvelle norme et aussi en raison d’un manque de connaissances techniques en géomatique (cartographie, télédétection, photogrammétrie, arpentage, géodésie, hydrographie). D’autres facteurs sont à prendre en considération : l’absence d’un produit réellement dominant sur le marché établissant une norme de facto, le manque de ressources disponibles pour concevoir correctement un géorépertoire et l’avancement rapide de la technologie.

Il y a aussi une autre façon résoudre des problèmes. Parmi les nouvelles technologies de gestion des données, les data warehouses, couplés à un outil de transformation / intégration et un module d’aide à la sélection de documents nous semble être une solution prometteuse. Les data warehouses, tels que définis par Inmon [3], « are a subject-oriented, integrated, non-volatile, and time variant collection of data in support of management’s decision ». Habituellement, les data warehouses sont conçus pour gérer des grands volumes de données et sont régulièrement couplés à un outil de transformation / intégration des données, permettant ainsi de transformer et d’intégrer des données provenant de systèmes sources hétérogènes dans le data warehouse. La transformation / intégration des données est une des pierres angulaires des data warehouses. Par exemple, si la précision d’une carte est exprimée en pieds dans un géorépertoire « A » et qu’elle est exprimée en mètres dans le géorépertoire « b », l’outil de transformation / intégration pourra transformer l’unité de mesure de pieds à mètres avant d’intégrer la donnée dans le data warehouse. La figure 2 illustre une architecture générique de data warehouse, appliqué à des données spatiales.


Figure 2 : architecture générique de data warehouse appliquée à des données spatiales

Jusqu’à maintenant, les data warehouses sont principalement utilisés dans les applications de gestion traditionnelles : assurances, banques, comptabilité, etc. Quelques projets utilisent cette technologie avec des données spatiales, mais c’est tout récent et il semble pour l’instant que les data warehouses n’offrent pas le même potentiel pour les données spatiales que pour les données traditionnelles. En fait, en raison des caractéristiques intrinsèques des données spatiales, il n’est pas toujours possible d’utiliser efficacement les technologies actuelles et d’intégrer ce type d’information dans les data warehouses. Les technologies existantes doivent donc être adaptées, créant ainsi des opportunités de recherche pour solutionner ces problèmes.

Dans le contexte des géorépertoires, les data warehouses offrent plusieurs perspectives de développement très intéressantes. Pour notre projet, nous pouvons imaginer un système data warehouse permettant d’obtenir, de transformer et d’intégrer différents jeux de données dans une seule base de données. Les usagers, au lieu de consulter plusieurs géorépertoires différents, pourraient tout simplement faire une seule recherche complète dans le data warehouse et trouver l’information préliminaire dont ils ont besoin. Ensuite, en utilisant une procédure informatisée pour définir leurs besoins, (telle que celle développée par Charron et le second auteur [4]), le système pourrait effectuer un filtrage préliminaire, mais néanmoins très utile des jeux de données disponibles. Si plus d’informations sont requises pour les jeux de données sélectionnés, un pointeur liant ces données au système source permettrait d’obtenir toute l’information nécessaire. Cette architecture permettrait de réduire grandement les problèmes mentionnés précédemment (et de les éliminer complètement si les métadonnées enregistrées et stockées dans le data warehouse sont adéquates).

Il est possible aussi d’utiliser l’outil de transformation / intégration en vue d’introduire de la plus-value dans les données sources. Par exemple, si un géorépertoire n’offre qu’une liste textuelle des documents disponibles, classifiants ces derniers selon le système de référence cartographique national du Canada, il est possible d’adjoindre à ces données de l’information spatiale. Dans ce géorépertoire, le feuillet cartographique 21-L-10 n’est pas représenté sur une carte index. Il est toutefois possible d’utiliser cette information pour représenter la couverture de ce document sur une carte index, car 21-L-10 réfère à une position connue avec exactitude sur le territoire. On peut donc utiliser ce code pour dessiner la couverture cartographique de ce feuillet sur une carte index. Un autre exemple de plus-value est de produire de l’information statistique pour les feuillets disponibles en format papier versus ceux disponibles en format numérique et d’indiquer les dates prévues pour la numérisation (disponibles seulement pour les documents papier).

Nous avons mentionné précédemment que le système SOS-DS permettra d’assister les usagers dans la définition de leurs besoins et les aidera à trouver et sélectionner les jeux de données répondant le mieux à leurs besoins. La figure 3 illustre ce concept. Ce système est composé d’un outil de transformation, d’intégration, de synthèse et d’analyse sémantique des données, lesquelles données sont stockées dans un data warehouse, ce dernier servant de source de données à l’outil de sélection. Une interface à l’usager basée sur les technologies des systèmes d’information géographique (SIG) complète le tout.


Figure 3 : architecture de SOS-DS proposée

Un des principaux problèmes pour ce système est d’obtenir les données. Parfois, les métadonnées dans les géorépertoires sont simplement stockées dans des pages html, tandis que d’autres géorépertoire utilisent des bases de données relationnelles complexes pour l’enregistrement des métadonnées. En plus, l’accès à ces données requiert la signature d’entente entre les géorépertoires source et le SOS-DS et une infrastructure complète doit être développée pour intégrer efficacement les données. Des problèmes techniques d’accès aux données doivent aussi être surmontés. Notre but premier n’étant pas de solutionner ces problèmes techniques, nous ne chercherons donc pas à les résoudre. Notre but premier est plutôt d’évaluer le potentiel de l’approche data warehouse pour résoudre la problématique initiale. Pour ce faire, nous créerons cinq géorépertoires différents qui devront être représentatifs de l’hétérogénéité des géorépertoires actuels. Un de ces géorépertoires est GEOREP, tel que décrit en [1]. Conséquemment, les quatre autres devront couvrir le même territoire que GEOREP, soit la Forêt Montmorency, et chacun de ces géorépertoires contiendra certaines métadonnées décrivant dans les détails plus de 75 jeux de données créés au cours des 30 dernière années pour ce territoire. De ces quatre géorépertoires (ou simples répertoires non spatiaux dans certains cas) un sera implanté dans Oracle, un dans un SIG et deux sur un serveur WEB en utilisant de simples fichiers html. De son côté, le système GEOREP utilise le Jet Database Engine de Microsoft (c.f. MS-Access) et Java. Si les résultats de notre recherche nous indiquent que la solution proposée est adéquate pour résoudre le problème initial, des considérations d’ordre technique et légale pourront alors faire l’objet d’autres travaux.

5. Conclusion

Nous avons proposé une nouvelle solution pour résoudre les problèmes d’hétérogénéité des géorépertoires et sélectionner les meilleurs jeux de données disponibles satisfaisant des besoins clairement définis. Nous avons aussi définis la plupart des concepts et lors de projets de recherche antérieurs, nous avons acquis une expertise valable en ce qui a trait à la gestion des métadonnées spatiales, à l’analyse sémantique, à la sélection des meilleures source de données, à l’analyse de la qualité des données, au jumelage de modèles de données, à la programmation de basses de données sur le Web, à la programmation Java et à l’utilisation et la conception de SIG. Au moment où ces lignes sont écrites, nous prévoyons terminer ce projet à la fin de l’été 1997. Éventuellement, les données seront disponibles sur Internet, à l'adresse sosds.scg.ulaval.ca. On pourra obtenir les dernières informations sur le projet à ce site et en apprendre plus sur les objectifs du projet et connaître l’avancement des travaux.

6. Notes

  1. Proulx and al., GEOREP A WWW Customizable Georeferenced Digital Library for Spatial Data, D-Lib Magazine, december 1996.
  2. Proulx and al, Géorépertoire dynamique sur Internet : un moyen efficace de cataloguer les données spatiales, article soumis à la Revue Internationale de Géomatique.
  3. Inmon W, Building the Data Warehouse, John Wiley and Son, 1996, p.33
  4. Charron J., Thèse de maîtrise, Université Laval

 

Copyright © 1997 François Létourneau, Yvan Bédard, Marie-Josée Proulx

D-Lib Magazine |  Current Issue | Comments
Previous Story | Next Story

hdl:cnri.dlib/march96-letourneau