Indexation

L'indexation des ressources de l'UMVF

L'UMVF dispose de nombreuses ressources numériques réparties sur les différents sites participant au projet. L'un de ses objectifs est d'offrir un portail d'accès à ces ressources en permettant aux utilisateurs d'effectuer une recherche unique sur l'ensemble des ressources mises à disposition. Pour cela, une méthode d'indexation normalisée et interopérable a été définie. Elle utilise un standard des ressources pédagogiques au travers de notices de description de ces ressources.
Ainsi, chaque site hébergeant des ressources doit fournir, pour chacune d'entre elles, une notice d'indexation au format d'échange XML1 et contenant des métadonnées définies selon le standard LOM2, une extension du standard Dublin Core (DC3). Le contenu et la structure de ces notices sont contrôlés au moyen d'une DTD4.
A cette étape, l'UMVF a mis à la disposition des facultés de médecine un outil de publication de ressources pédagogiques: le Workflow d'indexation UMVF. Cet outil a pour but de faciliter la procédure de mise en ligne ainsi que l'indexation des ressources tant au plan local que national. Il permet aux enseignants d'indexer directement leur matériel de cours grâce à un formulaire web qui donne automatiquement les mot-clés MeSH correspondants après l'analyse de la description des cours. Ceci est réalisé grâce au web-service Nomindex. Nomindex est un moteur d'indexation qui a été conçu et developpé au sein du Laboratoire d'Informatique Médicale (LIM) de Rennes. Il génère des mots-clés MeSH5 à partir d'un texte donné. Le workflow produit ensuite une description XML de la ressource sous la forme d'une notice. Ce workflow est actuellement validé au sein des facultés de médecine de Lille et de Rennes.
Les notices sont envoyées à l'équipe CISMeF du CHU de Rouen où chaque ressource est indexée : - par son contenant en utilisant des métadonnées (notamment Dublin Core) et - par son contenu en utilisant les termes de la terminologie CISMeF (actuellement fondée sur le thésaurus MeSH, avec de nombreuses améliorations pour l'adapter aux ressources Internet (création de métatermes (ou métaconcepts), création de type de ressources, majeur/mineur pour les types de ressources et les métatermes, affiliation possible des types de ressources aux paires de mots clés/qualificatifs, traduction de 4.000 définitions en français, ajout de 8.000 synonymes).
La sélection des ressources passe par une politique éditoriale stricte, notamment un filtrage en fonction des critères de qualité du Net Scoring et une indexation MeSH au plus fin. L'équipe CISMeF a également développé un outil (algorithme de sac de mots) qui est utilisé largement dans Doc'CISMeF : sur les 36 000 ressources intégrées (dont plus de 6 600 ressources pédagogiques), plus de 10 000 ressources sont indexées automatiquement et plus de 4 000 sont supervisées (indexées automatiquement puis manuellement).
Les notices sont intégrées, en fonction de leur validité, à une base de données centrale abritée par l'UMVF. Cette base de données compte donc plus de 6600 ressources affiliées à l'enseignement, avec entre autres les types suivants : cours, examen national classant, problèmes et exercices, lecture critique d'articles.
Le méta-moteur de l'UMVF effectue ses recherches à partir de ces informations indexées et recueillies dans cette base (cf. menu « Moteur de recherche » pour plus de détails).
Nous devons par ailleurs évoluer vers la norme LOM.fr pour l'intégration d'OAI-PMH6 sur les données de Doc'UMVF, ce processus visant à faire de Doc'UMVF un entrepôt OAI moissonnable.

------------------------------------------------------------------------------------------------------------
1 XML (Extensible Markup Language), « langage de balisage extensible », est un langage informatique de balisage générique.

2 Le standard « IEEE 1484.12.1-2002 (LOM) », nommé plus simplement LOM (Learning Object Metadata), est un schéma de description de ressources d'enseignement et d'apprentissage.

3 Le Dublin Core est un schéma de métadonnées générique qui permet de décrire des ressources numériques ou physiques et d'établir des relations avec d'autres ressources.

4 DTD (Document Type Definition), ou Définition de Type de Document, est un document permettant de décrire un modèle de document SGML ou XML.

5 MeSH (Medical Subject Headings) est un thésaurus médical avec un vocabulaire contrôlé créé par la National Library of Medecine (NLM).

6 OAI-PMH, Open Archives Initiative for Metadata Harvesting, protocole permettant l'exposition et la collecte automatique de méta-données.