Le projet BioSW

Plan 1. Résumé 2. Annexes 2.1. Annexes techniques (section incomplète) 2.2. Hiérarchie des tâches (section non encore écrite) 2.3. Planning des tâches (section non encore écrite) 2.4. Coûts prévisionnels (section non encore écrite)


1. Résumé

But général. BioSW est destiné à faciliter le partage, la recherche et la comparaison de connaissances - en particulier celles liées à la biodiversité - par des chercheurs ou des amateurs. Pour cela, à partir de différentes bases de connaissances et, lorsque possible à l'intérieur de ces bases, ce projet facilitera la création collaborative d'un réseau de connaissances (Web Sémantique) à la fois

  1. directement compréhensible et utilisé par des personnes (Web Sémiotique),
  2. bien organisé (donc normalisé et réduisant ou explicitant les redondances et conflits terminologiques et sémantiques), mais
  3. sans imposer de restrictions manuelles ou automatiques sur les contenus, donc sans imposer de choix entre des croyances contradictoires, et donc aussi sans perte d'informations par rapport aux bases sources.

Ces trois points sont nécessaires pour faciliter et encourager l'accès et le partage de données et connaissances entre experts et/ou non-experts, et ainsi i) combiner et mettre à profit les investissements réalisés dans le domaine du partage d'information en général et de la biodiversité en particulier, ii) organiser et tirer profit des observations faites par le public, et iii) guider et faire profiter le public et les spécialistes de cette combinaison d'informations. Ceci permettra par exemple de pallier au nombre faible et parfois décroissant de personnes dont les connaissances sont cruciales pour la sauvegarde de la biodiversité, en particulier pour l'identification d'espèces. Il existe certes de plus en plus de bases de données ou de connaissances accessibles via le Web mais l'accès, l'inter-opérabilité et l'utilisabilité de leurs contenus sont limités par le fait que i) ces bases sont souvent peu (sémantiquement) organisées intérieurement et entre elles, et ii) leurs types de contenu exploitables automatiquement - et les moyens offerts aux usagers pour complémenter ces contenus - sont très restreints.

Comparaison avec des projets ayant un but général similaire. La combinaison des trois avantages listés ci-dessus distingue ce projet des autres projets liés au Web Sémantique ou à la biodiversité. En effet, BioSW s'appuiera et étendra WebKB-2 [Martin et al., 2005], un serveur de connaissances que nous avons développé et le seul à posséder des protocoles d'édition de base de connaissances partagée capables d'assurer la combinaison des trois avantages listés. Les autres serveurs ou éditeurs de telles bases (e.g., Ontolingua, OntoWeb, Ontosaurus, Freebase, CYC et les wikis sémantiques) n'ont pas de protocoles similaires et donc i) permettent à tout utilisateur - ou certains utilisateurs - de modifier ce que d'autres ont entré (ce qui décourage l'entrée d'information ou conduit à des guerres d'édition), ou ii) requiert de tout utilisateur - ou certains utilisateurs - d'approuver ou non les changements faits pas d'autres utilisateurs (ceci ralentit considérablement l'entrée d'information, est pénible pour les utilisateurs évaluateurs et les force parfois à effectuer des choix arbitraires). En effet, actuellement, la plupart des travaux de recherche pour le partage de connaissances ne se portent pas sur des protocoles d'intégration "sans perte d'informations" mais sur des procédures d'intégration partielle et (semi-)automatique de bases de connaissances ou de changements faits dans d'autres bases ([Euzenat & Shvaiko, 2007] [Euzenat et al., 2009] et [Palma et al. 2008] offrent des états de l'art sur ces sujets).
Tout comme ViBRANT (Virtual Biodiversity Research and Access Network for Taxonomy ; vbrant.org) - un projet européen FP6 reconduit en mars 2010 - BioSW a pour but de "faciliter la mobilisation, le partage, la réutilisation et la publication de données liées à la biodiversité" et se base sur un système générique semi-formel de gestion de connaissances : WebKB-2 pour BioSW, les Scratchpads pour ViBRANT. Toutefois, les Scratchpads (scratchpads.eu ; [Roberts et al., 2007]) sont essentiellement des "wikis sémantiques", c'est à dire des bases d'informations comme Wikipedia mais centrées sur une ou plusieurs taxonomies partagées. Ils n'ont donc pas de protocole répondant aux critères listés plus haut.

Applications en biodiversité. Les principaux domaines d'applications de BioSW seront focalisés sur la collection, l'intégration et la diffusion ou l'utilisation de systèmes et connaissances liés à la gestion de la biodiversité à La Réunion. La première application sera - en collaboration avec le consortium international FishBase (fishbase.org) - de tester BioSW pour permettre l'extension collaborative et sémantiquement organisée de FishBase par des chercheurs et pour les poissons de La Réunion. L'expérience pourra ensuite être répliquée avec i) le projet international Pl@ntNet (plantnet-project.org) pour les plantes à La Réunion, et ii) certaines des bases du projet Etic3 [Etic, 2010], notamment celles relatives aux hydraires et à l'herbier de La Réunion. Dans tous les cas, les guides fournis - ontologie (dictionnaire sémantique) et règles de normalisation associées - seront adaptés aux domaines cités mais seront aussi généralisés de manière à créer une ontologie de haut niveau pour la bio-diversité. Ces travaux seront associés à ceux du GBIF (Global Biodiversity Information Facility ; www.gbif.org) et du LIS (laboratoire d'informatique et Systématique ; lis.snv.jussieu.fr) de Paris VI. Ces travaux étendront nos études génériques précédentes sur la normalisation des connaissances [Martin, 2009 ; section 2.3], une ontologie générale [Martin, 2009 ; chapitre 3] ainsi que les modèles et les languages [Martin, 2009 ; chapitre 4].

Autres applications et buts généraux pour La Réunion. Le paragraphe précédent montre que BioSW sera un support pour le développement durable à La Réunion. Si l'une de des deux expériences citées est concluante, c'est à dire si le Web Sémantique créé est utilisé et étendu par des chercheurs à La Réunion et hors de La Réunion, il est probable que l'approche soit étendue à l'ensemble de la base et, à plus long terme, adoptée par d'autres communautés liées à la biodiversité ou pas. Cela participera donc au rayonnement scientifique de La Réunion. Par ailleurs, étant générique, la plateforme de BioSW pourra également servir à des applications industrielles, et notamment à étendre ou améliorer les services Web des sociétés M.I.Technologies et MobiJump (deux sociétés de l'incubateur de la Technopole de de La Réunion). De manière plus générale, BioSW est destiné à avoir un impact positif sur

Buts et contexte à l'Université de La Réunion (UR). BioSW est un projet de l'ESIROI STIM et de l'IREMIA (Institut de Recherche en Mathématiques et Informatique Appliquées, de l'U.R.). Il étend et réutilise - et donc aussi fédère - certaines des recherches des équipes IC-IHM (Ingénierie des Connaissances et Interaction Homme-Machine) et ECD (Extraction de Connaissances à partir de Données) de l'IREMIA.

Résultats techniques poursuivis (indicateurs techniques généraux).

  1. Interfaces de communication et de programmation. Tout comme WebKB-2 (webkb.org), le site Web de BioSW (BioSW.org) aura un serveur qui permettra à tout agent (utilisateur ou application) du Web de rechercher, ajouter ou détruire/filtrer des informations sur tout objet de sa base de connaissances (terme, relation ou phrase, formel ou non), et ce, par requête ou navigation. Les requêtes pourront s'effectuer via des formulaires Web ou des applications Web (protocole CGI; approche REST; ceci permettra une intégration immédiate à Nextic). De plus, un language de script permettra aux agents de paramétrer et combiner les commandes de base. Enfin, l'interface de communication OKBC (Open Knowledge Base Connectivity ; [OKBC, 1998]) sera implémentée pour permettre à BioSW d'utiliser ou d'être utilisé par des systèmes à bases de connaissances à base de frames, i.e., utilisant un modèle comparable à OWL, e.g., IKBS. D'autres interfaces de communication avec des systèmes de gestion d'informations en bio-diversité (Fishbase, Pl@ntNet, scratchpads, ...) seront aussi développés. Cela impliquera de complémenter les procédures d'import-export de WebKB-2. Ces procédures pourront être utilisées par d'autres applications comme un service de traductions entre différents formalismes ou ontologies. Un modèle de génération et interprétation de formalismes en fonction de paramètres est décrit dans [Martin, 2009 ; chapitre 4]. Il sera implémenté (et étendu) pour les interfaces de communication et les interfaces utilisateurs.
  2. Interfaces utilisateurs. Compte-tenu de ses interfaces de communication, une partie des informations de BioSW pourra être recherchée et éditée via des systèmes existants. Depuis le site de BioSW, tout utilisateur pourra naviguer sur les relations directement ou indirectement associées à chaque objet ("O") : celles-ci seront présentées sous une forme hiérarchique et sémantiquement organisée. L'utilisateur pourra ainsi accéder à - puis éditer/annoter/compléter - tous les objets directement ou indirectement reliés à "O", i.e., i) toutes les actions qui peuvent s'effectuer sur/depuis "O", et ii) toutes les informations stockées sur "O". Pour cela, le point ci-dessous titré "principes d'organisation et de visualisation des relations associées aux objets" est également nécessaire. Cette approche originale - qui unifie base de connaissances, menus et documentations - réduit les efforts des développeurs aussi bien que des utilisateurs, et permet à ces derniers d'ajouter, combiner, personnaliser ou commenter des commandes. Elle facilite donc la collaboration - prônée par Nextic - entre utilisateurs, développeurs et experts. Cette collaboration - ainsi qu'un système de filtrage (via des pré-requêtes) permettant à chaque utilisateur de ne voir dans la base que ce qui l'intéresse - sera rendu possible par les protocoles de collaboration suivants.
  3. Protocoles de collaboration. Il s'agit i) des protocoles cités plus haut pour l'édition d'une base de connaissances partagée [Martin, 2009; section 2.2.5], et ii) de protocoles permettant l'évaluation collaborative de tout objet (et, en retour, de tout auteur d'objet) dans cette base [Martin, 2009; section 2.2.6]. Ces protocoles sont partiellement implémentés dans WebKB-2 ; ils nécessitent d'être étendus et raffinés pour les applications précédemment citées. Ils n'impliquent pas une approche centralisée : la base peut certes être une base physique mais peut aussi être une base virtuelle (un réseau sémantique global) composée de plusieurs bases physiques synchronisées. C'est la raison d'être des protocoles suivants.
  4. Protocoles de distribution de connaissances entre bases. Leurs principes de base sont décrits dans [Martin, 2009 ; section 2.2.4] ; ils doivent d'être raffinés et implémentés pour les applications précédemment citées. Ils permettront de combiner les avantages des approches centralisées et distribuées.
  5. Opérateurs de recherche, comparaison, classification et vérification de connaissances. [Martin, 2009 ; section 2.4] en décrit de nombreux et les classifie. Certains ne sont pas implémentés dans WebKB-2. BioSW les implémentera et les complétera pour les applications précédemment citées. Ces travaux incluent celui précédemment cité sur la classification de règles d'association et, plus généralement, l'exploitation de contraintes sémantiques complexes. Des moteurs d'inférences externes à BioSW seront occasionellement utilisés via les interfaces de communication citées plus haut.
  6. Ontologie de haut niveau, contraintes sémantiques et principes de normalisation. L'ontologie de haut niveau de WebKB-2 [Martin, 2009 ; chapitre 3] et ses principes de normalisation [Martin, 2009 ; section 2.3] seront complétées afin de guider les utilisateurs de BioSW vers la création d'ontologies plus facilement (ré-)utilisables, inter-opérables et extensibles. Ce travail comprendra deux parties :
    i) une complétion avec des catégories et des principes venant d'ontologies fondationnelles (i.e., de haut niveau et indépendante de tout domaine et langue, e.g. formalisant des propriétés liées aux diverses notions d'identité, d'atomicité, de rôles et d'attributs), notamment celle de [Guizzardi, 2005] qui elle même synthétise et étend les ontologies fondationnelles existantes, et
    ii) une complétion avec les catégories de haut niveau que l'on peut trouver dans - ou abstraire des - ontologies existantes liées à la bio-diversité.
  7. Principes d'organisation et de visualisation des relations associées aux objets. Il s'agit, pour tout terme/connaissance (formel ou non) connu dans la base et sélectionné par un utilisateur, d'organiser dynamiquement toutes ses relations directes et indirectes dans une hiérarchie de spécialisation de ayant à chaque niveau peu d'éléments (environ 7) et aussi intuitifs que possible. Ce sujet de recherche est une extension du celui du point précédent mais a été jusqu'à présent peu exploré bien qu'il soit également capital pour permettre des recherches rapides et des insertions adéquates dans une grande base de connaissances créée de manière collaborative. Ceci est probablement dû au fait que, à part pour les plus haut niveaux, il y a actuellement peu de contraintes ou indications exploitables pour ce but dans les i) ontologies lexicales utilisées (i.e., les catégories conceptuelles représentant les sens des mots courants d'une langue comme le français), et ii) les ontologies du domaine considéré (e.g., celui de la bio-diversité chez les poissons). Deux approches génériques complémentaires sont introduites dans [Martin, 2009 ; section 2.4.2.8] et [Martin, 2009 ; section 3.1]. L'annexe ci-après titrée "Organisation de la hiérarchie de relations hiérarchie associée aux objets" présente l'idée de base de cette seconde approche.
  8. Bases de connaissances. Les (parties des) bases existantes relatives aux applications citées plus haut seront intégrées à la base de BioSW et complétées pour respecter son ontologie de haut niveau et ses principes de normalisation. Cela conduira souvent à interpréter la signification des catégories des bases sources mais cette interprétation pourra être corrigée par d'autres utilisateurs grâce aux protocoles d'édition de la base (ceci n'est pas possible avec les autres travaux d'intégration de bases). Il faut également noter que, grâce à ces protocoles, ajouter et utiliser d'autres catégories de haut niveau - ou suivre d'autres principes/méthodologies - peut se faire à tout moment par tout utilisateur sans que cela entraine de conflits lexicaux ou sémantiques. En fait, plus il y aura de classification ou de principes utilisés, plus la base sera organisée et donc facilement (ré-)utilisable. Les relations des bases sources deviendront souvent, dans BioSW, des raccourcis pour des chaines de relations plus explicites.
  9. Politiques de confidentialité. Chaque auteur d'objet dans BioSW pourra associer à cet objet une "politique de confidentialité minimale", i.e., spécifier quels types d'utilisateurs a le droit ou pas de voir cet objet (e.g., une relation entre deux autres objets). Les algorithmes de recherche et de comparaison d'informations de BioSW prendront en compte ces politiques.


Références

  1. Chein M. & Mugnier M.-L. (1997). Positive Nested Conceptual Graphs. Proceedings of ICCS 1997 (Springer Verlag, LNAI 1257, pp. 95-109), Seattle, USA, August 4-8, 1997.
  2. Etic3 (2010). Environnement Tropical Insulaire, Ingénierie des Connaissances & Intelligence Collective, Information & Communication. http://etic.univ-reunion.fr/
  3. Euzenat J. & Shvaiko P. (2007). Ontology matching. Springer-Verlag, Heidelberg (DE), 2007.
  4. Euzenat J., Mbanefo O. & Sharma A. (2009). Sharing resources through ontology alignment in a semantic peer-to-peer system. IGI Global, "Cases on semantic interoperability for information systems integration: practice and applications", pp. 107-126.
  5. Guizzardi G. (2005). Ontological Foundations for Structural Conceptual Models. PhD Thesis (CUM LAUDE), University of Twente, The Netherlands. Published as the book "Ontological Foundations for Structural Conceptual Models", Telematica Instituut Fundamental Research Series No. 15, ISBN 90-75176-81-3 ISSN 1388-1795; No. 015; CTIT PhD-thesis, ISSN 1381-3617; No. 05-74.
  6. Martin Ph., Blumenstein M. & Deer P. (2005). Toward cooperatively-built knowledge repositories. Proceedings of ICCS 2005, 13th International Conference on Conceptual Structures (Springer, LNAI 3596, pp. 411-424), Kassel, Germany, July 18-22, 2005.
  7. Martin Ph. (2009). Towards a collaboratively-built knowledge base of&for scalable knowledge sharing and retrieval. HDR thesis (240 pages), University of La Réunion, France, December 8, 2009.
  8. OKBC (1998). Open Knowledge Base Connectivity. http://www.ai.sri.com/~okbc/
  9. Palma R., Haase P., Wang Y. & d'Aquin M. (2008). Propagation Models and Strategies. Deliverable 1.3.1 of NeOn (Lifecycle Support for Networked Ontologies; NEON EU-IST-2005-027595), pp. 1-61, Jan. 2008.
  10. Roberts D., Rycroft S.D., González M. & Smith V.S. (2007). Scratchpads: what are they? European Distributed Institute of Taxonomy News (newsletter article).


2. Annexes

2.1. Annexes techniques

Cette section introduit i) des idées sous-jacentes à certains points de [Martin, 2009] référés dans le résumé précédent, et ii) des idées sous-jacentes aux applications pour la biodiversité.
De nombreux paragraphes de cette section seront adaptés de mes transparents pour l'équipe ECD ; en attendant la complétion de cette section, veuillez donc lire les points qui vous intéresse dans ces transparents. Les informations données ci-dessous sont celles qui ne sont ni dans ces transparents ni dans [Martin, 2009].

Les modèles de représentation de connaissances actuels et futurs de WebKB-2 et IKBS.

Organisation de la hiérarchie de relations dynamiquement associée aux objets. Les idées de base pour générer et surtout ordonner cette hiérarchie de spécialisation sont

Voici ci-dessous un exemple de hiérarchie organisant quelques relations pour les "truites arc-en-ciel" ; il s'agit ici d'une partie représentative des relations utilisées par FishBase pour décrire des informations liées aux poissons. Le formalisme FL [Martin, 2009 ; sections 2.1.1 et 4.2] est ici utilisé car il donne une idée du modèle interne employé et peut donner une idée des règles de normalisation employées (utilisation de nom communs, de nom d'actions, de relations thématiques classiques, ...). Toutefois, pour un utilisateur final, une présentation moins formelle doit être utilisée. Les "..." ci-dessous indiquent des parties omises. Les commentaires sont préfixés par "//".

truite_arc-en-ciel
 (caractéristique:
   > (caractéristique_lexicale:
       > (nom:
           > (identificateur _(langue: latin): ("Oncorhynchus mykiss"
                                                  création de: "Walbaum" __(date: 1792),
                                                  objet de: (usage  lieu: tout lieu)
                                               )                  //par défaut: temps présent
                                               ("Oncorhynchus kamloops"
	                                          creation de: "Jordan" __(date: 1892)))
           (nom_ambigüe _(langue: latin): ("Oncorhynchus gairdnerii"
	                                      creation de: "Richardson"__(date: 1836),
                                              objet de: (usage  lieu: aucun lieu)))
           (nom _(langue: anglais): ("rainbow trout" objet de: (usage  lieu: tout
                                                                            pays_anglophone))
                                    ("Coast angel trout" objet de: (usage  lieu: UK  Canada))
                                    ("Coast range trout" objet de: (usage  lieu: USA))
                                    ("hardhead"  objet de: (usage  lieu: USA)))
         ))
     (caractéristique_de_catégorisation:
        > (supertype: Salmoninae) )
     (caractéristique_spatiale:
        > (emplacement: ...)  // abondance, environnement, distribution
          (taille: ...)  (surface_des_branchies: ...) ) //longueur, poid/longueur
     (caractéristique_physique:
        > (caractéristique_physique_temporelle
             > (vitesse: ...) (croissance: ...) )
          (caractéristique_physique_non_temporelle
             > (poids: ...)  (morphology: ...) ) )
     (caractéristique_temporelle :  
        > caractéristique_physique_temporelle  //cf. 5 lignes plus haut
          (caractéristique_temporelle_non_physique
             > (age: ...) (maturité: ...) (croissance: ...) ) )
     (caractéristique_méréologique:
        > (génétique: ) 
          (cerveau: ...)  (vision: ...)  (éco-toxicologie:  ...)  (maladie:  ...) )
 )
 (agent de: //d'une action ; la hiérarchie des types d'actions doit donc être suivie
   
    > (type-de-nage: ...) (consommation_de_nourriture: ...) 
      (métabolisme: ...)  (reproduction: ...) ) 
 (objet de: //d'une action ; la hiérarchie des types d'actions doit donc être suivie 
    > (prédation: ...) (aquaculture: ...) 
      (étude: ... _(agent: ...)  //des organismes
                  _(outil: ...)  //des méthodes ou des logiciels
                  _(résultat: ...) )
      (photographie: ...)  //-> photos 
 );


2.2. Hiérarchie des tâches


2.3. Planning des tâches


2.4. Coûts prévisionnels