Produit pour la gestion sémantique de contenu

La société Voquette offre une technologie nommée SCORE, qui prétend faciliter la gestion sémantique de contenu. Cette publication auprès de l’IEEE présente leur vision du web sémantique.
Les activités commerciales que Voquette identifie dans le domaine du Web Sémantique portent sur le développement de taxonomie ou d’ontologies ainsi que de standards de méta-données pour l’entreprise, l’organisation de contenus selon ces taxonomies, l’annotation de contenu avec ces méta-données, l’analyse de contenu à la recherche de « motifs » (patterns), le « data mining » pour identifier les relations implicites entre des données provenant de sources différentes. Les principales applications actuelles du Web Sémantique concernent la recherche et la personnalisation, l’organisation du contenu et des portails d’entreprise, la syndication de contenus. Les technologies du Web Sémantique trouvent leurs débouchés dans les marchés de la gestion de contenu et de la gestion des connaissances (knowledge management). Voquette définit plusieurs concepts relatifs à l’usage de ces technologies.
La recherche sémantique et la personnalisation sémantique consistent, pour un produit logiciel, à différencier un mot selon ce qu’il désigne. Par exemple, le mot « palm » tel qu’employé par l’utilisateur désigne-t-il un produit matériel (« Palm Pilot »), un produit logiciel (« Palm OS »), une société (« Palm ») ou encore un élément d’anatomie humaine (la paume de la main) ? Un moteur de recherche sémantique saura distinguer ces concepts et aider ainsi son utilisateur à préciser ses requêtes ou bien à ne considérer que les résultats pertinents sur le plan conceptuel.
La gestion des méta-données sémantique permet d’organiser un contenu, par exemple documentaire, non seulement en fonction de méta-données syntaxiques (longueur d’un document, date de création, format du fichier) mais aussi en fonction des concepts auxquels ce document est lié (le groupe d’auteurs qui l’ont écrit, sa thématique principale, la raison pour laquelle il a été écrit, …)
La normalisation sémantique consiste à établir des relations d’équivalence entre différentes formes syntaxiques désignant une même entité comme par exemple, pour désigner le PDG d’une société, le nom de celui-ci, son surnom, sa fonction (« PDG de telle société »), etc. La normalisation sémantique implique généralement le choix d’une forme canonique pour identifier le concept désigné (une norme consistant par exemple à prendre le prénom plus le nom de famille d’un individu).
L’association sémantique consiste à établir des recommandations (recommander un contenu pour une personne donnée), des évaluations de pertinence (établir la force du lien sémantique entre un contenu et une requête) ou, d’une manière plus générale, estimer la probabilité qu’une entité donnée soit liée à une deuxième entité par une association logique donnée.
L’architecture du système SCORE est composée d’agents extracteurs de contenus, paramétrés à l’aide d’une « boîte à outils d’extraction ». Ces agents permettent à la fois d’alimenter et de faire évoluer un modèle de référence et d’alimenter un corpus de contenus faisant référence à ce modèle par le biais de relations sémantiques (annotations sémantiques). Ces relations sémantiques sont enrichies automatiquement par le biais d’un composant capable de procéder à ces catégorisations automatiques. Ensuite, un « moteur sémantique » permet de puiser dans le modèle et dans le corpus les contenus pertinents. SCORE fournit une application de « tableau de bord sémantique » qui s’appuie sur ce moteur ainsi qu’une API qui permet au développeur de construire ses propres applications sémantiques de gestion de contenu. Les caractéristiques principales qu’ont recherché les concepteurs de SCORE sont sa performance et sa capacité de montée en charge plutôt que la sophistication de ses mécanismes d’inférence. Le moteur permet donc uniquement de parcourir les relations sémantiques établies et n’offre pas de capacité d’inférence similaires à celles d’un moteur de raisonnement logique (systèmes experts, …). Enfin, il convient de noter que le composant de catégorisation automatique s’appuie sur une combinaison de plusieurs méthodes de catégorisation : probabilistique (bayésienne), par apprentissage (modèles markoviens) et par approche formelle.