Archives pour la catégorie Web sémantique

La vision de chez Mac Donald Bradley au sujet du web sémantique

J’ai été très impressionné par la qualité de la vision du directeur scientifique de chez Mc Donald Bradley au sujet du web sémantique. Il présente non seulement de très justes illustrations de la vision de Tim Berner’s Lee mais il la remet également de manière très pertinente dans le contexte général de l’évolution de l’informatique sur les dernières décennies, à travers notamment la perspective d’applications concrètes pour l’entreprise. Sa déclaration d’indépendance des données laisse présager un avenir excellent pour la nouvelle discipline informatique qu’est l’architecture de l’information. McDonald Bradley est une entreprise que je trouve d’autant plus intéressante qu’elle se positionne sur des marchés verticaux clairement délimités, au sein du secteur public (et donc précurseurs en matière d’open source) : les services de renseignement, la défense, la sécurité, les finances publiques et les collectivités locales. A rapprocher des interrogations de Kendall Grant Clark au sujet de l’appropriation du web sémantique par les communautés du libre ? Malheureusement, je crains qu’il n’existe pas d’entreprise équivalente en France…

Plone as a semantic aggregator

Here is an output of my imagination (no code, sorry, just a speech) : what if a CMS such as Plone could be turned into a universal content aggregator. It would become able to retrieve any properly packaged content/data from the Web and import it so that it can be reused, enhanced, and processed with the help of Plone content management features. As a universal content aggregator, it would be able to « import » (or « aggregate ») any content whatever its structure and semantic may be. Buzzwords ahead : Plone would be a schema-agnostic aggregator. It would be a semantic-enabled aggretor

Example : On site A, beer-lovers gather. Site A’s webmaster has setup a specific data schema for the description of beers, beer flabours, beer makers, beer drinkers, and so on. Since site A is rich in terms of content and its community of users is enthusiastic, plenty of beers have been described there. Then site B, powered by a semantic aggregator (and CMS), is interested in any data regarding beverages and beverages impact on human’s health. So site B retrieves beer data from site A. In fact it retrieves both the description of beer1, beer2, beerdrinker1, … and the description of what a beer is, how data is structured when it describes a beer, what the relationship is between a beer and a beer drinker. So site B now knows many things about beer in general (data structure = schema) and many beers specifically (beers data). All this beer data on site B is presented and handled as specific content types. Site B’s users are now able to handle beer descriptions as content items, to process them through workflows, to rate them, to blog on them, and so on. And finallly to republish site B’s own output in such a way it can be aggregated again from other sites. That would be the definitive birth of the semantic web !

There are many news aggregators (RSSBandit, …) that know how to retrieve news items from remote sites. But they are only able to aggregate news data. They only know one possible schema for retrievable data : the structure of a news item (a title + a link + a description + a date + …). This schema is specified in the (many) RSS standard(s).

But now that CMS such as Plone are equipped with schema management engines (called « Archetypes » for Plone), they are able to learn new data schema specified in XML files. Currently, Plone’s archetypes is able to import any schema specified in the form of an XMI file output by any UML modelizing editor.

But XMI files are not that common on the Web. And the W3C published some information showing that any UML schema (class diagram I mean) is the equivalent of an RDF-S schema. And there even is a testbed converter from RDF-S to XMI. And there even are web directories inventoring existing RDF schemas as RDF-S files. Plus RSS 1.0 is based on RDF. Plus Atom designers designed it in such a way it is easily converted to RDF.

So here is my easy speech (no code) : let’s build an RDF aggregator product from Plone. This product would retrieve any RDF file from any web site. (It would store it in the Plone’s triplestore called ROPE for instance). It would then retrieve the associated RDF-S file (and store it in the same triplestore). It would convert it to an XMI file and import it as an Archetypes content type with the help of the ArchGenXML feature. Then it would import the RDF data as AT items conforming to the newly created AT content type. Here is a diagram summarizing this : Plone as a semantic aggregator

By the way, Gillou (from Ingeniweb) did not wait for my imagination output to propose a similar project. He called it ATXChange. The only differences I see between his proposal and what is said above are, first, that Gillou might not be aware about RDF and RDF-S capabilities (so he might end with a Archetypes-specific aggregator inputting and outputting content to and from Plone sites only) and that Gillou must be able to provide code sooner or later whereas I may not be !

Last but not least : wordpress is somewhat going in the same direction. The semweb community is manifesting some interest in WP structured blogging features. And some plugins are appearing that try to incorporate more RDF features in WP (see also seeAlso).

Is the Semantic Web stratospheric enough ?

Did you think the Semantic Web is a stratospheric concept for people smoking too many HTTP connections ? If so, don’t even try to understand what Pierre Levy is intending to do. He and the associatied network of people say they are preparing the next step after the Semantic Web. Well… In fact, I even heard Pierre Levy saying he is preparing the next step in the evolution of mankind, so this is not such a surprise. The worst point in this story is that his ambitious work may be extremely relevant and insightful for all of us, mortals. :)

Maturité des technos XML

01 Informatique a publié un état de l’art très synthétique au sujet des technologies XML. Chaque technologie présentée est qualifiée selon son degré de maturité. Et les seules technologies XML à avoir atteint le degré de maturité maximal sont les suivantes :

  • Les techniques de base : DOM, Unicode, XML, XML Namespaces, XLink, SAX, XML Schema/DTD, XLM Encryption, XML Signature, XPath 1.0, XSL et XSLT
  • La publication multicanal : CSS, VoiceXML, SMIL, SVG, XHTML, WML, MathML
  • Les services Web : le style REST, DSML (je ne suis pas sûr que la place de DSML soit vraiment dans la catégorie « services Web » mais enfin bon… pourquoi pas ?) et XML-RPC
  • Les échanges électroniques (B2B) : ICE
  • Le web sémantique : Dublin Core, RSS 1.0, RDF

Autrement dit, si vous envisagez d’appuyer une architecture informatique sur une technologie XML qui n’est pas dans cette liste, sachez que vous faites un choix technologique risqué car non éprouvé ! A vos risques et périls…

Présentation du Web Sémantique

Voici une esquisse de plan de présentation des technologies du Web Sémantique pour un public (francophone) d’informaticiens de grandes entreprises :

Des carnets Web au web sémantique

Sebastien Paquet évoque l’évolution future des carnets Web et l’émergence du « structured blogging ». L’idée est la suivante : plus l’activité des carnettiers va gagner en maturité, plus le format habituel des carnets et de RSS (titre + URL + texte) paraîtra limité et insuffisant, plus les outils de la chaîne de carnettage (weblog + aggrégateurs) vont prendre en compte des types de contenu structurés plus complexes. Et il n’y a qu’un pas (voire aucun) entre le « structured blogging » et le web sémantique. Dans ce contexte, les moteurs de gestion de schéma de contenu tels que Archetypes de Plone (ou CPSSchema de CPS ou encore des moteurs de gestion d’ontologie tels que Mondeca et autres AM2 Systems) auront un rôle clef à jouer puisque des plate-formes équipées de tels moteurs pourront servir au carnettage structuré sous toutes ses formes !

Miam, miam, les années qui viennent nous promettent des inventions fichtrement intéressantes ! Et la vision du Web Sémantique commence à prendre forme.

La différence entre « knowledge management » et « content management »

CMSWatch signale un excellent article qui parvient en quelques lignes non seulement à définir la différence entre gestion des connaissances et gestion de contenu mais également à résumer de manière très juste les pratiques actuelles dans ces deux domaines.

Mon intérêt personnel réside certes dans le domaine de la gestion des connaissances au sens large présenté dans cet article, mais le vrai potentiel de ce domaine me semble résider dans les pratiques (méthodes) et outils (émergents) d’ingénierie des connaissances. D’où mon intérêt pour le Web Sémantique…

WordPress is going semantic (a little bit)…

WordPress, the famous weblog engine (powering this site), is getting equipped (in its CVS HEAD version) with a new feature allowing webloggers to post small pieces of metadata (pairs of key + value) with each one of their blog entries. WordPress is going the same way Charles Nepote went with his semantic wiki prototype. We won’t wait a long time before someone comes with a real semantic bloki. It must be a matter of months.

By the way, Archetypes is a new masterpiece of Plone and its references management engine allows the weaving of semantic relationships inbetween Content objects. It just lacks the ability to publish its schema and data as RDF files through Plone URLs… Anyway, Archetypes should soon provide the ability to extend objects schemas at runtime through the web. It means users will be able to add metadata to objects. These features can already be tested with PloneCollectorNG in its latest version (test the CVS version if you can).

Why are there three versions of the Web Ontology Language (OWL) ?

The Web Ontology Language (OWL maybe because some non English speaker must have mixed the letters…) exists in three different versions :

  • OWL Lite expresses constraints on and properties of an RDF schema, such as transitivity (if R1 > P1 > R2 and R2 > P2 > R3 then R1 > P3 > R3), and simple min and max cardinality properties of an RDF property (the values of theses cardinality properties can be 0, 1 or illimited).
  • OWL DL expresses « first order descriptive logic » constraints on medata (such as if R1 > P1 > R2 then R1 > P2 > R3), this is much broader as OWL Lite
  • OWL Full enables the specification of generic inference engines but it is still seen by some as a curiosity artefact for researchers

This is my very limited understand of the OWL topic. Please someone correct me if I am wrong (you can do it in French if you want !) !

Marché du Knowledge Management

En rapport avec mon mouton à sept pattes, voici un genre d’aperçu des acteurs du marché du knowledge management vu par le petit bout de ma petite lorgnette :

  • des consultants unp eu visionnaires (ou fumeurs) en KM/intelligence économique/e-learning/veille/capitalisation des connaissances/animation de communautés de pratique pour l’innovation/gestion des compétences/… qui vendent des concepts généraux, des démarches d’animation, des grands projets, et quelques réalisations à travers des micro-éditeurs de niche
  • des micro-éditeurs de niche qui ont bien compris les fonctionnalités à offrir car ils maîtrisent la problématique KM mais n’ont pas les moyens de construire du durable car ils ne sont pas du métier de l’informatique
  • des gros éditeurs qui collent une étiquette KM sur des produits de GED/Workflow/Content Management mais l’étiquette a tendance à se décoller car elle est trop pompeuse pour la réalité de leurs produits
  • des architectes et intégrateurs qui maîtrisent la fonctionnalité informatique mais ne disposent pas encore des technologies informatiques nécessaires (web sémantique) pour réaliser les promesses du KM
  • des sociétés de services en logiciels libres qui essaient de combiner technologies matures et visions fonctionnelles mais qui ont du mal à y ajouter technologies émergentes et vision KM à long terme
  • Que manque-t-il pour compléter le tableau ?

    OWL-S

    Le schéma OWL-S permet de décrire des services Web à l’aide d’ontologies. D’après cette lecture, je crois comprendre que l’on peut

    • soit produire des services Web style RPC (via SOAP et WSDL) et compléter leur description, à plus haut niveau, avec OWL-S (ce qui remplace UDDI dans ce cas),
    • soit produire des services Web style REST (sans SOAP ni WSDL) et faire toute leur description via OWL-S

    Ceci signifierait qu’OWL-S serait un standard dans tous les cas concurrents de UDDI, et dans certains cas complémentaire de WSDL (pour le cas des services Web RPC via SOAP) et dans d’autres cas (services REST), concurrents de WSDL. Est-ce vraiment cela ?

    CIA sémantique

    La CIA suit de près le développement des technologies du Web Sémantique, au titre des logiciels d’analyse de réseaux sociaux :

    There were a couple of presentations in the domain of military and political intelligence – a bit scary, especially when Kendall used one of Libby’s photos in a depiction thing (part of SWINT) asserting I was a terrorist leader. The CIA and co. are the end users of this stuff. Good job I’ve no plans to visit the US in the near future.

    Classification à facettes

    Je note une certaine convergence vers le concept de « classification à facettes » (« faceted » classification) pour décrire un large ensemble de fonctionnalités qui sont très attendues de la part des technologies du Web Sémantique. Je vous en dis plus dès que j’ai fini mon article à ce sujet… (à suivre, donc)

    La réification, RDF et les Topic Maps

    La réification est un concept qui peut être difficile à assimiler. La réification désigne l’opération qui consiste à transformer une relation entre deux choses en une troisième chose. Considérons par exemple la phrase : « Jean beurre une tartine ». Il y a là deux choses : [Jean] et [tartine] qui sont liées par une relation : [beurrer]. La réification consiste à créer une troisième chose à partir de cette phrase : le [beurrage de tartine par Jean].
    Un spécialiste du beurrage de tartine évoque la réification pour expliquer une différence importante (essentielle) entre la technologie RDF et la technologie des Topic Maps : en RDF, c’est à vous de gérer la réification alors qu’avec les Topic Maps, tout est systématiquement réifié. Par conséquent, RDF est une technologie de plus bas niveau : plus d’expressivité mais une moindre utilisabilité. Il invite donc les partisans de RDF à considérer les Topic Maps comme un domaine d’application privilégié de RDF et les partisans des Topic Maps à ne pas oublier qu’ils ont besoin de s’appuyer sur RDF pour assurer le succès de leur technologie.