Catégorisation automatique par réseaux bayesiens

Jon Udell a expérimenté l’utilisation de réseaux bayesiens pour la catégorisation automatique de contenus. Ces expérimentations, bien que séduisantes et prometteuses, ne se sont pas révélées concluantes. Les réseaux bayesiens sont efficaces pour classer de manière binaire (spam ou non spam ?) des contenus lorsqu’ils sont entraînés sur des échantillons de plusieurs centaines d’éléments. Par contre, lorsqu’il s’agit de multiplier les classements possibles (n rubriques) et, a fortiori, de réduire l’échantillon d’apprentissage (quelques dizaines d’entrées dans un carnet Web), ils deviennent relativement peu pertinents : entre 20 et 40% d’efficacité seulement dans les tests de Jon Udell.