24 / 11/ 2006 Sylvie Le Bars - Arkandis
Voici une bonne nouvelle, MONDECA partage son expérience et ses réflexions sur la sémantique et ses usages… Sobre, d’une rédaction clair, presque captivant -enfin compte tenu du sujet-
“Leçons de Choses” est édité par la R&D de Mondeca. Son but est de vous faire partager nos réflexions et expérience dans le domaine des technologies de pointe qui sont nos outils quotidiens : langages du Web Sémantique, ontologies, linguistique appliquée à l’indexation automatique des contenus, taxonomies et navigation intelligente, géosémantique …
Collaborateurs de ce blog à ce jour, dans l’ordre d’apparition à l’écran. La liste est amenée à grandir … Bernard Vatant Thomas Francart Laurence Noël
Les premiers billets
- Leçon 1 : Toute chose est une Chose
- Leçon 2 : Sémantique du Pic Sans Nom
- Un mot, plusieurs choses
- Leçon 3 : Anatomie d’une Description (1)
06 / 04/ 2006 Sylvie Le Bars - Arkandis
Source présentation à l’Atelier BNP Paribas du 6 avril 2006
TEMIS, MONDECA et PRESS INDEX se sont associés pour développer une plate-forme de traitement de l’information textuelle époustouflante. Je suis vraiment bluffée par l’apparente qualité de la sémantique qui est mise en œuvre dans la solution. On a l’impression de toucher du doigt une véritable compréhension du langage naturel.
Pour les besoins de la démonstration, les textes étaient analysés en privilégiant un intérêt pour l’intelligence économique. Le choix du thème intervient sur les divers éléments linguistiques et modélisation des connaissances qui sont utilisés pour le text-mining et la structure de la bases de connaissances.
D’un point de vue intelligence économique la plate-forme va permettre d’indexer les textes qui lui sont soumis suivants les noms d’entreprises, les noms de dirigeants, les lieux… (approche standard), mais aussi sur les faits notables explicités dans les textes tels que fusions d’entreprises, levé de fonds, lancement de nouveaux produits, modifications des l’exécutive etc.
TEMIS, qui est chargé du text-mining de la plate-forme, identifie les entités nommées en rapport avec les entreprises citées ainsi que les faits marquants.
Les faits marquants sont transformés en instances dans la base de connaissance dont la structure est une ontologie gérée par la solution ITM de MONDECA.
D’un point de vue technique, l’ontologie qui sert de modèle à la base de connaissances est organisée en -classes d’objets tels que « Entreprise » « Personne ».. -attributs décrivant les représentants de la classe tels que Alias, Chiffre d’affaire… - associations entre les différentes classes tels que « prend une participation dans », « achète »
Le résultat du traitement hebdomadaire de la presse aboutit à une base de connaissances de tous les événements marquants d’un point de vue intelligence économique. Chaque événement est normalisé sous la forme d’une phrase élémentaire qui met en relations par exemple deux entreprises : « X achète Y ». La ou les phrases qui sont à l’origine de la phrase élémentaire sont associées à celle-ci garantissant une traçabilité de l’analyse, ainsi qu’une appréciation sur la réalisation de l’événement : rumeur, fait avéré…
Il est ainsi possible en utilisant la base de connaissance gérée par MONDECA de produire des fiches de synthèses sur l’activité d’une entreprise donnée. Fiche qui reprend uniquement les faits identifiés, avec la possibilité de lire l’article qui a permis de constituer cette connaissance.
La plate-forme fonctionne en 4 étapes:
- PRESS INDEX collecte les articles (fil de presse, presse papier, blogs..) soit près de 550 000 pages/jour et produit pour chaque article un fichier XML.
- TEMIS analyse chaque source. En extrait les entités nommées et les éléments susceptibles de devenirs des faits marquants.
- MONDECA construit les faits marquants et les enregistrent dans la base de connaissance.
- PRESS INDEX propose ces résultats à ses clients sous la forme d’un portail, ou d’un flux de connaissances.
Cette plate-forme qui sera opérationnelle dans quelques mois sur le site de PRESS INDEX apporte une réelle innovation dans l’analyse, le traitement et l’accès à l’information textuelle.
Quelques chiffres :
TEMIS crée en 2000 emploie 45 personnes et distribue ses produits en France, Allemagne, US. MONDECA crée en 2000 emploie 13 personnes. Propose une plate forme opérationnelle depuis 2003, et distribue en France, Europe et US avec TEMIS. PRESS INDEX crée en 1997 c’est 8,2 M. Euros de CA, 130 personnes qui travaillent pour l’entreprise.
