PRESS INDEX TEMIS MONDECA une remarquable plate-forme

06 / 04/ 2006 Sylvie Le Bars - Arkandis

Source présentation à l’Atelier BNP Paribas du 6 avril 2006

TEMIS, MONDECA et PRESS INDEX se sont associés pour développer une plate-forme de traitement de l’information textuelle époustouflante. Je suis vraiment bluffée par l’apparente qualité de la sémantique qui est mise en œuvre dans la solution. On a l’impression de toucher du doigt une véritable compréhension du langage naturel.

Pour les besoins de la démonstration, les textes étaient analysés en privilégiant un intérêt pour l’intelligence économique. Le choix du thème intervient sur les divers éléments linguistiques et modélisation des connaissances qui sont utilisés pour le text-mining et la structure de la bases de connaissances.

D’un point de vue intelligence économique la plate-forme va permettre d’indexer les textes qui lui sont soumis suivants les noms d’entreprises, les noms de dirigeants, les lieux… (approche standard), mais aussi sur les faits notables explicités dans les textes tels que fusions d’entreprises, levé de fonds, lancement de nouveaux produits, modifications des l’exécutive etc.

TEMIS, qui est chargé du text-mining de la plate-forme, identifie les entités nommées en rapport avec les entreprises citées ainsi que les faits marquants.

Les faits marquants sont transformés en instances dans la base de connaissance dont la structure est une ontologie gérée par la solution ITM de MONDECA.

D’un point de vue technique, l’ontologie qui sert de modèle à la base de connaissances est organisée en -classes d’objets tels que « Entreprise » « Personne ».. -attributs décrivant les représentants de la classe tels que Alias, Chiffre d’affaire… - associations entre les différentes classes tels que « prend une participation dans », « achète »

Le résultat du traitement hebdomadaire de la presse aboutit à une base de connaissances de tous les événements marquants d’un point de vue intelligence économique. Chaque événement est normalisé sous la forme d’une phrase élémentaire qui met en relations par exemple deux entreprises : « X achète Y ». La ou les phrases qui sont à l’origine de la phrase élémentaire sont associées à celle-ci garantissant une traçabilité de l’analyse, ainsi qu’une appréciation sur la réalisation de l’événement : rumeur, fait avéré…

Il est ainsi possible en utilisant la base de connaissance gérée par MONDECA de produire des fiches de synthèses sur l’activité d’une entreprise donnée. Fiche qui reprend uniquement les faits identifiés, avec la possibilité de lire l’article qui a permis de constituer cette connaissance.

La plate-forme fonctionne en 4 étapes:

  • PRESS INDEX collecte les articles (fil de presse, presse papier, blogs..) soit près de 550 000 pages/jour et produit pour chaque article un fichier XML.
  • TEMIS analyse chaque source. En extrait les entités nommées et les éléments susceptibles de devenirs des faits marquants.
  • MONDECA construit les faits marquants et les enregistrent dans la base de connaissance.
  • PRESS INDEX propose ces résultats à ses clients sous la forme d’un portail, ou d’un flux de connaissances.

Cette plate-forme qui sera opérationnelle dans quelques mois sur le site de PRESS INDEX apporte une réelle innovation dans l’analyse, le traitement et l’accès à l’information textuelle.

Quelques chiffres :

TEMIS crée en 2000 emploie 45 personnes et distribue ses produits en France, Allemagne, US. MONDECA crée en 2000 emploie 13 personnes. Propose une plate forme opérationnelle depuis 2003, et distribue en France, Europe et US avec TEMIS. PRESS INDEX crée en 1997 c’est 8,2 M. Euros de CA, 130 personnes qui travaillent pour l’entreprise.


Une histoire du reperage de l information

04 / 04/ 2006 Sylvie Le Bars - Arkandis

Passionnée par la lecture de l’article : Chronologie des supports, des dispositifs spatiaux, des outils de repérage de l’information. » de Sylvie FAYET-SCRIBE, j’ai eu envie de vous faire partager cette lecture. Voici quelques extraits de l’introduction :

« Cet article consiste à présenter un tableau chronologique (compris entre la préhistoire et le XXe siècle), et son commentaire qui donnent à voir l’histoire des “techniques intellectuelles” permettant le repérage de l’information. C’est-à-dire les méthodes et les outils ayant la capacité de repérer et de retrouver l’information: indexation, classification, activité résumante, encyclopédies, dictionnaires et outils de recensement: répertoires, annuaires, chronologies; ainsi que les moyens de retrouver les références du document (et non l’information elle-même) : bibliographies et catalogues… »

« … la conception de l’information spécialisée, telle qu’elle est définie actuellement, délimite fortement le domaine investi par cette notion : “L’information spécialisée est une information destinée aux spécialistes (industriels, chercheurs, enseignants) qui leur est nécessaire dans leur activité professionnelle et qui conditionne une prise de décision ou une action particulière. Il faut la différencier de l’information pour le grand public notamment par la nature des informations transmises ainsi que le canal de communication emprunté.” (Chartron, 1992, p.351). »

« …Cette mise en forme de la connaissance se fera d’abord par le langage, puis par l’écriture, et celle-ci s’inscrira dans le document… »

« …”Toute connaissance mémorisée, stockée sur un support, fixée par l’écriture ou inscrite par un moyen mécanique, physique, chimique, électronique, constitue un document. Dans la chaîne primaire de création, tant que le document est créé mais n’est pas encore utilisé par un récepteur, il reste un document virtuel. Dès lors qu’il est employé et décodé par un récepteur, le document devient réel : il a trouvé son utilisateur” (Meyriat et Estival, 1981, p.84)… »

« .. Utiliser un document, y puiser une information est un acte fondamental. Il y a des documents qui ont été produits pour être porteurs d’informations.. »

Cet article a été publié en 1997 dans le N° 4 de la revue Solaris dont le dossier s’intitule « Le savoir et ses outils d’accès : repères historiques »


L’Ontologie Est Surfaite : Catégories, Tags et Liens

15 / 03/ 2006 Sylvie Le Bars - Arkandis

J’avais fin novembre 2005 rédigé un billet intitulé : Si Pollux avait eu des tags…il n’aurait pas perdu son sucre

L’article source de ma réflexion a été traduit par Christophe Ducamp et est accessible sur le site de l’Elanceur.


Testez vos connaissances en indexation documentaire

22 / 02/ 2006 Sylvie Le Bars - Arkandis

Ce quizz est proposé par le portail des ressources documentaire pour les enseignants-documentalistes - Savoirs CDI Le Test.

[Source http://thot.cursus.edu/rubrique.asp?no=23693]


Méta données

21 / 12/ 2005 Sylvie Le Bars - Arkandis

Soft Expérience propose en ligne une page remarquable de clarté sur les méta données.

Soft Experience est éditeur de logiciels, spécialiste des tâches d’intégration et d’automatisation ainsi que des technologies XML appliquées aux domaines du texte et de l’image numérique.

Recommandées par David Touvet.


Une nouvelle publication du GFII

20 / 12/ 2005 Sylvie Le Bars - Arkandis

Le GFII publie un Livre Blanc L’entreprise dans l’économie de la connaissance : vision et savoir-faire d’une communauté d’éditeurs de logiciels.

Le livre blanc est organisé en trois chapitres :

  • Accroître le périmètre informationnel : typologie des ressources, les différentes familles d’outils,
  • Comment et pourquoi structurer des textes à l’aide des outils du text mining : extraction d’informations, génération de méta-données et indexation automatique,
  • Valoriser le capital d’informations de l’entreprise : recherche, analyse, diffusion d’information.


qui sont illustrés par de nombreux exemples.

Pas géant, mais pragmatique.


La conférence donnée, le 30 novembre, par David Weinberger, sur le tagging et l’organisation de l’information, à l’Oxford Internet Institute, est en ligne : The New Shape of Knowledge: From Trees to Piles of Leaves


Billets suivants »»

Le Blog d'Arkandis

Ce journal, en ligne depuis décembre 2004, me permet de vous faire partager mon point de vue sur l'actualité des technologies d'accès à l'Information de l'Entreprise.

Abonnez vous a ce blog

Recherche


Droits