Publications
Projet SAIMSI : (Suivi Adaptatif Interlingue et MultiSource des Informations)
Le projet SAIMSI avait pour but de réaliser un prototype de système qui accumule de l’information structurée sur les agissements de personnes soupçonnées d’activités illicites. Cette information était extraite automatiquement à partir de sources internet dans différentes langues (français, anglais, arabe et chinois (mandarin), dans différents médias (texte et parole) et à partir de différents types de sources (pages web, bases de presse, réseaux sociaux, etc.). Dans le cadre du projet, seules des sources ouvertes étaient consultées. L’information extraite à partir des différentes langues était représentée selon les standards du web sémantique en RDF de manière indépendante de la langue et conformément à une ontologie de la sécurité élaborée dans le cadre du projet.
L’anglais avait été choisi pour représenter les concepts et les relations.
L’information collectée était gérée dans deux bases de données: une base de connaissances qui contenait les informations structurées cumulées sur les différents documents et une base textuelle interrogeable en interlingue qui contenait les documents sources. Lors de la visualisation des textes dans la base textuelle, il était possible de demander les informations structurées cumulées dans la base de connaissances sur une entité citée (personne, lieu, société). Inversement pour toute information de la base de connaissances, on pouvait retrouver les documents originels dans la base textuelle.
Partenaires et rôles:
- GEOLSemantics, leader du projet, a réalisé le système d’extraction de connaissances multilingue et la base de données textuelle interlingue.
- AIRBUS Defence & Space, a fourni la plate-forme d’intégration Weblab, certains connecteurs et les interfaces de visualisation des résultats.
- Mondeca, a fourni la base de connaissances et a réalisé les inférences permettant de compléter les connaissances extraites à partir de textes.
- le LIP6, a traité le problème de la reconnaissance de l’auteur d’un texte écrit.
- L’IREENAT, a traité des problèmes juridiques et déontologiques que soulevaient le sujet de ce projet.
Le projet SAIMSI a duré 34 mois de janvier 2010 à octobre 2012. Il a été financé par l’ANR dans le cadre du programme CSOSG (Concepts, Systèmes et Outils pour la Sécurité Globale). Le projet a représenté 263 personnes/mois de travail pour un coût de 3,2 M€.
Références :
Une approche linguistique pour l’extraction des connaissances dans un texte arabe, colloque TALN-RÉCITAL, Les Sables d’Olonne, juin 2013
Projet ORELO : (Origine des REdacteurs et des LOcuteurs)
ORELO a pour but de mettre au point des techniques d’identification de l’origine dialectale arabe d’un texte écrit en caractères arabes ou en écriture latine ou d’une parole. Les dialectes pris en compte par le projet sont les dialectes principaux du Maghreb (Marocain, Algérien, Tunisien) et l’Egyptien.
Les dialectes du Maghreb sont encore peu étudiés du point de vue du traitement par ordinateur. La prise en compte de l’Egyptien va permettre des comparaisons avec des travaux antérieurs qui portent sur l’Egyptien et les langues du Machrek. (Ces travaux préalables sont indispensables pour que Vocapia puisse envisager d’étendre ses systèmes de transcription automatique de la parole arabe standard aux différents dialectes. C’est aussi un préalable pour que GEOLSemantics puisse rendre ses traitements d’extraction de connaissances en arabe standard robustes à la présence de mots dialectaux. L’approche proposée par GEOLSemantics pour l’identification des dialectes écrits qui est basée sur l’utilisation de dictionnaires de dialectes fournit déjà pour la suite les ressources nécessaires.
Partenaires et rôles:
GEOLSemantics, leader du projet, a créé des dictionnaires voyellés de dialectes, des corpus écrits et une reconnaissance de dialecte écrit.
Vocapiaresearch, a développé la détection de dialectes parlés et l’évaluation de la détection du dialecte tant parlé qu’écrit.
le LIMSI/CNRS, a préparé les corpus destinés à l’apprentissage de l’identification du dialecte.
Le projet ORELO dure 33 mois. Il a débuté le 1er mars 2014. Il est financé dans le cadre du programme RAPID commun à la DGE (Ministère de l’industrie) et la DGA (Ministère de la défense). Le coût du projet est de 700 K€ pour 80 personnes/mois.
Références:
Projet DRIRS (Détection de Réseaux d’Influence dans les Réseaux Sociaux)
À partir de textes provenant sites web, journaux, courriers, tweets, et de sources audiovisuelles, détection au plus tôt des activités de propagande djihadiste sur les réseaux sociaux et de leur impact sur des personnes influençables avec justification des résultats. Le but est de capter les dialogues initiaux avant que ceux-ci se poursuivent avec des applications chiffrées.
Sur d’autres sujets:
NLP Applied to Online Suicide Intention Detection, HealTAC 2020, April 2020