Publications

Projet SAIMSI : (Suivi Adaptatif Interlingue et MultiSource des Informations)

Le projet SAIMSI avait pour but de réaliser un prototype de système qui accumule de l’information structurée sur les agissements de personnes soupçonnées d’activités illicites. Cette information était extraite automatiquement à partir de sources internet dans différentes langues (français, anglais, arabe et chinois (mandarin), dans différents médias (texte et parole) et à partir de différents types de sources (pages web, bases de presse, réseaux sociaux, etc.). Dans le cadre du projet, seules des sources ouvertes étaient consultées. L’information extraite à partir des différentes langues était représentée selon les standards du web sémantique en RDF de manière indépendante de la langue et conformément à une ontologie de la sécurité élaborée dans le cadre du projet.

L’anglais avait été choisi pour représenter les concepts et les relations.

L’information collectée était gérée dans deux bases de données: une base de connaissances qui contenait les informations structurées cumulées sur les différents documents et une base textuelle interrogeable en interlingue qui contenait les documents sources. Lors de la visualisation des textes dans la base textuelle, il était possible de demander les informations structurées cumulées dans la base de connaissances sur une entité citée (personne, lieu, société). Inversement pour toute information de la base de connaissances, on pouvait retrouver les documents originels dans la base textuelle.

Partenaires et rôles:

Le projet SAIMSI a duré 34 mois de janvier 2010 à octobre 2012. Il a été financé par l’ANR dans le cadre du programme CSOSG (Concepts, Systèmes et Outils pour la Sécurité Globale). Le projet a représenté 263 personnes/mois de travail pour un coût de 3,2 M€.

Références :

Une appr oche linguistique pour l’extraction des connaissances dans un texte arabe, colloque TALN-RÉCITAL, Les Sables d’Olonne, juin 2013

Une approche mixte morpho-syntaxique et statistique pour la reconnaissance d’entités nommées en langue chinoise, colloque TALN-RÉCITAL, Les Sables d’Olonne, juin 2013

SAIMSI, Suivi Adaptatif Interlingue et MultiSources des Informations, colloque WISG2013, Troyes, janvier 2013

Using Arabic Transliteration to Improve Word Alignment from French – Arabic Parallel Corpora, colloque The Fourth Workshop on Computational Approaches to Arabic Script-based Languages, San Diego, novembre 2012

Extraction of information on activities of persons suspected of illegal activities from web open sources, colloque Language Resources for Public Security Applications, Istanbul, mai 2012

Transcription of Arabic Names into Latin, colloque Sciences of Electronics, Technologies of Information and Telecommunications, Sousse, mars 2012

Extraction system for Personal Attributes Extraction of CLP2014, The Third CIPS-SIGHAN Joint Conference on Chinese Language Processing, Wuhan, Chine, octobre 2014

Projet ORELO : (Origine des REdacteurs et des LOcuteurs)

ORELO a pour but de mettre au point des techniques d’identification de l’origine dialectale arabe d’un texte écrit en caractères arabes ou en écriture latine ou d’une parole. Les dialectes pris en compte par le projet sont les dialectes principaux du Maghreb (Marocain, Algérien, Tunisien) et l’Egyptien.

Les dialectes du Maghreb sont encore peu étudiés du point de vue du traitement par ordinateur. La prise en compte de l’Egyptien va permettre des comparaisons avec des travaux antérieurs qui portent sur l’Egyptien et les langues du Machrek. (Ces travaux préalables sont indispensables pour que Vocapia puisse envisager d’étendre ses systèmes de transcription automatique de la parole arabe standard aux différents dialectes. C’est aussi un préalable pour que GEOLSemantics puisse rendre ses traitements d’extraction de connaissances en arabe standard robustes à la présence de mots dialectaux. L’approche proposée par GEOLSemantics pour l’identification des dialectes écrits qui est basée sur l’utilisation de dictionnaires de dialectes fournit déjà pour la suite les ressources nécessaires.

Partenaires et rôles:

GEOLSemantics, leader du projet, a créé des dictionnaires voyellés de dialectes, des corpus écrits et une reconnaissance de dialecte écrit.

Vocapia research, a développé la détection de dialectes parlés et l’évaluation de la détection du dialecte tant parlé qu’écrit.

le LIMSI/CNRS, a préparé les corpus destinés à l’apprentissage de l’identification du dialecte.

Le projet ORELO dure 33 mois. Il a débuté le 1er mars 2014. Il est financé dans le cadre du programme RAPID commun à la DGE (Ministère de l’industrie) et la DGA (Ministère de la défense). Le coût du projet est de 700 K€ pour 80 personnes/mois.

Références:

CODA : A conventional orthography for Algerian Arabic, colloque Arabic Natural Language Processing Workshop, Pékin, juillet 2015

La reconnaissance automatique des dialectes arabes à l’écrit, Colloque international traduction et champs connexes, quelle place pour la langue arabe aujourd’hui?, Alger, décembre 2013

Une approche linguistique pour la détection des dialectes arabes. Actes de TALN 2017, Orléans, France, 2017

Projet DRIRS (Détection de Réseaux d’Influence dans les Réseaux Sociaux)

À partir de textes provenant sites web, journaux, courriers, tweets, et de sources audiovisuelles, détection au plus tôt des activités de propagande djihadiste sur les réseaux sociaux et de leur impact sur des personnes influençables avec justification des résultats. Le but est de capter les dialogues initiaux avant que ceux-ci se poursuivent avec des applications chiffrées.

Une approche fondée sur les lexiques d’analyse de sentiments du dialecte algérien. Revue (TAL), Volume 58 Numéro 3 Traitement Automatique des Langues, Octobre 2018

Approche Hybride pour la translitération de l’arabizi algérien : une étude préliminaire. Conference: 25e conférence sur le Traitement Automatique des Langues Naturelles (TALN), Rennes, France, Mai 2018

Automatic Identification of Maghreb Dialects Using a Dictionary-Based Approach. Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan, Mai 2018

Sur d’autres sujets:

Synthèse de concepts formels par réécriture à partir d’une ontologie client, 13èmeConférence Francophone sur l’Extraction et la Gestion des Connaissances (EGC 2013), Toulouse, janvier 2013

Gestion de l’incertitude dans le cadre d’une extraction des connaissances à partir de texte, 12ème atelier sur la Fouille de Données Complexes (FDC) Extraction et Gestion des Connaissances (EGC 2015), Luxembourg, janvier 2015

RDF Knowledge Graph Visualization From a Knowledge Extraction System, Summarizing and Presenting Entities and Ontologies (SumPre), ESWC 2015 workshop, Portoroz, Slovénia , May 2015

Uncertainty Evaluation in Textual Document, 11th International Workshop on Uncertainty Reasoning for the Semantic Web (URSW), ISWC 2015 workshop, Bethlehem, Pennsylvania , October 2015

NLP Applied to Online Suicide Intention Detection, HealTAC 2020, April 2020