Technologies

GEOLSemantics a développé une technologie novatrice d’analyse sémantique multilingue : le profilage sémantique.

Les innovations de GEOLSemantics apportent à l’utilisateur :

Dans un contexte monolingue

  • l’identification des informations pertinentes du texte : elle repose à la fois sur une définition préalable des besoins informationnels et sur la reconnaissance dans les textes des informations susceptibles de répondre aux dits besoins tels que
    • les entités nommées : elles répondent aux questions QUI ?, OÙ ?
    • les actions : elles permettent de répondre à la question QUOI ?
    • la temporalité : elle répond à la question QUAND ?
    • les moyens et mesures: ils répondent aux questions COMMENT ? COMBIEN ?
  • la normalisation des informations identifiées : la normalisation homogénéise les mots, les groupes nominaux, les groupes verbaux, les nombres, les dates, les heures, etc. Cette homogénéisation est effectuée par application de règles grammaticales et syntaxiques ;
    Ex: « le vol a été constaté le matin du dix octobre 2015. »
    date début : 2015/10/10
    date fin: 2015/10/10
    heure début : 00h00m00s
    heure fin: 12h00m00s
    Ex: « La veille vers 20 h un rôdeur a été remarqué … »
    date début : 2015/10/09
    date fin: 2015/10/09
    heure début : 19h30m00s
    heure fin: 20h30m00s
  • la structuration des éléments normalisés qui consiste à relier les concepts identifiés dans le texte à des concepts de plus haut niveau définis dans une ontologie. À titre d’exemple le concept « d’attaque » peut être relié au concept « d’acte violent » qui inclut également les « attentats, meurtres, etc.. Le résultat est une « mise en relation dans le temps et l’espace les entités nommées, leurs rôles, leurs actions et leurs moyens ». Ce résultat est stocké dans un fichier au format RDF permettant aux applications informatiques de traiter les informations extraites des textes. En d’autres termes, cette étape permet de « mettre dans les colonnes » les données appropriées issues des textes ;
    Ex: « Washington s’inquiète des visées de Pékin »  Washington et Pékin sont des « organisations » (les gouvernements)

Dans un contexte multilingue

L’intégration en une vision unique des résultats des analyses de textes rédigées en langues distinctes. En effet, les résultats des analyses ont une représentation interne indépendante de la langue source des documents, ce qui permet de mettre en relation des documents écrits dans des langues distinctes (interlinguisme)

L’approche proposée par GEOLSemantics est caractérisée par

  • sa généricité, la mise en cohérence des éléments des textes étant établie aux moyens d’ontologies formelles ;
  • son agilité permettant de s’adapter rapidement aux besoins clients et spécificités de domaines métiers particuliers ;
  • la pertinence des résultats : le niveau qualitatif des résultats produits par les technologies de GEOLSemantics est très largement supérieur à celui obtenu avec les approches statistiques usuelles avec pour conséquences pour l’utilisateur
    • un très grand allègement de sa charge de travail de sélection, tri, lecture et interprétation;
    • une forte accélération de la mise à disposition de l’information pertinente.

Les technologies de GEOLSemantics sont disponibles pour les langues française, anglaise, arabe (en ce compris les dialectes du Maghreb et l’égyptien) et chinoise. Ces langues sont traitées de manière totalement équivalente.

GEOLSemantics a planifié le développement des langues allemande, espagnole, portugaise, italienne, néerlandaise et russe. Par ailleurs, les technologies sont capables d’intégrer aisément toutes autres langues ou dialectes.