JEP-TALN-RECITAL 2016

Contacts

TALN : Programme détaillé

Lexiques bilingues - Mardi 11h30-12h30 (Oral1A) - amphi 4

Présidente de session : Delphine Bernhard

Etude de l’impact d’un lexique bilingue spécialisé sur la performance d’un moteur de traduction à base d’exemples
Nasredine Semmar and Meriama Laib
Abstract: La traduction automatique statistique bien que performante est aujourd'hui limitée parce qu’elle nécessite de gros volumes de corpus parallèles qui n'existent pas pour tous les couples de langues et toutes les spécialités et que leur production est lente et coûteuse. Nous présentons, dans cet article, un prototype d’un moteur de traduction à base d’exemples utilisant la recherche d’information interlingue et ne nécessitant qu’un corpus de textes en langue cible. Plus particulièrement, nous proposons d’étudier l’impact d’un lexique bilingue de spécialité sur la performance de ce prototype. Nous évaluons ce prototype de traduction et comparons ses résultats à ceux du système de traduction statistique Moses en utilisant les corpus parallèles anglais-français Europarl (European Parliament Proceedings) et Emea (European Medicines Agency Documents). Les résultats obtenus montrent que le score BLEU du prototype du moteur de traduction à base d’exemples est proche de celui du système Moses sur des documents issus du corpus Europarl et meilleur sur des documents extraits du corpus Emea.
Extraction de lexiques bilingues à partir de corpus comparables spécialisés à travers une langue pivot
Alexis Linard, Emmanuel Morin and Béatrice Daille
Abstract: L'extraction de lexiques bilingues à partir de corpus comparables se réalise traditionnellement en s'appuyant sur deux langues. Des travaux précédents en extraction de lexiques bilingues à partir de corpus parallèles ont démontré que l'utilisation de plus de deux langues peut être utile pour améliorer la qualité des alignements extraits. Nos travaux montrent qu'il est possible d'utiliser la même stratégie pour des corpus comparables. Nous avons défini deux méthodes originales impliquant des langues pivots et nous les avons évaluées sur quatre langues et deux langues pivots en particulier. Nos expérimentations ont montré que lorsque l'alignement entre la langue source et la langue pivot est de bonne qualité, l'extraction du lexique en langue cible s'en trouve améliorée.

Désambiguïsation lexicale - Mardi 11h30-12h30 (Oral1B) - amphi 7

Président de session : Thierry Poibeau

Extension lexicale de définitions grâce à des corpus annotés en sens
Loïc Vial, Andon Tchechmedjiev and Didier Schwab
Abstract: Pour un certain nombre de tâches ou d’applications du TALN, il est nécessaire de déterminer la proximité sémantique entre des sens, des mots ou des segments textuels. Dans cet article, nous nous intéressons à une mesure basée sur des savoirs, la mesure de Lesk. La proximité sémantique de deux définitions est évaluée en comptant le nombre de mots communs (pris simplement comme les chaînes de caractères entre les espaces) dans les définitions correspondante dans un dictionnaire. Dans cet article, nous étudions plus particulièrement l’extension de définitions grâce à des corpus annotés en sens. Il s’agit de prendre en compte les mots qui sont utilisés dans le voisinage d’un certain sens et d’étendre lexicalement la définition correspondante. Nous montrons une amélioration certaine des performances obtenues en désambiguïsation lexicale.
Identifier et catégoriser l'ambiguïté dans les spécifications techniques de conceptions de systèmes (RECITAL)
Émilie Merdy
Abstract: Ce travail de recherche s'inscrit dans le cadre d'une thèse Cifre avec une société qui propose à des clients d'analyser automatiquement leurs exigences, i.e. le contenu textuel des spécifications techniques. Il s'agit d'un travail de recherche dans la lignée des travaux en analyse de corpus menés par un laboratoire qui s'intéresse aux corpus spécialisés du point de vue du TAL. Dans le cadre de l'adaptation automatique à de nouveaux domaines de l'analyse linguistique de spécifications, nous étudions les possibilités de détecter automatiquement l'ambiguïté - qu'elle soit syntaxique, sémantique ou lexicale - dans les exigences à partir de ressources lexicales spécifiques mais incomplètes. En parallèle, l'exploration de ces données non-massives et redondantes doit permettre de mieux appréhender l'ambiguïté en contexte technique de spécialité pour enrichir semi-automatiquement les ressources lexicales.

Plénière - Mardi 14h00-16h00 (Pl) - amphi 4

Président de session : Frédéric Béchet

Projection Interlingue d’Étiquettes pour l’Annotation Sémantique Non Supervisée
Othman Zennaki, Nasredine Semmar and Laurent Besacier
Abstract: Nos travaux portent sur la construction rapide d’outils d’analyse linguistique pour des langues peu dotées en ressources. Dans une précédente contribution, nous avons proposé une méthode pour la construction automatique d'un analyseur morpho-syntaxique via une projection interlingue d’annotations linguistiques à partir de corpus parallèles (méthode fondée sur les réseaux de neurones récurrents).
Nous présentons, dans cet article, une amélioration de notre modèle neuronal, avec la prise en compte d'informations linguistiques externes pour un annotateur plus complexe. En particulier, nous proposons d'intégrer des annotations morpho-syntaxiques dans notre architecture neuronale pour l'apprentissage non supervisé d'annotateurs sémantiques multilingues à gros grain (annotation en SuperSenses).
Nous montrons la validité de notre méthode et sa généricité sur l'italien et le français et étudions aussi l'impact de la qualité du corpus parallèle sur notre approche (généré par traduction manuelle ou automatique). Nos expériences portent sur la projection d'annotations de l'anglais vers le français et l'italien.
Utilisation des relations d’une base de connaissances pour la désambiguïsation d’entités nommées
Romaric Besançon, Hani Daher, Olivier Ferret, Hervé Le Borgne
Abstract: L'identification des entités nommées dans un texte est une tâche essentielle des outils d'extraction d'information dans de nombreuses applications. Cette identification passe par la reconnaissance d'une mention d'entité dans le texte, ce qui a été très largement étudié, et par l'association des entités reconnues à des entités connues, présentes dans une base de connaissances. Cette association repose souvent sur une mesure de similarité entre le contexte textuel de la mention de l'entité et un contexte textuel de description des entités de la base de connaissances. Or, ce contexte de description n'est en général pas présent pour toutes les entités. Nous proposons d'exploiter les relations de la base de connaissances pour ajouter un indice de désambiguïsation pour ces entités. Nous évaluons notre travail sur des corpus d'évaluation standard en anglais issus de la tâche de désambiguïsation d'entités de la campagne TAC-KBP.
Modèle non-supervisée pour la segmentation morphologique à l'aide du processus de Pitman-Yor
Kevin Loser and Alexandre Allauzen
Abstract: Cet article présente un modèle Bayésien non-paramétrique pour la segmentation morphologique non supervisée. Ce modèle semi-markovien s'appuie sur des classes latentes de morphèmes afin de modéliser les caractéristiques morphotactiques du lexique, et son caractère non-paramétrique lui permet de s'adapter au données sans avoir à spécifier à l'avance l'inventaire des morphèmes ainsi que leurs classes. Un processus de Pitman-Yor est utilisé comme a priori sur les paramètres afin d'éviter une convergence vers des solutions dégénérées et inadaptées au traitemement automatique des langues. Les résultats expérimentaux montrent la pertinence des segmentations obtenues pour les langues Turque et Anglaise. Une étude qualitative montre également que le modèle infère une morphotactique linguistiquement pertinente, sans le recours à des connaissances expertes quant à la structure morphologique des formes de mots.
Boosters Posters et Démonstrations (30 secondes par poster ou démonstration= 27 minutes)

Lisibilité - Mercredi 9h00-10h00 (Oral2A) - amphi 4

Présidente de session : Anne-Laure Ligozat

Bleu, contusion, ecchymose : tri automatique de synonymes en fonction de leur difficulté de lecture et compréhension
Thomas Francois, Mokhtar Billami, Núria Gala and Delphine Bernhard
Abstract: La lisibilité d'un texte dépend fortement de la difficulté des unités lexicales qui le composent. La simplification lexicale vise ainsi à remplacer les termes complexes par des équivalents sémantiques plus simples à comprendre : par exemple, "bleu" (résultat d'un choc) est plus simple que "contusion" ou "ecchymose". Il est pour cela nécessaire de disposer de ressources qui listent des synonymes pour des sens donnés et les trient par ordre de difficulté. Cet article décrit une méthode pour constituer une ressource de ce type pour le français. Les listes de synonymes sont extraites de BabelNet et de JeuxDeMots, puis triées grâce à un algorithme statistique d'ordonnancement. Les résultats du tri sont évalués par rapport à 36 listes de synonymes ordonnées manuellement par quarante annotateurs.
Exploitation de reformulations pour l'acquisition d'un vocabulaire expert/non expert
Edwige Antoine and Natalia Grabar
Abstract: Les notions de domaines techniques, comme les notions médicales, présentent souvent des difficultés de compréhension par les non experts. Un vocabulaire qui associe les termes techniques aux expressions grand public peut aider à rendre les textes techniques mieux compréhensibles. L'objectif de notre travail est de construire un tel vocabulaire. Nous proposons d'exploiter la notion de reformulation grâce à trois méthodes: extraction d'abréviations, exploitation de marqueurs de reformulation et de parenthèses. Les segments associés grâce à ces méthodes sont alignés avec les terminologies médicales. Nos résultats permettent de couvrir un grand nombre de termes médicaux et montrent une précision d'extraction entre 0,68 et 0,98. Au total, plusieurs dizaines de milliers de paires sont proposés. Ces résultats sont analysés et comparés avec les travaux existants.

Indexation - Mercredi 9h00-10h00 (Oral2B) - amphi 7

Président de session : Vincent Claveau

Modélisation unifiée du document et de son domaine pour une indexation par termes-clés libre et contrôlée
Adrien Bougouin, Florian Boudin and Beatrice Daille
Abstract: Dans cet article, nous nous intéressons à l'indexation de documents de domaines de spécialité par l'intermédiaire de leurs termes-clés. Plus particulièrement, nous nous intéressons à l'indexation telle qu'elle est réalisée par les documentalistes des bibliothèques numériques. Après analyse de la méthodologie des ingénieurs documentaliste de l'Inist (Institut de l'information scientifique et technique), ou indexeurs professionnels, nous proposons une méthode à base de graphe combinant les informations présentes dans le document et la connaissance du domaine pour réaliser une indexation (hybride) libre et contrôlée. Au delà de la capacité de notre méthode à fournir des termes-clés ne se trouvant pas nécessairement dans le document, nos expériences montrent une amélioration significative vis-à-vis de l'approche à base de graphe classique.
Fouille de motifs et CRF pour la reconnaissance de symptômes dans les textes biomédicaux
Pierre Holat, Nadi Tomeh, Thierry Charnois, Delphine Battistelli, Marie-Christine Jaulent and Jean-Philippe Métivier
Abstract: Dans cet article, nous nous intéressons à l'extraction d'entités médicales de type symptôme dans les textes biomédicaux. Cette tâche est peu explorée dans la littérature et il n'existe pas à notre connaissance de corpus annoté pour entraîner un modèle d'apprentissage. Nous proposons deux approches faiblement supervisées pour extraire ces entités. Une première est fondée sur la fouille de motifs et introduit une nouvelle contrainte de similarité sémantique. La seconde formule la tache comme une tache d'étiquetage de séquences en utilisant les CRF (champs conditionnels aléatoires). Nous décrivons les expérimentations menées qui montrent que les deux approches sont complémentaires en termes d'évaluation quantitative (rappel et précision). Nous montrons en outre que leur combinaison améliorent sensiblement les résultats.

Sémantique distributionnelle et relations sémantiques - Mercredi 10h30-12h30 (Oral3A) - amphi 4

Président de session : Olivier Ferret

Word2Vec vs DBnary ou comment (ré)concilier représentations distribuées et réseaux lexico-sémantiques ? Le cas de l'évaluation en traduction automatique
Christophe Servan, Zied Elloumi, Hervé Blanchon and Laurent Besacier
Abstract: Cet article présente une approche associant réseaux lexico-sémantiques et représentations distribuées de mots appliquée à l’évaluation de la traduction automatique. Cette étude est faite à travers l’enrichissement d’une métrique bien connue pour évaluer la traduction automatique (TA) : METEOR.
METEOR permet un appariement approché (similarité morphologique ou synonymie) entre une sortie de système automatique et une traduction de référence. Nos expérimentations s’appuient sur la tâche Metrics de la campagne d’évaluation WMT 2014 et montrent que les représentations distribuées restent moins performantes que les ressources lexico-sémantiques pour l’évaluation en TA mais peuvent néanmoins apporter un complément d’information intéressant à ces dernières.
Évaluation des modèles sémantiques distributionnels : le cas de la dérivation syntaxique
Gabriel Bernier-Colborne and Patrick Drouin
Abstract: Nous évaluons deux modèles sémantiques distributionnels au moyen d'un jeu de données représentant quatre types de relations lexicales et analysons l'influence des paramètres des deux modèles. Les résultats indiquent que le modèle qui offre les meilleurs résultats dépend des relations ciblées, et que l'influence des paramètres des deux modèles varie considérablement en fonction de ce facteur. Ils montrent également que ces modèles captent aussi bien la dérivation syntaxique que la synonymie, mais que les configurations qui captent le mieux ces deux types de relations sont très différentes.
Extraction de relations d’hyperonymie à partir de Wikipédia (RECITAL)
Adel Ghamnia
Abstract: Ce travail contribue à montrer l’intérêt d’exploiter la structure des documents accessibles sur le Web pour enrichir des bases de connaissances sémantiques. En effet, ces bases de connaissances jouent un rôle clé dans de nombreuses applications du TAL, Web sémantique, recherche d’information, aide au diagnostic, etc. Dans ce contexte, nous nous sommes intéressés ici à l’identification des relations d’hyperonymie présentes dans les pages de désambiguïsation de Wikipédia. Un extracteur de relations d’hyperonymie dédié à ce type de page et basé sur des patrons lexico-syntaxiques a été conçu, développé et évalué. Les résultats obtenus indiquent une précision de 0.68 et un rappel de 0.75 pour les patrons que nous avons définis, et un taux d’enrichissement de 33% pour les deux ressources sémantiques BabelNet et DBPédia.
Détection et classification non supervisées de relations sémantiques dans des articles scientifiques
Kata Gabor, Isabelle Tellier, Thierry Charnois, Haïfa Zargayouna and Davide Buscaldi
Abstract: Dans cet article, nous abordons une tâche encore peu explorée, consistant à extraire automatiquement l'état de l'art d'un domaine scientifique à partir de l'analyse d'articles en relevant. Nous la ramenons à deux sous-tâches élémentaires : l’identification de concepts et la reconnaissance de relations entre ces concepts. Nous mettons en oeuvre ces deux étapes dans le corpus de l'ACL Anthology. Les concepts candidats sont identifiés grâce à des ressources externes, et une analyse manuelle nous permet de proposer une typologie des relations sémantiques pouvant les relier. Nous cherchons ensuite à reconnaître et classifier automatiquement ces relations de manière non-supervisée, en nous appuyant sur différentes techniques de clustering et de bi-clustering. Nous confrontons nos résultats avec un échantillon de données manuellement annotées.

Syntaxe et Discours - Mercredi 10h30-12h30 (Oral3B) - amphi 7

Président de session : Bruno Guillaume

Ne nous arrêtons pas en si bon chemin : améliorations de l'apprentissage global d'analyseurs en dépendances par transition
Lauriane Aufrant, Guillaume Wisniewski and François Yvon
Abstract: Dans cet article, nous proposons trois améliorations simples pour l'apprentissage global d'analyseurs en dépendances par transition de type ArcEager : un oracle non déterministe, la reprise sur le même exemple après une mise à jour et l'entraînement en configurations sous-optimales. Leur combinaison apporte un gain moyen de 0,2 UAS sur le corpus SPMRL. Nous introduisons également un cadre général permettant la comparaison systématique de ces stratégies et de la plupart des variantes connues. Nous montrons que la littérature n'a étudié que quelques stratégies parmi les nombreuses variantes possibles, négligeant ainsi plusieurs pistes d'améliorations potentielles.
Conjonctions de subordination, verbes de dire et d'attitude propositionnelle : une modélisation STAG pour le discours (RECITAL)
Timothée Bernard
Abstract: Nous proposons une nouvelle modélisation en grammaire d'arbres adjoints synchrone (STAG) syntaxe/sémantique pour les conjonctions de subordination (ConjSub) et les verbes de dire et d'attitude propositionnelle (VAP ; dire, penser, croire, etc.). Cette modélisation, plus riche que les modélisations traditionnelles, est conçue pour l'analyse du discours et fondée sur l'observation que ces deux catégories sont loin d'être homogènes. En effet, des travaux antérieurs ont montré d'une part que les occurrences de ConjSub pouvaient être divisées en deux classes aux propriétés syntaxiques et sémantiques différentes, d'autre part que les VAP présentaient en discours deux usages distincts : évidentiel et intentionnel.
Notre proposition vise donc à rendre compte précisément de ces différences tout en modélisant les interactions entre VAP et ConjSub.
Apprentissage d’analyseur en dépendances cross-lingue par projection partielle de dépendances
Ophélie Lacroix, Guillaume Wisniewski, François Yvon and Lauriane Aufrant
Abstract: Cet article présente une méthode simple de transfert cross-lingue de dépendances. Nous montrons tout d'abord qu'il est possible et pertinent d'apprendre un analyseur en dépendances par transition à partir d'un apprentissage sur des données partiellement annotées. Nous proposons ensuite de construire de grands ensembles de données partiellement annotés pour plusieurs langues cibles en projetant les dépendances via la connaissance des liens d'alignement et en se focalisant sur les liens les plus sûrs. En apprenant des analyseurs pour les langues cibles à partir de ces données partielles, nous montrons que cette méthode simple obtient des performances qui rivalisent avec celles de méthodes état-de-l'art récentes, tout en ayant un coût algorithmique moindre.
Un modèle simple de coût cognitif de la résolution d'anaphores (RECITAL)
Olga Seminck
Abstract: Nous proposons des résultats préliminaires d’un projet de recherche en TAL et en psycholinguistique. Le but de notre projet est de modéliser le coût cognitif que représente la résolution d’anaphores. Nous voulons obtenir un modèle explicatif qui établit la contribution de différents facteurs qui influencent le coût cognitif. Dans cet article, nous proposons une modélisation inspirée par des techniques venues du TAL. Nous utilisons un solveur d’anaphores probabiliste basé sur l’algorithme couples de mentions 1 et la notion d’entropie pour établir une mesure de coût cognitif des anaphores. Ensuite, nous montrons par des visualisations quelles sont les prédictions de cette première modélisation pour les pronoms personnels de la troisième personne dans le corpus ANCOR-Centre.

Session commune JEP/TALN 1 - Mercredi 14h00-15h40 (SC1) - amphi 4

Président de session : Laurent Besacier

Auto-encodeurs pour la compréhension de documents parlés (JEP)
Killian Janod, Mohamed Morchid, Richard Dufour, Georges Linarès and Renato De Mori
Abstract: Les représentations de documents au moyen d'approches à base de réseaux de neurones ont montré des améliorations significatives dans de nombreuses tâches du traitement du langage naturel. Dans le cadre d'applications réelles, où des conditions d'enregistrement difficiles peuvent être rencontrées, la transcription automatique de documents parlés peut générer un nombre de mots mal transcrits important. Cet article propose une représentation des documents parlés très bruités utilisant des caractéristiques apprises par un auto-encodeur profond supervisé. La méthode proposée s'appuie à la fois sur les documents bruités et leur équivalent propre annoté manuellement pour estimer une représentation plus robuste des documents bruités. Cette représentation est évaluée sur le corpus DECODA sur une tâche de classification thématique de conversations téléphoniques atteignant une précision de 83% avec un gain d'environ 6%.
Comparaison d'approches de classification automatique des actes de dialogue dans un corpus de conversations écrites en ligne sur différentes modalités (TALN)
Soufian Salim, Nicolas Hernandez and Emmanuel Morin
Abstract: L'analyse des conversations écrites porteuses de demandes d'assistance est un enjeu important pour le développement de nouvelles technologies liées au support client. Dans cet article, nous nous intéressons à l'analyse d'un même type d'échange sur un canal différent : les conversations se déroulant sur les plate-formes d'entraide entre utilisateurs. Nous comparons des approches de classification supervisées sur trois modalités des CMR différentes à même thématique : des courriels, forums et chats issus de la communauté Ubuntu. Le système emploie une taxonomie fine basée sur le schéma DIT++. D'autres expériences sont détaillées, et nous rapportons les résultats obtenus avec différentes approches et différents traits sur les différentes parties de notre corpus multimodal.
Utilisation des représentations continues des mots et des paramètres prosodiques pour la détection d’erreurs dans les transcriptions automatiques de la parole (JEP)
Sahar Ghannay, Yannick Estève, Nathalie Camelin, Camille Dutrey, Fabian Santiago and Martine Adda-Decker
Abstract: Récemment, l'utilisation des représentations continues de mots a connu beaucoup de succès dans plusieurs tâches de traitement du langage naturel.
Dans ce papier, nous nous proposons d'étudier leur utilisation pour la tâche de détection des erreurs de transcriptions automatiques de la parole.
Dans une architecture neuronale, nous les avons intégrés et évalués, en plus des paramètres classiques (lexicales, syntaxiques,etc.), et d'un ensemble de paramètres prosodiques .
De plus, la principale contribution de cet article porte sur la combinaison de différentes représentations : plusieurs approches de combinaison sont proposées et évaluées afin de tirer profit de leur complémentarité.
Les expériences sont effectuées sur des transcriptions automatiques du corpus ETAPE générées par le système de reconnaissance automatique du LIUM.
Les résultats obtenus sont meilleurs que ceux d'un système état de l'art basé sur les champs aléatoires conditionnels.
Pour terminer, nous montrons que la mesure de confiance produite est bien calibrée selon une évaluation en terme d'Entropie Croisée Normalisée.
Détection de concepts pertinents pour le résumé automatique de conversations par recombinaison de patrons (TALN)
Jérémy Trione, Benoit Favre and Frederic Bechet
Abstract: Ce papier décrit une approche pour créer des résumés de conversations parlées par remplissage de patrons. Les patrons sont générés automatiquement à partir de fragments généralisés depuis un corpus de résumés d'apprentissage. Les informations nécessaires pour remplir les patrons sont détectés dans les transcriptions des conversations et utilisés pour sélectionner les fragments candidats. L'approche obtient un score ROUGE-2 de 0.116 sur le corpus RATP-DECODA. Les résultats obtenus montrent que cette approche abstractive est plus performante que les approches extractives utilisées habituellement dans le domaine du résumé automatique.

Session commune JEP/TALN 2 - Mercredi 16h10-17h00 (SC2) - amphi 4

Président de session : Benoît Favre

Étude des réseaux de neurones récurrents pour étiquetage de séquences (TALN)
Marco Dinarelli and Isabelle Tellier
Abstract: Dans cet article nous étudions plusieurs types de réseaux neuronaux récurrents (RNN) pour l’étiquetage
de séquences. Nous proposons deux nouvelles variantes de RNN et nous les comparons
aux variantes plus classiques de type Jordan et Elman. Nous expliquons en détails quels sont les
avantages de nos nouvelles variantes par rapport aux autres RNN. Nous évaluons tous les modèles,
les nouvelles variantes ainsi que les RNN existants, sur deux tâches de compréhension de la parole :
ATIS et MEDIA. Les résultats montrent que nos nouvelles variantes de RNN sont plus efficaces que
les autres.
Estimation de la qualité d'un système de reconnaissance de la parole pour une tâche de compréhension (JEP)
Olivier Galibert, Nathalie Camelin, Paul Deléglise and Sophie Rosset
Abstract: Dans ce travail, nous nous intéressons à l'évaluation de la qualité des systèmes de reconnaissance de la parole étant donné une tâche de compréhension. L'objectif de ce travail est de pouvoir fournir un outil permettant la sélection d'un système de reconnaissance automatique de la parole le plus adapté pour un système de dialogue donné. Nous utilisons dans cette étude différentes métriques, notamment le WER, NE-WER, et ATENE métrique proposée récemment pour l'évaluation des systèmes de reconnaissance de la parole étant donné une tâche de reconnaissance d'entités nommées. Cette dernière métrique montrait une meilleure corrélation avec les résultats de la tâche globale que toutes les autres métriques testées. Nos mesures indiquent une très forte corrélation avec la mesure ATENE et une moins forte avec le WER.

Multimodalité - Mercredi 17h00-18h00 (Oral4A) - amphi 4

Présidente de session : Fabienne Moreau

Évaluation d'une nouvelle structuration thématique hiérarchique des textes dans un cadre de résumé automatique et de détection d'ancres au sein de vidéos
Anca Simon, Guillaume Gravier and Pascale Sébillot
Abstract: Dans cet article, nous évaluons, à travers son intérêt pour le résumé automatique et la détection d'ancres dans des vidéos, le potentiel d'une nouvelle structure thématique extraite de données textuelles, composée d'une hiérarchie de fragments thématiquement focalisés. Cette structure est produite par un algorithme exploitant les distributions temporelles d'apparition des mots dans les textes en se fondant sur une analyse de salves lexicales. La hiérarchie obtenue a pour objet de filtrer le contenu non crucial et de ne conserver que l'information saillante des textes, à différents niveaux de détail. Nous montrons qu'elle permet d'améliorer la production de résumés ou au moins de maintenir les résultats de l'état de l'art, tandis que pour la détection d'ancres, elle nous conduit à la meilleure précision dans le contexte de la tâche Search and Anchoring in Video Archives à MediaEval. Les expériences sont réalisées sur du texte écrit et sur un corpus de transcriptions automatiques d'émissions de télévision.
Prédiction automatique de fonctions pragmatiques dans les reformulations
Natalia Grabar and Iris Eshkol
Abstract: La reformulation participe à la structuration du discours, notamment dans le cas des dialogues, et contribue également à la dynamique du discours. Reformuler est un acte significatif qui poursuit des objectifs précis. L'objectif de notre travail est de prédire automatiquement la raison pour laquelle un locuteur effectue une reformulation. Nous utilisons une classification de onze fonctions pragmatiques inspirées des travaux existants et des données analysées. Les données de référence sont issues d'annotations manuelles et consensuelles des reformulations spontanées formées autour de trois marqueurs (c'est-à-dire, je veux dire, disons). Les données proviennent d'un corpus oral et d'un corpus de discussions sur les forums de santé. Nous exploitons des algorithmes de catégorisation supervisée et un ensemble de plusieurs descripteurs (syntaxiques, formels, sémantiques et discursifs) pour prédire les catégories de reformulation. La distribution des énoncés et phrases selon les catégories n'est pas homogène. Les expériences sont positionnées à deux niveaux: générique et spécifique. Nos résultats indiquent qu'il est plus facile de prédire les types de fonctions au niveau générique (la moyenne des F-mesures est autour de 0,80), qu'au niveau des catégories individuelles (la moyenne des F-mesures est autour de 0,40). L'influence de différents paramètres est étudiée.

Lexique des sentiments et Question-réponses - Mercredi 17h00-18h00 (Oral4B) - amphi 7

Présidente de session : Béatrice Daille

Construire un lexique de sentiments par crowdsourcing et propagation
Mathieu Lafourcade, Nathalie Le Brun and Alain Joubert
Abstract: Cet article présente une méthode de construction d'une ressource lexicale de sentiments/émotions. Son originalité est d'associer le crowdsourcing via un GWAP (Game With A Purpose) à un algorithme de propagation, les deux ayant pour support et source de données le réseau lexical JeuxDeMots. Nous décrivons le jeu permettant de collecter des informations de sentiments, ainsi que les principes et hypothèses qui sous-tendent le fonctionnement de l'algorithme qui les propage au sein du réseau. Enfin, nous donnons les résultats quantitatifs et expliquons les méthodes d'évaluation qualitative des données obtenues, à la fois pour le jeu et pour la propagation par l'algorithme, ces méthodes incluant une comparaison avec Emolex, une autre ressource de sentiments/émotions.
Évaluation de l’apprentissage incrémental par analogie
Vincent Letard, Gabriel Illouz and Sophie Rosset
Abstract: Cet article examine l’utilisation du raisonnement analogique dans le contexte de l’apprentissage incrémental. Le problème d’apprentissage sous-jacent développé est le transfert de requêtes formulées en langue naturelle vers des commandes dans un langage de programmation. Nous y explorons deux questions principales : Comment se comporte le raisonnement par analogie dans le contexte de l’apprentissage incrémental ? De quelle manière la séquence d’apprentissage influence-t-elle la performance globale ? Pour y répondre, nous proposons un protocole expérimental simulant deux utilisateurs et différentes séquences d’apprentissage. Nous montrons que l’ordre dans la séquence d’apprentissage n’a d’influence significative que sous des conditions spécifiques. Nous constatons également la complémentarité de l’incrément avec l’analogie pour un nombre d’exemples d’apprentissage minimal.

Session commune JEP/TALN 3 - Vendredi 9h00-10h15 (SC3) - amphi 4

Présidents de session : Emmanuel Ferragne et Nuria Gala

Bilinguismes et compliance phonique (JEP)
Marie Philippart de Foy, Véronique Delvaux, Kathy Huet, Myriam Piccaluga, Rima Rabeh and Bernard Harmegnies
Abstract: Certains types de bilinguisme pourraient avoir un impact positif sur l’apprentissage phonique et faciliter l’acquisition d’une L3. Certains bilingues pourraient donc présenter une meilleure compliance phonique (aptitude à produire des sons de parole non familiers) que les monolingues. Les données de quatre sujets bilingues ont été recueillies lors d’une tâche de reproduction de voyelles synthétiques précédée d’une phase de production de voyelles en langue maternelle (paradigme développé par Huet et al., 2012). Trois indices ont été calculés et comparés à ceux obtenus par des monolingues francophones lors d’une étude précédente (Delvaux et al., 2014). Les résultats n’ont pas révélé de différence significative entre monolingues et bilingues. Toutefois, le classement des bilingues variait d’un indice à l’autre, suggérant des profils plus diversifiés que chez les monolingues. En conclusion, ces résultats confirment la complexité de la compliance phonique, en particulier chez des locuteurs bilingues, et soulignent l’intérêt d’une approche multi-componentielle dans l’évaluation cette aptitude ainsi que le besoin d’ajustements ultérieurs de la réflexion théorique sous-jacente.
Modèles adaptatifs pour prédire automatiquement la compétence lexicale d'un apprenant de français langue étrangère (TALN)
Anaïs Tack, Thomas François, Anne-Laure Ligozat and Cédrick Fairon
Abstract: Cette étude examine l'utilisation de méthodes d'apprentissage incrémental supervisé afin de prédire la compétence lexicale d'apprenants de français langue étrangère (FLE). Les apprenants ciblés sont des néerlandophones ayant un niveau A2/B1 selon le Cadre européen commun de référence pour les langues (CECR). A l'instar des travaux récents portant sur la prédiction de la maîtrise lexicale à l'aide d'indices de complexité, nous élaborons deux types de modèles qui s'adaptent en fonction d'un retour d'expérience, révélant les connaissances de l'apprenant. En particulier, nous définissons (i) un modèle qui prédit la compétence lexicale de tous les apprenants du même niveau de maîtrise et (ii) un modèle qui prédit la compétence lexicale d'un apprenant individuel. Les modèles obtenus sont ensuite évalués par rapport à un modèle de référence, déterminant la compétence lexicale à partir d'un lexique spécialisé pour le FLE, et s'avèrent gagner significativement en exactitude (9%-17%).
Stratégies d'adaptation de la vitesse d’articulation lors de conversations spontanées entre locuteurs natifs et non-natifs (JEP)
Barbara Kühnert and Tanja Kocjančič Antolík
Abstract: Cet article examine la vitesse d’articulation dans un corpus de conversations spontanées entre locuteurs natifs et non-natifs. L’objectif est d’étudier en particulier (i) dans quelle mesure les locuteurs natifs adaptent leur vitesse aux apprenants L2 et (ii) dans quelle mesure les deux locuteurs en interaction ont tendance à rapprocher ou à dissocier leurs caractéristiques temporelles au cours d’une conversation. Les données proviennent du corpus SITAF d’interactions tandem en anglais-français. A ce jour, 10 sujets ont été analysés, chacun ayant été enregistré dans trois conditions différentes : en utilisant sa L1 avec un autre locuteur natif, en utilisant sa L1 avec un apprenant L2, et en utilisant sa L2. Les résultats indiquent que les propriétés de la langue maternelle ont une nette influence sur les variations de la vitesse d’articulation des locuteurs, non seulement lors des stratégies d’adaptation envers des apprenants mais également sur les caractéristiques de la vitesse en L2.

Poster 1 - Jeudi 10h30-12h30 (P1) - salles 3.14 à 3.19

Présidentes de session : Camille Dutrey et Kata Gábor

Estimer la notoriété d’un nom propre via Wikipedia
Mouna Elashter and Denis Maurel
Abstract: Cet article propose de calculer, via Wikipedia, un indice de notoriété pour chaque nom propre d’une liste multilingue. Cette notoriété dépend de la langue. Elle permettra de réduire la taille des dictionnaires de noms propres utilisés en Tal et, donc, de réduire l’ambiguïté qu’ils génèrent.
Ibenta Semantic Cluster : un outil de classification non-supervisée hybride
Manon Quintana and Laurie Planes
Abstract: Our company develops a hybrid usupervised classification tool combining both statistics and the power of our Meaning-Text Theory-based lexicon. We present here the context which lead us to develop such a tool. After a quick state of the art of unsupervised classification (clustering) in NLP, we will describe how our semantic cluster works.
Analyse d'une tâche de substitution lexicale : quelles sont les sources de difficulté ?
Ludovic Tanguy, Cécile Fabre and Camille Mercier
Abstract: Nous proposons dans cet article une analyse des résultats de la campagne SemDis 2014 qui proposait une tâche de substitution lexicale en français. Pour les 300 phrases du jeu de test, des annotateurs ont proposé des substituts à un mot cible, permettant ainsi d'établir un gold standard sur lequel les systèmes participants ont été évalués. Nous cherchons à identifier les principales caractéristiques des items du jeu de test qui peuvent expliquer les variations de performance pour les humains comme pour les systèmes, en nous basant sur l'accord inter-annotateurs des premiers et les scores de rappel des seconds. Nous montrons que si plusieurs caractéristiques communes sont associées aux deux types de difficulté (rareté du sens dans lequel le mot-cible est employé, fréquence d'emploi du mot-cible), d'autres sont spécifiques aux systèmes (degré de polysémie du mot-cible, complexité syntaxique).
Extraction d'opinions ambigües dans des corpus d'avis clients
Joseph Lark, Emmanuel Morin and Sebastián Peña Saldarriaga
Abstract: Nous détectons dans des corpus d'avis clients en français des expressions d'opinion ne contenant pas de marqueur d'opinion explicitement positif ou négatif. Nous procédons pour cela en deux étapes en nous appuyant sur des méthodes existantes~: nous identifions ces expressions à l'aide de fenêtres de mots puis nous les classifions en polarité. Le processus global présente des résultats satisfaisants pour notre cadre applicatif demandant une haute précision.
Système hybride pour la reconnaissance des entités nommées arabes à base des CRF
Emna Hkiri, Souheyl Mallat and Mounir Zrigui
Abstract: La reconnaissance d'entités nommées (REN) pour les langues naturelles telles que l'arabe est une tâche essentielle et difficile. Dans cet article, nous décrivons notre système hybride afin d'améliorer la performance du système de REN et de combler le manque de ressources pour le TAL arabe. Notre système applique le modèle CRF, le lexique bilingue des ENs et les règles linguistiques spécifiques à la tâche de reconnaissance d'entités nommées dans les textes arabes. Les résultats empiriques indiquent que notre système surpasse l'état-de l’art de la REN arabe lorsqu'il est appliqué au corpus d’évaluation standard ANERcorp.
L'anti-correcteur : outil d'évaluation positive de l'orthographe et de la grammaire
Lydia-Mai Ho-Dac, Sophie Negre and Valentine Delbar
Abstract: L'objectif de cette étude est d'expérimenter l'intégration d'une nouvelle forme d'évaluation dans un correcteur orthographique et grammatical. L'"anti-correcteur" a pour objet de mesurer le taux de
réussite orthographique et grammaticale d'un texte sur certains points jugés difficiles selon la littérature et selon une observation d'erreurs en corpus. L'évaluation du niveau d'écriture ne se base plus uniquement sur les erreurs commises, mais également sur les réussites orthographiques réalisées. Une version bêta de ce nouveau mode d'évaluation positive a été intégré sous la forme d’un module au correcteur XXX. Cet article a pour but de discuter de l'intérêt de ce nouveau rapport à l'orthographe et de présenter quelques premiers éléments d'analyse résultant de l'application de l'anti-correcteur sur un corpus de productions variées en terme de niveau d'écriture et genre discursif.
Mise au point d’une méthode d’annotation morphosyntaxique fine du serbe
Aleksandra Miletic, Cécile Fabre and Dejan Stosic
Abstract: Cet article présente une expérience d’annotation morphosyntaxique fine du volet serbe du corpus parallèle ParCoLab (corpus serbe-français-anglais). Elle a consisté à enrichir une annotation existante en parties du discours avec des traits morphosyntaxiques plus fins, afin de préparer une étape ultérieure de parsing du corpus. Nous avons comparé trois approches : 1) annotation manuelle ; 2) pré-annotation avec un étiqueteur entraîné sur le croate suivie d’une correction manuelle ; 3) ré-entraînement de l’outil sur un petit échantillon validé du corpus, suivi de l’annotation automatique et de la correction manuelle. Le modèle croate maintient une stabilité globale en passant au serbe, mais les différences entre les deux jeux d’étiquettes exigent encore des interventions manuelles importantes. Le modèle ré-entraîné sur un échantillon validé (20K tokens) atteint la même précision que le modèle croate, et le gain de temps observé montre que cette méthode optimise la phase de correction.
Recherche de « périsegments » dans un contexte d’analyse conceptuelle assistée par ordinateur : le concept d’« esprit » chez Peirce
Davide Pulizzotto, José Alejandro Lopez Gonzalez and Jean-François Chartier
Abstract: En sciences humaines et plus particulièrement en philosophie, l’analyse conceptuelle (AC) est une
pratique fondamentale qui permet de décortiquer les propriétés d’un concept. Lors d’une analyse sur
un corpus textuel, le principal défi est l’identification des segments de texte qui expriment le concept.
Parfois, ces segments sont facilement reconnaissables grâce à une unité lexicale attendue, appelée
forme canonique. Toutefois, ce n’est pas toujours le cas. Cet article propose une chaîne de traitement
pour la découverte d’un certain nombre de segments périphériques, dits périsegments. Pour illustrer
le processus, nous réalisons des expérimentations sur le concept d’« esprit » dans les Collected Papers
de Ch. S. Peirce, en obtenant une précision moyenne supérieure à 80%.
Compilation de grammaire de propriétés pour l'analyse syntaxique par optimisation de contraintes
Jean-Philippe Prost, Rémi Coletta and Christophe Lecoutre
Abstract: Cet article présente un processus de compilation d’une grammaire de propriétés en une contrainte en extension. Le processus s’insère dans le cadre d’un analyseur syntaxique robuste par résolution d’un problème d’optimisation de contraintes. La grammaire compilée est une énumération de tous les constituants immédiats uniques de l’espace de recherche. L’intérêt de ce travail encore préliminaire tient principalement dans l’exploration d’une modélisation computationnelle de la langue à base de Syntaxe par Modèles (MTS, Model-Theoretic Syntax), qui intègre la représentation indifférenciée des énoncés canoniques et non-canoniques. L’objectif plus particulier du travail présenté ici est d’explorer la possibilité de construire l’ensemble des structures candidat-modèles à partir de l’ensemble des structures syntagmatiques observées sur corpus. Cet article discute notamment le potentiel en matière d’intégration de prédictions probabilistes dans un raisonnement exact pour contribuer à la discrimination entre analyses grammaticales et agrammaticales.
Segmentation automatique d'un texte en rhèses
Victor Pineau, Constance Nin, Solen Quiniou and Béatrice Daille
Abstract: La segmentation d’un texte en rhèses, unités-membres signifiantes de la phrase, permet de fournir des adaptations de celui-ci pour faciliter la lecture des personnes dyslexiques. Dans cet article, nous proposons une méthode d’identification automatique des rhèses basée sur un apprentissage supervisé à partir d’un corpus que nous avons annoté. Nous comparons celle-ci à une identification manuelle des rhèses ainsi qu’à l’utilisation d’outils et de concepts proches, tels que la segmentation d’un texte en chunks.
Combiner des modèles sémantiques distributionnels pour mieux détecter les termes évoquant le même cadre sémantique
Gabriel Bernier-Colborne and Patrick Drouin
Abstract: Nous utilisons des modèles sémantiques distributionnels pour détecter des termes qui évoquent le même cadre sémantique. Dans cet article, nous vérifions si une combinaison de différents modèles permet d’obtenir une précision plus élevée qu’un modèle unique. Nous mettons à l’épreuve plusieurs méthodes simples pour combiner les mesures de similarité calculées à partir de chaque modèle. Les résultats indiquent qu’on obtient systématiquement une augmentation de la précision par rapport au meilleur modèle unique en combinant des modèles différents.
Classification automatique de dictées selon leur niveau de difficulté de compréhension et orthographique
Adeline Müller, Thomas Francois, Sophie Roekhaut and Cedrick Fairon
Abstract: Cet article présente une approche visant à évaluer automatiquement la difficulté de dictées afin de les intégrer dans une plateforme d'apprentissage de l'orthographe. La particularité de l'exercice de la dictée est de devoir percevoir du code oral et de le retranscrire via le code écrit. Nous envisageons ce double niveau de difficulté à l'aide de 375 variables visant tant à mesurer la difficulté de compréhension d'un texte qu'à en évaluer les complexités orthographiques et grammaticales. Une sélection optimale de ces variables est combinée à l'aide d'un SVM qui classe correctement 56% des textes. Il apparait que ce sont les variables lexicales basées sur la liste orthographique de Catach (1984) qui se révèlent les plus informatives pour le modèle.
Médias traditionnels, médias sociaux : caractériser la réinformation
Cédric Maigrot, Ewa Kijak and Vincent Claveau
Abstract: Les médias traditionnels sont de plus en plus présents sur les réseaux sociaux, mais ces sources d’informations sont confrontées à d’autres sources dites de réinformation. Ces dernières ont tendance à déformer les informations relayées pour correspondre aux idéologies qu’elles souhaitent défendre, les rendant partiellement ou totalement fausses. Le but de cet article est, d’une part, de présenter un
corpus que nous avons constitué à partir de groupes Facebook de ces deux types de médias. Nous présentons d’autre part quelques expériences de détection automatique des messages issus des médias de réinformation, en étudiant notamment l’influence d’attributs de surface et d’attributs portant plus spécifiquement sur le contenu de ces messages.
Impact de l’agglutination dans l’extraction de termes en arabe standard moderne
Wafa Neifar, Thierry Hamon, Pierre Zweigenbaum, Mariem Ellouze and Lamia Hadrich Belguith
Abstract: Nous présentons, dans cet article, une adaptation à l’arabe standard moderne d’un extracteur de termes pour le français et l’anglais. L’adaptation a d’abord consisté à décrire le processus d’extraction des termes de manière similaire à celui défini pour l’anglais et le français en prenant en compte certains particularités morpho-syntaxiques de la langue arabe. Puis, nous avons considéré le phénomène de l’agglutination de la langue arabe. L’évaluation a été réalisée sur un corpus de textes médicaux. Les résultats montrent que parmi 400 termes candidats maximaux analysés, 288 sont jugés corrects par rapport au domaine (72,1%). Les erreurs d’extraction sont dues à l’étiquetage morpho-syntaxique et à la non-voyellation des textes mais aussi à des phénomènes d’agglutination.
Découverte de nouvelles entités et relations spatiales à partir d'un corpus de SMS
Sarah Zenasni, Maguelonne Teisseire, Mathieu Roche and Eric Kergosien
Abstract: Dans le contexte des masses de données aujourd'hui disponibles, de nombreux travaux liés à l'analyse des informations spatiales s'appuient sur l'exploitation des données textuelles. La communication médiée (SMS, tweets, etc.) véhiculant des informations spatiales prend une place prépondérante. L'objectif du travail présenté dans cet article consiste à extraire ces informations spatiales à partir d'un corpus authentique de SMS en français. Nous proposons un processus dans lequel, dans un premier temps, nous extrayons de nouvelles entités spatiales (par exemple, "motpellier", "montpeul" à associer au toponyme "Montpellier"). Dans un second temps, nous identifions de nouvelles relations spatiales qui précèdent les entités spatiales (par exemple, "sur", "par", "pres", etc). La tâche est très difficile et complexe en raison de la spécificité du langage SMS qui repose sur une écriture peu standardisée (création lexicale, utilisation massive d'abréviations, présence de fautes, etc.). Les expérimentations qui ont été réalisées à partir du corpus 88milSMS mettent en relief la robustesse de notre système pour identifier de nouvelles entités et relations spatiales.
Apprentissage bayésien incrémental pour la détermination de l'âge et du genre d’utilisateurs de plateformes du web social (RECITAL)
Jugurtha Aït Hamlat
Abstract: Les méthodes de classification textuelles basées sur l'apprentissage automatique ont l'avantage, en plus d'être robustes, de fournir des résultats satisfaisants, sous réserve de disposer d'une base d'entraînement de qualité et en quantité suffisante. Les corpus d'apprentissage étant coûteux à construire, leur carence à grande échelle se révèle être l'une des principales causes d'erreurs. Dans un contexte industriel à forte volumétrie de données, nous présentons une approche de prédiction des deux plus importants indicateurs socio-démographiques (âge et genre) appliquée à des utilisateurs de forums, blogs et réseaux sociaux et ce, à partir de leur seules productions textuelles. Le modèle bayésien multinomial est construit à partir d'un processus d'apprentissage incrémental et itératif sur une vaste base d'entraînement semi-supervisée. Le caractère incrémental permet de s'affranchir des contraintes de volumétrie. L'aspect itératif a pour objectif d'affiner le modèle et ainsi augmenter le niveau de rappel et précision.
Quelles sont les caractéristiques des interactions problématiques entre des utilisateurs et un conseiller virtuel ? (RECITAL)
Irina Maslowski
Abstract: L’utilisation d’un conseiller virtuel pour la gestion de la relation client sur les sites des entreprises est une solution numérique de plus en plus adoptée. Le défi pour les entreprises est de mieux répondre aux attentes des clients en leur fournissant des interactions fluides entre le client et l'agent. Pour faire face à ce problème, cet article met l'accent sur la détection des problèmes d’interactions dans un corpus de tchat écrit entre un conseiller virtuel et ses utilisateurs. Il fournit une analyse de corpus en décrivant non seulement les spécificités linguistiques et les marqueurs d'opinion contenus dans le corpus du tchat humain-agent, mais aussi les indices linguistiques et dialogiques qui peuvent être pertinents pour caractériser une interaction problématique. Le modèle de règles proposé, utilisant les indices trouvés, est appliqué à un corpus avec des retours client négatifs et positifs pour révéler les tendances.

Poster 2 - Jeudi 14h00-16h00 (P2) - salles 3.14 à 3.19

Présidents de session : Gabriel Bernier-Colborne et Chloe Braud

Amélioration de la traduction automatique d’un corpus annoté
Hadj-Salah Marwa, Hervé Blanchon, Mounir Zrigui and Didier Schwab
Abstract: Dans cet article, nous présentons une méthode pour améliorer la traduction automatique d’un corpus annoté et porter ses annotations de l’anglais vers une langue cible. Il s’agit d’améliorer la méthode de (Nasiruddin et al., 2015) qui donnait de nombreux segments non traduits, des duplications et des désordres. Nous proposons un processus de pré-traitement du SemCor anglais, pour qu’il soit adapté au système de traduction automatique statistique utilisé, ainsi qu’un processus de post-traitement pour la sortie. Nous montrons une augmentation de + 2,9% en terme de score F1, en comparant nos résultats de désambiguïsation automatique ce qui prouve l’efficacité de notre méthode.
Approximate unsupervised summary optimisation for selections of ROUGE
Natalie Schluter and Héctor Martínez Alonso
Abstract: It is standard to measure automatic summariser performance using the ROUGE metric. Unfortunately, ROUGE is not appropriate for unsupervised summarisation approaches. On the other hand, we show that it is possible to optimise approximately for ROUGE-n by using a document-weighted ROUGE objective. Doing so results in state-of-the-art summariser performance for single and multiple document summaries for both English and French. This is despite a non-correlation of the document-weighted ROUGE metric with human judgments, unlike the original ROUGE metric. These findings suggest a theoretical approximation link between the two metrics.
Description de la juxtaposition en Langue des Signes Française à partir d’une grammaire formelle.
Mohamed Nassime Hadjadj and Michael Filhol
Abstract: La présente communication s'inscrit dans le cadre du développement d'une grammaire formelle pour la langue des signes française (LSF). Générer automatiquement des énoncés en LSF implique la définition de certaines règles de production pour synchroniser les différents articulateurs du corps, signes, mouvements, etc. Cet article présente dans sa première partie notre méthodologie pour définir des règles de production à partir d'une étude de corpus. Dans la deuxième partie nous présenterons notre étude qui portera sur deux règles de production pour juxtaposer quelques types de structures en LSF. Nous finissons par une discussion sur la nature et l'apport de notre démarche par rapport aux approches existantes.
Vers un lexique ouvert des formes fléchies de l'alsacien : génération de flexions pour les verbes
Steible Lucie and Delphine Bernhard
Abstract: Cet article présente les méthodes mises en œuvre et les résultats obtenus pour la création d'un lexique de formes fléchies de l'alsacien. Les dialectes d’Alsace font partie des langues peu dotées : rares sont les outils et ressources informatisées les concernant. Plusieurs difficultés doivent être prises en compte afin de générer des ressources pour ces langues, généralement liées à la variabilité en l’absence de norme graphique, et au manque de formes fléchies dans les quelques ressources existantes. Nous avons pour ce faire utilisé plusieurs outils permettant la génération automatique de variantes graphiques et la création de formes fléchies (graphes morphologiques et de flexion d’Unitex). Les résultats en termes de couverture des formes rencontrées dans des textes ont permis l’évaluation de la méthode.
Extraction d'expressions-cibles de l'opinion : de l'anglais au français
Grégoire Jadi, Laura Monceaux, Vincent Claveau and Béatrice Daille
Abstract: Dans cet article, nous présentons le développement d'un système d'extraction d'expressions-cibles pour l'anglais et sa transposition au français. En complément, nous avons réalisé une étude de l'efficacité des traits en anglais et en français qui tend à montrer qu'il est possible de réaliser un système d'extraction d'expressions-cibles indépendant du domaine. Pour finir, nous proposons une analyse comparative des erreurs commises par nos systèmes en anglais et français et envisageons différentes solutions à ces problèmes.
Étiquetage multilingue en parties du discours avec MElt
Benoît Sagot
Abstract: Nous présentons des travaux récents réalisés autour de MElt, système discriminant d’étiquetage en parties du discours. MElt met l’accent sur l’exploitation optimale d’informations lexicales externes pour améliorer les performances des étiqueteurs par rapport aux modèles entraînés seulement sur des corpus annotés. Nous avons entraîné MElt sur plus d’une quarantaine de jeux de données couvrant plus d’une trentaine de langues. Comparé au système état-de-l’art MarMoT, MElt obtient en moyenne des résultats légèrement moins bons en l’absence de lexique externe, mais meilleurs lorsque de telles ressources sont disponibles, produisant ainsi des étiqueteurs état-de-l’art pour plusieurs langues.
Comparing Named-Entity Recognizers in a Targeted Domain: Handcrafted Rules vs. Machine Learning
Ioannis Partalas, Cédric Lopez and Frédérique Segond
Abstract: Named-Entity Recognition concerns the classification of textual objects in a predefined set of categories such as persons, organizations, and localizations.
While Named-Entity Recognition is well studied since 20 years, the application to specialized domains still poses challenges for current systems. We developed a rule-based system and two machine learning approaches to tackle the same task: recognition of product names, brand names, etc., in the domain of Cosmetics, for French. Our systems can thus be compared under ideal conditions. In this paper, we introduce both systems and we compare them.
L’architecture d’un modèle hybride pour la normalisation de SMS
Eleni Kogkitsidou and Georges Antoniadis
Abstract: La communication par SMS, aussi bien que tout autre type de communication virtuelle sous forme de textes courts (mails, microblogs, tweets etc.), présente certaines particularités spécifiques (syntaxe irrégulière, fusionnement et phonétisation de mots, formes abrégées etc.). A cause de ces particularités l'application d'outils en TAL rend difficile l'exploitation d'informations utiles contenus dans des messages bruités. Nous proposons un modèle de normalisation en deux étapes fondé sur une approche symbolique et statistique. La première partie vise à produire une représentation intermédiaire du message SMS, tandis que la deuxième utilise un système de traduction automatique à base de règles pour convertir la représentation intermédiaire vers une forme standard.
Intégration de la similarité entre phrases comme critère pour le résumé multi-document
Maâli Mnasri, Gaël de Chalendar and Olivier Ferret
Abstract: À la suite des travaux de Gillick & Favre (2009), beaucoup de travaux portant sur le résumé par extraction se sont appuyés sur une modèlisation de cette tâche sous la forme de deux contraintes antagonistes : l’une vise à maximiser la couverture du résumé produit par rapport au contenu des textes d’origine tandis que l’autre représente la limite du résumé en termes de taille. Dans cette approche, la notion de redondance n’est prise en compte que de façon implicite. Dans cet article, nous reprenons dans le cadre défini par Gillick & Favre (2009) mais nous examinons comment et dans quelle mesure la prise en compte explicite de la similarité sémantique des phrases peut améliorer les performances d’un système de résumé multi-document. Nous démontrons cet impact par des évaluations menées sur les corpus DUC 2003 et 2004.
Vers une analyse des différences interlinguistiques entre les genres textuels : étude de cas basée sur les n-grammes et l’analyse factorielle des correspondances
Marie-Aude Lefer, Yves Bestgen and Natalia Grabar
Abstract: L'objectif de notre travail est d’évaluer l’intérêt d’employer les n-grammes et l’analyse factorielle des correspondances pour comparer les genres textuels dans les études contrastives interlinguistiques. Nous exploitons un corpus bilingue anglais-français constitué de textes originaux comparables. Le corpus réunit trois genres : les débats parlementaires européens, les éditoriaux de presse et les articles scientifiques dans trois disciplines (médecine, économie et linguistique). Dans un premier temps, les n-grammes d'une longueur de 2 à 4 mots sont extraits dans chaque langue. Ensuite, pour chaque longueur, les 1~000 n-grammes les plus fréquents dans chaque langue sont traités par l'analyse factorielle des correspondances pour déterminer quels n-grammes sont particulièrement saillants dans les genres étudiés. Enfin, les n-grammes sont catégorisés manuellement en distinguant par exemple les expressions d’opinion et de certitude (eg, je crois que/the truth is that), les marqueurs discursifs (eg, au bout du compte/when it comes to) et les expressions référentielles (composés, termes complexes, expressions temporelles/locatives/quantitatives, etc.). Les résultats obtenus montrent que les n-grammes permettent de mettre au jour des caractéristiques typiques des genres étudiés, de même que des contrastes intéressants entre l’anglais et le français.
Appariement d'articles en ligne et de vidéos : stratégies de sélection et méthodes d'évaluation
Adèle Désoyer, Delphine Battistelli and Jean-Luc Minel
Abstract: Dans cet article, nous proposons une méthode d'appariement de contenus d'actualité multimédias, considérant les exigences à la fois sémantiques et temporelles du besoin d'information. La pertinence d'une vidéo pour un article de presse est mesurée par deux indices, l'un saisissant la similarité de leurs contenus, l'autre la cohérence de leurs dates d'édition. Nous présentons également une méthodologie d'évaluation s'affranchissant des standards comparant les résultats du système à des résultats de référence, en soumettant les paires de documents proposées automatiquement à un panel d'utilisateurs chargé de juger de leur pertinence.
Extraction de relations temporelles dans des dossiers électroniques patient
Julien Tourille, Olivier Ferret, Aurélie Névéol and Xavier Tannier
Abstract: L'extraction de lexiques bilingues à partir de corpus comparables se réalise traditionnellement en s'appuyant sur deux langues. Des travaux précédents en extraction de lexiques bilingues à partir de corpus parallèles ont démontré que l'utilisation de plus de deux langues peut être utile pour améliorer la qualité des alignements extraits. Nos travaux montrent qu'il est possible d'utiliser la même stratégie pour des corpus comparables. Nous avons défini deux méthodes originales impliquant des langues pivots et nous les avons évaluées sur quatre langues et deux langues pivots en particulier. Nos expérimentations ont montré que lorsque l'alignement entre la langue source et la langue pivot est de bonne qualité, l'extraction du lexique en langue cible s'en trouve améliorée.
Détecter le besoin d’information dans des requêtes d’usagers d’agents virtuels : sélection de données pertinentes
Octavia Efraim and Fabienne Moreau
Abstract: Pour orienter efficacement les messages reçus par différents canaux de communication, dont l’agent virtuel (AV), un système de gestion de la relation client doit prendre en compte le besoin d’information de l’usager. En vue d’une tâche de classification par type de besoin d’information, il est utile de pouvoir en amont sélectionner dans les messages des utilisateurs, souvent de mauvaise qualité, les unités textuelles qui seront pertinentes pour représenter ce besoin d’information. Après avoir décrit les spécificités d’un corpus de requêtes d’AV nous expérimentons deux méthodes de sélection de segments informatifs : par extraction et par filtrage. Les résultats sont encourageants, mais des améliorations et une évaluation extrinsèque restent à faire.
Patrons sémantiques pour l'extraction de relations entre termes - Application aux comptes rendus radiologiques
Lionel Ramadier and Mathieu Lafourcade
Abstract: Dans cet article nous nous intéressons à la tâche d'extraction de relations sémantiques dans les textes médicaux et plus particulièrement dans les comptes rendus radiologiques. L'identification de relations sémantiques est une tâche importante pour plusieurs applications (recherche d'information, génération de résumé, etc). Nous proposons une approche fondée sur l'utilisation de patrons sémantiques vérifiant des contraintes dans une base de connaissances.
Investigating gender adaptation for speech translation
Rachel Bawden, Guillaume Wisniewski and Hélène Maynard
Abstract: In this paper we investigate the impact of the integration of context into dialogue translation. We present a new contextual parallel corpus of television subtitles and show how taking into account speaker gender can significantly improve machine translation quality in terms of BLEU and METEOR scores. We perform a manual analysis, which suggests that these improvements are not necessary related to the morphological consequences of speaker gender, but to more general linguistic divergences.
Une catégorisation de fins de lignes non-supervisée
Pierre Zweigenbaum, Cyril Grouin and Thomas Lavergne
Abstract: Dans certains textes bruts, les marques de fin de ligne peuvent marquer ou pas la frontière d'une unité textuelle (typiquement un paragraphe). Ce problème risque d'influencer les traitements subséquents, mais est rarement traité dans la littérature.
Nous proposons une méthode entièrement non-supervisée pour déterminer si une fin de ligne doit être vue comme un simple espace ou comme une véritable frontière d'unité textuelle, et la testons sur un corpus de comptes rendus médicaux.
Cette méthode obtient une F-mesure de 0,926 sur un échantillon de 24 textes contenant des lignes repliées. Appliquée sur un échantillon plus grand de textes contenant ou pas des lignes repliées, notre méthode la plus prudente obtient une F-mesure de 0,898, valeur élevée pour une méthode entièrement non-supervisée.
Acquisition terminologique en arabe: État de l’art (RECITAL)
Ahmed Ben Ltaief and Wafa Neifar
Abstract: L'acquisition terminologique est une tâche indispensable pour l'accès aux informations présentes dans les corpus de spécialité. Il s'agit d'une part, d'identifier et d'extraire des termes, et d'autre part, de structurer ces termes à l'aide de méthodes d'acquisition de relations sémantiques. Dans cet article, nous nous intéressons l'acquisition terminologique sur des textes arabe standard moderne (MSA). Nous réalisons tout d'abord, un état de l'art décrivant les méthodes d'extraction de termes sur cette langue ainsi que les approches proposées pour la reconnaissance de relations sémantiques entre termes issus. Après avoir présenter quelques corpus de spécialité et ressources terminologiques disponibles en MSA que nous avons identifiés, nous décrivons nos premières pistes de travail.
La polysémie lexicale et syntaxique de l’alternance modale indicatif/subjonctif – perspectives TAL (RECITAL)
Divna Petkovic and Victor Rabiet
Abstract: Certains verbes ont une double commande modale : ils admettent une construction permettant l’usage du subjonctif et de l’indicatif dans la complétive qui leur est adjointe ; cette situation créé une polysémie à tous les niveaux d’analyse (lexicale, syntaxique, grammaticale, même pragmatique) que l’on se propose de décrire dans l’optique d’aider à la caractérisation, et parfois à la résolution, de cette ambiguïté. Plus précisément, parfois le verbe régissant (dans la principale) est polysémique en lui-même, et selon son sens il commande soit l’indicatif, soit le subjonctif dans la subordonnée complétive : il s’agit de la polysémie lexicale, qui peut être forte ou faible. D’un autre point de vue, certains verbes à l’indicatif/subjonctif dans la subordonnée modifient plus ou moins légèrement le sens de la phrase entière : on considère ici cela comme un cas de polysémie syntaxique ou grammaticale, étant donné que ces verbes apparaissent dans diverses structures et modalités.

Démonstrations JEP/TALN - Vendredi 11h00-16h00 (D) - salles 3.14 à 3.19

Présidents de session : Ophélie Lacroix et Corentin Ribeyre

Lecture bilingue augmentée par des alignements multi-niveaux
François Yvon, Yong Xu, Marianna Apidianaki, Clément Pillias et Cubaud Pierre
Abstract: Le travail qui a conduit à cette démonstration combine des outils de traitement des langues multilingues, en particulier l'alignement automatique, avec des techniques de visualisation et d'interaction. Il vise à proposer des pistes pour le développement d'outils permettant de lire \emph{simultanément} les différentes versions d'un texte disponible en plusieurs langues, avec des applications en lecture de loisir ou en lecture professionnelle.
Un système automatique de sélection de réponse en domaine ouvert intégrable à un système de dialogue social
Franck Charras, Guillaume Dubuisson Duplessis, Vincent Letard, Anne-Laure Ligozat et Sophie Rosset.
Abstract: Cette démonstration présente un système de dialogue en domaine ouvert qui utilise une base d’exemples de dialogue automatiquement constituée depuis un corpus de sous-titres afin de gérer un dialogue social de type « chatbot ».

This demonstration exhibits an example-based system that uses a database of indexed dialogue examples automatically built from a television drama subtitle corpus to manage social open-domain dialogue.
LNE-Visu : une plateforme d’exploration et de visualisation de données d’évaluation
Guillaume Bernard, Juliette Kahn, Olivier Galibert, Rémi Regnier et Séverine Demeyer
Abstract: LNE-Visu est une interface de visualisation et d’exploration de données multimédia qui regroupe les données des campagnes d’évaluation organisées par le LNE. Elle propose 3 fonctionnalités principales : explorer et sélectionner des corpus, visualiser et écouter des données et effectuer des tests de significativités de différences.
Construction automatisée d'une base de connaissances
Olivier Mesnard, Yoann Dupont, Jérémy Guillemot et Rashedur Rahman
Abstract: Le système présenté démontre la construction automatisée d'une base de connaisances à partir d'une colection de documents. Il s'appuie sur de l'apprentissage distant pour l'extraction d'hypothèses de relations entre mentions d'entités et consolide ces hypothèses avec des algorithme orientés graphe.
Identification de lieux dans les messageries mobiles
Clément Doumouro, Adrien Ball, Joseph Dureau et Sylvain Raybaud
Abstract: Nous présentons un système d’identification de lieux dans les messageries typiquement utilisées sur smartphone. L’implémentation sur mobile et son cortège de contraintes, ainsi que la faible quantité de ressources disponibles pour le type de langage utilisé rendent la tâche particulièrement délicate. Ce système, implémenté sur Android, atteint une précision de 30% et un rappel de 72%.
ACGtk : un outil de développement et de test pour les grammaires catégorielles abstraites
Sylvain Pogodalla
Abstract: Nous présentons un outil, ACGtk, offrant un environnement de développement et d'utilisation des grammaires catégorielles abstraites pour l'analyse et la génération.
Tag Thunder : plateforme de démonstration et d'expérimentation
Jean-Marc Lecarpentier, Elena Manishina, Maxence Busson, Fabrice Maurel et Stephane Ferrari
Abstract: Dans cette démonstration, nous proposons un système qui permettrait aux utilisateurs non-voyants d'obtenir le {\em first glance} d'une page web. L'objectif est de réduire le temps d'accès à la structure logico-thématique de la page et de favoriser le développement de stratégies de lecture de haut niveau. Notre concept, appelé Tag Thunder, s'appuie sur une phase de segmentation de la page en zones, suivie d'une étape de représentation des zones par un mot ou groupe de mots, puis une vocalisation simultanée de ces représentants.
STAM : traduction des textes non structurés (dialectes du Maghreb)
Mehdi Embarek et Soumya Embarek
Abstract: L’utilisation des plateformes de communication (réseaux sociaux, forums de discussions, ...) a pris une ampleur considérable. Ces plateformes permettent aux internautes d’exprimer leur avis concernant un sujet, demander ou échanger des informations, commenter un événement, etc. Ainsi, nous retrouvons dans ces différentes sources d’informations une quantité importante de textes rédigés dans des dialectes locaux dont sont originaires les rédacteurs. Cependant, ces textes non structurés rendent l’exploitation des outils de traitement automatique des langues très difficile. Le système STAM aborde cette problématique en proposant un système capable de transcrire automatiquement des textes écrits dans un dialecte parlé dans les pays du Maghreb en un texte facilement interprétable et compréhensible (français ou anglais).
AppFM, un outil de gestion de modules TAL
Paul Bui-Quang, Brigitte Grau et Patrick Paroubek
Abstract: AppFM est un outil à mi chemin entre un environnement de création de chaînes modulaires de traitement de la langue et un gestionnaire de services systèmes. Il permet l'intégration d'applications comprenant des dépendances complexes en des chaînes de traitements réutilisables facilement par le biais de multiples interfaces.
Un analyseur de conversations pour la relation client
Hugues de Mazancourt, Gaëlle Recourcé et Soufian Salim
Abstract: Cette démonstration du projet ODISAE a pour objet de présenter l’utilisation d’un analyseur de conversations par email ou chat dans le cadre d’une application de support client : mise en valeur des demandes d’action, repérage des thèmes dangereux, tableau de bord pour le superviseur, alertes pour l’agent ...
Un outil multilingue d’extraction de collocations en ligne
Luka Nerima, Violeta Seretan et Eric Wehrli
Abstract: Cette démonstration présente la version web d’un outil multilingue d’extraction de collocations. Elle est destinée aux lexicographes, aux traducteurs, aux enseignants et apprenants L2 et, plus généralement, aux linguistes désireux d’analyser et d’exploiter leurs propres corpus.
Radarly : écouter et analyser le web conversationnel en temps réel
Jade Copet, Christine de Carvalho, Virginie Mouilleron, Benoit Tabutiaux et Hugo Zanghi
Abstract: De par le contexte conversationnel digital, l’outil Radarly a été conçu pour permettre de traiter de grands volumes de données hétérogènes en temps réel, de générer de nouveaux indicateurs et de les visualiser sur une interface cohérente et confortable afin d’en tirer des analyses et études pertinentes. Ce document expose les techniques et processus utilisés pour extraire et traiter toutes ces données.
FlexiMac 1.1. – conjugueur automatique du verbe macédonien
Jovan Kostov
Abstract: Cette démonstration présente la plateforme FlexiMac 1.1., générateur automatique des verbes macédoniens qui permet de conjuguer un verbe dans la plupart des modes et des temps, sans faire appel à une base de données. Après un bref exposé du fonctionnement de la plateforme, nous allons également évoquer les travaux actuels qui en ont découlé, et ceux qui sont en train d’émerger dans une perspective de traitement automatique du macédonien en tant que langue européenne peu-dotée.

FlexiMac 1.1. – Automatic Generator of the Verbal Paradigms of the Macedonian language.
This paper presents the FlexiMac 1.1. platform, an automatic generator of Macedonian verbs that conjugates verbs in most moods et tenses, without any use of a database. After a brief presentation of the platform’s architecture, we will also discuss the current et emerging works that resulted from this research et that can be used for a natural processing of the Macedonian language as one of the less-documented European languages.
CommunicoTool Advance, un prototype d’application d’aide à la communication
Charlotte Roze
Abstract: CommunicoTool Advance est un prototype d’application mobile d’aide à la communication destinée à des personnes qui présentent des troubles moteurs et des troubles de la parole.
SOFA : Une plateforme d'analyse syntaxique en ligne pour l'ancien français
Gaël Guibon
Abstract: SOFA une application web dédiée à l'étiquetage syntaxique de l'ancien français. Cette plateforme est une démonstration permettant d'appliquer sur n'importe quel texte, ou sur un des textes d'ancien français, des modèles de lemmatisation, d'annotation morpho-syntaxique, et d'analyse syntaxique, en plus d'en visualiser les performances.
Exploration de collections d’archives multimédia dans le contexte des Humanités Numériques : revisiter TALN’2015 ?
Géraldine Damnati, Marc Denjean et Delphine Charlet
Abstract: Cette démonstration présente un prototype d’exploration de contenus multimédias développé dans le but de faciliter l’accès aux contenus de la Connaissance. Après une extraction automatique de métadonnées, les contenus sont indexés et accessibles via un moteur de recherche spécifique. Des fonctionnalités innovantes de navigation à l’intérieur des contenus sont également présentées. La collection des enregistrements vidéo de TALN’2015 sert de support privilégié à cette démonstration.
E-Quotes : un outil de navigation textuelle guidée par les annotations sémantiques
Motasem Alrahabi
Abstract: Nous présentons E-Quotes, un outil de navigation textuelle guidée par les annotations sémantiques. Le système permet de localiser les mots clés et leurs variantes dans les citations sémantiquement catégorisés dans corpus annoté, et de naviguer entre ces citations. Nous avons expérimenté ce système sur un corpus de littérature française automatiquement annoté selon des catégories sémantiques présentes dans le contexte des citations, comme par exemple la définition, l'argumentation, l'opinion, l'ironie ou la rumeur rapportées.
Héloïse, une plate-forme pour développer des systèmes de TA compatibles Ariane en réseau
Vincent Berment, Christian Boitet et Guillaume de Malézieux
Abstract: Dans cette démo, nous montrons comment utiliser Héloïse pour développer des systèmes de TA.
Interface Web pour l'annotation morpho-syntaxique de textes
Thierry Hamon
Abstract: Nous présentons une interface Web pour la visualisation et
l'annotation de textes avec des étiquettes morphosyntaxiques et des lemmes. Celle-ci est actuellement utilisée pour annoter des textes ukrainiens avec le jeu d'étiquettes Multext-East. Les utilisateurs peuvent rapidement visualiser les annotations associées aux mots d'un texte, modifier les annotations existantes ou en ajouter de nouvelles. Les annotations peuvent chargées et exportées en XML au format TEI, mais aussi sous forme tabulée. Des scripts de conversion de format et de chargement dans une base de données sont également mis à disposition.