- Amélioration de la traduction automatique d’un corpus annoté
Hadj-Salah Marwa, Hervé Blanchon, Mounir Zrigui and Didier SchwabAbstract: Dans cet article, nous présentons une méthode pour améliorer la traduction automatique d’un corpus annoté et porter ses annotations de l’anglais vers une langue cible. Il s’agit d’améliorer la méthode de (Nasiruddin et al., 2015) qui donnait de nombreux segments non traduits, des duplications et des désordres. Nous proposons un processus de pré-traitement du SemCor anglais, pour qu’il soit adapté au système de traduction automatique statistique utilisé, ainsi qu’un processus de post-traitement pour la sortie. Nous montrons une augmentation de + 2,9% en terme de score F1, en comparant nos résultats de désambiguïsation automatique ce qui prouve l’efficacité de notre méthode.
- Approximate unsupervised summary optimisation for selections of ROUGE
Natalie Schluter and Héctor Martínez AlonsoAbstract: It is standard to measure automatic summariser performance using the ROUGE metric. Unfortunately, ROUGE is not appropriate for unsupervised summarisation approaches. On the other hand, we show that it is possible to optimise approximately for ROUGE-n by using a document-weighted ROUGE objective. Doing so results in state-of-the-art summariser performance for single and multiple document summaries for both English and French. This is despite a non-correlation of the document-weighted ROUGE metric with human judgments, unlike the original ROUGE metric. These findings suggest a theoretical approximation link between the two metrics.
- Description de la juxtaposition en Langue des Signes Française à partir d’une grammaire formelle.
Mohamed Nassime Hadjadj and Michael FilholAbstract: La présente communication s'inscrit dans le cadre du développement d'une grammaire formelle pour la langue des signes française (LSF). Générer automatiquement des énoncés en LSF implique la définition de certaines règles de production pour synchroniser les différents articulateurs du corps, signes, mouvements, etc. Cet article présente dans sa première partie notre méthodologie pour définir des règles de production à partir d'une étude de corpus. Dans la deuxième partie nous présenterons notre étude qui portera sur deux règles de production pour juxtaposer quelques types de structures en LSF. Nous finissons par une discussion sur la nature et l'apport de notre démarche par rapport aux approches existantes.
- Vers un lexique ouvert des formes fléchies de l'alsacien : génération de flexions pour les verbes
Steible Lucie and Delphine BernhardAbstract: Cet article présente les méthodes mises en œuvre et les résultats obtenus pour la création d'un lexique de formes fléchies de l'alsacien. Les dialectes d’Alsace font partie des langues peu dotées : rares sont les outils et ressources informatisées les concernant. Plusieurs difficultés doivent être prises en compte afin de générer des ressources pour ces langues, généralement liées à la variabilité en l’absence de norme graphique, et au manque de formes fléchies dans les quelques ressources existantes. Nous avons pour ce faire utilisé plusieurs outils permettant la génération automatique de variantes graphiques et la création de formes fléchies (graphes morphologiques et de flexion d’Unitex). Les résultats en termes de couverture des formes rencontrées dans des textes ont permis l’évaluation de la méthode.
- Extraction d'expressions-cibles de l'opinion : de l'anglais au français
Grégoire Jadi, Laura Monceaux, Vincent Claveau and Béatrice DailleAbstract: Dans cet article, nous présentons le développement d'un système d'extraction d'expressions-cibles pour l'anglais et sa transposition au français. En complément, nous avons réalisé une étude de l'efficacité des traits en anglais et en français qui tend à montrer qu'il est possible de réaliser un système d'extraction d'expressions-cibles indépendant du domaine. Pour finir, nous proposons une analyse comparative des erreurs commises par nos systèmes en anglais et français et envisageons différentes solutions à ces problèmes.
- Étiquetage multilingue en parties du discours avec MElt
Benoît SagotAbstract: Nous présentons des travaux récents réalisés autour de MElt, système discriminant d’étiquetage en parties du discours. MElt met l’accent sur l’exploitation optimale d’informations lexicales externes pour améliorer les performances des étiqueteurs par rapport aux modèles entraînés seulement sur des corpus annotés. Nous avons entraîné MElt sur plus d’une quarantaine de jeux de données couvrant plus d’une trentaine de langues. Comparé au système état-de-l’art MarMoT, MElt obtient en moyenne des résultats légèrement moins bons en l’absence de lexique externe, mais meilleurs lorsque de telles ressources sont disponibles, produisant ainsi des étiqueteurs état-de-l’art pour plusieurs langues.
- Comparing Named-Entity Recognizers in a Targeted Domain: Handcrafted Rules vs. Machine Learning
Ioannis Partalas, Cédric Lopez and Frédérique SegondAbstract: Named-Entity Recognition concerns the classification of textual objects in a predefined set of categories such as persons, organizations, and localizations.
While Named-Entity Recognition is well studied since 20 years, the application to specialized domains still poses challenges for current systems. We developed a rule-based system and two machine learning approaches to tackle the same task: recognition of product names, brand names, etc., in the domain of Cosmetics, for French. Our systems can thus be compared under ideal conditions. In this paper, we introduce both systems and we compare them.
- L’architecture d’un modèle hybride pour la normalisation de SMS
Eleni Kogkitsidou and Georges AntoniadisAbstract: La communication par SMS, aussi bien que tout autre type de communication virtuelle sous forme de textes courts (mails, microblogs, tweets etc.), présente certaines particularités spécifiques (syntaxe irrégulière, fusionnement et phonétisation de mots, formes abrégées etc.). A cause de ces particularités l'application d'outils en TAL rend difficile l'exploitation d'informations utiles contenus dans des messages bruités. Nous proposons un modèle de normalisation en deux étapes fondé sur une approche symbolique et statistique. La première partie vise à produire une représentation intermédiaire du message SMS, tandis que la deuxième utilise un système de traduction automatique à base de règles pour convertir la représentation intermédiaire vers une forme standard.
- Intégration de la similarité entre phrases comme critère pour le résumé multi-document
Maâli Mnasri, Gaël de Chalendar and Olivier FerretAbstract: À la suite des travaux de Gillick & Favre (2009), beaucoup de travaux portant sur le résumé par extraction se sont appuyés sur une modèlisation de cette tâche sous la forme de deux contraintes antagonistes : l’une vise à maximiser la couverture du résumé produit par rapport au contenu des textes d’origine tandis que l’autre représente la limite du résumé en termes de taille. Dans cette approche, la notion de redondance n’est prise en compte que de façon implicite. Dans cet article, nous reprenons dans le cadre défini par Gillick & Favre (2009) mais nous examinons comment et dans quelle mesure la prise en compte explicite de la similarité sémantique des phrases peut améliorer les performances d’un système de résumé multi-document. Nous démontrons cet impact par des évaluations menées sur les corpus DUC 2003 et 2004.
- Vers une analyse des différences interlinguistiques entre les genres textuels : étude de cas basée sur les n-grammes et l’analyse factorielle des correspondances
Marie-Aude Lefer, Yves Bestgen and Natalia GrabarAbstract: L'objectif de notre travail est d’évaluer l’intérêt d’employer les n-grammes et l’analyse factorielle des correspondances pour comparer les genres textuels dans les études contrastives interlinguistiques. Nous exploitons un corpus bilingue anglais-français constitué de textes originaux comparables. Le corpus réunit trois genres : les débats parlementaires européens, les éditoriaux de presse et les articles scientifiques dans trois disciplines (médecine, économie et linguistique). Dans un premier temps, les n-grammes d'une longueur de 2 à 4 mots sont extraits dans chaque langue. Ensuite, pour chaque longueur, les 1~000 n-grammes les plus fréquents dans chaque langue sont traités par l'analyse factorielle des correspondances pour déterminer quels n-grammes sont particulièrement saillants dans les genres étudiés. Enfin, les n-grammes sont catégorisés manuellement en distinguant par exemple les expressions d’opinion et de certitude (eg, je crois que/the truth is that), les marqueurs discursifs (eg, au bout du compte/when it comes to) et les expressions référentielles (composés, termes complexes, expressions temporelles/locatives/quantitatives, etc.). Les résultats obtenus montrent que les n-grammes permettent de mettre au jour des caractéristiques typiques des genres étudiés, de même que des contrastes intéressants entre l’anglais et le français.
- Appariement d'articles en ligne et de vidéos : stratégies de sélection et méthodes d'évaluation
Adèle Désoyer, Delphine Battistelli and Jean-Luc MinelAbstract: Dans cet article, nous proposons une méthode d'appariement de contenus d'actualité multimédias, considérant les exigences à la fois sémantiques et temporelles du besoin d'information. La pertinence d'une vidéo pour un article de presse est mesurée par deux indices, l'un saisissant la similarité de leurs contenus, l'autre la cohérence de leurs dates d'édition. Nous présentons également une méthodologie d'évaluation s'affranchissant des standards comparant les résultats du système à des résultats de référence, en soumettant les paires de documents proposées automatiquement à un panel d'utilisateurs chargé de juger de leur pertinence.
- Extraction de relations temporelles dans des dossiers électroniques patient
Julien Tourille, Olivier Ferret, Aurélie Névéol and Xavier TannierAbstract: L'extraction de lexiques bilingues à partir de corpus comparables se réalise traditionnellement en s'appuyant sur deux langues. Des travaux précédents en extraction de lexiques bilingues à partir de corpus parallèles ont démontré que l'utilisation de plus de deux langues peut être utile pour améliorer la qualité des alignements extraits. Nos travaux montrent qu'il est possible d'utiliser la même stratégie pour des corpus comparables. Nous avons défini deux méthodes originales impliquant des langues pivots et nous les avons évaluées sur quatre langues et deux langues pivots en particulier. Nos expérimentations ont montré que lorsque l'alignement entre la langue source et la langue pivot est de bonne qualité, l'extraction du lexique en langue cible s'en trouve améliorée.
- Détecter le besoin d’information dans des requêtes d’usagers d’agents virtuels : sélection de données pertinentes
Octavia Efraim and Fabienne MoreauAbstract: Pour orienter efficacement les messages reçus par différents canaux de communication, dont l’agent virtuel (AV), un système de gestion de la relation client doit prendre en compte le besoin d’information de l’usager. En vue d’une tâche de classification par type de besoin d’information, il est utile de pouvoir en amont sélectionner dans les messages des utilisateurs, souvent de mauvaise qualité, les unités textuelles qui seront pertinentes pour représenter ce besoin d’information. Après avoir décrit les spécificités d’un corpus de requêtes d’AV nous expérimentons deux méthodes de sélection de segments informatifs : par extraction et par filtrage. Les résultats sont encourageants, mais des améliorations et une évaluation extrinsèque restent à faire.
- Patrons sémantiques pour l'extraction de relations entre termes - Application aux comptes rendus radiologiques
Lionel Ramadier and Mathieu LafourcadeAbstract: Dans cet article nous nous intéressons à la tâche d'extraction de relations sémantiques dans les textes médicaux et plus particulièrement dans les comptes rendus radiologiques. L'identification de relations sémantiques est une tâche importante pour plusieurs applications (recherche d'information, génération de résumé, etc). Nous proposons une approche fondée sur l'utilisation de patrons sémantiques vérifiant des contraintes dans une base de connaissances.
- Investigating gender adaptation for speech translation
Rachel Bawden, Guillaume Wisniewski and Hélène MaynardAbstract: In this paper we investigate the impact of the integration of context into dialogue translation. We present a new contextual parallel corpus of television subtitles and show how taking into account speaker gender can significantly improve machine translation quality in terms of BLEU and METEOR scores. We perform a manual analysis, which suggests that these improvements are not necessary related to the morphological consequences of speaker gender, but to more general linguistic divergences.
- Une catégorisation de fins de lignes non-supervisée
Pierre Zweigenbaum, Cyril Grouin and Thomas LavergneAbstract: Dans certains textes bruts, les marques de fin de ligne peuvent marquer ou pas la frontière d'une unité textuelle (typiquement un paragraphe). Ce problème risque d'influencer les traitements subséquents, mais est rarement traité dans la littérature.
Nous proposons une méthode entièrement non-supervisée pour déterminer si une fin de ligne doit être vue comme un simple espace ou comme une véritable frontière d'unité textuelle, et la testons sur un corpus de comptes rendus médicaux.
Cette méthode obtient une F-mesure de 0,926 sur un échantillon de 24 textes contenant des lignes repliées. Appliquée sur un échantillon plus grand de textes contenant ou pas des lignes repliées, notre méthode la plus prudente obtient une F-mesure de 0,898, valeur élevée pour une méthode entièrement non-supervisée.
- Acquisition terminologique en arabe: État de l’art (RECITAL)
Ahmed Ben Ltaief and Wafa NeifarAbstract: L'acquisition terminologique est une tâche indispensable pour l'accès aux informations présentes dans les corpus de spécialité. Il s'agit d'une part, d'identifier et d'extraire des termes, et d'autre part, de structurer ces termes à l'aide de méthodes d'acquisition de relations sémantiques. Dans cet article, nous nous intéressons l'acquisition terminologique sur des textes arabe standard moderne (MSA). Nous réalisons tout d'abord, un état de l'art décrivant les méthodes d'extraction de termes sur cette langue ainsi que les approches proposées pour la reconnaissance de relations sémantiques entre termes issus. Après avoir présenter quelques corpus de spécialité et ressources terminologiques disponibles en MSA que nous avons identifiés, nous décrivons nos premières pistes de travail.
- La polysémie lexicale et syntaxique de l’alternance modale indicatif/subjonctif – perspectives TAL (RECITAL)
Divna Petkovic and Victor RabietAbstract: Certains verbes ont une double commande modale : ils admettent une construction permettant l’usage du subjonctif et de l’indicatif dans la complétive qui leur est adjointe ; cette situation créé une polysémie à tous les niveaux d’analyse (lexicale, syntaxique, grammaticale, même pragmatique) que l’on se propose de décrire dans l’optique d’aider à la caractérisation, et parfois à la résolution, de cette ambiguïté. Plus précisément, parfois le verbe régissant (dans la principale) est polysémique en lui-même, et selon son sens il commande soit l’indicatif, soit le subjonctif dans la subordonnée complétive : il s’agit de la polysémie lexicale, qui peut être forte ou faible. D’un autre point de vue, certains verbes à l’indicatif/subjonctif dans la subordonnée modifient plus ou moins légèrement le sens de la phrase entière : on considère ici cela comme un cas de polysémie syntaxique ou grammaticale, étant donné que ces verbes apparaissent dans diverses structures et modalités.