logoJEPTALNRECITAL2016

JEP-TALN-RECITAL 2016, Paris, France

23ème Conférence sur le Traitement Automatique des Langues Naturelles
31ème Journées d’Études sur la Parole
18ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues

Inalco, Paris, 4-8 Juillet 2016

JEP : Programme détaillé

Langues - Mardi 11h30-12h30 (Oral1) - amphi 6

Président de session : Rachid Ridouane

  • Allophonie et position dans la syllabe: Le cas des consonnes laterales
    Anisia Popescu and Ioana Chitoran
    Abstract: L’article traite de la manifestation acoustique de l’allophonie des consonnes latérales en fonction de la position syllabique et de la complexité phonotactique. Nous avons considéré à la fois des mesures classiques (valeurs formantiques et équations locus) ainsi que des nouveaux paramètres (ratio d’intensité et présence/absence de relâchements) pour, d’une part, classifier les allophones des deux langues considérées et d’autre part déterminer les indices acoustiques des gestes articulatoires des consonnes latérales. Les résultats indiquent des différences importantes inter-langues. On montre que la distribution des allophones n’est pas binaire, mais graduée et que le statut du geste dorsal peut être considéré comme un marqueur de « degré de clarté ». On montre aussi que l’allophonie dépend de la position syllabique mais pas forcément de la complexité syllabique.
  • Variabilité du geste palatal : effet du locuteur, de la structure syllabique et de l'accent sur différents types de consonnes en russe
    Ekaterina Biteeva Lecocq, Nathalie Vallée, Silvain Gerber and Christophe Savariaux
    Abstract: Les linguistes se sont régulièrement penchés sur la description du trait consonantique [+palatal] ; pourtant, le manque de données expérimentales constitue un obstacle au classement des consonnes concernées. Peu de travaux ont abordé la question du contrôle du geste lingual dans l’articulation palatale. Cependant, ils montrent que celui-ci semble bien plus complexe que dans d’autres consonnes. En russe, la plupart des consonnes possèdent une contrepartie palatalisée ce qui permet d’étudier les différences de réalisation du trait palatal au sein du même système. Nous proposons ici, à partir de données acquises avec un articulographe électromagnétique, de caractériser la variabilité du geste palatal impliqué dans la réalisation de différents types de consonnes palatalisées et pré-palatales du russe en fonction des facteurs locuteur, accent et structure syllabique.
  • Structure prosodique des langues romanes
    Philippe Martin
    Abstract: La description phonologique de la structure prosodique des langues romanes apparait similaire lorsque les interactions entre les accents mélodiques est prise en compte (ce qui n’est pas le cas dans la théorie autosegmentale-métrique). L’analyse acoustique de plus de 2600 énoncés lus et spontanés suggère que la réalisation des accents mélodiques, décrits en termes de contours mélodiques plutôt que de cibles tonales, indiquent avec les contours de frontière, des relations de dépendance « vers la droite » entre groupes accentuels. Ces relations permettent par incrémentation successive dans l’axe du temps la reconstitution par l’auditeur de la structure prosodique voulue par le locuteur. Dans ce cadre théorique, les langues romanes (italien, espagnol, catalan, portugais, roumain) utilisent les mêmes contours phonologiques pour indiquer les relations de dépendance menant au codage de la structure prosodique. Le français, dépourvu d’accent lexical, utilise un système de contours différent.

Traitement de la diversité - Mardi 14h00-16h00 (Oral2) - amphi 6

Président de session : Thomas Pellegrini

  • Détection automatique d'anomalies sur deux styles de parole dysarthrique: parole lue vs spontanée
    Imed Laaridh, Corinne Fredouille and Meunier Christine
    Abstract: L'évaluation perceptive de la parole pathologique reste le standard dans la pratique clinique pour le diagnostic et le suivi des patients. De telles méthodes incluent plusieurs tâches telles que la lecture, la parole spontanée, le chant, les mots isolés, la voyelle tenue, etc.
    Dans ce contexte, les outils de traitement automatique de la parole ont montré leur pertinence dans l'évaluation de la qualité de parole ainsi que dans le cadre de la communication améliorée et alternative (CAA) pour les patients atteints de troubles de parole. Cependant, peu de travaux ont étudié l'utilisation de ces outils sur la parole spontanée. Ce papier examine le comportement d'un système de détection automatique d'anomalies au niveau phonème face à la parole dysarthrique lue et spontanée. Le comportement du système révèle une variabilité inter-pathologique à travers les styles de parole.
  • Cartopho : un site web de cartographie de variantes de prononciation en français
    Philippe Boula de Mareüil, Jean-Philippe Goldman, Albert Rilliard, Yves Scherrer and Frédéric Vernier
    Abstract: Le présent travail se propose de renouveler les traditionnels atlas dialectologiques pour cartographier les variantes de prononciation en français, à travers un site internet. La toile est utilisée non seulement pour collecter des données, mais encore pour disséminer les résultats auprès des chercheurs et du grand public. La méthodologie utilisée, à base de crowdsourcing (ou « production participative »), nous a permis de recueillir des informations auprès d’un millier de francophones d’Europe (France, Belgique, Suisse). Une plateforme dynamique à l’interface conviviale a ensuite été développée pour cartographier la prononciation de 70 mots dans les différentes régions des pays concernés (des mots notamment à voyelle moyenne ou dont la consonne finale peut être prononcée ou non). Les options de visualisation par département/canton/province ou par région, combinant plusieurs traits de prononciation et ensembles de mots, sous forme de pastilles colorées, de hachures, etc. sont présentées dans cet article. On peut ainsi observer immédiatement un /E/ plus fermé (ainsi qu’un /O/ plus ouvert) dans le Nord-Pas-de-Calais et le sud de la France, pour des mots comme parfait ou rose, un /Œ/ plus fermé en Suisse pour un mot comme gueule, par exemple.
  • Adaptation de la prononciation pour la synthèse de la parole spontanée en utilisant des informations linguistiques
    Raheel Qader, Gwénolé Lecorvé, Damien Lolive and Pascale Sébillot
    Abstract: Cet article présente une nouvelle méthode d'adaptation de la prononciation dont le but est de reproduire le style spontané. Il s'agit d'une tâche-clé en synthèse de la parole car elle permet d'apporter de l'expressivité aux signaux produits, ouvrant ainsi la voie à de nouvelles applications.
    La force de la méthode proposée est de ne s'appuyer que sur des informations linguistiques et de considérer un cadre probabiliste pour ce faire, précisément les champs aléatoires conditionnels.
    Dans cet article, nous étudions tout d'abord la pertinence d'un ensemble d'informations pour l'adaptation, puis nous combinons les informations les plus pertinentes lors d'expériences finales. Les évaluations de la méthode sur un corpus de parole conversationnelle en anglais montrent que les prononciations adaptées reflètent significativement mieux un style spontané que les prononciations canoniques.
  • Répartition des phonèmes réduits en parole conversationnelle. Approche quantitative par extraction automatique
    Meunier Christine and Brigitte Bigi
    Abstract: Cette étude vise à mieux comprendre la répartition des réductions phonétiques présentes dans la production de parole. Nous avons sélectionné l’ensemble des phonèmes les plus courts (30ms) à partir de l’alignement d’un corpus de parole conversationnelle. Cette version contenant uniquement les phonèmes courts (V1) est comparée à la version contenant l’alignement de tous les phonèmes du corpus (V0). Les deux versions sont mises en relation avec l’annotation des mots et de leur catégorie syntaxique. Les résultats montrent que les liquides, les glissantes et les voyelles fermées sont plus représentées dans V1 que dans V0. Par ailleurs, la nature et la catégorie syntaxique des mots modulent la distribution des phonèmes en V1. Ainsi, la nature instable du /l/, ainsi que sa présence dans de très nombreux pronoms et déterminants, en fait le phonème le plus marqué par la réduction. Enfin, la fréquence des mots semble montrer des effets contradictoires.
  • Que nous apprennent les gros corpus sur l’harmonie vocalique en français ?
    Giuseppina Turco, Cécile Fougeron and Nicolas Audibert
    Abstract: Afin de mieux identifier le poids relatif des différents facteurs décrits dans la littérature comme influençant le phénomène d’harmonie vocalique (HV) en français, 33k mots extraits de deux corpus de parole continue et présentant un contexte d’HV possible V1C(C)V2 (V1∈{e,ɛ,o,ɔ}) sont analysés. Le degré d’HV est mesuré en termes d’abaissement du F1 de V1 induit par la présence d’une V2 /+haut/ (fermée ou mi-fermée) par rapport à une V2 /-haut/ (ouverte ou mi-ouverte). Les résultats montrent une HV plus importante pour les voyelles moyennes postérieures que pour les antérieures, et plus faible lorsque l’orthographe favorise une prononciation mi-fermée de V1. Comme attendu, l’HV est plus forte quand V1 est séparé de V2 par une consonne labiale vs. linguale ou par un cluster consonantique sous-jacent vs. un cluster résultant de la chute d’un schwa. En revanche, le style de parole (conversationnelle vs. journalistique) a un effet plus nuancé que celui attendu.
  • Un Corpus de Flux TV Annotés pour la Prédiction de Genres
    Mohamed Bouaziz, Mohamed Morchid, Richard Dufour, Georges Linarès and Prosper Correa
    Abstract: Cet article présente une méthode de prédiction de genres d'émissions télévisées couvrant 2 jours de diffusion de 4 chaînes TV françaises structurés en émissions annotées en genres.
    Ce travail traite des médias de masse de flux de chaînes télévisées et rejoint l'effort global d'extraction de connaissance à partir de cette grande quantité de données produites continuellement.
    Le corpus employé est fourni par l'entreprise EDD, anciennement appelée "L’Européenne de Données", une entreprise spécialisée dans la gestion des flux multimédias.
    Les expériences détaillées dans ce papier montrent qu'une approche simple fondée sur un modèle de n-grammes permet de prédire le genre d'une émission selon un historique avec une précision avoisinant les 50%.

La parole dans tous ses états 1 - Mercredi 9h00-10h00 (Oral3) - amphi 6

Présidente de session : Véronique Delvaux

  • Perception audio-visuelle de séquences VCV produites par des personnes porteuses de Trisomie 21 : une étude préliminaire
    Alexandre Hennequin, Amélie Rochet-Capellan and Marion Dohen
    Abstract: La parole des personnes avec trisomie 21 (T21) présente une altération systématique de l’intelligibilité qui n’a été quantifiée qu’auditivement. Or la modalité visuelle pourrait améliorer l’intelligibilité comme c’est le cas pour les personnes « ordinaires » 1. Cette étude compare la manière dont 24 participants ordinaires perçoivent des séquences VCV voyelle-consonne-voyelle) produites par quatre adultes (2 avec T21 et 2 ordinaires) et présentées dans le bruit en modalités auditive, visuelle et audiovisuelle. Les résultats confirment la perte d’intelligibilité en modalité auditive pour les personnes avec T21. Pour les deux locuteurs impliqués, l’intelligibilité visuelle est néanmoins équivalente à celle des deux locuteurs ordinaires et compensent le déficit d’intelligibilité auditive. Ces résultats suggèrent l’importance d’intégrer la multimodalité pour améliorer l’intelligibilité des personnes avec T21.
  • Perception et production de voyelles de l’anglais par des apprenants francophones : effet d’entraînements en perception et en production
    Jennifer Krzonowski, Emmanuel Ferragne and François Pellegrino
    Abstract: Cette étude propose de tester l’effet de deux entraînements, en perception et en production, sur l’acquisition de voyelles de l’anglais britannique par des francophones. L’étude se focalise sur deux régions de l’espace acoustique pour lesquelles plusieurs catégories phonologiques existent en anglais alors qu’une seule existe en français. Trois groupes ont été constitués : l’un recevant un entraînement de type High Variability Perceptual Training, un second recevant un entraînement en production et le troisième constituait un groupe contrôle ne recevant pas d’entraînement. Les performances des participants ont été évaluées avant et après entraînement en perception et en production. Les résultats semblent montrer un effet de l’entraînement en perception sur les performances en perception et en production et un effet plus restreint de l’entraînement en production. Mais leur interprétation reste difficile du fait d’un effet test/re-test observé sur le groupe contrôle.
  • Effort produit et ressenti selon le voisement en français
    Camille Robieux, Thierry Legou, Yohann Meynadier and Meunier Christine
    Abstract: Les muscles laryngés et articulatoires sont impliqués dans la réalisation des traits qui distinguent les phonèmes. Cette étude porte sur l’auto-perception par les locuteurs et la répartition de l’effort vocal et articulatoire en fonction du trait de voisement en parole modale comparée à la parole chuchotée en français. Pour les 12 obstruantes du français, l’effort est ressenti plus important pour les voisées que les non voisées correspondantes, excepté dans le cas des fricatives labiodentales. Les analyses de la production des occlusives bilabiales montrent que l’effort laryngé est supérieur pour les consonnes voisées et l’effort articulatoire supérieur pour les non voisées, mais l’inverse pour les fricatives. Ces résultats indiquent que l’effort ressenti lors de sa propre production repose sur une perception prédominante de l’effort laryngé sur l’effort articulatoire en voix modale comme en voix chuchotée ; mais qu’il est cependant modulé selon le lieu et le mode d’articulation des consonnes.

La parole dans tous ses états 2 - Mercredi 10h30-12h30 (Oral4) - amphi 6

Présidente de session : Véronique Delvaux

  • Étude de la contribution acoustique de la structure formantique à la perception du ton chuchoté
    Zhang Xuelu and Rudolph Sock
    Abstract: Cette étude contribue à exploiter la contribution de la structure formantique du segment vocalique à la perception du ton que le segment porte, et ce en voix chuchotée. Le mandarin a été choisi en tant que langue cible, pour la raison que les traits tonals (tone features) dans le mandarin s’appuient acoustiquement sur deux dimensions: registre et contour. Nous supposons qu’en l’absence du F0, la structure formantique subit toujours une modification en fonction du ton et fournit des indices acoustiques des traits tonals à l’auditeur. Nous nous intéressons aux rapports entre les deux dimensions musicales et la modification la structure formantique. À travers l’analyse des données acoustiques issues de 13 locutrices, nous avons observé une divergence d’importance dans les intervalles F2-F3 et F3-F4 en fonction du ton. Cette divergence semble liée aux contrastes tonals en registre et non au contour mélodique. Elle dépend d’ailleurs de la nature de voyelle.
  • Variation prosodique et traduction poétique (LSF/français) : Que devient la prosodie lorsqu’elle change de canal ?
    Fanny Catteau, Marion Blondel, Coralie Vincent, Patrice Guyot and Dominique Boutet
    Abstract: L’étude de la prosodie des langues vocales repose en partie sur la mesure des paramètres de durée, d’intensité et de fréquence sonores. Les langues des signes, quant à elles, empruntent le canal visuo-gestuel et mobilisent des articulateurs manuels et non manuels (buste, tête, éléments du visage). Notre étude a pour objectif d’établir des outils permettant de comparer, au niveau prosodique, la traduction en français de séquences poétiques et la version originale en langue des signes française (LSF). Nous avons recueilli des données vidéo augmentées de capture de mouvement – qui offrent plusieurs pistes d’exploration des paramètres prosodiques pour la LSF – ainsi que des données audio des traductions en français – qui révèlent les stratégies des interprètes pour interpréter la variation prosodique.
  • Stress, charge cognitive et signal de parole : étude exploratoire auprès de pilotes de chasse.
    Stavaux Luc, Véronique Delvaux, Kathy Huet, Myriam Piccaluga and Bernard Harmegnies
    Abstract: Cet article traite des effets de la charge cognitive sur la fréquence fondamentale de pilotes de F-16 placés dans un scénario de vol de nuit. La charge cognitive a été estimée à l’aide de paramètres liés à la tâche (hétéro-évaluation), à l’individu (anxiété, auto-évaluation du stress ressenti) et à la situation (simulation contrôlée). Nos résultats montrent que l’écart mélodique est un bon candidat pour évaluer le niveau de la charge cognitive, même si la relation entre eux présente des profils individuels spécifiques. La création d’une typologie des situations de communication, l’adjonction d’autres indices acoustiques et le croisement avec des données physiologiques constituent les perspectives de cette étude.
  • De bé à bébé : le transfert d'apprentissage auditori-moteur pour interroger l'unité de production de la parole
    Tiphaine Caudrelier, Amélie Rochet-Capellan, Pascal Perrier and Jean-Luc Schwartz
    Abstract: La parole est souvent décrite comme une mise en séquence d’unités associant des représentations linguistiques, sensorielles et motrices. Le lien entre ces représentations se fait-il de manière privilégiée sur une unité spécifique ? Par exemple, est-ce la syllabe ou le mot ? Dans cette étude, nous voulons contraster ces deux hypothèses. Pour cela, nous avons modifié chez des locuteurs du français la production de la syllabe « bé », selon un paradigme d’adaptation auditori-motrice, consistant à perturber le retour auditif. Nous avons étudié comment cette modification se transfère ensuite à la production du mot « bébé ». Les résultats suggèrent un lien entre représentations linguistiques et motrices à plusieurs niveaux, à la fois celui du mot et de la syllabe. Ils montrent également une influence de la position de la syllabe dans le mot sur le transfert, qui soulève de nouvelles questions sur le contrôle sériel de la parole.
  • Accès lexical et reconnaissance du voisement en voix chuchotée
    Yohann Meynadier and Sophie Dufour
    Abstract: La reconnaissance du trait de voisement de consonnes obstruantes chuchotées en français a été examinée via un paradigme d’amorçage sémantique auditif-visuel. Un effet d’amorçage d’amplitude similaire à celui observé en voix modale a été observé uniquement lorsque l’obstruante du mot amorce chuchoté est sourde (dessert-CHOCOLAT). Aucun effet d’amorçage n’a été observé quand l’obstruante du mot amorce est voisée (désert) que ce soit sur le mot-cible SABLE associé sémantique de désert ou sur le mot cible CHOCOLAT associé sémantique de dessert. Ainsi, même si certaines études ont montré qu’en voix chuchotée les consonnes obstruantes voisées maintiennent des traces phonétiques de leur identité sous-jacente, notre étude montre que ces consonnes sont ambigües pour l’auditeur et que leur reconnaissance n’est pas immédiate.
  • Dénomination d’image versus détection interne de phonème : deux méthodes pour étudier la planification de la production de parole
    Pierre Hallé, Laura Manoiloff and Juan Segui
    Abstract: Cette étude est motivée initialement par une question méthodologique : la validité des mesures de temps de dénomination d’image, très utilisés pour explorer les processus de planification de la production de parole. Idéalement, le temps de dénomination est le temps écoulé entre affichage de l’image et début acoustique de la réponse verbale. Dans cet article, nous résumons la littérature sur les inconvénients de cette mesure. Nous présentons ensuite notre étude, qui compare directement temps de dénomination d’image et temps de détection interne de phonème initial. Les sujets sont hispanophones. Les noms d’image sont contrastés en fréquence lexicale et phonème initial. Les temps de réponse pour les deux mesures sont très proches. Cependant, ceux de détection de phonème sont insensibles au type de phonème initial, contrairement aux temps de dénomination. Au delà de l’avantage méthodologique de la détection de phonème, nos données suggèrent que celle-ci opère sur des représentations relativement abstraites.

Session commune JEP/TALN 1 - Mercredi 14h00-15h40 (SC1) - amphi 4

Président de session : Laurent Besacier

  • Auto-encodeurs pour la compréhension de documents parlés (JEP)
    Killian Janod, Mohamed Morchid, Richard Dufour, Georges Linarès and Renato De Mori
    Abstract: Les représentations de documents au moyen d'approches à base de réseaux de neurones ont montré des améliorations significatives dans de nombreuses tâches du traitement du langage naturel. Dans le cadre d'applications réelles, où des conditions d'enregistrement difficiles peuvent être rencontrées, la transcription automatique de documents parlés peut générer un nombre de mots mal transcrits important. Cet article propose une représentation des documents parlés très bruités utilisant des caractéristiques apprises par un auto-encodeur profond supervisé. La méthode proposée s'appuie à la fois sur les documents bruités et leur équivalent propre annoté manuellement pour estimer une représentation plus robuste des documents bruités. Cette représentation est évaluée sur le corpus DECODA sur une tâche de classification thématique de conversations téléphoniques atteignant une précision de 83% avec un gain d'environ 6%.
  • Comparaison d'approches de classification automatique des actes de dialogue dans un corpus de conversations écrites en ligne sur différentes modalités (TALN)
    Soufian Salim, Nicolas Hernandez and Emmanuel Morin
    Abstract: L'analyse des conversations écrites porteuses de demandes d'assistance est un enjeu important pour le développement de nouvelles technologies liées au support client. Dans cet article, nous nous intéressons à l'analyse d'un même type d'échange sur un canal différent : les conversations se déroulant sur les plate-formes d'entraide entre utilisateurs. Nous comparons des approches de classification supervisées sur trois modalités des CMR différentes à même thématique : des courriels, forums et chats issus de la communauté Ubuntu. Le système emploie une taxonomie fine basée sur le schéma DIT++. D'autres expériences sont détaillées, et nous rapportons les résultats obtenus avec différentes approches et différents traits sur les différentes parties de notre corpus multimodal.
  • Utilisation des représentations continues des mots et des paramètres prosodiques pour la détection d’erreurs dans les transcriptions automatiques de la parole (JEP)
    Sahar Ghannay, Yannick Estève, Nathalie Camelin, Camille Dutrey, Fabian Santiago and Martine Adda-Decker
    Abstract: Récemment, l'utilisation des représentations continues de mots a connu beaucoup de succès dans plusieurs tâches de traitement du langage naturel.
    Dans ce papier, nous nous proposons d'étudier leur utilisation pour la tâche de détection des erreurs de transcriptions automatiques de la parole.
    Dans une architecture neuronale, nous les avons intégrés et évalués, en plus des paramètres classiques (lexicales, syntaxiques,etc.), et d'un ensemble de paramètres prosodiques .
    De plus, la principale contribution de cet article porte sur la combinaison de différentes représentations : plusieurs approches de combinaison sont proposées et évaluées afin de tirer profit de leur complémentarité.
    Les expériences sont effectuées sur des transcriptions automatiques du corpus ETAPE générées par le système de reconnaissance automatique du LIUM.
    Les résultats obtenus sont meilleurs que ceux d'un système état de l'art basé sur les champs aléatoires conditionnels.
    Pour terminer, nous montrons que la mesure de confiance produite est bien calibrée selon une évaluation en terme d'Entropie Croisée Normalisée.
  • Détection de concepts pertinents pour le résumé automatique de conversations par recombinaison de patrons (TALN)
    Jérémy Trione, Benoit Favre and Frederic Bechet
    Abstract: Ce papier décrit une approche pour créer des résumés de conversations parlées par remplissage de patrons. Les patrons sont générés automatiquement à partir de fragments généralisés depuis un corpus de résumés d'apprentissage. Les informations nécessaires pour remplir les patrons sont détectés dans les transcriptions des conversations et utilisés pour sélectionner les fragments candidats. L'approche obtient un score ROUGE-2 de 0.116 sur le corpus RATP-DECODA. Les résultats obtenus montrent que cette approche abstractive est plus performante que les approches extractives utilisées habituellement dans le domaine du résumé automatique.

Session commune JEP/TALN 2 - Mercredi 16h10-17h00 (SC2) - amphi 4

Président de session : Benoît Favre

  • Étude des réseaux de neurones récurrents pour étiquetage de séquences (TALN)
    Marco Dinarelli and Isabelle Tellier
    Abstract: Dans cet article nous étudions plusieurs types de réseaux neuronaux récurrents (RNN) pour l’étiquetage
    de séquences. Nous proposons deux nouvelles variantes de RNN et nous les comparons
    aux variantes plus classiques de type Jordan et Elman. Nous expliquons en détails quels sont les
    avantages de nos nouvelles variantes par rapport aux autres RNN. Nous évaluons tous les modèles,
    les nouvelles variantes ainsi que les RNN existants, sur deux tâches de compréhension de la parole :
    ATIS et MEDIA. Les résultats montrent que nos nouvelles variantes de RNN sont plus efficaces que
    les autres.
  • Estimation de la qualité d'un système de reconnaissance de la parole pour une tâche de compréhension (JEP)
    Olivier Galibert, Nathalie Camelin, Paul Deléglise and Sophie Rosset
    Abstract: Dans ce travail, nous nous intéressons à l'évaluation de la qualité des systèmes de reconnaissance de la parole étant donné une tâche de compréhension. L'objectif de ce travail est de pouvoir fournir un outil permettant la sélection d'un système de reconnaissance automatique de la parole le plus adapté pour un système de dialogue donné. Nous utilisons dans cette étude différentes métriques, notamment le WER, NE-WER, et ATENE métrique proposée récemment pour l'évaluation des systèmes de reconnaissance de la parole étant donné une tâche de reconnaissance d'entités nommées. Cette dernière métrique montrait une meilleure corrélation avec les résultats de la tâche globale que toutes les autres métriques testées. Nos mesures indiquent une très forte corrélation avec la mesure ATENE et une moins forte avec le WER.

Synthèse - Mercredi 17h00-18h00 (Oral5) - amphi 6

Président de session : Gwénolé Lecorvé

  • De l'utilisation de descripteurs issus de la linguistique computationnelle dans le cadre de la synthèse par HMM
    Sébastien Le Maguer, Bernd Moebius, Ingmar Steiner and Damien Lolive
    Abstract: Durant les dernières décennies, la modélisation acoustique effectuée par les systèmes de synthèse de parole paramétrique a fait l'objet d'une attention particulière.
    Toutefois, dans la plupart des systèmes connus, l'ensemble des descripteurs linguistiques utilisés pour représenter le texte reste identique.
    Plus specifiquement, la modélisation de la prosodie reste guidée par des descripteurs de bas niveau comme l'information d'accentuation de la syllabe ou bien l'étiquette grammaticale du mot.
    Dans cet article, nous proposons d'intégrer des informations basées sur la prédictabilité d'un évènement (la syllabe ou le mot).
    Plusieurs études indiquent une corrélation forte entre cette mesure, fortement présente dans la linguistique computationnelle, et certaines spécificités lors de la production humaine de la parole.
    Notre hypothèse est donc que l'ajout de ces descripteurs améliore la modélisation de la prosodie.
    Cet article se focalise sur une analyse objective de l'apport de ces descripteurs sur la synthèse HMM pour la langue anglaise et française.
  • Patrons Rythmiques et Genres Littéraires en Synthèse de la Parole
    Elisabeth Delais-Roussarie, Damien Lolive, Hiyon Yoo and David Guennec
    Abstract: Au cours des vingt dernières années, la qualité de la parole synthétique a été améliorée, grâce notamment à l’émergence de nouvelles techniques telles la synthèse de parole par corpus. Cependant, les patrons rythmiques obtenus ne sont pas toujours perçus comme très naturels. Dans ce papier, nous comparons les patrons rythmiques observés en parole naturelle et synthétique pour trois genres littéraires. Le but de ce travail est d'appréhender comment le rythme pourrait être amélioré en synthèse de parole. La comparaison des patrons rythmiques est réalisée grâce à une analyse de la durée par rapport à la structure prosodique, sur corpus composé de six comptines, quatre poèmes et deux extraits de conte. Ce travail laisse penser que les différences rythmiques entre naturel et synthétique sont principalement dues au marquage de la structure prosodique, particulièrement au niveau des groupes intonatifs. De fait, le taux d’allongement des syllabes accentuées en fin de groupes intonatifs est beaucoup plus important en synthèse que dans la parole naturelle.
  • Se concentrer sur les différences : une méthode d'évaluation subjective efficace pour la comparaison de systèmes de synthèse
    Jonathan Chevelu, Damien Lolive, Sébastien Le Maguer and David Guennec
    Abstract: En proposant une nouvelle approche de synthèse de la parole, les études comportent généralement une évaluation subjective d'échantillons acoustiques produits par un système de référence et un nouveau système.
    Ces échantillons sont réalisés à partir d'un petit ensemble de phrases choisies aléatoirement dans un unique domaine.
    Ainsi, statistiquement, des échantillons pratiquement identiques sont présentés et réduisent les écarts de mesure entre les systèmes, au risque de les considérer comme non significatifs.
    Pour éviter cette problématique méthodologique, nous comparons deux systèmes sur des milliers d'échantillons de différents domaines.
    L'évaluation est réalisée uniquement sur les paires d'échantillons les plus pertinentes, c'est-à-dire les plus différentes acoustiquement.
    Cette méthode est appliquée sur un système de synthèse de type HTS et un second par sélection d'unités.
    La comparaison avec l'approche classique montre que cette méthode révèle des écarts qui jusqu'alors n'étaient pas significatifs.

Adaptation - Jeudi 9h00-10h00 (Oral6) - amphi 6

Président de session : Jean-Luc Schwartz

  • Accommodation temporelle chez l'enfant dans une tâche de parole alternée
    Céline Hidalgo, Simone Falk and Daniele Schön
    Abstract: L'accommodation temporelle est un phénomène de subtile synchronisation qui se met en place lors d'une interaction entre deux interlocuteurs. Ce phénomène, permettant le développement de processus prédictifs, jouerait un rôle important dans la compréhension des messages échangés et faciliterait ainsi la fluidité des échanges. Cette étude se propose d'examiner ces capacités chez l'enfant âgé de 5 à 6 ans grâce au développement d'une nouvelle tâche de dénomination en alternance avec un partenaire virtuel. Les variables temporelles analysées sont le tempo de l'alternance (lent versus rapide) et la rythmicité des mots échangés (constante versus aléatoire). Les résultats montrent que les enfants sont plus précis dans la condition de tempo rapide que dans la condition lente et qu'ils sont plus réguliers dans la condition où les listes de mots ont une rythmicité constante plutôt qu'aléatoire. Ces résultats constituent une base pour mesurer les capacités linguistiques d'accommodation temporelle d'autres populations d'enfants (ex.cliniques).
  • Quelle(s) mesure(s) de similarité prosodique comme évaluation de l’imitation ?
    Olivier Nocaudie and Corine Astésano
    Abstract: La performance imitative des locuteurs varie de celle du professionnel, expert, à celle du naïf, plus ou moins talentueux. L’étude de l’imitation souligne la difficulté pour trouver des indices mesurables de la réussite d’une imitation. Dans cette étude exploratoire, des contours de f0 recueillis au fil de tâches d’imitation sont testés au moyen d’une double approche : mesure objective par le biais de deux mesures de la similarité prosodique reportées dans la littérature et évaluation perceptive par un panel de 15 d’auditeur naïfs. Nos premiers résultats indiquent une bonne corrélation entre les deux approches et soulèvent la question du choix de l’indice mesurable qui rendrait le mieux compte d’une imitation au niveau tonal. Ils soulignent également la variabilité interindividuelle des comportements imitatifs en parole tout en ouvrant des perspectives intéressantes dans le domaine de la formation à la phonétique corrective par la Méthode Verbo-tonale.

    Imitative proficiency across speakers is highly variable. Studies on imitation underlines how difficult it is to find measurable cues in order to assess a successful imitation. In this exploratory study, f0 contours stem from imitations tasks are tested in a double approach: objective measurements of prosodic similarity using two measures reported in the literature and perceptive evaluation by a panel of 15 naïve listeners. Our first results indicate a good correlation between the two approaches and they raise the question concerning the selection of the measurable factor assessing a successful imitation at a tonal level. Meantime, these results underline an imitative proficiency’s variability across speakers while opening perspectives in the domain of phonetic correction using the Verbo Tonal Method.
  • Entraînements à la prosodie des questions ouvertes et fermées de l’anglais chez des apprenants francophones
    Anne Guyot-Talbot, Karin Heidlmayr and Emmanuel Ferragne
    Abstract: Des étudiants en anglais étaient invités à lire trois types de phrases : assertions, questions fermées et ouvertes. Ils étaient ensuite soumis à 3 sessions d’entraînements où ils devaient répéter des phrases interrogatives prononcées par une anglophone. Après chaque phrase, leur contour de F0 sur la syllabe portant le noyau intonatif ainsi que celui de la locutrice anglaise étaient affichés à l’écran. Ces sessions devaient leur permettre d’inférer une règle du système intonatif de l’anglais qui induit, par défaut, un contour montant pour les questions fermées et un contour descendant pour les questions ouvertes. Puis, une nouvelle séance d’enregistrements permettait de collecter des phrases à comparer au pré-test pour juger l’efficacité de l’entraînement. Les résultats montrent une réduction significative de la distance entre les contours mélodiques des apprenants du groupe test et ceux de la locutrice modèle entre pré-test et post-test, ce qui suggère un effet bénéfique de nos entrainements.

Poster 1 - Jeudi 10h30-12h30 (P1) - salles 3.14 à 3.19

Président de session : Sébastien Le Maguer

  • Réalisation phonétique et contraste phonologique marginal : une étude automatique des voyelles du roumain
    Vasilescu Ioana, Renwick Margaret, Dutrey Camille, Lamel Lori and Vieru Bianca
    Abstract: Cet article est dédié à l'analyse des traits acoustiques et prosodiques de l'inventaire vocalique roumain dans la parole continue, comparés à des prononciations canoniques, enregistrées en laboratoire. Les objectifs sont : (1) décrire les particularités acoustico-prosodiques des voyelles dans la parole continue par rapport à des réalisations "prototypiques" ; (2) estimer l'impact des traits observés sur les contrastes phonémiques de la langue ; (3) estimer dans quelle mesure l'étude de l'oral apporte des éclairages au sujet des attributs phonémiques des voyelles centrales [ʌ] et [ɨ], dont le statut de phonèmes vs allophones reste controversé. Nous montrons que les traits acoustiques sont comparables pour la parole journalistique vs contrôlée pour l'ensemble de l'inventaire sauf [ʌ] et [ɨ]. Les timbres [ʌ] et [ɨ] sont distincts dans la parole contrôlée mais confondus en faveur du timbre [ʌ] à l'oral. La confusion de timbres n'entraîne pas inintelligibilité car [ʌ] et [ɨ] se retrouvent en distribution quasi-complémentaire. Ce résultat apporte des éclairages sur la question du contraste phonémique graduel et en l'occurrence marginal (Goldsmith,1995; Scobbie & Stuart-Smith, 2008; Hall, 2013.
  • Préservation du pattern syllabique iambique dans la production des locuteurs dysarthriques
    Laurianne Georgeton and Meunier Christine
    Abstract: Ce travail vise à évaluer une éventuelle dégradation du pattern rythmique iambique dans la production de locuteurs atteints de différents types de dysarthrie. Ce pattern se traduit par une structure court-long dans les mots dissyllabiques. Cette structure est très robuste en français aussi bien en production qu’en perception. Par ailleurs, chez des locuteurs dysarthriques, des perturbations prosodiques et donc rythmiques sont souvent observées. Ainsi, ces patients peuvent-ils maintenir ce pattern iambique dans leurs productions? Les résultats montrent que le pattern rythmique iambique est bien conservé chez toutes les populations dysarthriques aussi bien en lecture qu’en parole spontanée. Ce pattern est en général plus marqué en spontané qu’en lecture et la population contrôle se démarque des populations dysarthriques par un pattern plus marqué en lecture, mais plus encore en spontané. Ce pattern rythmique semble donc robuste même s’il semble être affecté quand la sévérité de la maladie augmente.
  • Rôle des contextes lexical et post-lexical dans la réalisation du schwa : apports du traitement automatique de grands corpus
    Yaru Wu, Martine Adda-Decker and Cécile Fougeron
    Abstract: Le rôle du contexte est connu dans la réalisation ou non du schwa en français. Deux grands corpus oraux de parole journalistique (ETAPE) et de parole familière (NCCFr), dans lesquels la realisation de schwa est déterminée à partir d’un alignement automatique, ont été utilisés pour examiner la contribution du contexte au sein du mot contenant schwa (lexical) vs. au travers de la frontière avec le mot précédent (post-lexical). Nos résultats montrent l'importance du contexte pré-frontière dans l'explication de la chute du schwa dans la première syllabe d’un mot polysyllabique en parole spontanée. Si le mot précédant se termine par une consonne, nous pouvons faire appel à la loi des trois consonnes et au principe de sonorité pour expliquer des différences de comportement en fonction de la nature des consonnes en contact.
  • Étude transversale du rythme de l’anglais chez des apprenants francophones
    Quentin Michardière, Anne Guyot-Talbot, Emmanuel Ferragne and François Pellegrino
    Abstract: Dans cette étude, nous avons demandé à 3 groupes d’étudiants en anglais (niveaux L1, L2 et L3) de lire un dialogue en anglais afin d’évaluer la possibilité d’une amélioration de leur production sur le plan du rythme en fonction de leur niveau universitaire. Le dialogue a également été lu par des anglophones, et une traduction du dialogue en français a été enregistrée par des francophones dans le but d’établir un espace de référence pour l’anglais L1 et le français L1. Nous avons employé des mesures classiques du rythme s’appuyant sur la durée, et avons également exploré la pertinence de mesures basées sur l’enveloppe d’amplitude et le spectre de cette enveloppe. Nous constatons un manque de fiabilité des mesures classiques du rythme, et proposons quelques pistes.
  • Perception des consonnes géminées en japonais langue étrangère par des apprenants francophones
    Akiko Takemura and Takeki Kamiyama
    Abstract: Cette étude propose de tester l’effet de deux entraînements, en perception et en production, sur l’acquisition de voyelles de l’anglais britannique par des francophones. L’étude se focalise sur deux régions de l’espace acoustique pour lesquelles plusieurs catégories phonologiques existent en anglais alors qu’une seule existe en français. Trois groupes ont été constitués : l’un recevant un entraînement de type High Variability Perceptual Training, un second recevant un entraînement en production et le troisième constituait un groupe contrôle ne recevant pas d’entraînement. Les performances des participants ont été évaluées avant et après entraînement en perception et en production. Les résultats semblent montrer un effet de l’entraînement en perception sur les performances en perception et en production et un effet plus restreint de l’entraînement en production. Mais leur interprétation reste difficile du fait d’un effet test/re-test observé sur le groupe contrôle.
  • Caractérisation statique et dynamique des voyelles dans des transitions V-to-V
    Julien Millasseau and Olivier Crouzet
    Abstract: Nous étudions les indices acoustiques liés à la caractérisation statique et / ou dynamique des voyelles du français. Nous avons analysé les caractéristiques formantiques de six réalisations vocaliques ainsi que les transitions formantiques de seize combinaisons V1V2 impliquant ces 6 voyelles afin d’évaluer les contributions des indices dynamiques liés aux transitions entre voyelles et aux indices statiques de fréquence. Les mesures correspondantes sont issues d’un protocole dans lequel le débit de parole était influencé expérimentalement afin de provoquer d’éventuelles variations de vitesse de transition. Les résultats ne permettent pas de départager ces deux hypothèses mais montrent que les indices dynamiques pourraient être aussi fiables que les mesures statiques. Des pistes d’extension de ce travail sont proposées qui pourraient contribuer de manière plus informative à cette problématique.
  • Modélisation bayésienne de la planification motrice des gestes de parole: Évaluation du rôle des différentes modalités sensorielles
    Jean-François Patri, Julien Diard and Pascal Perrier
    Abstract: La prise en compte des informations auditives et proprioceptives dans le contrôle de la parole est mise en évidence par un nombre croissant de résultats expérimentaux.
    Cependant, les modèles de production imposent le plus souvent l'une ou l'autre des modalités, ou n'offrent pas de cadre formel pour évaluer leurs contributions respectives.
    Nous proposons d'explorer le rôle de ces modalités sensorielles dans la planification des gestes de parole à partir d'un modèle bayésien représentant la structure des connaissances mises en jeu dans cette tâche. Le modèle permet d'envisager trois mécanismes de planification, reposant sur la modalité auditive, proprioceptive ou sur les deux conjointement. Nous comparons des simulations obtenues par les deux premiers mécanismes de planification. Les résultats indiquent des réalisations articulatoires différentes mais donnant néanmoins des réalisations auditives qualitativement similaires dans leur variabilité.
  • Que disents nos silences? Apport des données acoustiques, articulatoires et physiologiques pour l'étude des pauses silencieuses
    Lalain Muriel, Legou Thierry, Fauth Camille, Hirsch Fabrice and Didirkova Ivana
    Abstract: Si la rhétorique s’est intéressée très tôt à la pause, il a fallu attendre le XXème siècle pour que d’autres disciplines – la psycholinguistique, le traitement automatique des langues, la phonétique – accordent à ces moments de silence l’intérêt qu’ils méritent. Il a ainsi été montré que ces ruptures dans le signal acoustique, loin de signer une absence d’activité, constituaient en réalité le lieu d’une activité physiologique (la respiration) et/ou cognitive (planification du discours) qui participent tout autant au message que la parole elle-même.
    Dans cette étude pilote, nous proposons des observations et des pistes de réflexions à partir de l’analyse des pauses silencieuses dans un corpus de parole lue et semi dirigée. Nous mettons notamment en évidence l’apport de l’analyse conjointe de données acoustiques, articulatoires (EMA) et physiologiques (Biopac) pour l’identification, parmi les pauses silencieuses, des pauses respiratoires, syntaxiques et d’hésitation.
  • Dynamique phonétique et contrôle moteur dans la maladie de Parkinson: analyse du contrôle de la production des glides
    Virginie Roland, Véronique Delvaux, Kathy Huet, Myriam Piccaluga, Marie-Claire Haelewyck and Bernard Harmegnies
    Abstract: Nous nous interrogeons quant à la possibilité d’identifier les difficultés de contrôle du mouvement chez les personnes atteintes de la maladie de Parkinson (MP) à partir de l’étude de leurs comportements dans la production de sons de parole nécessitant des mouvements continus des articulateurs supralaryngés (logatomes VCV, où C est un glide). Notre hypothèse est que les parkinsoniens présentent des modifications dans leur dynamique de mouvement par rapport à des personnes sans pathologie lors de la production. A cette fin, sont étudiés des sons de parole recueillis hors contexte communicationnel auprès de neuf personnes porteuses de la MP et de dix sujets sains. Les analyses révèlent des différences entre les deux groupes, notamment en ce qui concerne l’espace articulatoire, l’amplitude des mouvements et leur localisation dans le plan F1-F2. On note par ailleurs qu’un point-cible est préservé lors de l’émission de logatomes : le centre du glide
  • Disfluences normales vs. Disfluences sévères : une étude acoustique
    Ivana Didirkova, Camille Fauth, Fabrice Hirsch, Giancarlo Luxardo and Sascha Diwersy
    Abstract: L'objectif de cette recherche est d'étudier les caractéristiques acoustiques et perceptives des disfluences normales et sévères. Pour ce faire, un jury d’auditeurs experts a relevé les disfluences sévères et normales de 4 locuteurs qui bégaient ainsi que les accidents de parole de 4 sujets normo-fluents. Une analyse acoustique portant sur des paramètres tels que la durée de la disfluence, le nombre de disfluences ou encore sur la présence d’éléments prosodiques particuliers a été menée sur les seules disfluences ayant été relevés par l’ensemble du jury. Nos résultats montrent que si les prolongations et les répétitions sont bien évidemment catégorisées comme sévères respectivement en fonction de leur durée et du nombre d’éléments réitérés, d’autres paramètres sont également significatifs, tels que la présence ou non d’une tension audible, le type d’éléments répétés ou encore le fait que la syllabe soit ou non clivée.
  • Exploration de paramètres acoustiques dérivés de GMM pour l'adaptation non supervisée de modèles acoustiques à base de réseaux de neurones profonds
    Natalia Tomashenko, Yuri Khokhlov, Anthony Larcher and Yannick Estève
    Abstract: L'étude présentée dans cet article améliore une approche récemment proposée pour l'adaptation de modèles acoustiques markoviens couplés à un réseau de neurones profond (DNN-HMM). Cette technique d'adaptation utilise des paramètres acoustiques dérivés de Mixtures de Modèles Gaussiens (GMM-derived features, GMMD).

    L'amélioration provient de l'emploi de scores et de mesures de confiance calculés à partir de graphes construits dans le cadre classique de l'algorithme d'adaptation dit de maximum a posteriori (MAP).

    Une adaptation MAP modifiée est appliquée sur le modèle GMM auxiliaire utilisé dans une procédure de type apprentissage adaptatif au locuteur (speaker adaptative training, SAT) lors de l'apprentissage du DNN.

    Des expériences menées sur le corpus Wall Street Journal (WSJ0) montrent que la technique d'adaptation non supervisée proposée dans cet article permet une réduction relative de 8,4% du taux d'erreurs sur les mots (WER), par rapport aux résultats obtenus avec des modèles DNN-HMM indépendants du locuteur utilisant des paramètres acoustiques plus conventionnels.
  • Le VOT des éjectives : le cas du maya yucatèque
    Emre Bayraktar and Rachid Ridouane
    Abstract: Cet article présente une étude acoustique des occlusives éjectives du maya yucatèque. S’intéressant spécifiquement au voice onset time (VOT), l’étude examine d’une part si le VOT est un corrélat acoustique fiable de l’éjectivité dans cette langue et d’autre part si le VOT varie selon le lieu d’articulation et la hauteur vocalique. Les résultats, obtenus à partir des productions de deux locuteurs natifs, montrent que les éjectives ont un VOT plus long comparées à leurs contreparties pulmonaires. Parmi les éjectives, le VOT varie en fonction du lieu d’articulation, les vélaires présentant le VOT le plus long. De même une tendance pour un VOT plus court devant les voyelles hautes a été observée. Ces résultats soulèvent un ensemble de questions concernant les mécanismes qui sous-tendent les variations du VOT, notamment en lien avec les contraintes aérodynamiques en jeu lors de la production des occlusives éjectives.
  • Production des voyelles parlées et chantées dans le Cantu in Paghjella
    Claire Pillot-Loiseau, Patrick Chawah, Angélique Amelot, Grégoire Bachman, Catherine Herrgott, Martine Adda-Decker and Lise Crevier-Buchman
    Abstract: Quelles sont les caractéristiques acoustiques et articulatoires des voyelles parlées et chantées du Cantu in Paghjella (polyphonie corse à trois voix), en fonction du chanteur, de la voyelle et de la fréquence fondamentale ? L’analyse acoustique des quatre premiers formants de la parole au chant et celle des mouvements articulatoires lingual et labial, montrent généralement (i) une significative augmentation de F1 avec abaissement lingual mais fermeture labiale, en lien avec une corrélation entre F0 et F1 ; (ii) une baisse de F2 pour les voyelles antérieures, une postériorisation linguale et un recul de l’ombre hyoïdienne uniquement pour le bassu ; (iii) une nette augmentation de F3 et F4 surtout chez le bassu ; (iv) une augmentation du Singing Power Ratio surtout chez les bassu et secunda. Ses valeurs sont toutefois inférieures à celles de chanteurs lyriques, et ne correspondant pas comme ces derniers à un rapprochement de F3 et F4.
  • Extraction automatique de contour de lèvre à partir du modèle CLNF
    Li Liu, Gang Feng and Denis Beautemps
    Abstract: In this paper a new approach to extract the inner contour of the lips of a speaker without using artifices is proposed. The method is based on a recent face contour extraction algorithm developed in computer vision. This algorithm, which is called Constrained Local Neural Field (CLNF), provides 8 characteristic points (landmarks) defining the inner contour of the lips. Applied directly to our audio-visual data of the speaker, CLNF gives very satisfactory results in about 70% of cases. However, errors exist for the remaining cases. We offer solutions for estimating a reasonable inner lip contour from the landmarks provided by CLNF based on spline to correct its bad behaviors and to extract the suitable labial parameters A, B and S. The evaluations on a 179 image database confirm performance of our algorithm.
  • Effet de la fréquence d’usage sur l’élision du schwa des clitiques : étude d’un corpus d’interactions naturelles
    Loïc Liégeois
    Abstract: Cette étude propose d'étudier un facteur d'usage, à savoir la fréquence des formes, sur la (non) production des schwas des clitiques. Dans cet objectif, nous nous appuyons sur un corpus d'interactions entre adultes recueillis en situation naturelle : les enregistrements, réalisés au domicile de nos six sujets adultes, ont été récoltés au cours de scènes de vie quotidienne. Les données présentées au cours de nos analyses corroborent les résultats exposés dans de précédents travaux au sujet des schwas initiaux de polysyllabes. En effet, il s’avère que la fréquence d'emploi des collocations "clitique + X" a un effet significatif sur les taux d'élision relevés dans les productions de nos six sujets. Ces résultats sont discutés et mis en relation avec d’autres facteurs connus pour influencer la production de la variable, notamment des facteurs segmentaux et suprasegmentaux.
  • Peut-on caractériser globalement une « qualité d’acte expressif » : de « breathy voice » à « breathy turn taking » dans la glu socio-affective de l’interaction humain-robot ?
    Liliya Tsvetanova, Véronique Aubergé and Yuko Sasa
    Abstract: L’interaction face-à-face est considérée ici comme un système émergeant, englobant les sous-systèmes en synchronie des interactants inscrits, à travers leur personnalité, dans leur rôle social, leurs motivations, leurs intentions, leurs états socio-affectifs. L’interaction est instanciée par une « glu » socio-affective pour laquelle nous testons une dimension altruiste, orthogonale à la dimension de dominance, expérimentée dans le scénario écologique Emoz (Sasa et Aubergé, 2014) pour des personnes âgées donnant des commandes domotiques de forme imposée à un robot. Le dialogue est conduit par des feedbacks socio-affectifs primitifs du robot supposés « gluer » progressivement. Nous montrons que la variation faite par les sujets autour des commandes référentes, non seulement suit un décours dynamique de « glu » progressive, mais que le comportement communicatif des sujets est globalement inscrit dans des caractéristiques d’« intimité care» d’une production « breathy » de toutes les modalités (voix, prosodie, paraphrasage lexico-morpho-syntaxique, timing, posture, direction du regard, proxémie, déplacement).
  • La prosodie du focus dans les parlers algérois et oranais
    Ismaël Benali
    Abstract: Le but de cette étude est d’étudier les caractéristiques prosodiques de différents types de focus dans les parlers algérois et oranais.
    Il ressort de l’analyse acoustique des productions des locuteurs que les récurrences des schèmes prosodiques qui distinguent les deux parlers sont observées dans deux types de focus : le focus étroit d’insistance quand il est placé à la frontière d’un groupe intonatif et le focus interrogatif. Le premier est réalisé dans le parler algérois par un contour montant descendant. Dans le parler oranais, il est produit par un contour plat ou légèrement montant ou descendant. On retrouve, dans le focus interrogatif, le mêmes contour intonatif plus amplifié du focus d’insistance chez les Algérois alors que chez les Oranais la dernière syllabe est toujours montante précédée d'une descente. Le focus de contraste est produit différemment dans le même dialecte avec plus d’allongement en oranais. La réalisation du focus large n’est pas distinctive.
  • Etude par EMA des mouvements de la mâchoire inférieure durant les consonnes de l’arabe marocain
    Chakir Zeroual, Philip Hoole and Adamantios Gafos
    Abstract: Cette étude est basée sur des données obtenues à l’aide d’EMA (AG500) enregistrant les mouvements de la mâchoire inférieure (Minf) durant les consonnes labiales, coronales, vélaires, uvulaires, pharyngales et laryngales de l’arabe marocain dans les contextes aCa et iCi. Nous avons montré que l’implication de la Minf est cruciale durant /s S t T/ (S T : consonnes emphatiques). Le recul de la racine de la langue n’est pas nécessairement corrélé à la baisse de la Minf. Les consonnes apicales ne sont pas toujours associées à l’abaissement de la Minf. La Minf ne semble pas impliquée durant les laryngales et les pharyngales, ce qui est en accord avec les déductions de Goldstein (1995). Les mouvements verticaux et horizontaux de la Minf sont relativement indépendants.
  • Phonétisation statistique adaptable d'énoncés pour le français
    Gwénolé Lecorvé and Damien Lolive
    Abstract: Les méthodes classiques de phonétisation d'énoncés concatènent les prononciations hors-contexte des mots. Ce type d'approches est trop faible pour certaines langues, comme le français, où les transitions entre les mots impliquent des modifications de prononciation. De plus, cela rend difficile la modélisation de stratégies de prononciation globales, par exemple pour modéliser un locuteur ou un accent particulier.
    Pour palier ces problèmes, ce papier présente une approche originale pour la phonétisation du français afin de générer des variantes de prononciation dans le cas d'énoncés. Par l'emploi de champs aléatoires conditionnels et de transducteurs finis pondérés, cette approche propose un cadre statistique particulièrement souple et adaptable. Cette approche est évaluée sur un corpus de mots isolés et sur un corpus d'énoncés prononcés.
  • La perception des séquences consonantiques non-natives par les locuteurs monolingues de mandarin
    Qianwen Guan and Harim Kwon
    Abstract: Cette étude examine la perception des séquences consonantiques non-natives par des locuteurs monolingues de mandarin, une langue avec une structure phonotactique simple. Dans une première expérience d’identification, nous avons utilisé des séquences consonantiques intervocaliques dans des mots non-natifs (akta, aklu) qui varient selon la dimension phonétique et le profil de sonorité. Les participants mandarins monolingues ont tendance à percevoir une voyelle épenthétique dans ces séquences impossibles/non attestées. Mais la perception varie selon leur composition consonantique. Dans une deuxième expérience, les mêmes participants ont transcrit en pinyin des séquences intervocaliques et initiales (akta, ktapa). Nous avons repéré dans les transcriptions plusieurs erreurs de perception : l’épenthèse, la métathèse, l’omission de C1 et celle de C2. La perception varie selon la position des séquences, initiale (CCVCV) ou intervocalique (VCCV). Les résultats des deux expériences suggèrent que des facteurs phonétiques affectent principalement la perception des séquences non-natives.
  • Un Sous-espace Thématique Latent pour la Compréhension du Langage Parlé
    Mohamed Bouaziz, Mohamed Morchid, Pierre-Michel Bousquet, Richard Dufour, Killian Janod, Waad Ben Kheder and Georges Linarès
    Abstract: Les applications de compréhension du langage parlé sont moins performantes si les documents transcrits automatiquement contiennent un taux d'erreur-mot élevé. Des solutions récentes proposent de projeter ces transcriptions dans un espace de thèmes, comme par exemple l'allocation latente de Dirichlet (LDA), la LDA supervisée ainsi que le modèle author-topic (AT). Une représentation compacte originale, appelée c-vector, a été récemment introduite afin de surmonter la difficulté liée au choix de la taille de ces espaces thématiques. Cette représentation améliore la robustesse aux erreurs de transcription, en compactant les différentes représentations LDA d'un document parlé dans un espace réduit. Le défaut majeur de cette méthode est le nombre élevé de sous-tâches nécessaires à la construction de l'espace c-vector. Cet article propose de corriger ce défaut en utilisant un cadre original fondé sur un espace de caractéristiques robustes de faible dimension provenant d'un ensemble de modèles AT considérant à la fois le contenu du dialogue parlé (les mots) et la classe du document. Les expérimentations, conduites sur le corpus DECODA, montrent que la représentation proposée permet un gain de plus de 2.5 points en termes de conversations correctement classifiées.
  • Impact of Sinus Surgery on Voice Quality : Case Study
    Lise Crevier Buchman, Angelique Amelot, Benedicte Mas, Mathilde Giron and Pierre Bonfils
    Abstract: Les fosses nasales participent à la résonance vocale et toute modification de ces structures peut altérer la qualité vocale. Le rôle des sinus comme résonateurs dans la production vocale reste plus controversé. Le but de notre étude prospective était d’explorer d’éventuelles modifications acoustiques chez un chanteur professionnel en pré et post-opératoire après chirurgie naso-sinusienne unilatérale. A partir de la lecture d’un texte, nous avons extrait les voyelles /a,i,u/ pour mesurer les paramètres acoustiques de fréquence (F0), des formants F1 et F2, de leur largeur de bande, et de qualité vocale (LTAS et H1*-H2*). L’étude a été complétée par une auto-évaluation de la qualité de voix. Nos résultats n’ont pas permis de mettre en évidence de différence statistiquement significative des paramètres acoustiques bien que le patient ait signalé une impression d’amélioration vocale chantée. Ces résultats pour le français confirment ceux de la littérature et peuvent servir à informer les patients.
  • Constituance et phrasé prosodique en français : une étude perceptive.
    Laury Garnier, Corine Astésano, Lorraine Baqué and Anne Dagnac
    Abstract: L’objectif de cette étude est d’explorer l’organisation du phrasé prosodique en français. Il n’existe pas de consensus clair sur le nombre de niveaux nécessaires pour refléter la hiérarchie prosodique de la langue. Dans ce cadre, nous proposons une étude perceptive, via un corpus de parole contrôlée manipulant des structures syntaxiques ambiguës, où 27 participants ont effectué 3 tâches de perception : proéminence, frontière et groupement. Nos résultats montrent une utilisation privilégiée des indices de frontières dans le marquage des groupes prosodiques. Plus précisément, on observe que les auditeurs sont capables de percevoir des niveaux de granularité de frontières plus fins que ce que les descriptions traditionnelles du français prédisent. Par ailleurs, les résultats de la tâche de proéminence montrent que l’accent initial est toujours perçu plus fort que l’accent final, et ce dès les niveaux les plus bas de la hiérarchie.
  • Disfluences dans le vieillissement "normal" et la maladie d'Alzheimer : indices segmentaux, suprasegmentaux et gestuels
    Diane Caussade, Nathalie Vallée, Nathalie Henrich Bernardoni, Jean-Marc Colletta, Silvain Gerber, Frédérique Letué and Marie-José Martinez
    Abstract: L’objectif de cette étude est d’analyser et comparer les productions langagières dans leur multimodalité de 10 personnes atteintes de la maladie d’Alzheimer (MA) appariées à 10 contrôles. Différentes mesures aux niveaux segmental et suprasegmental – erreurs, pauses et allongements vocaliques – ont été réalisées dans une tâche de répétition avec ou sans gestes imposés pour caractériser une disfluence, typique de la MA, puis observées en lien avec les gestes manuels produits. Les résultats montrent la diminution significative de la fluence chez les personnes atteintes de la MA, avec davantage d’erreurs produites au niveau lexical par le groupe Patient et au niveau phonétique par les patients au stade modéré de la maladie, ainsi que de nombreuses pauses silencieuses précédant ou suivant souvent les erreurs produites au niveau segmental. De plus, dans la tâche avec gestes imposés, la répétition de ceux-ci a impacté la fluence des groupes Contrôle et Patient avec une augmentation significative des disfluences au niveau suprasegmental et des erreurs phonétiques au niveau segmental.
  • Etude acoustique du discours politique d’hispanophones : le cas de Hugo Chávez et de José Zapatero
    Carmen Patricia Pérez
    Abstract: Politicians’ speech styles can be distinguished thanks to their prosodic realizations. Generally, we can recognize a ‘revolutionary’ or a ‘traditional’ politician just listening to a few minutes’ discourse; I try to show which prosodic features enable us to do so, comparing Hugo Chávez and José-Luis Zapatero’s respective phono-styles in public speeches. Moreover, I will show the differences between Chávez’s productions in an interview and in a public speech. Philippe Martin’s ‘F0 slope contrast’ model is used to describe the prosodic structure. The acoustic analysis shows that the phono-styles of these political leaders differ in the same ‘phono-genre’, mainly in the realization of continuation contours, the range and the speech rate, while the construction of the intonation phrases is the same. In a series of perception tests, which is not related here, Chávez’s phono-style appears to be revolutionary/informal, whereas Z, appears to be rather conservative/formal.
  • Perception native des voyelles catalanes produites par des locutrices multilingues
    Magnen Cynthia, Carrera-Sabaté Josefina and Gaillard Pascal
    Abstract: Cette étude porte sur les voyelles catalanes produites par des adolescentes multilingues en Catalan-Castillan ayant pour langue maternelle soit le Catalan, soit le Roumain, soit l’Arabe du Maghreb. Nous proposons à vingt-et-un auditeurs catalanophones natifs un Test de Catégorisation Libre des voyelles produites dans ce contexte multilingue. Se faisant, nous testons le modèle Automatic Selective Perception (ASP - Strange, 2011) qui stipule qu’en fonction de la variabilité des stimuli et de la tâche proposée, les auditeurs réalisent un traitement des stimuli selon un mode phonétique ou phonologique. Les résultats indiquent que le traitement des stimuli est double : les voyelles moyennes sont traitées selon un mode phonétique, tandis que les voyelles extrêmes sont traitées selon un mode phonologique. L’assimilation de voyelles d’une catégorie vocalique à une autre informe sur la qualité des réalisations non natives et témoigne de l’influence de la L1.

Machine Learning - Jeudi 14h00-16h00 (Oral7) - amphi 6

Président de session : Alexandre Allauzen

  • Autoapprentissage pour le regroupement en locuteurs : premières investigations
    Gaël Le Lan, Sylvain Meignier, Delphine Charlet and Anthony Larcher
    Abstract: This paper investigates self trained cross-show speaker diarization applied to collections of French TV archives, based on an \textit{i-vector/PLDA} framework. The parameters used for i-vectors extraction and PLDA scoring are trained in a unsupervised way, using the data of the collection itself. Performances are compared, using combinations of target data and external data for training. The experimental results on two distinct target corpora show that using data from the corpora themselves to perform unsupervised iterative training and domain adaptation of PLDA parameters can improve an existing system, trained on external annotated data. Such results indicate that performing speaker indexation on small collections of unlabeled audio archives should only rely on the availability of a sufficient external corpus, which can be specifically adapted to every target collection. We show that a minimum collection size is required to exclude the use of such an external bootstrap.
  • Influence de la quantité de données sur une tâche de segmentation de phones fondée sur les réseaux de neurones
    Céline Manenti, Thomas Pellegrini and Julien Pinquier
    Abstract: Dans cet article, nous décrivons une étude expérimentale de segmentation de parole en unités acoustiques sous-lexicales (phones) à l'aide de réseaux de neurones. Sur le corpus de parole spontanée d'anglais américain BUCKEYE, une F-mesure de 68% a été obtenue à l'aide d'un réseau convolutif, en considérant une marge d'erreur de 10 ms. Cette performance est supérieure à l'accord inter-annotateurs de 62%. Restreindre les données d'apprentissage à celles d'un unique locuteur, 30 minutes environ, a eu pour conséquence moins de 10% de perte et utiliser celles de 5 locuteurs a permis d'atteindre des résultats similaires à utiliser plus de données. Utiliser le modèle entraîné avec le corpus anglais sur un petit corpus d'une langue peu dotée a donné des résultats comparables à estimer un modèle avec des données de cette langue.
  • Des Réseaux de Neurones avec Mécanisme d’Attention pour la Compréhension de la Parole
    Edwin Simonnet, Paul Deléglise, Nathalie Camelin and Yannick Estève
    Abstract: L’étude porte sur l’apport d’un réseau de neurones récurrent (Recurrent Neural Network - RNN) bidirectionnel encodeur/décodeur avec mécanisme d’attention pour une tâche de compré- hension de la parole. Les premières expériences faites sur le corpus ATIS confirment la qualité du système RNN état de l’art utilisé pour cet article, en comparant les résultats obtenus à ceux récemment publiés dans la littérature. Des expériences supplémentaires montrent que les RNNs avec mécanisme d’attention obtiennent de meilleures performances que les RNNs récemment proposés pour la tâche de remplissage de champs. Sur le corpus MEDIA, un corpus français état de l’art pour la compréhension dédié à la réservation d’hôtel et aux informations touristiques, les expériences montrent qu’un RNN bidirectionnel atteint une f-mesure de 79,51 tandis que le même système intégrant le mécanisme d’attention permet d’atteindre une f-mesure de 80,27.
  • Optimiser l'adaptation en ligne d'un module de compréhension de la parole avec un algorithme de bandit contre un adversaire
    Emmanuel Ferreira, Alexandre Reiffers-Masson, Bassam Jabaian and Fabrice Lefèvre
    Abstract: De nombreux modules de compréhension de la parole ont en commun d'être probabilistes et basés sur des algorithmes d'apprentissage automatique. Deux difficultés majeures, rencontrées par toutes les méthodes existantes sont : le coût de la collecte des données et l'adaptation d'un module existant à un nouveau domaine. Dans cet article, nous proposons un processus d'adaptation en ligne avec une politique apprise en utilisant un algorithme de type bandit contre un adversaire. Nous montrons que cette proposition peut permettre d'optimiser un équilibre entre le coût de la collecte des retours demandés aux utilisateurs et la performance globale de la compréhension du langage parlé après sa mise à jour.
  • Fusion d’espaces de représentations multimodaux pour la reconnaissance du rôle du locuteur dans des documents télévisuels
    Sebastien Delecraz, Frederic Bechet, Benoit Favre and Mickael Rouvier
    Abstract: L'identification du rôle d'un locuteur dans des émissions de télévision est un problème de classification de personne selon une liste de rôles comme présentateur, journaliste, invité, etc. A cause de la non-synchronie entre les modalités, ainsi que par le manque de corpus de vidéos annotées dans toutes les modalités, seulement une des modalités est souvent utilisée. Nous présentons dans cet article une fusion multimodale des espaces de représentations de l'audio, du texte et de l'image pour la reconnaissance du rôle du locuteur pour des données asynchrones. Les espaces de représentations monomodaux sont entraînés sur des corpus de données exogènes puis ajustés en utilisant des réseaux de neurones profonds sur un corpus d'émissions françaises pour notre tâche de classification. Les expériences réalisées sur le corpus de donnée REPERE ont mis en évidence les gains d'une fusion au niveau des espaces de représentations par rapport aux méthodes de fusion tardive standard.

Session commune JEP/TALN 3 - Vendredi 9h00-10h15 (SC3) - amphi 4

Présidents de session : Emmanuel Ferragne et Nuria Gala

  • Bilinguismes et compliance phonique (JEP)
    Marie Philippart de Foy, Véronique Delvaux, Kathy Huet, Myriam Piccaluga, Rima Rabeh and Bernard Harmegnies
    Abstract: Certains types de bilinguisme pourraient avoir un impact positif sur l’apprentissage phonique et faciliter l’acquisition d’une L3. Certains bilingues pourraient donc présenter une meilleure compliance phonique (aptitude à produire des sons de parole non familiers) que les monolingues. Les données de quatre sujets bilingues ont été recueillies lors d’une tâche de reproduction de voyelles synthétiques précédée d’une phase de production de voyelles en langue maternelle (paradigme développé par Huet et al., 2012). Trois indices ont été calculés et comparés à ceux obtenus par des monolingues francophones lors d’une étude précédente (Delvaux et al., 2014). Les résultats n’ont pas révélé de différence significative entre monolingues et bilingues. Toutefois, le classement des bilingues variait d’un indice à l’autre, suggérant des profils plus diversifiés que chez les monolingues. En conclusion, ces résultats confirment la complexité de la compliance phonique, en particulier chez des locuteurs bilingues, et soulignent l’intérêt d’une approche multi-componentielle dans l’évaluation cette aptitude ainsi que le besoin d’ajustements ultérieurs de la réflexion théorique sous-jacente.
  • Modèles adaptatifs pour prédire automatiquement la compétence lexicale d'un apprenant de français langue étrangère (TALN)
    Anaïs Tack, Thomas François, Anne-Laure Ligozat and Cédrick Fairon
    Abstract: Cette étude examine l'utilisation de méthodes d'apprentissage incrémental supervisé afin de prédire la compétence lexicale d'apprenants de français langue étrangère (FLE). Les apprenants ciblés sont des néerlandophones ayant un niveau A2/B1 selon le Cadre européen commun de référence pour les langues (CECR). A l'instar des travaux récents portant sur la prédiction de la maîtrise lexicale à l'aide d'indices de complexité, nous élaborons deux types de modèles qui s'adaptent en fonction d'un retour d'expérience, révélant les connaissances de l'apprenant. En particulier, nous définissons (i) un modèle qui prédit la compétence lexicale de tous les apprenants du même niveau de maîtrise et (ii) un modèle qui prédit la compétence lexicale d'un apprenant individuel. Les modèles obtenus sont ensuite évalués par rapport à un modèle de référence, déterminant la compétence lexicale à partir d'un lexique spécialisé pour le FLE, et s'avèrent gagner significativement en exactitude (9%-17%).
  • Stratégies d'adaptation de la vitesse d’articulation lors de conversations spontanées entre locuteurs natifs et non-natifs (JEP)
    Barbara Kühnert and Tanja Kocjančič Antolík
    Abstract: Cet article examine la vitesse d’articulation dans un corpus de conversations spontanées entre locuteurs natifs et non-natifs. L’objectif est d’étudier en particulier (i) dans quelle mesure les locuteurs natifs adaptent leur vitesse aux apprenants L2 et (ii) dans quelle mesure les deux locuteurs en interaction ont tendance à rapprocher ou à dissocier leurs caractéristiques temporelles au cours d’une conversation. Les données proviennent du corpus SITAF d’interactions tandem en anglais-français. A ce jour, 10 sujets ont été analysés, chacun ayant été enregistré dans trois conditions différentes : en utilisant sa L1 avec un autre locuteur natif, en utilisant sa L1 avec un apprenant L2, et en utilisant sa L2. Les résultats indiquent que les propriétés de la langue maternelle ont une nette influence sur les variations de la vitesse d’articulation des locuteurs, non seulement lors des stratégies d’adaptation envers des apprenants mais également sur les caractéristiques de la vitesse en L2.

Poster 2 - Vendredi 10h45-12h45 (P2) - salles 3.14 à 3.19

Présidente de session : Laurianne Georgeton

  • Étude de la qualité vocale post-thyroïdectomie chez des patients souffrants ou non de paralysie récurrentielle
    Ming Xiu, Camille Fauth, Béatrice Vaxelaire, Jean-François Rodier, Pierre-Philippe Volkmar and Rudolph Sock
    Abstract: L’objet d’étude principal est la qualité vocale au niveau aérodynamique, acoustique surtout des indices de la perturbation du signal après une thyroïdectomie totale (qui consiste à l’ablation complète de la glande thyroïde) ou une isthmolobectomie (qui consiste à l’exérèse de la moitié, droite ou gauche, de la glande) qui provoque souvent une dégradation de la qualité vocale de façon permanente ou temporaire.
    Deux groupes de patients sont suivis et étudiés : un premier groupe de patients pour lesquels l’examen post-opératoire a révélé un défaut de mobilité de l’un des plis vocaux ; Un second groupe de patients pour lesquels l’examen post-opératoire n’a pas révélé de perturbation de la mobilité laryngée.
  • La reconnaissance des mots dans la parole accentuée : Une étude en laboratoire et à l’extérieur.
    Delphine Deï, Page Piccinini, Isabelle Dautriche, Marieke Van Heugten and Alejandrina Cristia
    Abstract: Des travaux récents suggèrent que les enfants et les adultes sont initialement ralentis dans leur compréhension des mots qui n’ont pas été prononcés de façon standard. Néanmoins, quand ils font face à un interlocuteur qui à un discours accentué, ils développent rapidement des stratégies spécifiques qui leur permettent de comprendre même des prononciations atypiques. Cependant, ces résultats sont typiquement issus de recherches en laboratoire, où l'attention des participants se concentre sur une tâche unique qui leur demande peu de ressources. Afin de dépasser ces limitations, nous avons mené une expérience de reconnaissance de mots sur tablette tactile, en évaluant des enfants et des adultes, en laboratoire et dans l’environnement naturel de chaque groupe. Nous avons constaté que des déviations de prononciation dans la parole accentuée ralentissent la reconnaissance des mots, chez des enfants et adultes, tant dans le laboratoire que dans des environnements naturels.
  • Suivi de contours d’articulateurs orofaciaux à partir d’IRM dynamique
    Mathieu Labrunie, Pierre Badin, Laurent Lamalle, Coriandre Vilain, Louis-Jean Boë, Jens Frahm and Peter Birkholz
    Abstract: Nous présentons une méthode de prédiction de contours médiosagittaux des organes orofaciaux de la parole et la déglutition à partir d’images IRM dynamiques. Pour chaque locuteur, un ensemble de 60 images représentatives pour lesquelles les contours ont été tracés manuellement permet d’entraîner des modèles ACP d’images et de contours articulatoires, ainsi qu’un modèle multilinéaire qui prédit les paramètres des contours à partir des paramètres des images. Les contours obtenus sont ensuite corrigés par des modèles de forme actifs (ASM) modifiés utilisant les informations locales de profils d’intensité de pixels le long des normales aux contours. Les performances de cette méthode (erreurs moyennes « points à contour » entre 0,57 et 0,70 mm) sont insensibles au type de séquence IRM (écho de gradient avec échantillonnage synchronisé ou écho de gradient radial hautement sous-échantillonné), sont meilleures que celles de la littérature, et rendent possible le traitement de volumineux corpus d’images IRM dynamiques.
  • FN5, un modèle psycholinguistique informatique de la reconnaissance des mots parlés chez l’auditeur français, mis à la disposition des chercheurs et enseignants
    Nicolas Léwy
    Abstract: Voici un modèle psycholinguistique informatique pour le français. Il s’appelle FN5 et simule la reconnaissance humaine de mots parlés, présentés seuls (déterminant, adjectif antéposé, substantif) ou en suites de deux mots (déterminant et substantif, adjectif antéposé et substantif). Le modèle contient un lexique de 17 668 mots et cela dans deux versions, française et Suisse romande. Grâce à une architecture connexionniste localiste à trois niveaux (traits distinctifs, phonèmes, mots) qui est enrichie de plusieurs innovations clés (processeur de position, groupements de connexions, et point d’isolation), le modèle peut reconnaître la plupart des mots et des suites qu’on lui présente (taux de succès entre 83.6% et 99.7%), et en plus, il est capable de reproduire un grand nombre d’effets trouvés lors d’études expérimentales (ex. fréquence, longueur, effacement du schwa, liaison, etc.). Le modèle, qui possède une interface graphique, est téléchargeable, et utilisable à la fois pour la recherche et pour l’enseignement.
  • Effet de l’input auditif sur la production de voyelles : étude acoustique chez des enfants normo-entendants et des enfants porteurs d’implants cochléaires âgés de 5 à 11 ans
    Benedicte Grandon and Anne Vilain
    Abstract: Treize enfants porteurs d’implants cochléaires (CI) et vingt enfants normo-entendants (NH) ont été enregistrés dans deux conditions : répétition de mots avec un modèle audio et production des mêmes mots sans modèle audio. Notre but était d’étudier l’effet de l’input audio sur la hauteur, l’antériorité et la dispersion des dix voyelles orales du français chez ces deux populations d’enfants. Les résultats de notre étude acoustique indiquent que : (1) l’input immédiat n’influence que la hauteur du /a/ chez les enfants NH, (2) les enfants CI produisent des voyelles /y/, /ø/, /oe/ plus postérieures que les enfants NH mais que cette différence diminue à mesure que la durée d’utilisation de l’implant augmente, et (3) la dispersion de /y/, /ø/, /oe/ est plus grande chez les enfants CI que chez les enfants NH.
  • Sur les traces acoustiques de /ʃ/ et /ç/ en allemand L2
    Jane Wottawa and Martine Adda-Decker
    Abstract: Les apprenants français de l’allemand ont des difficultés à produire la fricative palatale sourde allemande /ç/ (Ich-Laut) et ont tendance à la remplacer par la fricative palato-alvéolaire /ʃ/. Des mesures acoustiques permettent de quantifier ces erreurs de production d’une manière plus objective. Trois mesures acoustiques ont été examinées afin de distinguer au mieux /ʃ/ et /ç/ dans un contexte VC en position finale de mot dans des productions germaniques natives. Elles servent ensuite à quantifier les difficultés de production des apprenants français. 285 tokens de 20 locuteurs natifs et 20 locuteurs L2 ont été analysés. Les mesures appliquées sont la transition des formants, le centre de gravité spectral et des rapports d’intensité par bande de fréquence. Sur les productions natives,les résultats montrent que la mesure la plus fiable pour distinguer acoustiquement entre /ʃ/ et /ç/ est le ratio d’intensité entre fréquences hautes (4-7 kHz) et basses (1-4 kHz). Les mesures confirment également les difficultés de production des natifs français
  • Variabilité des syllabes réalisées par des apprenants de l’anglais
    Nicolas Ballier, Philippe Martin and Maelle Amand
    Abstract: Cette contribution analyse la segmentation syllabique des francophones du corpus d’apprenant d’anglais ANGLISH (Tortel 2009). A partir d’une méthode d’alignement par programmation dynamique, on montre la pertinence d’une analyse de l’interlangue fondée sur la comparaison des syllabes. La comparaison des réalisations est ici centrée sur une typologie des syllabes fondées sur des propriétés distributionnelles, accentuelles et où l’interlangue tient sa place (risques d’isosyllabicité les plus manifestes). La variabilité des réalisations des syllabes est appréciée en fonction des propriétés positionnelles, accentuelles et structurelles des syllabes.
    L’étude démontre l’intérêt d’une approche fonctionnelle des syllabes, plus pertinentes que les intervalles interconsonantiques et intervocaliques (Ramus et al, 1999) pour la discrimination du niveau des locuteurs.
  • Syllabe CVC et cycle mandibulaire : une étude articulatoire des asymétries. Le cas du vietnamien
    Thi Thuy Hien Tran, Nathalie Vallée and Silvain Gerber
    Abstract: The present paper is part of a project that tries to establish the link between phonological and phonetic asymmetries in syllable structures and more specifically the relationship between characteristics of jaw cycle and the MOP, an empirical principle that affects consonantal segments to onset position rather than to coda position. Several previous works on American English have shown evidence of asymmetries within the jaw cycle, which could explain some syllabic structure tendencies, whereas a previous study on French showed a reverse asymmetrical pattern of jaw oscillation. We present here preliminary results on Vietnamese that we discuss in two theoretical frameworks namely Frame/Content Theory and Articulatory Phonology: the first one gives a fundamental role to the jaw in the shape of speech production, whereas the latter assigns a secondary role to the jaw in syllable phonology.
  • Contribuer au progrès solidaire des recherches et de la documentation : la Collection Pangloss et la Collection AuCo
    Alexis Michaud, Séverine Guillaume, Guillaume Jacques, Đăng-Khoa Mạc, Michel Jacobson and Thu-Hà Phạm
    Abstract: La présente communication présente les projets scientifiques et les réalisations de deux collections hébergées par la plateforme de ressources orales Cocoon : la Collection Pangloss, qui concerne principalement des langues de tradition orale (sans écriture), du monde entier ; et la Collection AuCo, dédiée aux langues du Vietnam et de pays voisins. L’objectif est un progrès solidaire des recherches et de la documentation linguistique. L’accent est mis sur les perspectives ouvertes pour la recherche phonétique par certaines réalisations récentes dans le cadre de ces deux Collections.
  • L’invasivité phonologique dans le traitement des anglicismes : une étude quantitative de trois langues
    Tomáš Duběda
    Abstract: Dans la présente étude, nous analysons, dans une perspective typologique, l’adaptation phonologique des anglicismes dans trois langues (français, allemand et tchèque). La classification des formes phonologiques, qui s’appuie sur un système de huit principes d’adaptation, a pour but d’établir le degré d’« invasivité phonologique » propre à chaque langue. L’approximation phonologique (substitution de phonèmes natifs aux phonèmes étrangers) semble être le principe fondamental dans les trois langues analysées, alors que la prononciation orthographique (phonétisation des graphèmes) intervient avant tout en français. La prononciation authentique (imitation phonologique de la langue source) n’est active qu’en allemand. Les mécanismes d’approximation phonologique sont plus invasifs en français que dans les deux autres langues, et ce notamment en ce qui concerne le système vocalique. Globalement, l’invasivité phonologique semble augmenter dans l’ordre allemand – tchèque – français.
  • Réseau de neurones convolutif pour l'évaluation automatique de la prononciation
    Thomas Pellegrini, Lionel Fontan and Halima Sahraoui
    Abstract: Dans cet article, nous comparons deux approches d'évaluation automatique de la prononciation de locuteurs japonophones apprenant le français. La première, l'algorithme standard appelé Goodness Of Pronunciation (GOP), compare les vraisemblances obtenues lors d'un alignement forcé et lors d'une reconnaissance de phones sans contrainte. La deuxième, nécessitant également un alignement préalable, fait appel à un réseau de neurones convolutif ou convolutionnel (CNN) comme classifieur binaire, avec comme entrée des trames de coefficients spectraux. Les deux approches sont évaluées sur deux phones cibles /R/ et /v/ du français, particulièrement difficiles à prononcer pour des natifs japonophones. Les paramètres du GOP (seuils) et du CNN sont estimés sur un corpus de parole lue de locuteurs natifs français, dans lequel des erreurs de prononciation artificielles sont introduites. Un gain de performance relatif de 13.4% a été obtenu avec le CNN, avec une précision globale de 72.6%, sur un corpus d'évaluation enregistré par 23 locuteurs japonophones.
  • Voyelles moyennes en français calédonien : propriétés phonétiques acoustiques
    Eleanor Lewis
    Abstract: Cette étude examine la réalisation des voyelles moyennes /e, ɛ, ø, œ, o, ɔ/ par dix locuteurs du français calédonien. Les propriétés formantiques de ces voyelles sont analysées en ce qui concerne le genre de syllabe dans lesquelles elles se produisent. La durée des voyelles mi-fermées et mi-ouvertes produites en paires minimales est statistiquement comparée. Les résultats indiquent que les locuteurs de cette variété ont tendance à respecter catégoriquement la loi de position, tel que les variantes mi-fermées se présentent dans les syllabes ouvertes et les variantes mi-ouvertes se présentent dans les syllabes fermées. Il existe pourtant une certaine variation individuelle concernant le niveau de conformité à cette loi. Cette étude met également en avant des indices de l’antériorisation du /ɔ/ (et du /o/ en syllabe fermée), une caractéristique qui a été documentée dans d’autres variétés du français.
  • Quels tests d’intelligibilité pour évaluer les troubles de production de la parole ?
    Alain Ghio, Laurence Giusti, Emilie Blanc, Serge Pinto, Lalain Muriel, Danièle Robert, Corine Fredouille and Virginie Woisard
    Abstract: L’intelligibilité de la parole se définit comme le degré de précision avec lequel un message est compris par un auditeur. A ce titre, la perte d’intelligibilité représente souvent une plainte importante pour les patients atteints de troubles de production de la parole, puisqu’elle participe à la diminution de la qualité de vie au niveau communicationnel. Plusieurs outils existent actuellement pour évaluer l’intelligibilité mais aucun ne satisfait pleinement les contraintes cliniques. Dans une première étude, nous avons adapté au français la version 2 du Frenchay Dysarthria Assessment, un test reconnu dans le milieu anglo-saxon pour l’évaluation de locuteurs dysarthriques. Nous avons créé le corpus de mots français en nous appuyant des critères définis dans le FDA-2 puis nous avons testé le protocole sur une cinquantaine de locuteurs. Les résultats sont satisfaisants mais divers biais méthodologiques nous ont conduits à poursuivre notre démarche en proposant des listes de pseudo-mots apparentant le test à du décodage acoustico-phonétique.
  • Une méthode d’évaluation de la compréhension orale par choix d’image : application à de la parole dégradée par simulation de la presbyacousie
    Magnen Cynthia, Tardieu Julien, Fontan Lionel, Gaillard Pascal and Spanghero-Gaillard Nathalie
    Abstract: Nous présentons une méthode permettant d’évaluer la compréhension de la parole dégradée par simulation des effets de la presbyacousie, dans le calme et dans le bruit. Cette méthode intègre des phrases signifiantes et implique pour l’auditeur de sélectionner, parmi un ensemble de quatre images, celle qui correspond à l’énoncé qu’il entend. Le test présente de nombreux avantages méthodologiques comme l’immédiateté du score et le fait qu’il ne nécessite pas de faire répéter la phrase entendue. Les résultats obtenus montrent un effet significatif de la dégradation et du bruit du fond. La cohérence de ces effets avec les études précédentes sur la presbyacousie permet de valider cette méthode. Par ailleurs, la nature exacte du score mesuré dans ce test est discutée en le comparant avec le score d’intelligibilité obtenu par répétition d’items dans une précédente étude.
  • Alignement de séquences phonétiques pour une analyse phonologique des erreurs de transcription automatique
    Camille Dutrey, Martine Adda-Decker and Naomi Yamaguchi
    Abstract: La transcription automatique de la parole obtient aujourd'hui des performances élevées avec des taux d'erreur qui peuvent tomber en dessous de 10\% pour une parole journalistique. Cependant, pour des conversations plus libres, ils stagnent souvent autour de 20-30\%. En français, une grande partie des erreurs sont dues à des confusions entre homophones n'impliquant pas les niveaux acoustico-phonétique et phonologique. Cependant, de nombreuses erreurs peuvent s'expliquer par des variantes de prononciations non prévues dans le lexique. Afin de mieux comprendre quels processus phonologiques pourraient expliquer ces variantes spécifiques de la parole spontanée, nous proposons une analyse des erreurs en comparant prononciations attendue (référence) et reconnue (hypothèse) \textit{via} un alignement phonétique par programmation dynamique. Les distances locales entre paires de phonèmes appariés correspondent au nombre de traits phonétiques disjoints. Nos analyses permettent d'identifier les traits phonétiques les plus fréquemment impliqués dans les erreurs et donnent des pistes pour des interprétations phonologiques.
  • Une pénalité floue fondée phonologiquement pour améliorer la Sélection d'Unité
    David Guennec and Damien Lolive
    Abstract: Les systèmes de synthèse par corpus reposent, sauf de rares exceptions, sur des coûts cibles et des coûts de concaténation pour sélectionner la meilleure séquence d'unités. Le rôle du coût de concaténation est de s'assurer que l'assemblage de deux segments de parole ne causera l'apparition d'aucun artefact acoustique. Pour cette tâche, des distances acoustiques (MFCC, F0) sont généralement utilisées, mais dans de nombreux cas cela ne suffit pas. Dans cet article, nous introduisons une pénalité héritée du domaine de la couverture de corpus dans le coût de concaténation afin de bloquer certaines concaténations en fonction de la classe phonologique des diphones à concaténer. En outre, une seconde version faisant appel à une fonction floue est proposée pour relâcher la pénalité en fonction du positionnement du coût de concaténation par rapport à sa distribution. Une évaluation objective montre que la pénalité est efficace et amène à un meilleur classement des séquences d'unités candidates au cours de la sélection. Une évaluation subjective révèle une performance supérieure de l'approche floue.
  • Pics mélodiques prétoniques en portugais brésilien : une étude quantitative
    Plínio Barbosa and Philippe Boula de Mareüil
    Abstract: Le présent travail porte sur un trait prosodique assez typique du portugais brésilien : un pic mélodique en position prétonique en fin d’énoncé déclaratif. Il vise à quantifier le phénomène, à partir d’enregistrements de cinq hommes et cinq femmes de l’état de São Paulo, en lecture et en narration. Il en résulte que des montées sur les prétoniques de 4 demi-tons suivies de descentes de 8 demi-tons, en moyenne, s’observent dans les deux styles de parole, chez les femmes. Chez les hommes, ces valeurs sont respectivement de 3 et 7 demi-tons. Ces montées-descentes d’une tierce et d’une quinte, respectivement, peuvent donner au portugais brésilien cette musicalité particulière et, puisque les descentes sont plus rapides chez les femmes, elles ouvrent des perspectives sociolinguistiques intéressantes.
  • La distinction entre les paraphasies phonétiques et phonologiques dans l’aphasie : Etude de cas de deux patients aphasiques
    Clémence Verhaegen, Véronique Delvaux, Kathy Huet, Fagniart Sophie, Myriam Piccaluga and Bernard Harmegnies
    Abstract: La spécificité phonologique ou phonétique des erreurs de production orale observées chez les patients aphasiques reste débattue. Cependant, la distinction entre ces deux types d’erreurs est fréquemment basée sur des analyses perceptives qui peuvent être influencées par le système perceptif de l’expérimentateur. Afin de pallier ce biais, nous avons réalisé des analyses acoustiques des productions de deux patients aphasiques, dans une tâche de répétition de non-mots. Nous nous sommes centrés sur l’analyse de consonnes occlusives. Les résultats ont montré la présence de difficultés de gestion du voisement chez les deux patients, indiquant la présence de troubles phonétiques. En outre, les résultats montrent une grande diversité des manifestations des troubles langagiers des patients ainsi que l’intervention potentielle de stratégies de compensation de leurs difficultés. L’intérêt de procéder à des analyses acoustiques précises utilisant des indices multiples est discuté.
  • Investigation glottographique et laryngoscopique de la transition entre les deux principaux mécanismes laryngés
    Arthur Givois, Didier Demolin, Lise Crevier-Buchman and Angélique Amelot
    Abstract: Cet article étudie par une approche descriptive la transition entre le premier et le second mécanisme laryngé. Des mesures électroglottographiques ont été réalisées simultanément à des captures d’images par laryngoscopie sur deux sujets : une femme et un homme. Des différences de comportement entre les deux sujets ont été observées. Un mouvement vertical de grande amplitude du larynx est systématiquement observé au moment de la transition chez le sujet masculin, tandis que des modifications de petite amplitude de la distance entre paroi pharyngale et épiglotte, ou de la compression des plis aryépiglottiques sont remarquées chez le sujet féminin. Ces changements de configurations s'effectuent de façon continue chez cette dernière alors qu'un changement soudain de l'activité des plis vocaux a lieu à un instant précisément localisé pour les productions des deux sujets. Cette étude qualitative met en évidence la variabilité des stratégies de contrôle neuromusculaires de la fréquence fondamentale en fonction des mécanismes laryngés.
  • Acquisition et reconnaissance automatique d’expressions et d’appels vocaux dans un habitat.
    Michel Vacher, Benjamin Lecouteux, Frédéric Aman, François Portet and Solange Rossato
    Abstract: Cet article présente un système capable de reconnaître les appels à l’aide de ersonnes âgées vivant à domicile afin de leur fournir une assistance. Le système utilise une technologie de Reconnaissance Automatique de la Parole (RAP) qui doit fonctionner en conditions de parole distante et avec de la parole expressive. Pour garantir l’intimité, le système s’exécute localement et ne reconnaît que des phrases prédéfinies. Le système a été évalué par 17 participants jouant des scénarios incluant des chutes dans un Living lab reproduisant un salon. Le taux d’erreur de détection obtenu, 29%, est encourageant et souligne les défis à surmonter pour cette tâche.
  • Analyses acoustiques des monophtongues du luxembourgeois produites dans la parole lue
    Tina Thill
    Abstract: Cet article présente une analyse acoustique de 12 monophtongues du luxembourgeois parlé dans la région centrale du Grand-duché de Luxembourg. Cette analyse fait partie du travail empirique de notre thèse de doctorat sur les productions natives et non natives des voyelles du luxembourgeois. A partir des données de 10 locuteurs natifs, nous analysons les valeurs des trois premiers formants et de la durée des voyelles longues et brèves opposées [iː]-[i], [eː]-[e], [aː]-[ɑ], [oː]-[ɔ], [uː]-[u] et de l’allophone [ɛː] réalisée lorsqu’elle est suivie d’un /r/. Les analyses montrent que (i) les voyelles longues et brèves se distinguent tant par la durée acoustique que par le timbre, (ii) la voyelle semi-ouverte [ɛː] suivie d’un /r/ vocalisé tend à se diphtonguer.
  • Comparaison de listes d'erreurs de transcription automatique de la parole : quelle complémentarité entre les différentes métriques ?
    Olivier Galibert, Juliette Kahn and Sophie Rosset
    Abstract: Le travail que nous présentons ici s'inscrit dans le domaine de l'évaluation des systèmes de reconnaissance automatique de la parole en vue de leur utilisation dans une tâche avale ici la reconnaissance des entités nommées. Plus largement, la question que nous nous posons est "que peut apporter une métrique d'évaluation en dehors d'un score ?". Nous nous intéressons particulièrement aux erreurs des systèmes et à leur analyse et éventuellement à l'utilisation de ce que nous connaissons de ces erreurs.
    Nous étudions dans ce travail les listes d'erreurs générées à partir de différentes métriques et analysons ce qui en ressort. Nous avons appliquons la même méthode sur différentes sorties de systèmes de reconnaissance de la parole. Nos expériences mettent en évidence que certaines métriques apportent une information plus stables, transverses à différents systèmes étant donné une tâche.
  • Etude acoustique et analyse phonologique sur /ə˞/ suffixe rhotique en mandarin
    Anqi Liu
    Abstract: Historiquement, le suffixe /ə˞/ est un suffixe diminutif correspondant au mot 儿 ( <er> en pinyin ) qui signifie ''petitesse''. Cependant, il relève d’une particularité du style plutôt que de la grammaire. Nous l’avons souvent trouvé dans nos enregistrements de parole conversationnelle, de locuteurs du nord de la Chine. Pour mieux comprendre le phénomène et son comportement en parole spontanée, on a d'abord fait une étude acoustique du texte lu qui nous a permis de vérifier l'analyse phonologique proposée par Duanmu (2007). Basé sur les résultats de l'étude acoustique, nous notons quelques différences de l'analyse de Duanmu et nous proposons une nouvelle-analyse basée sur la phonologie articulatoire(Browman & Goldstein1992). Dans une étude future, nous allons comparer les résultats de l'analyse acoustique du texte lu avec ceux de la parole conversationnelle pour mieux comprendre la variation phonétique dans la parole spontanée.
  • L'impact des variations temporelles intrinsèques et extrinsèques de la voyelle sur la relation consonne-voyelle : Étude translinguistique sur l'arabe jordanien et le français
    Mohammad Abuoudeh and Olivier Crouzet
    Abstract: Cette étude permet d’explorer les variations spectrales engendrées par deux types de variations temporelles qui résultent respectivement de l’opposition de longueur vocalique et des variations de débit de parole. Deux protocoles expérimentaux ont été conçus, l’un en arabe jordanien et l’autre en français, pour examiner ce phénomène. Un intérêt particulier a été porté aux occlusives produites dans des séquences CVC dans le but d’étudier la consonne en position initiale et la coarticulation anticipatoire. La durée des voyelles et la fréquence des trois premiers formants au début et au milieu de chaque séquence ont été mesurées dans chaque condition de longueur / débit. Les équations de locus ont été utilisées afin de décrire la relation CV quand elle subit ces deux types de variations.
  • Contribution à l'étude de la focalisation prosodique en français
    Rémi Godement-Berline
    Abstract: Cette étude porte sur la focalisation prosodique en français dans plusieurs styles de parole (parole spontanée et lecture ou interprétation par des acteurs). Nous attribuons à la focalisation des fonctions sémantico-pragmatiques ou emphatiques. Un groupe de dix experts en prosodie a relevé les occurrences de focalisation dans le corpus d’étude. Les résultats confirment que la focalisation est réalisée par une augmentation de hauteur et de durée. Ils diffèrent de la littérature précédente du point de vue du type de contour prosodique employé sur les occurrences de focalisation et de la présence d’accent initial. Des problèmes méthodologiques sont soulevés concernant l’analyse des contours terminaux et de la désaccentuation.
  • Voix de femmes, voix d’hommes: une étude du voice onset time, de la répartition consonnes/voyelles et du débit de parole chez des locuteurs francophones et anglophones américains
    Erwan Pépiot
    Abstract: La présente étude est une analyse acoustique de mots et pseudo-mots de type /CVCV/ produits par des locuteurs anglophones du nord-est des États-Unis (5 femmes, 5 hommes) et des francophones parisiens (5 femmes, 5 hommes). Le VOT des consonnes occlusives initiales, la durée des énoncés, ainsi que la répartition temporelle consonnes/voyelles ont été mesurés. Des différences inter-genres significatives ont été observées dans les deux langues sur chacun des paramètres testés : le contraste de VOT entre les occlusives sourdes et voisées s’est révélé plus important chez les locutrices, le débit de parole plus élevé chez les locuteurs masculins, et la proportion occupée par les consonnes plus importantes chez les femmes. Ces résultats suggèrent une tendance à la recherche d’une plus grande intelligibilité chez les locutrices. Les différences acoustiques femmes-hommes seraient donc en partie construites socialement.


Démonstrations JEP/TALN - Vendredi 11h00-16h00 (D) - salles 3.14 à 3.19

Présidents de session : Ophélie Lacroix et Corentin Ribeyre

  • Lecture bilingue augmentée par des alignements multi-niveaux
    François Yvon, Yong Xu, Marianna Apidianaki, Clément Pillias et Cubaud Pierre
    Abstract: Le travail qui a conduit à cette démonstration combine des outils de traitement des langues multilingues, en particulier l'alignement automatique, avec des techniques de visualisation et d'interaction. Il vise à proposer des pistes pour le développement d'outils permettant de lire \emph{simultanément} les différentes versions d'un texte disponible en plusieurs langues, avec des applications en lecture de loisir ou en lecture professionnelle.
  • Un système automatique de sélection de réponse en domaine ouvert intégrable à un système de dialogue social
    Franck Charras, Guillaume Dubuisson Duplessis, Vincent Letard, Anne-Laure Ligozat et Sophie Rosset.
    Abstract: Cette démonstration présente un système de dialogue en domaine ouvert qui utilise une base d’exemples de dialogue automatiquement constituée depuis un corpus de sous-titres afin de gérer un dialogue social de type « chatbot ».

    This demonstration exhibits an example-based system that uses a database of indexed dialogue examples automatically built from a television drama subtitle corpus to manage social open-domain dialogue.
  • LNE-Visu : une plateforme d’exploration et de visualisation de données d’évaluation
    Guillaume Bernard, Juliette Kahn, Olivier Galibert, Rémi Regnier et Séverine Demeyer
    Abstract: LNE-Visu est une interface de visualisation et d’exploration de données multimédia qui regroupe les données des campagnes d’évaluation organisées par le LNE. Elle propose 3 fonctionnalités principales : explorer et sélectionner des corpus, visualiser et écouter des données et effectuer des tests de significativités de différences.
  • Construction automatisée d'une base de connaissances
    Olivier Mesnard, Yoann Dupont, Jérémy Guillemot et Rashedur Rahman
    Abstract: Le système présenté démontre la construction automatisée d'une base de connaisances à partir d'une colection de documents. Il s'appuie sur de l'apprentissage distant pour l'extraction d'hypothèses de relations entre mentions d'entités et consolide ces hypothèses avec des algorithme orientés graphe.
  • Identification de lieux dans les messageries mobiles
    Clément Doumouro, Adrien Ball, Joseph Dureau et Sylvain Raybaud
    Abstract: Nous présentons un système d’identification de lieux dans les messageries typiquement utilisées sur smartphone. L’implémentation sur mobile et son cortège de contraintes, ainsi que la faible quantité de ressources disponibles pour le type de langage utilisé rendent la tâche particulièrement délicate. Ce système, implémenté sur Android, atteint une précision de 30% et un rappel de 72%.
  • ACGtk : un outil de développement et de test pour les grammaires catégorielles abstraites
    Sylvain Pogodalla
    Abstract: Nous présentons un outil, ACGtk, offrant un environnement de développement et d'utilisation des grammaires catégorielles abstraites pour l'analyse et la génération.
  • Tag Thunder : plateforme de démonstration et d'expérimentation
    Jean-Marc Lecarpentier, Elena Manishina, Maxence Busson, Fabrice Maurel et Stephane Ferrari
    Abstract: Dans cette démonstration, nous proposons un système qui permettrait aux utilisateurs non-voyants d'obtenir le {\em first glance} d'une page web. L'objectif est de réduire le temps d'accès à la structure logico-thématique de la page et de favoriser le développement de stratégies de lecture de haut niveau. Notre concept, appelé Tag Thunder, s'appuie sur une phase de segmentation de la page en zones, suivie d'une étape de représentation des zones par un mot ou groupe de mots, puis une vocalisation simultanée de ces représentants.
  • STAM : traduction des textes non structurés (dialectes du Maghreb)
    Mehdi Embarek et Soumya Embarek
    Abstract: L’utilisation des plateformes de communication (réseaux sociaux, forums de discussions, ...) a pris une ampleur considérable. Ces plateformes permettent aux internautes d’exprimer leur avis concernant un sujet, demander ou échanger des informations, commenter un événement, etc. Ainsi, nous retrouvons dans ces différentes sources d’informations une quantité importante de textes rédigés dans des dialectes locaux dont sont originaires les rédacteurs. Cependant, ces textes non structurés rendent l’exploitation des outils de traitement automatique des langues très difficile. Le système STAM aborde cette problématique en proposant un système capable de transcrire automatiquement des textes écrits dans un dialecte parlé dans les pays du Maghreb en un texte facilement interprétable et compréhensible (français ou anglais).
  • AppFM, un outil de gestion de modules TAL
    Paul Bui-Quang, Brigitte Grau et Patrick Paroubek
    Abstract: AppFM est un outil à mi chemin entre un environnement de création de chaînes modulaires de traitement de la langue et un gestionnaire de services systèmes. Il permet l'intégration d'applications comprenant des dépendances complexes en des chaînes de traitements réutilisables facilement par le biais de multiples interfaces.
  • Un analyseur de conversations pour la relation client
    Hugues de Mazancourt, Gaëlle Recourcé et Soufian Salim
    Abstract: Cette démonstration du projet ODISAE a pour objet de présenter l’utilisation d’un analyseur de conversations par email ou chat dans le cadre d’une application de support client : mise en valeur des demandes d’action, repérage des thèmes dangereux, tableau de bord pour le superviseur, alertes pour l’agent ...
  • Un outil multilingue d’extraction de collocations en ligne
    Luka Nerima, Violeta Seretan et Eric Wehrli
    Abstract: Cette démonstration présente la version web d’un outil multilingue d’extraction de collocations. Elle est destinée aux lexicographes, aux traducteurs, aux enseignants et apprenants L2 et, plus généralement, aux linguistes désireux d’analyser et d’exploiter leurs propres corpus.
  • Radarly : écouter et analyser le web conversationnel en temps réel
    Jade Copet, Christine de Carvalho, Virginie Mouilleron, Benoit Tabutiaux et Hugo Zanghi
    Abstract: De par le contexte conversationnel digital, l’outil Radarly a été conçu pour permettre de traiter de grands volumes de données hétérogènes en temps réel, de générer de nouveaux indicateurs et de les visualiser sur une interface cohérente et confortable afin d’en tirer des analyses et études pertinentes. Ce document expose les techniques et processus utilisés pour extraire et traiter toutes ces données.
  • FlexiMac 1.1. – conjugueur automatique du verbe macédonien
    Jovan Kostov
    Abstract: Cette démonstration présente la plateforme FlexiMac 1.1., générateur automatique des verbes macédoniens qui permet de conjuguer un verbe dans la plupart des modes et des temps, sans faire appel à une base de données. Après un bref exposé du fonctionnement de la plateforme, nous allons également évoquer les travaux actuels qui en ont découlé, et ceux qui sont en train d’émerger dans une perspective de traitement automatique du macédonien en tant que langue européenne peu-dotée.

    FlexiMac 1.1. – Automatic Generator of the Verbal Paradigms of the Macedonian language.
    This paper presents the FlexiMac 1.1. platform, an automatic generator of Macedonian verbs that conjugates verbs in most moods et tenses, without any use of a database. After a brief presentation of the platform’s architecture, we will also discuss the current et emerging works that resulted from this research et that can be used for a natural processing of the Macedonian language as one of the less-documented European languages.
  • CommunicoTool Advance, un prototype d’application d’aide à la communication
    Charlotte Roze
    Abstract: CommunicoTool Advance est un prototype d’application mobile d’aide à la communication destinée à des personnes qui présentent des troubles moteurs et des troubles de la parole.
  • SOFA : Une plateforme d'analyse syntaxique en ligne pour l'ancien français
    Gaël Guibon
    Abstract: SOFA une application web dédiée à l'étiquetage syntaxique de l'ancien français. Cette plateforme est une démonstration permettant d'appliquer sur n'importe quel texte, ou sur un des textes d'ancien français, des modèles de lemmatisation, d'annotation morpho-syntaxique, et d'analyse syntaxique, en plus d'en visualiser les performances.
  • Exploration de collections d’archives multimédia dans le contexte des Humanités Numériques : revisiter TALN’2015 ?
    Géraldine Damnati, Marc Denjean et Delphine Charlet
    Abstract: Cette démonstration présente un prototype d’exploration de contenus multimédias développé dans le but de faciliter l’accès aux contenus de la Connaissance. Après une extraction automatique de métadonnées, les contenus sont indexés et accessibles via un moteur de recherche spécifique. Des fonctionnalités innovantes de navigation à l’intérieur des contenus sont également présentées. La collection des enregistrements vidéo de TALN’2015 sert de support privilégié à cette démonstration.
  • E-Quotes : un outil de navigation textuelle guidée par les annotations sémantiques
    Motasem Alrahabi
    Abstract: Nous présentons E-Quotes, un outil de navigation textuelle guidée par les annotations sémantiques. Le système permet de localiser les mots clés et leurs variantes dans les citations sémantiquement catégorisés dans corpus annoté, et de naviguer entre ces citations. Nous avons expérimenté ce système sur un corpus de littérature française automatiquement annoté selon des catégories sémantiques présentes dans le contexte des citations, comme par exemple la définition, l'argumentation, l'opinion, l'ironie ou la rumeur rapportées.
  • Héloïse, une plate-forme pour développer des systèmes de TA compatibles Ariane en réseau
    Vincent Berment, Christian Boitet et Guillaume de Malézieux
    Abstract: Dans cette démo, nous montrons comment utiliser Héloïse pour développer des systèmes de TA.
  • Interface Web pour l'annotation morpho-syntaxique de textes
    Thierry Hamon
    Abstract: Nous présentons une interface Web pour la visualisation et
    l'annotation de textes avec des étiquettes morphosyntaxiques et des lemmes. Celle-ci est actuellement utilisée pour annoter des textes ukrainiens avec le jeu d'étiquettes Multext-East. Les utilisateurs peuvent rapidement visualiser les annotations associées aux mots d'un texte, modifier les annotations existantes ou en ajouter de nouvelles. Les annotations peuvent chargées et exportées en XML au format TEI, mais aussi sous forme tabulée. Des scripts de conversion de format et de chargement dans une base de données sont également mis à disposition.