Index

Contact Point Metashare/bee67034de6b11e2b1e400259011f6ead2a25f2425f34eb198784968d442572c#contact Person
Description The Dutch CELEX data is derived from R.H. Baayen, R. Piepenbrock & L. Gulikers, The CELEX Lexical Database (CD-ROM), Release 2, Dutch Version 3.1, Linguistic Data Consortium, University of Pennsylvania, Philadelphia, PA, 1995. Apart from orthographic features, the CELEX database comprises representations of the phonological, morphological, syntactic and frequency properties of lemmata. For the Dutch data, frequencies have been disambiguated on the basis of the 42.4m Dutch Instituut voor Nederlandse Lexicologie text corpora. To make for greater compatibility with other operating systems, the databases have not been tailored to fit any particular database management program. Instead, the information is presented in a series of plain ASCII files, which can be queried with tools such as AWK and ICON. Unique identity numbers allow the linking of information from different files.This database can be divided into different subsets: · orthography: with or without diacritics, with or without word division positions, alternative spellings, number of letters/syllables; · phonology: phonetic transcriptions with syllable boundaries or primary and secondary stress markers, consonant-vowel patterns, number of phonemes/syllables, alternative pronunciations, frequency per phonetic syllable within words; · morphology: division into stems and affixes, flat or hierarchical representations, stems and their inflections; · syntax: word class, subcategorisations per word class; · frequency of the entries: disambiguated for homographic lemmata.
Les données en hollandais de CELEX sont extraites de la base de données lexicale CELEX (CD-ROM) de R.H. Baayen, R. Piepenbrock & L. Gulikers, seconde édition, version hollandaise 3.1, Linguistic Data Consortium, Université de Pennsylvanie, Philadelphie, PA, 1995. En-dehors des traits orthographiques, la base de données CELEX comprend des représentations des propriétés phonologiques, morphologiques, syntaxiques et fréquentielles des lemmes. En ce qui concerne les données du hollandais, les fréquences ont été désambigüisées sur la base du corpus de textes de l'Instituut voor Nederlandse Lexicologie. Afin de permettre une meilleure compatibilité avec d'autres systèmes, les bases ne sont adaptées à aucun système de gestion de base de données spécifique. Au contraire, l'information est présentée dans une série de fichiers textes ASCII, pouvant être interrogés par des outils tels que AWK et ICON. Des numéros d'identification uniques permettent d'accéder et d'établir les relations entre les informations provenant de différents fichiers. Cette base de données peut être divisée en cinq sous-ensembles selon les niveaux d'informations suivants : · orthographe: avec ou sans diacritiques, avec ou sans la position de la coupure de mot (césure), option d'orthographe, nombre de lettres/syllabes ; · phonologie : transcriptions phonétiques avec segmentation des syllabes ou balisage des accents primaires ou secondaires, schémas consonne-voyelle, nombre de phonèmes/syllabes, options de prononciation, fréquence par syllabe phonétique dans les mots ; · morphologie : division en radical et affixes, représentations à plat ou hiérarchisées, radicaux et leurs flexions ; · syntaxe : classe de mot, sous-catégorisation par classe de mot ; · fréquence des entrées : désambigüisation des lemmes homographes.
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title CELEX Dutch lexical database - Phonology Subset
CELEX - Base de données lexicale du hollandais - sous-ensemble \"phonologie\"
Type Lexical Conceptual Resource
Contact Point Metashare/d18d7c5ade6611e2b1e400259011f6ea6efb98eb962d46ff8584eef8239f4ac8#contact Person
Description 4116 entrées, domaine Géographie, histoire, arts. Les entrées contiennent des informations morphologiques pour les différentes classes de mots. Les informations sur les termes composés sont fournies par la tête du terme (tête du syntagme).
4,116 entries for Geography, History, Arts. The entries contain morphological information for part-of-speech and inflectional class. The information on multi-word terms is provided by the headword.
Language Spanish
English
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title Bilingual Spanish-English and English-Spanish lexicons (INCYTA) - Geography, History, Arts
Lexiques bilingues espagnol-anglais et anglais-espagnol (INCYTA) - Géographie, histoire, arts
Type Lexical Conceptual Resource
Contact Point Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#contact Person
Description Les dictionnaires de prononciation GlobalPhone, créés dans le cadre du corpus multilingue de parole GlobalPhone, ont été développés avec la collaboration du Karlsruhe Institute of Technology (KIT). Les dictionnaires de prononciation GlobalPhone contiennent les prononciations de toutes les formes de mots des données de transcription de la base de données textuelle et orale GlobalPhone. Les dictionnaires de prononciation sont actuellement disponibles en 15 langues: arabe (29230 entrées/27059 mots), bulgare (20193 entrées), croate (23497 entrées/20628 mots), tchèque (33049 entrées/32942 mots), français (36837 entrées/20710 mots), allemand (48979 entrées/46035 mots), hausa (42662 entrées/42079 mots), japonais (18094 entrées), polonais (36484 entrées), portugais (brésilien) (54146 entrées/54130 mots), russe (28818 entrées/27667 mots), espagnol (d’Amérique latine) (43264 entrées/33960 mots), suédois (env. 25000 entrées), turc (31330 entrées/31087 mots), et vietnamien (38504 entrées/29974 mots). 3 autres langues seront également distribuées: chinois-mandarin, coréen et thaï. 1) Codage du dictionnaire: Les entrées du dictionnaire de prononciation consiste en des formes de mots entières et sont données soit dans le script original de la langue, principalement au format de codage UTF-8 (bulgare, croate, tchèque, français, polonais, russe, espagnol, thaï) corresondant aux fichiers trl des transcriptions GlobalPhone, soit dans le script romanisé (arabe, allemand, hausa, japonais, coréen, mandarin, portugais, suédois, turc, vietnamien) correspondant aux fichiers rmn des transcriptions GlobalPhone. Dans le dernier cas, la documentation fournit principalement un mapping de la version romanisée vers le script original. 2) Ensemble des phones du dictionnaire : Les ensembles de phones de chaque langue sont dérivés individuellement des publications qui présentent les meilleures pratiques du traitement automatique de la parole. Chaque ensemble de phones est expliqué et décrit dans la documentation fournie en utilisant les standards internationaux de l’alphabet phonétique international (International Phonetic Alphabet - IPA). Pour la plupart des langues est fourni un mapping avec les conventions de noms GlobalPhone indépendantes de la langue (indiquées par “M_”), dans un but de partage de données à travers les langues pour construire des modèles acoustiques multilingues. 3) Génération du dictionnaire: Lorsque la relation graphème-phonème le permettait, les dictionnaires ont été créés semi-automatiquement d’après une méthode à base de règles en utilisant un ensemble de règles de mapping graphème-phonème. Le nombre de règles dépend fortement de la langue. Après la procédure de création automatique, tous les dictionnaires ont été vérifiés manuellement de façon croisée par des locuteurs natifs, afin de corriger les erreurs potentielles du processus de génération automatique de prononciation. La plupart des dictionnaires ont été soumis à une reconnaissance de la parole à large vocabulaire. Dans beaucoup de cas, les dictionnaires GlobalPhone ont été comparés à une simple reconnaissance de la parole basée sur le graphème et d’autres sources alternatives, telles que Wiktionary et se sont avérés habituellement supérieurs en termes de qualité, couverture et précision. 4) Format: Le format des dictionnaires est simple et identique pour chaque langue. Chaque ligne consiste en une forme de mot et sa prononciation séparés par un espace. La prononciation consiste en une concaténation des symboles de phones séparés par des espaces. Les mots et leurs prononciations sont donnés dans la forme d’une liste avec un script tcl, c’est-à-dire inclus dans des “{}”, puisque les phones peuvent avoir des étiquettes, indiquant le ton et la longueur d’une voyelle, ou la limite du mot avec l’étiquette “WB”, qui indique la limite d’une unité du dictionnaire. L’étiquette WB peut par exemple être incluse comme une question standard dans les questions d’arbre décisionnel pour la capture de modèles de mots croisés dans la modélisation dépendante du contexte. Les variantes de prononciation sont indiquées par (<n>) avec n = 2, 3, 4,… indiquant le nombre de variantes par mot. L’ordre dans lequel les variantes interviennent dans le dictionnaire n’est pas nécessairement lié à leur fréquence dans le corpus. {word} {{w WB} o r {d WB}} 5) Documentation: Les dictionnaires de prononciation pour chaque langue sont complétés par une documentation qui décrit le format du dictionnaire, l’ensemble de phones incluant le mapping avec l’alphabet phonétique international (International Phonetic Alphabet - IPA), et la répartition des fréquences des phones dans les dictionnaires. La plupart des dictionnaires de prononciation ont été soumis à un système de reconnaissance de la parole à large vocabulaire avec succès et les références à des publications sont données lorsque celles-ci sont disponibles.
The GlobalPhone pronunciation dictionaries, created within the framework of the multilingual speech and language corpus GlobalPhone, were developed in collaboration with the Karlsruhe Institute of Technology (KIT). The GlobalPhone pronunciation dictionaries contain the pronunciations of all word forms found in the transcription data of the GlobalPhone speech & text database. The pronunciation dictionaries are currently available in 15 languages: Arabic (29230 entries/27059 words), Bulgarian (20193 entries), Croatian (23497 entries/20628 words), Czech (33049 entries/32942 words), French (36837 entries/20710 words), German (48979 entries/46035 words), Hausa (42662 entries/42079 words), Japanese (18094 entries), Polish (36484 entries), Portuguese (Brazilian) (54146 entries/54130 words), Russian (28818 entries/27667 words), Spanish (Latin American) (43264 entries/33960 words), Swedish (about 25000 entries), Turkish (31330 entries/31087 words), and Vietnamese (38504 entries/29974 words). Other 3 languages will also be released: Chinese-Mandarin, Korean and Thai. 1) Dictionary Encoding: The pronunciation dictionary entries consist of full word forms and are either given in the original script of that language, mostly in UTF-8 encoding (Bulgarian, Croatian, Czech, French, Polish, Russian, Spanish, Thai) corresponding to the trl-files of the GlobalPhone transcriptions or in Romanized script (Arabic, German, Hausa, Japanese, Korean, Mandarin, Portuguese, Swedish, Turkish, Vietnamese) corresponding to the rmn-files of the GlobalPhone transcriptions, respectively. In the latter case the documentation mostly provides a mapping from the Romanized to the original script. 2) Dictionary Phone set: The phone sets for each language were derived individually from the literature following best practices for automatic speech processing. Each phone set is explained and described in the documentation using the international standards of the International Phonetic Alphabet (IPA). For most languages a mapping to the language independent GlobalPhone naming conventions (indicated by “M_”) is provided for the purpose of data sharing across languages to build multilingual acoustic models. 3) Dictionary Generation: Whenever the grapheme-to-phoneme relationship allowed, the dictionaries were created semi-automatically in a rule-based fashion using a set of grapheme-to-phoneme mapping rules. The number of rules highly depends on the language. After the automatic creation process, all dictionaries were manually cross-checked by native speakers, correcting potential errors of the automatic pronunciation generation process. Most of the dictionaries have been applied to large vocabulary speech recognition. In many cases the GlobalPhone dictionaries were compared to straight-forward grapheme-based speech recognition and to alternative sources, such as Wiktionary and usually demonstrated to be superior in terms of quality, coverage, and accuracy. 4) Format: The format of the dictionaries is the same across languages and is straight-forward. Each line consists of one word form and its pronunciation separated by blank. The pronunciation consists of a concatenation of phone symbols separated by blanks. Both, words and their pronunciations are given in tcl-script list format, i.e. enclosed in “{}”, since phones can carry tags, indicating the tone and length of a vowel, or the word boundary tag “WB”, indicating the boundary of a dictionary unit. The WB tag can for example be included as a standard question in the decision tree questions for capturing crossword models in context-dependent modeling. Pronunciation variants are indicated by (<n>) with n = 2, 3, 4,… indicating the number of variants per word. The order in which variants occur in the dictionary is not necessarily related to their frequency in the corpus. {word} {{w WB} o r {d WB}} 5) Documentation: The pronunciation dictionaries for each language are complemented by a documentation that describes the format of the dictionary, the phone set including its mapping to the International Phonetic Alphabet (IPA), and the frequency distribution of the phones in the dictionary. Most of the pronunciation dictionaries have been successfully applied to large vocabulary speech recognition and references to publications are given when available.
Language Spanish
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title GlobalPhone Spanish (Latin American) Pronunciation Dictionary
Dictionnaire de prononciation GlobalPhone espagnol (d’Amérique latine)
Type Lexical Conceptual Resource
Contact Point Metashare/44e98d30de7411e2b1e400259011f6ea8245a3ca587042069e78640b083d350c#contact Person
Description Ce corpus a été collecté dans le cadre du projet FASiL, EU FP5 IST-2001-38685 (http://www.fasil.co.uk), pour une expérience en magicien d’oz. Ainsi, il comprend les enregistrements des sujets et du magicien pour un total de 70 sujets. Le corpus est formaté en fichiers .wav (u-law) pour la partie audio, ASCII pour la partie transcriptions (.txt), et un fichier maître relie les .txt et les .wav. Le fichier maître est une sorte de réseau d’interaction temporelle qui contient l’ordre exact des interactions et des mesures de temps. Le fichier maître correspond approximativement au format de réseau HTK-SLF. L’expérience magicien d’oz tient dans l’interaction orale avec un « assistant personnel virtuel » (Virtual Personal Assistent (VPA)) dans une tâche d’email, de gestion de calendrier et de contacts. Les hésitations sont marquées par la balise “UH”, le bruit par la balise “NOISE” et les autres éléments non pertinents par la balise “IRRELEVANT”. Toutes les annotations sont en minuscules, excepté les balises précédemment citées. Une documentation précise de l’expérience est présentée dans le livrable FASiL D.2.2. Les interactions comprennent principalement des phrases mais également des noms épelés, des adresses email, des numéros de téléphone, des questions fermées.
The corpus was collected in the context of the FASiL project, EU FP5 IST-2001-38685 (http://www.fasil.co.uk), as a wizard-of-oz experiment. Therefore, there are sound recordings of subject and wizard. A total of 70 subjects were recorded. The corpus is formatted as .wav files (u-law) for audio, plain ASCII text (.txt) for transcriptions, and a masterfile which binds .txt and .wav together. The masterfile is a “lattice” of the ineraction in time, and contains the exact order of the interaction plus timings. The masterfile is loosely related to the HTK-SLF lattice format. The woz experiment is about the voice interaction with a Virtual Personal Assistent (VPA) for an email, calender and contacts task. Hesitations are marked as “UH”, noise as “NOISE” and other irrelevant stuff as “IRRELEVANT”. All annotations are in lower case, except for the former mentioned cases. Exact documentation of experiment in FASiL deliverable D.2.2 The interactions contain mostly sentences but also spelled names, email addresses, telephone numbers, yes/no questions. S0174-01, S0174-03, S0174-04, and S0174-05.
Language Portuguese
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title Corpus unimodal portugais FASiL “fasil-pt”
FASiL Portuguese unimodal “fasil-pt” corpus
Type Corpus
Contact Point Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#contact Person
Description The GlobalPhone corpus developed in collaboration with the Karlsruhe Institute of Technology (KIT) was designed to provide read speech data for the development and evaluation of large continuous speech recognition systems in the most widespread languages of the world, and to provide a uniform, multilingual speech and text database for language independent and language adaptive speech recognition as well as for language identification tasks. The entire GlobalPhone corpus enables the acquisition of acoustic-phonetic knowledge of the following 20 spoken languages: Arabic (ELRA-S0192), Bulgarian (ELRA-S0319), Chinese-Mandarin (ELRA-S0193), Chinese-Shanghai (ELRA-S0194), Croatian (ELRA-S0195), Czech (ELRA-S0196), French (ELRA-S0197), German (ELRA-S0198), Hausa (ELRA-S0347), Japanese (ELRA-S0199), Korean (ELRA-S0200), Polish (ELRA-S0320), Portuguese (Brazilian) (ELRA-S0201), Russian (ELRA-S0202), Spanish (Latin America) (ELRA-S0203), Swedish (ELRA-S0204), Tamil (ELRA-S0205), Thai (ELRA-S0321), Turkish (ELRA-S0206), Vietnamese (ELRA-S0322). In each language about 100 sentences were read from each of the 100 speakers. The read texts were selected from national newspapers available via Internet to provide a large vocabulary (up to 65,000 words). The read articles cover national and international political news as well as economic news. The speech is available in 16bit, 16kHz mono quality, recorded with a close-speaking microphone (Sennheiser 440-6) and same recording equipment for all languages. The transcriptions are internally validated and supplemented by special markers for spontaneous effects like stuttering, false starts, and non-verbal effects like laughing and hesitations. Speaker information like age, gender, occupation, etc. as well as information about the recording setup complement the database. The entire GlobalPhone corpus contains over 450 hours of speech spoken by more than 1900 native adult speakers. Data is shortened by means of the shorten program written by Tony Robinson, available from Softsound's web page: http://www.softsound.com/ linux distributions, or simulated versions such as cygwin. Alternatively, the data could be delivered unshorten. The Portuguese (Brazilian) corpus was produced using the Folha de Sao Paulo newspaper. It contains recordings of 102 speakers (54 males, 48 females) recorded in Porto Velho and Sao Paulo, Brazil. The following age distribution has been obtained: 6 speakers are below 19, 58 speakers are between 20 and 29, 27 speakers are between 30 and 39, 5 speakers are between 40 and 49, and 5 speakers are over 50 (1 speaker age is unknown).
Le corpus GlobalPhone, développé avec la collaboration du Karlsruhe Institute of Technology (KIT), a été conçu afin de fournir des données de parole lue pour le développement et l’évaluation de systèmes de reconnaissance de la parole continue à large vocabulaire dans les langues les plus répandues dans le monde, l’objectif étant de fournir une base de données audio et textuelles uniforme et multilingue pour la reconnaissance de la parole indépendante de la langue et adaptable à la langue, ainsi que pour des tâches d’identification de la langue. Le corpus GlobalPhone complet permet l’acquisition d’une connaissance acoustico-phonétique pour les 20 langues parlées suivantes: allemand (ELRA-S0198), arabe (arabe standard moderne) (ELRA-S0192), bulgare (ELRA-S0319), chinois-mandarin (ELRA-S0193), chinois de Shanghai (ELRA-S0194), coréen (ELRA-S0200), croate (ELRA-S0195), espagnol (d’Amérique latine) (ELRA-S0203), français (ELRA-S0197), haoussa (ELRA-S0347), japonais (ELRA-S0199), polonais (ELRA-S0320), portugais (brésilien) (ELRA-S0201), russe (ELRA-S0202), suédois (ELRA-S0204), tamoul (ELRA-S0205), thaï (ELRA-S0321), tchèque (ELRA-S0196), turc (ELRA-S0206) et vietnamien (ELRA-S0322). Dans chaque langue, environ 100 phrases ont été lues par chacun des 100 locuteurs. Les textes lus sont extraits d’articles de journaux nationaux disponibles sur internet afin de fournir un large vocabulaire (jusqu’à 65000 mots). Les articles lus couvrent des actualités politiques nationales et internationales, ainsi que des nouvelles économiques. Les données de parole ont été enregistrées en 16 bit, 16 kHz (qualité mono) avec un micro-casque (Sennheiser 440-6) et le même équipement d’enregistrement pour l’ensemble des langues. Les transcriptions ont été validées en interne et annotées au moyen de balises spéciales pour marquer les effets spontanés, tels que le bégaiement, les faux démarrages, et les effets non verbaux comme le rire et les hésitations. La base contient également des informations sur les locuteurs, telles que l’âge, le genre, la profession, etc. ainsi que des informations sur la mise en place de l’enregistrement. Le corpus GlobalPhone dans son entier comprend plus de 450 heures de parole enregistrées par plus de 1900 locuteurs adultes natifs. Les données sont compressées au moyen du programme Shorten écrit par Tony Robinson, disponible depuis la page web de Softsound: http://www.softsound.com/ (distributions linux ou versions simulées telles que cygwin). Au besoin, les données peuvent être fournies non compressées. Le corpus portugais (brésilien) a été produit à partir du journal Folha de Sao Paulo. Il comprend les enregistrements de 102 locuteurs (54 hommes, 48 femmes) enregistrés à Porto Velho et Sao Paulo, Brésil. Les classes d'âge sont réparties comme suit : 6 locuteurs de moins de 19 ans, 58 locuteurs entre 20 et 29 ans, 27 locuteurs entre 30 et 39 ans, 5 locuteurs entre 40 et 49 ans, et 5 locuteurs de plus de 50 ans (1 locuteur d’âge inconnu).
Language Portuguese
Rights ELRA_END_USER
ELRA_VAR
Source META-SHARE
Title GlobalPhone Portuguese (Brazilian)
GlobalPhone portugais (brésilien)
Type Corpus
Contact Point Metashare/2f6c0368de6d11e2b1e400259011f6eac45bfa8538a44cd1b43bbe83f44bb107#contact Person
Description Domaines techniques Langues : Anglais => Italien Domaine: Droit, 8 900 entrées, formes canoniques Les dictionnaires techniques bilingues disposent d'une codification morphologique qui permet de générer toutes les formes fléchies grâce à un logiciel écrit en langage C. Les mots composés contiennent une codification morphologique sur la tête des mots.
Technical domains Languages: English => Italian Format: ASCII format with ISO 8859-1 character set Medium: QIC 150 MB Cartridge Tape Domain: Law, 8,900 entries, canonical forms Technical bilingual Italian dictionaries with a morphological coding which can generate all full forms using a software engine written in C. Multi-word terms contain morphological coding for the head word.
Language English
Italian
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title THAMUS Bilingual dictionaries - Law
THAMUS Dictionnaires bilingues - Droit
Type Lexical Conceptual Resource
Contact Point Metashare/4831f33cde6611e2b1e400259011f6ea53c0a08d9e7d4157a814a2c8dbebd5ab#contact Person
Description This corpus comprises 8,000 Chinese place names uttered by 200 speakers of different dialects, ages and various educational levels, recorded over 4 channels. Speech samples are stored as a sequence of 16-bit 44.1kHz WAV for 12.27 hours of speech per channel. The total capacity of the data is 14.45 Gb. Each speaker read 40 items. Text files are stored in Unicode format. All data have been proofread manually. The corpus aims to be applied to the testing and telephone natural speech recognition system.
Ce corpus comprend 8 000 noms de lieux en chinois prononcés par 200 locuteurs de dialectes, d’âges et de niveaux d’éducation différents, enregistrés via 4 canaux. Les échantillons de parole sont stockés sous la forme de séquences 16-bit 44,1kHz WAV pour un total de 12,27 heures de parole par canal. La taille totale des données est de 14,45 Go. Chaque locuteur a lu 40 éléments. Les fichiers textes sont stockés au format Unicode. Toutes les données ont été vérifiées manuellement. Cette base de données a été conçue pour l’évaluation et le développement de systèmes de reconnaissance de la parole naturelle par téléphone.
Rights ELRA_END_USER
ELRA_VAR
Source META-SHARE
Title Mandarin Chinese high clarity Speech Recognition Corpus (in recording studio) - (desktop) – place name (200 people)
Corpus de reconnaissance de parole du chinois mandarin de haute qualité sonore (enregistrements en studio) – noms de lieux (200 locuteurs)
Type Corpus
Contact Point Metashare/9d9f4008de7111e2b1e400259011f6ea03e9c52feb8441b9962fcf2c02d87100#contact Person
Description A-SpeechDB© is an Arabic speech database suited for training acoustic models for Arabic phoneme-based speaker-independent automatic speech recognition systems. The database contains about 20 hours of continuous speech recorded through one desktop omni microphone by 205 native speakers from Egypt (about 30% of females and 70% of males), aged between 20 and 45. Automatically generated transcriptions are provided with a manually revised version for each sentence. Accuracy: • Detailed speaker information: Age, Accent, place of stay, gender • Recording in office environment • Sentence labeled. • Continuous Speech • Automatic first pass transcription • Manual second pass labeling • Each text prompt is unique, no repeated sentences • Sentences chosen to cover all Arabic phonetics several times Technology: • Automatic transcription using TransArab© • Recording using DBRec© or Validator© • Validation using Validator© Audio: • Sample Rate : 16 KHz • Resolution: 16 bit PCM • Format: MAF (A tool is included to convert the database to WAV format) Text: • Labeled data format: HTK lab format (100 nano-seconds)
A-SpeechDB© est une base de données orale arabe conçue pour entraîner les modèles acoustiques des systèmes de reconnaissance automatique de la parole en arabe, indépendants du locuteur et basés sur les phonèmes. La base de données contient environ 20 heures de parole continue enregistrée sur un microphone de table omni-directionnel par 205 locuteurs égyptiens de langue maternelle arabe (environ 30% de femmes et 70% d’hommes), âgés entre 20 et 45 ans. Les transcriptions générées automatiquement sont fournies avec une version révisée manuellement pour chaque phrase. Niveau de précision: • Information détaillée par locuteur: âge, accent, lieu de résidence, genre • Enregistrement dans un environnement de bureau • Annotation au niveau de la phrase • Parole continue • Transcription automatique (premier passage) • Annotation manuelle (deuxième passage) • Chaque énoncé de texte (prompt) est unique, les phrases ne sont pas répétées • Phrases choisies pour couvrir plusieurs fois l’ensemble de la phonétique arabe Technologie: • Transcription automatique réalisée avec TransArab© • Enregistrements réalisés avec DBRec© ou Validator© • Validation réalisée avec Validator© Audio: • Taux d’échantillonnage: 16 KHz • Résolution: 16 bit PCM • Format: MAF (Un outil est inclus pour convertir la base de données au format WAV) Texte: • Format de données d’annotation: HTK lab (100 nanosecondes)
Language Arabic
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title A-SpeechDB
A-SpeechDB
Type Corpus
Contact Point Metashare/949782f6de6a11e2b1e400259011f6ea2adf9dfadb834cfca6d878241f8cb34a#contact Person
Description A. Available Wordnets Following the announcement of the EuroWordNet databases in the last issue of the ELRA Newsletter (Vol.4 N.2), we are happy to announce that the list of EuroWordNet languages has grown. The following wordnets are now available via ELRA: ELRA ref. Language Synsets Word Meanings Language Internal Relations Equi-valence Relations ELRA-M0015 English Addition to English WordNet 16361 40588 42140 0 ELRA-M0016 Dutch 44015 70201 111639 53448 ELRA-M0017 Spanish 23370 50526 55163 21236 ELRA-M0018 Italian 48529 48499 117068 71789 ELRA-M0019 German 15132 20453 34818 16347 ELRA-M0020 French 22745 32809 49494 22730 ELRA-M0021 Czech 12824 19949 26259 12824 ELRA-M0022 Estonian 9317 13839 16318 9004 B. LR(1) Common Components (All Foreground - Data of layer 1) A. The Inter-Lingual-Index, which is a list of records (ILI-records), in the form of synsets mainly taken from WordNet1.5 or manually created. An ILI-record contains: A.1 synset: set of synonymous words or phrases (mostly from WordNet1.5) A.2 part-of-speech, A.3 one or more Top-Concept classifications (Optional) A.4 one or more Domain labels (Optional) A.5 a gloss in English (mostly from WordNet1.5) A.6 a unique ID linking the synset to its source (mostly WordNet1.5) B. Top-Ontology: an ontology of 63 basic semantic classes based on fundamental distinctions. By means of the Top-Ontology all the wordnets can be accessed using a single language-independent classification-scheme. Top-Concepts are only assigned to ILI-records. C. Domain-ontology: an ontology of subject-domains optionally assigned to ILI-records. D. A selection of ILI-records, the so-called Base-Concepts, which play a major role in the different wordnets. These Base-Concepts form the core of all the wordnets. All the Base-Concepts are classified in terms of the Top-Concepts that apply to them. E. WordNet1.5 (91591 synsets; 168217 meanings; 126520 entry words) in EuroWordNet format. C. LR(2) Language-Specific Components (Data of layer 2- partly Foreground and partly Background) Wordnets produced in the first project (LE2-4003): F. Dutch wordnet G. English wordnet (additional relations which are missing in WordNet1.5) H. Italian wordnet I. Spanish wordnet After extension of the project (LE4-8328): J. German wordnet K. French wordnet L. Czech wordnet M. Estonian wordnet The specific wordnets are language-internal structures, minimally containing: o set of variants or synonyms making up the synset o part-of-speech o language-internal relations to other synsets o equivalence relations with ILI-records o a unique-id linking the synset to its source Each wordnet will be distributed with LR1 and will include documentation on LR1 and the distributed wordnet. All the data will be distributed as text-files in the EuroWordNet import format and as Polaris database files (see below LR3). The EuroWordNet viewer (Periscope, see below LR3) can be used to access the database version. Polaris has to be licensed to modify and extend the database version. The wordnets are distributed without: o glosses o usage labels o morpho-syntactic properties o examples o word-to-word translations D. LR(3) Software The multilingual EUROWORDNET Database (partly Foreground, partly Background) consists of three components: o The actual wordnets in Flaim database format: an indexing and compression format of Novell. o Polaris (Louw 1997): a wordnet editing tool for creating, editing and exporting wordnets. o Periscope (Cuypers and Adriaens 1997): a graphical database viewer for viewing and exporting wordnets. The Polaris tool is a re-implementation of the Novell ConceptNet toolkit (Díez-Orzas et al 1995) adapted to the EuroWordNet architecture. Polaris can import new wordnets or wordnet fragments from ASCII files with the correct import format and it creates an indexed EUROWORDNET Database. Furthermore, it allows a user to edit and add relations in the wordnets and to formulate queries. The Polaris toolkit makes it possible to visualise the semantic relations as a tree-structure that can directly be edited. These trees can be expanded and shrunk by clicking on word-meanings and by specifying so-called TABs indicating the kind and depth of relations that need to be shown. Expanded trees or sub-trees can be stored as a set of synsets, which can be manipulated, saved or loaded. Additionally, it is possible to access the ILI or the ontologies, and to switch between the wordnets and ontologies via the ILI. Finally, it contains an interface to project sets of synsets across wordnets. The Periscope program is a public viewer that can be used to look at wordnets created by the Polaris tool and to compare them in a graphical interface. Word meanings can be looked up and trees can be expanded. Individual meanings or complete branches can be projected on another wordnet or wordnet structures can be compared via the equivalence relations with the Inter-Lingual-Index. Selected trees can be exported to text files. The Periscope program cannot be used for importing or changing wordnets. N. The Polaris program is partly Background and partly Foreground. It is property of Vantage Research and can be licensed as a EuroWordNet result from Vantage Research (http://www.vantage.com). O. The Periscope viewer is property of Vantage Research and is Foreground. E. Prices The prices indicated in the tables below are based on the number of synsets in each language wordnet. Members are offered a 50% discount on the public price. Each language wordnet has a fixed number of non divisible synsets. There are 4 different types of use: VAR-C = Commercial use VAR-I = Internal use by a commercial organisation VAR-E = Evaluation licence (3 month licence) End-User = Research use by an academic institution Language wordnet Number of synsets ELRA-M0015 English Addition 16,361 ELRA-M0016 Dutch 44,015 ELRA-M0017 Spanish 23,370 ELRA-M0018 Italian 48,529 ELRA-M0019 German 15,132 ELRA-M0020 French 22,745 ELRA-M0021 Czech 12,824 ELRA-M0022 Estonian 9,317 Discount*** Number of synsets Discount Above 60,000 cumulated synsets 5% Above 100,000 cumulated synsets 10% Above 160,000 cumulated synsets 20% ***A discount is offered to both members and non-members according to the total (cumulated) number of synsets that are ordered at one time. The total number of synsets is calculated by adding up the number of synsets for each language wordnet purchased. For example, if you order the English and Dutch wordnets, the total amount of synsets is 16,361 synsets (English) + 44,015 synsets (Dutch) = 60,376 synsets. In this case, the 5% corresponding discount is applied. F. Technical support Technical support may be provided by members of the consortium. It will be implemented through bilateral agreements between the User and the member of the consortium responsible for the data acquired by User. As an indication the support contract will be on a yearly basis and will cost 10-20 KEURO/Year. For more information about the EuroWordNet project: http://www.hum.uva.nl/~ewn
A. Wordnets disponibles : ELRA ref. Langue Synsets Sens des mots Relations internes à la langue Relations d'équivalence ELRA-M0015 Anglais: Addition au WordNet anglais 16361 40588 42140 0 ELRA-M0016 Hollandais 44015 70201 111639 53448 ELRA-M0017 Espagnol 23370 50526 55163 21236 ELRA-M0018 Italien 48529 48499 117068 71789 ELRA-M0019 Allemand 15132 20453 34818 16347 ELRA-M0020 Français 22745 32809 49494 22730 ELRA-M0021 Tchèque 12824 19949 26259 12824 ELRA-M0022 Estonien 9317 13839 16318 9004 B. LR(1) Composants communs Une sélection d'enregistrements de l'index inter-lingue, concepts de base, qui jouent un rôle majeur dans les différents wordnets. Ces concepts de base forment le noyau de tous les wordnets. Tous les concepts de base sont classés en termes de concepts supérieurs qui s'y appliquent. A.L'index inter-lingue, qui consiste en une liste d'enregistrements sous la forme de \"synsets\" (ensembles/réseaux sémantiques, principalement issus de WordNet5.1 ou créés manuellement), comprend : A.1. un ensemble de synsets de mots ou phrases synonymiques (provenant pour la plupart de WordNet1.5) ; A.2. une \"partie-du-discours\" ; A.3. un ou plusieurs concepts supérieurs (optionnel) ; A.4. un ou plusieurs étiquettes de domaine (optionnel) ; A.5. un glossaire en anglais (provenant pour la plupart de WordNet1.5) ; A.6. un code unique reliant le synset à sa source (provenant pour la plupart de WordNet1.5). B.Ontologie supérieure : une ontologie de 63 classes sémantiques de base reposant sur des distinctions fondamentales. Grâce à l'ontologie supérieure, on accède à tous les wordnets en utilisant un schéma de classifiaction unique indépendant de la langue. Les concepts supérieurs sont également assignés aux enregistrements de l'index inter-lingue. C.Ontologie de domaine : une ontologie de domaines sujets assignés aux enregistrements de l'index inter-lingue D.Une sélection d'enregistrements de l'index inter-lingue, concepts de base, qui jouent une rôle majeur dans les différents wordnets. Ces concepts de base forment le noyau de tous les wordnets. Tous les concepts de base sont classés en termes de concepts supérieurs qui s'y appliquent. E.WordNet1.5 (91591 synsets; 168217 sens; 126520 mots d'entrée) au format EuroWordNet. C. LR(2) Composants spécifiques à la langue Wordnets produits dans le premier projet (LE2-4003) : F.Wordnet hollandais G.Wordnet anglais (relations supplémentaires au WordNet1.5) H.Wordnet italien I.Wordnet espagnol Extension du projet (LE4-8328) : J.Wordnet allemand K.Wordnet français L.Wordnet tchèque M.Wordnet estonien Les wordnets sont des structures internes spécifiques à la langue et contiennent au minimum : - ensemble de variantes ou synonymes formant le synset - \"partie-du-discours\" - relations à d'autres synsets internes à la langue - relations d'équivalence avec les enregistrements de l'index inter-lingue - un code unique reliant le synset à sa source Chaque wordnet est distribué avec LR1 et comprend une documentation sur LR1 et le wordnet distribué. Toutes les données sont distribuées en fichiers textes dans le format EuroWordNet et sous la forme de fichiers de base de données Polaris (voir LR3 ci-dessous). Le visualiseur EuroWordNet (Periscope, voir LR3) peut être utilisé pour accéder à la version base de données. Pour modifier et étendre la version de la base de données, il faut acquérir une licence Polaris. Les wordnets ne contiennent pas de : - glossaires - étiquettes d'usage - propriétés morpho-syntaxiques - exemples - traductions mot-à-mot D. LR(3) Logiciels La base de données multilingue EUROWORDNET est composée de trois parties : Les wordnets au format base de données Flaim : un format Novell d'indexation et de compression. - Polaris (Louw 1997): un éditeur pour la création, l'édition et l'exportation de wordnets. - Periscope (Cuypers and Adriaens 1997) : un outil graphique pour la visualisation et l'exportation de wordnets. Polaris peut importer de nouveaux wordnets ou des fragments de wordnets depuis des fichiers ASCII avec le format d'importation correct et crée une base de données indexée EUROWORDNET. De plus, il permet à un utilisateur d'éditer et d'ajouter des relations dans les wordnets et de formuler des requêtes. Polaris rend possible la visualisation de relations sémantiques sous la forme d'une structure arborescente qui peut être directement éditée. Ces arborescences peuvent être étendues et raccourcies en cliquant sur les sens du mot et en spécifiant des \"TABs\" qui indiquent le type et la profondeur des relations qui doivent être montrées. Les arbres étendus ou les sous-arbres peuvent être stockés sous un ensemble de synsets, qui peuvent être maniés, sauvegardés ou chargés. Il est également possible d'accéder à l'index inter-lingue ou aux ontologies, et de passer des wordnets aux ontologies via l'index inter-lingue. Enfin, il contient une interface permettant de projeter les ensembles de synsets à travers les wordnets. Le logiciel Periscope est un visualiseur public qui peut être utilisé pour regarder les wordnets créés par Polaris et pour les comparer dans une interface graphique. Les sens des mots peuvent être visualisés et les arborescences étendues. Les sens individuels ou des branches entières peuvent être projetées sur un autre wordnet ou des structure de wordnets peuvent être comparées via les relations d'équivalence avec l'index inter-lingue. Les arbres sélectionnés peuvent être exportés vers des fichiers textes. Periscope ne peut pas importer ou changer les wordnets. N.Le programme Polaris est la propriété de Vantage Research et est mis à disposition en tant que résultat d'EuroWordNet à Vantage Research (www.vantage.com). O.Le logiciel Periscope est la propriété de Vantage Research. E. Prix Les prix sont basés sur le nombre de synsets pour chaque langue. Les membres bénéficient d'une remise de 50% sur le prix public. Chaque langue comprend un nombre fixe et indivisible de synsets. Il y a 4 types différents d'usage : VAR-C = Usage commercial VAR-I = Usage interne pour une organisation commerciale VAR-E = Licence d'évalutation (licence limitée à une durée de 3 mois) End-User = Usage de recherche par une institution académique Langue Nombre de synsets ELRA-M0015 Anglais (complément) 16 361 ELRA-M0016 Hollandais 44 015 ELRA-M0017 Espagnol 23 370 ELRA-M0018 Italien 48 529 ELRA-M0019 Allemand 15 132 ELRA-M0020 Français 22 745 ELRA-M0021 Tchèque 12 824 ELRA-M0022 Estonien 93172 Remise*** Nombre de synsets Remise Au-delà de 60 000 synsets cumulés 5 % Au-delà de 100 000 synsets cumulés 10 % Au-delà de 160 000 synsets cumulés 20 % ***Une remise est offerte à la fois aux membres et aux non membres selon le nombre total (cumulé) de synsets faisant l'objet d'une même commande. Le nombre total de synsets est calculé en additionnant le nombre de synsets de chaque langue achetée. Par exemple, si vous commandez les wordnets anglais et hollandais, le montant total de synsets sera 16 361 synsets (anglais) + 44 015 synsets (hollandais) = 60 376 synsets. Dans ce cas, la remise correspondante de 5 % sera appliquée. D. Support technique Un support technique peut être apporté par les membres du consortium, selon les termes de contrats bilatéraux à conclure entre l'utilisateur et le membre du consortium responsable des données acquises. A titre indicatif le contrat se fera sur une base annuelle et coûtera entre 10 et 20 KEURO/AN. Pour plus d'informations sur le projet EuroWordNet: http://www.hum.uva.nl/~ewnaux enregistrements de l'index inter-lingue
Rights ELRA_VAR
ELRA_END_USER
ELRA_EVALUATION
Source META-SHARE
Title EuroWordNet Estonian
EuroWordNet estonien
Type Lexical Conceptual Resource
Contact Point Metashare/9b2fbbe8de7811e2b1e400259011f6ea5df8d9f9ed0b423597e28a6422792d5b#contact Person
Description This corpus comprises sentences uttered by 100 speakers of different dialects, ages and various educational levels. Speech samples are stored as a sequence of 16-bit 8kHz WAV for a total of 7.3 hours of speech. The total capacity of the data is 400 Mb. Each speaker read 40 items. Text files are stored in Unicode format. All data have been proofread manually. The corpus aims to be applied to the testing and telephone natural speech recognition system.
Ce corpus comprend des phrases prononcées par 100 locuteurs de dialectes, d’âges et de niveaux d’éducation différents. Les échantillons de parole sont stockés sous la forme de séquences 16-bit 8kHz WAV pour un total de 7,3 heures de parole par canal. La taille totale des données est de 400 Mo. Chaque locuteur a lu 40 éléments. Les fichiers textes sont stockés au format Unicode. Toutes les données ont été vérifiées manuellement. Cette base de données a été conçue pour l’évaluation et le développement de systèmes de reconnaissance de la parole naturelle par téléphone.
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title Mandarin Chinese Speech Recognition Corpus (telephone channel) - Chinese single sentence (100 people)
Corpus de reconnaissance de parole téléphonique du chinois mandarin – phrases (100 locuteurs)
Type Corpus
Contact Point Metashare/aee9fa36de6911e2b1e400259011f6ea9a9fa363e71e4076846ac55a434fff9e#contact Person
Description Cette base de données comprend les modèles HTS Festival bilingues (anglais et espagnol). Les modèles ont été entraînés à partir de 9 heures de parole réalisés par 2 locuteurs bilingues femmes et 2 locuteurs bilingues hommes. Chaque locuteur a enregistré 2h 15 min par langue. La base de données de parole peut être trouvée dans la base de données orale de conversion vocale bilingue TC-STAR pour l’espagnol (ELRA-S0311) et dans la base de données de parole expressive bilingue TC-STAR (ELRA-S0313).
This database contains Bilingual (English and Spanish) Festival HTS models. Models were trained with 9h of speech from 2 female bilingual speakers and 2 male bilingual speakers. Each speaker recorded 2h 15 min per language. The speech data can be found in the TC-STAR Bilingual Voice-Conversion Spanish Speech Database (ELRA-S0311) and in the TC-STAR Bilingual Expressive Spanish Speech Database (ELRA-S0313).
Language Spanish
English
Rights ELRA_END_USER
ELRA_VAR
Source META-SHARE
Title Bilingual (Spanish-English) Speech synthesis HTS models
Modèles HTS bilingues pour la synthèse vocale (espagnol-anglais)
Type Corpus
Contact Point Metashare/0292790ade6b11e2b1e400259011f6ea65e04fe27a1d42188fd828ea1257aede#contact Person
Description In 1996, some 75 Dutch people participated in recording a multi-purpose continuous speech database. Most of them were recruited from the TNO Human Factors Research Institute, where the recordings were made. The main part of the database consisted of Dutch sentences. However, most speakers participated in recording 10 sentences in English, French and German. This data was initially distributed as a common data set for research leading to presentations and discussions at the ESCA/NATO MIST workshop held in Leusen, The Netherlands, in 1999. The non-nativeness in any particular language, for instance English, is of course very biased towards Dutch, and therefore this database can be considered only as a start for studying non-native speech. However, with experiences with this database, researchers in other countries may record similar data, so that also other foreign accents can be studied, and compared to this database. Recording conditions: - Sennheiser HMD-414-6 close talking microphone - B&K MD-211-N far-field microphone - anechoic silent recording room - sentences read from computer screen - Ariel Pro-Port digital recording equipment - 16 kHz sampling rate, 16 bit resolution Speech material - 10 sentences in Dutch, English, French and German, including 5 sentences per language which are identical for all speakers and 5 sentences per language which are unique for each speaker - Sentence text from newspapers: Dutch: NRC/Handelsblad; English: Wall Street Journal; French: Le Monde; German: Frankfurter Rundschau The text of the English, French and German sentences were obtained from other databases recorded/used in the European project ‘SQALE’. Annotation: - Dutch sentences are orthographically annotated - For English, French and German sentences the prompt texts are available - Only the Dutch unique sentences have been listened to, and annotated accordingly. The English, French and German sentences have been generated from the prompt texts, i.e., only the punctuation characters have been removed. For French and English, the first word has been de-capitalized according to some simple algorithm. - The spoken text is annotated in a format of one line per speech utterance, with the utterance identification in parenthesis at the end. Speakers: - 74 speakers, including 52 males and 22 females - All speakers are native Dutch. Not all of them were able to produce speech in German, English and French.
En 1996, 75 locuteurs hollandais ont participé à l’enregistrement d’une base de données de parole continue multi-objectifs. La plupart d’entre eux ont été recrutés par L’institut de recherche sur les facteurs humains de TNO, où les enregistrements ont été réalisés. La plus grande partie de la base de données consistait en des phrases en hollandais. Cependant, la plupart des locuteurs ont également participé à l’enregistrement de 10 phrases en anglais, en français et en allemand. Ces données ont d’abord été distribuées sous la forme d’un ensemble de données communes pour la recherche qui a conduit à des présentations et des discussions lors de l’atelier ESCA/NATO MIST, de Leusen, aux Pays-Bas, en 1999. Le fait d’être locuteur non natif d’une langue, par exemple l’anglais, est bien sûr très biaisé vis-à-vis du hollandais, et cette base de données peut donc ainsi être considérée uniquement comme une base initiale pour l’étude de la parole non native. Cependant, grâce aux expériences réalisées avec cette base, les chercheurs d’autres pays peuvent enregistrer des données similaires, afin que d’autres accents étrangers puissent être étudiés et être comparés à cette base. Conditions d’enregistrements : - Micro-casque Sennheiser HMD-414-6 - Microphone placé à distance (“far-field”) B&K MD-211-N - enregistrement en chambre sourde - phrases lues sur écran d’ordinateur - équipement d’enregistrement numérique Ariel Pro-Port - taux d’échantillonnage de 16 kHz, résolution de 16 bit Matériel de parole : - 10 phrases en hollandais, anglais, français et allemand, dont 5 phrases identiques par langue pour tous les locuteurs et 5 phrases distinctes par langue et par locuteur - Phrases extraites de journaux: NRC/Handelsblad pour le hollandais, Wall Street Journal pour l’anglais, Le Monde pour le français, Frankfurter Rundschau pour l’allemand Le texte des phrases en anglais, français et allemand a été obtenu à partir d’autres bases de données enregistrées/utilisées dans le projet européen « SQALE ». Annotation : - Les phrases en hollandais sont annotées au niveau orthographique - Pour les phrases en anglais, français et allemand, les textes énoncés sont disponibles - Seules les phrases distinctes en hollandais ont été écoutées et annotées. Les phrases en anglais, français et allemand ont été générées à partir des textes énoncés, c’est-à-dire que seuls les caractères de ponctuation ont été supprimés. Pour le français et l’anglais, la majuscule du premier mot a été supprimée grâce à un algorithme simple. - Le texte parlé est annoté au format suivant : une ligne par occurrence de parole, avec l’identification de l’occurrence entre parenthèses à la fin. Locuteurs : - 74 locuteurs, dont 52 hommes et 22 femmes - Tous les locuteurs sont natifs du hollandais. Tous n’étaient pas capables de produire de la parole en allemand, anglais et français.
Language English
Rights ELRA_END_USER
Source META-SHARE
Title MIST Multi-lingual Interoperability in Speech Technology database
Base de données MIST (Multi-lingual Interoperability in Speech Technology)
Type Corpus
Contact Point Metashare/99a27130de7311e2b1e400259011f6ea02c79f0d57784efeb067a83f385bc98c#contact Person
Description The Aurora project was originally set up to establish a world wide standard for the feature extraction software which forms the core of the front-end of a DSR (Distributed Speech Recognition) system. ETSI formally adopted this activity as work items 007 and 008.The two work items within ETSI are : - ETSI DES/STQ WI007 : Distributed Speech Recognition - Front-End Feature Extraction Algorithm & Compression Algorithm - ETSI DES/STQ WI008 : Distributed Speech Recognition - Advanced Feature Extraction Algorithm. This database is a subset of the SpeechDat-Car database in Danish language which has been collected as part of the European Union funded SpeechDat-Car project. It contains isolated and connected Danish digits spoken in the following noise and driving conditions inside a car : 1. High speed good road 2. Low speed rough road 3. Stopped with motor running 4. Town traffic
DESCRIPTION DISPONIBLE EN FRANCAIS PROCHAINEMENT. The Aurora project was originally set up to establish a world wide standard for the feature extraction software which forms the core of the front-end of a DSR (Distributed Speech Recognition) system. ETSI formally adopted this activity as work items 007 and 008.The two work items within ETSI are : - ETSI DES/STQ WI007 : Distributed Speech Recognition - Front-End Feature Extraction Algorithm & Compression Algorithm - ETSI DES/STQ WI008 : Distributed Speech Recognition - Advanced Feature Extraction Algorithm. This database is a subset of the SpeechDat-Car database in Danish language which has been collected as part of the European Union funded SpeechDat-Car project. It contains isolated and connected Danish digits spoken in the following noise and driving conditions inside a car : 1. High speed good road 2. Low speed rough road 3. Stopped with motor running 4. Town traffic
Language Dnj
Rights ELRA_END_USER
Source META-SHARE
Title AURORA Project database - Subset of SpeechDat-Car - Danish database - Evaluation Package
Base de données du projet AURORA - sous-ensemble de la base de données SpeechDat-Car du danois - Package d'évaluation
Type Corpus
Contact Point Metashare/f46fb304de6711e2b1e400259011f6ea6a6d9c4d02d0426ba71def65f648890a#contact Person
Description The Dutch CELEX data is derived from R.H. Baayen, R. Piepenbrock & L. Gulikers, The CELEX Lexical Database (CD-ROM), Release 2, Dutch Version 3.1, Linguistic Data Consortium, University of Pennsylvania, Philadelphia, PA, 1995. Apart from orthographic features, the CELEX database comprises representations of the phonological, morphological, syntactic and frequency properties of lemmata. For the Dutch data, frequencies have been disambiguated on the basis of the 42.4m Dutch Instituut voor Nederlandse Lexicologie text corpora. To make for greater compatibility with other operating systems, the databases have not been tailored to fit any particular database management program. Instead, the information is presented in a series of plain ASCII files, which can be queried with tools such as AWK and ICON. Unique identity numbers allow the linking of information from different files.This database can be divided into different subsets: · orthography: with or without diacritics, with or without word division positions, alternative spellings, number of letters/syllables; · phonology: phonetic transcriptions with syllable boundaries or primary and secondary stress markers, consonant-vowel patterns, number of phonemes/syllables, alternative pronunciations, frequency per phonetic syllable within words; · morphology: division into stems and affixes, flat or hierarchical representations, stems and their inflections; · syntax: word class, subcategorisations per word class; · frequency of the entries: disambiguated for homographic lemmata.
Les données en hollandais de CELEX sont extraites de la base de données lexicale CELEX (CD-ROM) de R.H. Baayen, R. Piepenbrock & L. Gulikers, seconde édition, version hollandaise 3.1, Linguistic Data Consortium, Université de Pennsylvanie, Philadelphie, PA, 1995. En-dehors des traits orthographiques, la base de données CELEX comprend des représentations des propriétés phonologiques, morphologiques, syntaxiques et fréquentielles des lemmes. En ce qui concerne les données du hollandais, les fréquences ont été désambigüisées sur la base du corpus de textes de l\\'Instituut voor Nederlandse Lexicologie. Afin de permettre une meilleure compatibilité avec d\\'autres systèmes, les bases ne sont adaptées à aucun système de gestion de base de données spécifique. Au contraire, l\\'information est présentée dans une série de fichiers textes ASCII, pouvant être interrogés par des outils tels que AWK et ICON. Des numéros d\\'identification uniques permettent d\\'accéder et d\\'établir les relations entre les informations provenant de différents fichiers. Cette base de données peut être divisée en cinq sous-ensembles selon les niveaux d\\'informations suivants : * orthographe: avec ou sans diacritiques, avec ou sans la position de la coupure de mot (césure), option d\\'orthographe, nombre de lettres/syllabes ; * phonologie : transcriptions phonétiques avec segmentation des syllabes ou balisage des accents primaires ou secondaires, schémas consonne-voyelle, nombre de phonèmes/syllabes, options de prononciation, fréquence par syllabe phonétique dans les mots ; · morphologie : division en radical et affixes, représentations à plat ou hiérarchisées, radicaux et leurs flexions ; · syntaxe : classe de mot, sous-catégorisation par classe de mot ; · fréquence des entrées : désambigüisation des lemmes homographes.
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title CELEX Dutch lexical database - Derivational Morphology Subset
CELEX - Base de données lexicale du hollandais - sous-ensemble \"morphologie dérivationnelle\"
Type Lexical Conceptual Resource
Contact Point Metashare/22e59ec8de6e11e2b1e400259011f6ea779372c767ed4f1ca98efcf969d29e12#contact Person
Description The GlobalPhone corpus developed in collaboration with the Karlsruhe Institute of Technology (KIT) was designed to provide read speech data for the development and evaluation of large continuous speech recognition systems in the most widespread languages of the world, and to provide a uniform, multilingual speech and text database for language independent and language adaptive speech recognition as well as for language identification tasks. The entire GlobalPhone corpus enables the acquisition of acoustic-phonetic knowledge of the following 20 spoken languages: Arabic (ELRA-S0192), Bulgarian (ELRA-S0319), Chinese-Mandarin (ELRA-S0193), Chinese-Shanghai (ELRA-S0194), Croatian (ELRA-S0195), Czech (ELRA-S0196), French (ELRA-S0197), German (ELRA-S0198), Hausa (ELRA-S0347), Japanese (ELRA-S0199), Korean (ELRA-S0200), Polish (ELRA-S0320), Portuguese (Brazilian) (ELRA-S0201), Russian (ELRA-S0202), Spanish (Latin America) (ELRA-S0203), Swedish (ELRA-S0204), Tamil (ELRA-S0205), Thai (ELRA-S0321), Turkish (ELRA-S0206), Vietnamese (ELRA-S0322). In each language about 100 sentences were read from each of the 100 speakers. The read texts were selected from national newspapers available via Internet to provide a large vocabulary (up to 65,000 words). The read articles cover national and international political news as well as economic news. The speech is available in 16bit, 16kHz mono quality, recorded with a close-speaking microphone (Sennheiser 440-6) and same recording equipment for all languages. The transcriptions are internally validated and supplemented by special markers for spontaneous effects like stuttering, false starts, and non-verbal effects like laughing and hesitations. Speaker information like age, gender, occupation, etc. as well as information about the recording setup complement the database. The entire GlobalPhone corpus contains over 450 hours of speech spoken by more than 1900 native adult speakers. Data is shortened by means of the shorten program written by Tony Robinson, available from Softsound's web page: http://www.softsound.com/ linux distributions, or simulated versions such as cygwin. Alternatively, the data could be delivered unshorten. The Croatian corpus was produced using the HRT and Obzor Nacional newspapers. It contains recordings of 94 speakers (38 males, 56 females) recorded in Zagreb, Croatia, and parts of Bosnia. The following age distribution has been obtained: 21 speakers are below 19, 30 speakers are between 20 and 29, 14 speakers are between 30 and 39, 15 speakers are between 40 and 49, and 13 speakers are over 50 (1 speaker age is unknown).
Le corpus GlobalPhone, développé avec la collaboration du Karlsruhe Institute of Technology (KIT), a été conçu afin de fournir des données de parole lue pour le développement et l’évaluation de systèmes de reconnaissance de la parole continue à large vocabulaire dans les langues les plus répandues dans le monde, l’objectif étant de fournir une base de données audio et textuelles uniforme et multilingue pour la reconnaissance de la parole indépendante de la langue et adaptable à la langue, ainsi que pour des tâches d’identification de la langue. Le corpus GlobalPhone complet permet l’acquisition d’une connaissance acoustico-phonétique pour les 20 langues parlées suivantes: allemand (ELRA-S0198), arabe (arabe standard moderne) (ELRA-S0192), bulgare (ELRA-S0319), chinois-mandarin (ELRA-S0193), chinois de Shanghai (ELRA-S0194), coréen (ELRA-S0200), croate (ELRA-S0195), espagnol (d’Amérique latine) (ELRA-S0203), français (ELRA-S0197), haoussa (ELRA-S0347), japonais (ELRA-S0199), polonais (ELRA-S0320), portugais (brésilien) (ELRA-S0201), russe (ELRA-S0202), suédois (ELRA-S0204), tamoul (ELRA-S0205), thaï (ELRA-S0321), tchèque (ELRA-S0196), turc (ELRA-S0206) et vietnamien (ELRA-S0322). Dans chaque langue, environ 100 phrases ont été lues par chacun des 100 locuteurs. Les textes lus sont extraits d’articles de journaux nationaux disponibles sur internet afin de fournir un large vocabulaire (jusqu’à 65000 mots). Les articles lus couvrent des actualités politiques nationales et internationales, ainsi que des nouvelles économiques. Les données de parole ont été enregistrées en 16 bit, 16 kHz (qualité mono) avec un micro-casque (Sennheiser 440-6) et le même équipement d’enregistrement pour l’ensemble des langues. Les transcriptions ont été validées en interne et annotées au moyen de balises spéciales pour marquer les effets spontanés, tels que le bégaiement, les faux démarrages, et les effets non verbaux comme le rire et les hésitations. La base contient également des informations sur les locuteurs, telles que l’âge, le genre, la profession, etc. ainsi que des informations sur la mise en place de l’enregistrement. Le corpus GlobalPhone dans son entier comprend plus de 450 heures de parole enregistrées par plus de 1900 locuteurs adultes natifs. Les données sont compressées au moyen du programme Shorten écrit par Tony Robinson, disponible depuis la page web de Softsound: http://www.softsound.com/ (distributions linux ou versions simulées telles que cygwin). Au besoin, les données peuvent être fournies non compressées. Le corpus croate a été produit à partir des journaux HRT et Obzor Nacional. Il comprend les enregistrements de 94 locuteurs (38 hommes, 56 femmes) enregistrés à Zagreb, Croatie, ainsi que dans d’autres lieux en Bosnie. Les classes d'âge sont réparties comme suit : 21 locuteurs de moins de 19, 30 locuteurs entre 20 et 29 ans, 14 locuteurs entre 30 et 39 ans, 15 locuteurs entre 40 et 49 ans, et 13 locuteurs de plus de 50 ans (1 locuteur d’âge inconnu).
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title GlobalPhone Croatian
GlobalPhone croate
Type Corpus
Contact Point Metashare/93c9c4f4de6c11e2b1e400259011f6ead57b054cfad346fe995d9c5728f01c46#contact Person
Description Contrats d'assurance, assurance publique et privée, ressources terminologiques utilisées dans les institutions de l'Union Européenne. Fiches disponibles : 1000 Langues : Catalan, Espagnol, Anglais Format: ASCII Support : disquette Description de la fiche : Chaque fiche de cette base terminologique contient une définition, des abréviations, des notes, des étiquettes grammaticales (catégorie, genre et nombre), synonymes.
Insurance contracts, private and public insurance, resource terminology used within European Union institutions. Cards available: 1000 Languages: Catalan, Spanish, English Format: ASCII Medium: floppy disk Card Description: Each card in this terminological database contains a definition, abbreviations, notes, grammatical labels (category, gender and number), synonyms.
Language Catalan
Spanish
English
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title Assurance (Termcat)
Insurance (Termcat)
Type Lexical Conceptual Resource
Contact Point Metashare/7788c0c2de6e11e2b1e400259011f6ea9ebbf368dfbf4c7ab069e5edbe1bd010#contact Person
Description Le lexique phonétique LC-STAR espagnol a été créé dans le cadre du projet LC-STAR (IST 2001-32216), financé par la Commission européenne et le gouvernement espagnol. Le lexique a été produit au Centre de technologies et d’applications de la langue et de la parole (TALP) de l’Universitat Politècnica de Catalunya (UPC) (Espagnol), qui en est également le propriétaire. Le lexique comprend plus de 100 000 mots répartis en trois catégories : - Un ensemble de 55 854 mots communs. Cet ensemble a été extrait d’un corpus de plus de 20 millions de mots répartis en 6 domaines différents (sports/jeux, actualités, finances, culture/amusement, information consommateur, communications personnelles), avec pour objectif d’atteindre pour chaque domaine au moins 95% de couverture. En plus des listes de mots extraites du corpus, une liste de classes de mots en ensemble fermé (fonctions) est incluse dans la liste de mots finale. - Un ensemble de 45 403 noms propres (noms de personnes, noms de familles, villes, rues, sociétés, noms de marque) divisée en 3 domaines. Les noms comportant des mots multiples, tels que New_York, ont été conservés dans chacun des 3 domaines et comptent ainsi pour une seule entrée. Les 3 domaines sont : prénoms et noms de familles (23 114 entrées différentes), noms de lieux (15 427 entrées différentes), et organisations (7 777 entrées différentes). - Une liste de 7 498 mots d’application traduits à partir de termes anglais tels que définis par le consortium LC-STAR. Cette liste comprend des nombres, des lettres, des abréviations et du vocabulaire spécifique aux applications contrôlées par la voix (recherche d’information, contrôle des appareils de consommation, etc.). Le lexique est fourni au format XML et inclut des transcriptions phonétiques en SAMPA. La base de données est stockée sur 1 CD.
The LC-STAR Spanish phonetic lexicon was created within the scope of the LC-STAR project (IST 2001-32216) which was sponsored by the European Commission and the Spanish Government. Production was performed at the Technologies and Applications of Language and Speech Center (TALP) of the Universitat Politècnica de Catalunya (UPC) (Spain). The owner of the database is UPC. The lexicon comprises more than 100,000 words, distributed over three categories: - a set of 55,854 common word entries. This set is extracted from a corpus of more than 37 million words distributed over 6 different domains (sports/games, news, finance, culture/entertainment, consumer information, personal communications). This was done with the aim of reaching a target for each domain of at least 95% self coverage. In addition to extracting word lists from the corpus, a list of closed set (function) word classes are included in the final word list. - a set of 45,403 proper names (including person names, family names, cities, streets, companies and brand names) divided into 3 domains. Multiple word names such as New_York are kept together in all three domains, and they count as one entry. The 3 domains consist of first and last names (23,114 different entries), place names (15,427 different entries), and organisations (7,777 different entries). - and a list of 7,498 special application words translated from English terms defined by the LC-STAR consortium. This list contains: numbers, letters, abbreviations and specific vocabulary for applications controlled by voice (information retrieval, controlling of consumer devices, etc.). The lexicon is provided in XML format and includes phonetic transcriptions in SAMPA. The database is stored on 1 CD.
Language Spanish
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title LC-STAR Spanish phonetic lexicon
Lexique phonétique LC-STAR espagnol
Type Lexical Conceptual Resource
Contact Point Metashare/a9faf068d5a611e39e8600259011f6ea93d0eafc76a44f8fa43fed7ba358165e#contact Person
Description The Nepali Spoken Corpus is one of the 3 resources that constitute the Nepali National Corpus. The Nepali National Corpus was produced in 2006 in the framework of the project Bhasha Sanchar (“language communication”), also known as Nelralec, for Nepali Language Resources and Localization for Education and Communication; funded by the EU Asia IT&C programme, reference number ASIE/2004/091-777. The design of Nepali Spoken Corpus (NSC) is based on Goteborg Spoken Language Corpus (GSLC). The data are taken from spoken Nepali used in different social activities. The basic assumption of the NSC is that the spoken language differs from written language and it has also different genres as in written language. NSC contains audio recordings from different social activities within their natural settings as much as possible, with phonologically transcribed and annotated texts, and information about the participants. A total of 17 types of activity were recorded. The total temporal duration of the recorded material is 31 hours and 26 minutes. The description of the Nepali Spoken Corpus is provided below: Recorded Activity types: 17 Recorded Activity occurrences (files): 115 Total time (duration): 31 hours 26 minutes Total transcribed words (assumed): 260,000 Total transcribed files: 115 Completely checked: 115 As can be seen above, 115 activity occurrences have been recorded belonging to 17 activity types. For instance, the activity type “shopping” has four recorded occurrences and the activity type “discussion” has 16 recorded instances.
Le corpus oral népalais est l’une des 3 ressources qui composent le Corpus National Népalais. Le corpus National Népalais a été produit en 2006 dans le cadre du projet Bhasha Sanchar (“communication langagière”), également connu sous le nom de Nelralec (Ressources linguistiques népalaises et localisation pour l’éducation et la communication); il a été financé par le programme de l’Union Européenne Asia IT&C, sous la référence ASIE/2004/091-777. La conception du Corpus oral népalais est basée sur le Corpus de langue parlée de Göteborg. Les données proviennent du népalais parlé employé dans différentes activités sociales. L’hypothèse de base pour la constitution de ce corpus est que le langage parlé diffère du langage écrit et qu’il existe des genres différents que dans le langage écrit. Le corpus oral népalais contient des enregistrements audio provenant de différentes activités sociales réalisées dans leur environnement naturel autant que possible. Il comprend les textes transcrits et annotés au niveau phonologique, ainsi que les informations sur les participants. 17 types d’activités ont été enregistrés. La durée temporelle totale du matériel enregistré se monte à 31 heures et 26 minutes. La description du corpus oral népalais est fournie ci-dessous: Types d’activités enregistrés: 17 Occurrences d’activités enregistrées (fichiers): 115 Durée totale: 31 heures 26 minutes Total des mots transcrits (estimation): 260,000 Total des fichiers transcrits: 115 Complètement vérifiés: 115 Comme indiqué ci-dessus, 115 occurrences d’activités ont été enregistrées correspondent à 17 types d’activités. Par exemple, le type d’activité “shopping” a quatre occurrences enregistrées et le type d’activité “discussion” a 16 instances enregistrées.
Rights ELRA_END_USER
Source META-SHARE
Title Nepali Spoken Corpus
Corpus oral népalais
Type Corpus
Contact Point Metashare/b7521676de7411e2b1e400259011f6eae05ca5a32e8742f3915120982df16bf3#contact Person
Description Technical domains Languages: Italian=>English Format: ASCII format with ISO 8859-1 character set Medium: QIC 150 MB Cartridge Tape Domain: Economics, 50,000 entries, canonical forms Technical bilingual Italian dictionaries with a morphological coding which can generate all full forms using a software engine written in C. Multi-word terms contain morphological coding for the head word.
Domaines techniques Langues : Italien=>Anglais Domaine: Economie, 50 000 entrées, formes canoniques Les dictionnaires techniques bilingues disposent d'une codification morphologique qui permet de générer toutes les formes fléchies grâce à un logiciel écrit en langage C. Les mots composés contiennent une codification morphologique sur la tête des mots.
Language English
Italian
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title THAMUS Dictionnaires bilingues - Economie
THAMUS Bilingual dictionaries - Economics
Type Lexical Conceptual Resource
Contact Point Metashare/f2a91f6ede7711e2b1e400259011f6ea25642b0b191342bf8b43c73d5e286671#contact Person
Description This lexicon is subdivided into five different subsets: L0072-01 Full lexicon L0072-02 Phonetic layer L0072-03 Morphological layer L0072-04 Syntactic layer L0072-05 Semantic layer PAROLE-SIMPLE-CLIPS is a four-level, general purpose lexicon that has been elaborated over three different projects. The kernel of the morphological and syntactic lexicons was built in the framework of the LE-PAROLE project. The linguistic model and the core of the semantic lexicon were elaborated in the LE-SIMPLE project, while the phonological level of description and the extension of the lexical coverage were performed in the context of the Italian project Corpora e Lessici dell'Italiano Parlato e Scritto (CLIPS). The PAROLE-SIMPLE-CLIPS Pisa Italian Lexicon comprises a total of 387,267 phonetic units, 53,044 morphological units (53,044 lemmas), 37,406 syntactic units (28,111 lemmas) and 28,346 semantic units (19,216 lemmas). It was encoded at the semantic level, in full accordance with the international standards set out in the PAROLE-SIMPLE model and based on EAGLES. Syntactic and semantic encoding were performed jointly with Thamus (Consortium for Multilingual Documentary Engineering), which is responsible for 25,000 extra entries (to be released soon). PAROLE-SIMPLE-CLIPS offers therefore the advantage of being compatible with the other eleven PAROLE-SIMPLE lexicons that were built for European languages and that share a common theoretical model, representation language and building methodology. A PAROLE-SIMPLE-CLIPS entry gathers together all the phonological, morphological and inherent syntactic and semantic properties of a headword. Its subcategorization pattern is (or are) described in terms of optionality, syntactic function, syntagmatic realization as well as morpho-syntactic, syntactic and lexical properties of each slot filler. At the semantic level, the theoretical approach adopted by the SIMPLE model is essentially grounded on a revisited version of some fundamental aspects of the Generative Lexicon. A SIMPLE-CLIPS semantic unit is richly endowed with a wide range of fine-grained, structured information, most relevant for NLP applications. First among them, the ontological typing: the lexicon is in fact structured in terms of a multidimensional type system based on both hierarchical and non-hierarchical conceptual relations, taking into account the principle of orthogonal inheritance. Other relevant information types in a word entry are its domain of use; type of denoted event; synonymy and morphological derivation relations; membership in a class of regular polysemy as well as any relevant distinctive semantic features. Particularly outstanding is the information encoded in the Extended Qualia Structure (a set of 60 semantic relations that allow modelling both the different meaning dimensions of a word sense and its relationships to other lexical units) and the Predicative Representation which describes the semantic scenario the word sense considered is involved in and characterizes its participants in terms of thematic roles and semantic constraints. In a word’s description, lexical information is interrelated across the four description levels. Syntactic and semantic information, in particular, is related to each other through the projection of the predicate-argument structure onto its syntactic realization(s). References : Ruimy N., Corazzari O., Gola E., Spanu A., Calzolari N., Zampolli A. 2003. The PAROLE model and the Italian Syntactic lexicon. In A. Zampolli, N. Calzolari, L. Cignoni, (eds.), Computational Linguistics in Pisa - Linguistica Computazionale a Pisa. Linguistica Computazionale, Special Issue, XVIII-XIX, (2003). Pisa-Roma, IEPI. Tomo II, 793-820. Lenci A., Busa F., Ruimy N., Gola E., Monachini M., Calzolari N., Zampolli A. et al., 2000. SIMPLE Linguistic Specifications, SIMPLE LE4-8346 EC Project, Deliverable D2.1 & D2.2, WP02, Final version, March 2000, ILC and University of Pisa, 404 pp. (http://www.ub.es/gilcub/SIMPLE/simple.html#Specifications). Ruimy N., Monachini M., Gola E., Calzolari N., Del Fiorentino M.C., Ulivieri M., Rossi S. 2003. A computational semantic lexicon of Italian: SIMPLE. In A. Zampolli, N. Calzolari, L. Cignoni, (eds.), Computational Linguistics in Pisa - Linguistica Computazionale a Pisa. Linguistica Computazionale, Special Issue, XVIII-XIX, (2003). Pisa-Roma, IEPI. Tomo II, 821-864. Ruimy N., Monachini M., Distante R., Guazzini E., Molino S., Ulivieri M., Calzolari N., Zampolli A. 2002. CLIPS, A Multi-level Italian Computational Lexicon: a Glimpse to Data. LREC 2002. Las Palmas de Gran Canaria, Spain 29th, 30th & 31 May 2002. Proceedings, Volume III, Paris, The European Languages Resources Association (ELRA). 792-799.
Ce lexique est divisé en cinq sous-ensembles : L0072-01 Lexique complet L0072-02 Niveau phonétique L0072-03 Niveau morphologique L0072-04 Niveau syntaxique L0072-05 Niveau sémantique PAROLE-SIMPLE-CLIPS est un lexique générique à quatre niveaux qui a été élaboré au cours de trois projets différents. Le noyau des lexiques morphologique et syntaxique a été realisé dans le cadre du projet LE-PAROLE. Le modèle linguistique et le noyau du lexique sémantique ont été élaborés dans le projet LE-SIMPLE, tandis que le niveau phonologique de description et l’extension de la couverture lexicale ont été réalisés dans le contexte du projet italien Corpora e Lessici dell'Italiano Parlato e Scritto (CLIPS). Le lexique italien PAROLE-SIMPLE-CLIPS de Pise comprend un total de 387 267 unités phonétiques, 53 044 unités morphologiques (53 044 lemmes), 37 406 unités syntaxiques (28 111 lemmes) et 28 346 unités sémantiques (19 216 lemmes). Il a été codé au niveau sémantique, en respectant entièrement les standards internationaux fixés dans le modèle PAROLE-SIMPLE et basés sur EAGLES. Le codage syntaxique et sémantique ont été réalisés conjointement avec Thamus (Consortium pour l’ingénierie documentaire multilingue), qui est l’auteur de 25 000 entrées (à paraître). Ainsi, PAROLE-SIMPLE-CLIPS offre l’avantage d’être compatible avec les onze autres lexiques PAROLE-SIMPLE qui ont été construits pour les langues européennes et qui partagent un modèle théorique commun, un langage de représentation et une méthodologie de construction. Une entrée de type PAROLE-SIMPLE-CLIPS regroupe toutes les propriétés phonologiques, morphologiques et inhérentes à la syntaxe et à la sémantique d’un mot-tête (« headword »). Son modèle de sous-catégorisation est décrit en termes d’optionalité, de fonction syntaxique, de réalisation syntagmatique, ainsi qu’en termes de propriétés morpho-syntaxiques, syntaxiques et lexicales de chaque catégorie fonctionnelle (« slot-filler »). Au niveau sémantique, l’approche théorique adoptée par le modèle SIMPLE est essentiellement basée sur une version revisitée de quelques aspects fondamentaux du Lexique Génératif. Une unité sémantique SIMPLE-CLIPS est richement doté d’une grande variété d’informations fines et structurées, des plus importantes pour les applications en TAL. En tête de ces informations, la typologie ontologique : le lexique est en fait structuré en termes de systèmes de types multidimensionnels basé sur des relations conceptuelles hiérarchiques et non hiérarchiques, prenant en compte le principe d’héritage orthogonal. D’autres types d’information intéressants dans une entrée de mot sont son domaine d’usage, le type d’événement indiqué, la synonymie et les relations de dérivation morphologique, affectation à une classe de polysémie régulière, ainsi qu’à des traits sémantiques distinctifs. Une information particulièrement intéressante est l’information codée dans la Structure de Qualia étendue (un ensemble de 60 relations sémantiques qui permettente de modéliser à la fois les différentes dimensions de signification du sens d’un mot et ses relations avec les autres unités lexicales) et la Représentation prédicative qui décrit le scénario sémantique dans lequel est impliqué le sens du mot considéré et qui caractérise les participants en termes de rôles thématiques et de contraintes sémantiques. Dans une description de mot, l’information lexicale est étroitement liée entre les quatre nivaux de description. Les informations syntaxique et sémantique, en particulier, sont reliées entre elles grâce à la projection de la structure de l’argument-prédicat sur la ou ses réalisations syntaxiques. Références : Ruimy N., Corazzari O., Gola E., Spanu A., Calzolari N., Zampolli A. 2003. The PAROLE model and the Italian Syntactic lexicon. In A. Zampolli, N. Calzolari, L. Cignoni, (eds.), Computational Linguistics in Pisa - Linguistica Computazionale a Pisa. Linguistica Computazionale, Special Issue, XVIII-XIX, (2003). Pisa-Roma, IEPI. Tomo II, 793-820. Lenci A., Busa F., Ruimy N., Gola E., Monachini M., Calzolari N., Zampolli A. et al., 2000. SIMPLE Linguistic Specifications, SIMPLE LE4-8346 EC Project, Deliverable D2.1 & D2.2, WP02, Final version, March 2000, ILC et Université de Pisa, 404 pp. (http://www.ub.es/gilcub/SIMPLE/simple.html#Specifications). Ruimy N., Monachini M., Gola E., Calzolari N., Del Fiorentino M.C., Ulivieri M., Rossi S. 2003. A computational semantic lexicon of Italian: SIMPLE. In A. Zampolli, N. Calzolari, L. Cignoni, (eds.), Computational Linguistics in Pisa - Linguistica Computazionale a Pisa. Linguistica Computazionale, Special Issue, XVIII-XIX, (2003). Pisa-Roma, IEPI. Tomo II, 821-864. Ruimy N., Monachini M., Distante R., Guazzini E., Molino S., Ulivieri M., Calzolari N., Zampolli A. 2002. CLIPS, A Multi-level Italian Computational Lexicon: a Glimpse to Data. LREC 2002, Las Palmas de Gran Canaria, Espagne 29, 30 & 31 mai 2002. Proceedings, Volume III, Paris, The European Languages Resources Association (ELRA). 792-799.
Language Italian
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title Lexique italien PAROLE-SIMPLE-CLIPS de Pise – Niveau morphologique
PAROLE-SIMPLE-CLIPS PISA Italian Lexicon – Morphological layer
Type Lexical Conceptual Resource
Contact Point Metashare/c2cd8e2cde7411e2b1e400259011f6ea19292dec40864778b663e86597428a03#contact Person
Description Verbmobil is a long-term project of the German Federal Ministry of Education, Science, Research and Technology (BMBF, Projekträger DLR). Its aim is to give Germany an international top position in language technology and its economical application in the next millenium by cooperation and concentration of as many as possible specialists from industry and science. The long-sighted aim is the development of a mobile translation system for the translation of spontaneous speech in face-to-face situations.The following resources are spontaneous speech databases recorded in a dialogue task (appointment scheduling) . VM CD 2.1 (new edition) consists of 1 CD-ROM with 81 Dialogues 227 Appointments, 1538 Turns in German. This new edition contains the transliterations of all dialogues, signal files with PhonDat 2 Header structure, software and speaker documentations. All files were validaed according to BAS guidelines.
Verbmobil est un projet du Ministère fédéral allemand de l'Education, des Sciences, de la Recherche et des Technologies (BMBF, Projekträger DLR), qui vise à placer l'Allemagne en position de force dans le domaine de l'ingénierie de la langue. Son objectif , à long terme, est de développer un système de traduction vocale automatique, pour la traduction de conversations spontanées. Ces ressources sont des enregistrements de conversation pour la prise de rendez-vous. Le corpus allemand comprend 13 910 occurrences (échanges). L'édition de BAS de la partie allemande est entièrement étiquetée et segmentée en unités phonémiques/phonétiques (alphabet SAM-PA) par le système MAUS et partiellement segmentée de manière manuelle. VM CD 2.1 - VM21 (nouvelle édition) contient 1 CD-ROM composé de 81 dialogues, 227 rendez-vous, 1538 échanges en allemand. Cette nouvelle édition contient les transcriptions de tous les dialogues, les fichiers de signaux dans la structure d'en-tête PhonDat 2, le logiciel et la documentation sur les locuteurs. Tous les fichiers ont été validés selon les directives BAS.
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title VERBMOBIL - VM CD 2.1 (new edition)
VERBMOBIL - VM CD 2.1 - VM21 (nouvelle édition)
Type Corpus