Index

Contact Point Metashare/bee67034de6b11e2b1e400259011f6ead2a25f2425f34eb198784968d442572c#contact Person
Description The Dutch CELEX data is derived from R.H. Baayen, R. Piepenbrock & L. Gulikers, The CELEX Lexical Database (CD-ROM), Release 2, Dutch Version 3.1, Linguistic Data Consortium, University of Pennsylvania, Philadelphia, PA, 1995. Apart from orthographic features, the CELEX database comprises representations of the phonological, morphological, syntactic and frequency properties of lemmata. For the Dutch data, frequencies have been disambiguated on the basis of the 42.4m Dutch Instituut voor Nederlandse Lexicologie text corpora. To make for greater compatibility with other operating systems, the databases have not been tailored to fit any particular database management program. Instead, the information is presented in a series of plain ASCII files, which can be queried with tools such as AWK and ICON. Unique identity numbers allow the linking of information from different files.This database can be divided into different subsets: · orthography: with or without diacritics, with or without word division positions, alternative spellings, number of letters/syllables; · phonology: phonetic transcriptions with syllable boundaries or primary and secondary stress markers, consonant-vowel patterns, number of phonemes/syllables, alternative pronunciations, frequency per phonetic syllable within words; · morphology: division into stems and affixes, flat or hierarchical representations, stems and their inflections; · syntax: word class, subcategorisations per word class; · frequency of the entries: disambiguated for homographic lemmata.
Les données en hollandais de CELEX sont extraites de la base de données lexicale CELEX (CD-ROM) de R.H. Baayen, R. Piepenbrock & L. Gulikers, seconde édition, version hollandaise 3.1, Linguistic Data Consortium, Université de Pennsylvanie, Philadelphie, PA, 1995. En-dehors des traits orthographiques, la base de données CELEX comprend des représentations des propriétés phonologiques, morphologiques, syntaxiques et fréquentielles des lemmes. En ce qui concerne les données du hollandais, les fréquences ont été désambigüisées sur la base du corpus de textes de l'Instituut voor Nederlandse Lexicologie. Afin de permettre une meilleure compatibilité avec d'autres systèmes, les bases ne sont adaptées à aucun système de gestion de base de données spécifique. Au contraire, l'information est présentée dans une série de fichiers textes ASCII, pouvant être interrogés par des outils tels que AWK et ICON. Des numéros d'identification uniques permettent d'accéder et d'établir les relations entre les informations provenant de différents fichiers. Cette base de données peut être divisée en cinq sous-ensembles selon les niveaux d'informations suivants : · orthographe: avec ou sans diacritiques, avec ou sans la position de la coupure de mot (césure), option d'orthographe, nombre de lettres/syllabes ; · phonologie : transcriptions phonétiques avec segmentation des syllabes ou balisage des accents primaires ou secondaires, schémas consonne-voyelle, nombre de phonèmes/syllabes, options de prononciation, fréquence par syllabe phonétique dans les mots ; · morphologie : division en radical et affixes, représentations à plat ou hiérarchisées, radicaux et leurs flexions ; · syntaxe : classe de mot, sous-catégorisation par classe de mot ; · fréquence des entrées : désambigüisation des lemmes homographes.
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title CELEX Dutch lexical database - Phonology Subset
CELEX - Base de données lexicale du hollandais - sous-ensemble \"phonologie\"
Type Lexical Conceptual Resource
Contact Point Metashare/d18d7c5ade6611e2b1e400259011f6ea6efb98eb962d46ff8584eef8239f4ac8#contact Person
Description 4116 entrées, domaine Géographie, histoire, arts. Les entrées contiennent des informations morphologiques pour les différentes classes de mots. Les informations sur les termes composés sont fournies par la tête du terme (tête du syntagme).
4,116 entries for Geography, History, Arts. The entries contain morphological information for part-of-speech and inflectional class. The information on multi-word terms is provided by the headword.
Language Spanish
English
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title Bilingual Spanish-English and English-Spanish lexicons (INCYTA) - Geography, History, Arts
Lexiques bilingues espagnol-anglais et anglais-espagnol (INCYTA) - Géographie, histoire, arts
Type Lexical Conceptual Resource
Contact Point Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#contact Person
Description Les dictionnaires de prononciation GlobalPhone, créés dans le cadre du corpus multilingue de parole GlobalPhone, ont été développés avec la collaboration du Karlsruhe Institute of Technology (KIT). Les dictionnaires de prononciation GlobalPhone contiennent les prononciations de toutes les formes de mots des données de transcription de la base de données textuelle et orale GlobalPhone. Les dictionnaires de prononciation sont actuellement disponibles en 15 langues: arabe (29230 entrées/27059 mots), bulgare (20193 entrées), croate (23497 entrées/20628 mots), tchèque (33049 entrées/32942 mots), français (36837 entrées/20710 mots), allemand (48979 entrées/46035 mots), hausa (42662 entrées/42079 mots), japonais (18094 entrées), polonais (36484 entrées), portugais (brésilien) (54146 entrées/54130 mots), russe (28818 entrées/27667 mots), espagnol (d’Amérique latine) (43264 entrées/33960 mots), suédois (env. 25000 entrées), turc (31330 entrées/31087 mots), et vietnamien (38504 entrées/29974 mots). 3 autres langues seront également distribuées: chinois-mandarin, coréen et thaï. 1) Codage du dictionnaire: Les entrées du dictionnaire de prononciation consiste en des formes de mots entières et sont données soit dans le script original de la langue, principalement au format de codage UTF-8 (bulgare, croate, tchèque, français, polonais, russe, espagnol, thaï) corresondant aux fichiers trl des transcriptions GlobalPhone, soit dans le script romanisé (arabe, allemand, hausa, japonais, coréen, mandarin, portugais, suédois, turc, vietnamien) correspondant aux fichiers rmn des transcriptions GlobalPhone. Dans le dernier cas, la documentation fournit principalement un mapping de la version romanisée vers le script original. 2) Ensemble des phones du dictionnaire : Les ensembles de phones de chaque langue sont dérivés individuellement des publications qui présentent les meilleures pratiques du traitement automatique de la parole. Chaque ensemble de phones est expliqué et décrit dans la documentation fournie en utilisant les standards internationaux de l’alphabet phonétique international (International Phonetic Alphabet - IPA). Pour la plupart des langues est fourni un mapping avec les conventions de noms GlobalPhone indépendantes de la langue (indiquées par “M_”), dans un but de partage de données à travers les langues pour construire des modèles acoustiques multilingues. 3) Génération du dictionnaire: Lorsque la relation graphème-phonème le permettait, les dictionnaires ont été créés semi-automatiquement d’après une méthode à base de règles en utilisant un ensemble de règles de mapping graphème-phonème. Le nombre de règles dépend fortement de la langue. Après la procédure de création automatique, tous les dictionnaires ont été vérifiés manuellement de façon croisée par des locuteurs natifs, afin de corriger les erreurs potentielles du processus de génération automatique de prononciation. La plupart des dictionnaires ont été soumis à une reconnaissance de la parole à large vocabulaire. Dans beaucoup de cas, les dictionnaires GlobalPhone ont été comparés à une simple reconnaissance de la parole basée sur le graphème et d’autres sources alternatives, telles que Wiktionary et se sont avérés habituellement supérieurs en termes de qualité, couverture et précision. 4) Format: Le format des dictionnaires est simple et identique pour chaque langue. Chaque ligne consiste en une forme de mot et sa prononciation séparés par un espace. La prononciation consiste en une concaténation des symboles de phones séparés par des espaces. Les mots et leurs prononciations sont donnés dans la forme d’une liste avec un script tcl, c’est-à-dire inclus dans des “{}”, puisque les phones peuvent avoir des étiquettes, indiquant le ton et la longueur d’une voyelle, ou la limite du mot avec l’étiquette “WB”, qui indique la limite d’une unité du dictionnaire. L’étiquette WB peut par exemple être incluse comme une question standard dans les questions d’arbre décisionnel pour la capture de modèles de mots croisés dans la modélisation dépendante du contexte. Les variantes de prononciation sont indiquées par (<n>) avec n = 2, 3, 4,… indiquant le nombre de variantes par mot. L’ordre dans lequel les variantes interviennent dans le dictionnaire n’est pas nécessairement lié à leur fréquence dans le corpus. {word} {{w WB} o r {d WB}} 5) Documentation: Les dictionnaires de prononciation pour chaque langue sont complétés par une documentation qui décrit le format du dictionnaire, l’ensemble de phones incluant le mapping avec l’alphabet phonétique international (International Phonetic Alphabet - IPA), et la répartition des fréquences des phones dans les dictionnaires. La plupart des dictionnaires de prononciation ont été soumis à un système de reconnaissance de la parole à large vocabulaire avec succès et les références à des publications sont données lorsque celles-ci sont disponibles.
The GlobalPhone pronunciation dictionaries, created within the framework of the multilingual speech and language corpus GlobalPhone, were developed in collaboration with the Karlsruhe Institute of Technology (KIT). The GlobalPhone pronunciation dictionaries contain the pronunciations of all word forms found in the transcription data of the GlobalPhone speech & text database. The pronunciation dictionaries are currently available in 15 languages: Arabic (29230 entries/27059 words), Bulgarian (20193 entries), Croatian (23497 entries/20628 words), Czech (33049 entries/32942 words), French (36837 entries/20710 words), German (48979 entries/46035 words), Hausa (42662 entries/42079 words), Japanese (18094 entries), Polish (36484 entries), Portuguese (Brazilian) (54146 entries/54130 words), Russian (28818 entries/27667 words), Spanish (Latin American) (43264 entries/33960 words), Swedish (about 25000 entries), Turkish (31330 entries/31087 words), and Vietnamese (38504 entries/29974 words). Other 3 languages will also be released: Chinese-Mandarin, Korean and Thai. 1) Dictionary Encoding: The pronunciation dictionary entries consist of full word forms and are either given in the original script of that language, mostly in UTF-8 encoding (Bulgarian, Croatian, Czech, French, Polish, Russian, Spanish, Thai) corresponding to the trl-files of the GlobalPhone transcriptions or in Romanized script (Arabic, German, Hausa, Japanese, Korean, Mandarin, Portuguese, Swedish, Turkish, Vietnamese) corresponding to the rmn-files of the GlobalPhone transcriptions, respectively. In the latter case the documentation mostly provides a mapping from the Romanized to the original script. 2) Dictionary Phone set: The phone sets for each language were derived individually from the literature following best practices for automatic speech processing. Each phone set is explained and described in the documentation using the international standards of the International Phonetic Alphabet (IPA). For most languages a mapping to the language independent GlobalPhone naming conventions (indicated by “M_”) is provided for the purpose of data sharing across languages to build multilingual acoustic models. 3) Dictionary Generation: Whenever the grapheme-to-phoneme relationship allowed, the dictionaries were created semi-automatically in a rule-based fashion using a set of grapheme-to-phoneme mapping rules. The number of rules highly depends on the language. After the automatic creation process, all dictionaries were manually cross-checked by native speakers, correcting potential errors of the automatic pronunciation generation process. Most of the dictionaries have been applied to large vocabulary speech recognition. In many cases the GlobalPhone dictionaries were compared to straight-forward grapheme-based speech recognition and to alternative sources, such as Wiktionary and usually demonstrated to be superior in terms of quality, coverage, and accuracy. 4) Format: The format of the dictionaries is the same across languages and is straight-forward. Each line consists of one word form and its pronunciation separated by blank. The pronunciation consists of a concatenation of phone symbols separated by blanks. Both, words and their pronunciations are given in tcl-script list format, i.e. enclosed in “{}”, since phones can carry tags, indicating the tone and length of a vowel, or the word boundary tag “WB”, indicating the boundary of a dictionary unit. The WB tag can for example be included as a standard question in the decision tree questions for capturing crossword models in context-dependent modeling. Pronunciation variants are indicated by (<n>) with n = 2, 3, 4,… indicating the number of variants per word. The order in which variants occur in the dictionary is not necessarily related to their frequency in the corpus. {word} {{w WB} o r {d WB}} 5) Documentation: The pronunciation dictionaries for each language are complemented by a documentation that describes the format of the dictionary, the phone set including its mapping to the International Phonetic Alphabet (IPA), and the frequency distribution of the phones in the dictionary. Most of the pronunciation dictionaries have been successfully applied to large vocabulary speech recognition and references to publications are given when available.
Language Spanish
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title GlobalPhone Spanish (Latin American) Pronunciation Dictionary
Dictionnaire de prononciation GlobalPhone espagnol (d’Amérique latine)
Type Lexical Conceptual Resource
Contact Point Metashare/44e98d30de7411e2b1e400259011f6ea8245a3ca587042069e78640b083d350c#contact Person
Description Ce corpus a été collecté dans le cadre du projet FASiL, EU FP5 IST-2001-38685 (http://www.fasil.co.uk), pour une expérience en magicien d’oz. Ainsi, il comprend les enregistrements des sujets et du magicien pour un total de 70 sujets. Le corpus est formaté en fichiers .wav (u-law) pour la partie audio, ASCII pour la partie transcriptions (.txt), et un fichier maître relie les .txt et les .wav. Le fichier maître est une sorte de réseau d’interaction temporelle qui contient l’ordre exact des interactions et des mesures de temps. Le fichier maître correspond approximativement au format de réseau HTK-SLF. L’expérience magicien d’oz tient dans l’interaction orale avec un « assistant personnel virtuel » (Virtual Personal Assistent (VPA)) dans une tâche d’email, de gestion de calendrier et de contacts. Les hésitations sont marquées par la balise “UH”, le bruit par la balise “NOISE” et les autres éléments non pertinents par la balise “IRRELEVANT”. Toutes les annotations sont en minuscules, excepté les balises précédemment citées. Une documentation précise de l’expérience est présentée dans le livrable FASiL D.2.2. Les interactions comprennent principalement des phrases mais également des noms épelés, des adresses email, des numéros de téléphone, des questions fermées.
The corpus was collected in the context of the FASiL project, EU FP5 IST-2001-38685 (http://www.fasil.co.uk), as a wizard-of-oz experiment. Therefore, there are sound recordings of subject and wizard. A total of 70 subjects were recorded. The corpus is formatted as .wav files (u-law) for audio, plain ASCII text (.txt) for transcriptions, and a masterfile which binds .txt and .wav together. The masterfile is a “lattice” of the ineraction in time, and contains the exact order of the interaction plus timings. The masterfile is loosely related to the HTK-SLF lattice format. The woz experiment is about the voice interaction with a Virtual Personal Assistent (VPA) for an email, calender and contacts task. Hesitations are marked as “UH”, noise as “NOISE” and other irrelevant stuff as “IRRELEVANT”. All annotations are in lower case, except for the former mentioned cases. Exact documentation of experiment in FASiL deliverable D.2.2 The interactions contain mostly sentences but also spelled names, email addresses, telephone numbers, yes/no questions. S0174-01, S0174-03, S0174-04, and S0174-05.
Language Portuguese
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title Corpus unimodal portugais FASiL “fasil-pt”
FASiL Portuguese unimodal “fasil-pt” corpus
Type Corpus
Contact Point Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#contact Person
Description The GlobalPhone corpus developed in collaboration with the Karlsruhe Institute of Technology (KIT) was designed to provide read speech data for the development and evaluation of large continuous speech recognition systems in the most widespread languages of the world, and to provide a uniform, multilingual speech and text database for language independent and language adaptive speech recognition as well as for language identification tasks. The entire GlobalPhone corpus enables the acquisition of acoustic-phonetic knowledge of the following 20 spoken languages: Arabic (ELRA-S0192), Bulgarian (ELRA-S0319), Chinese-Mandarin (ELRA-S0193), Chinese-Shanghai (ELRA-S0194), Croatian (ELRA-S0195), Czech (ELRA-S0196), French (ELRA-S0197), German (ELRA-S0198), Hausa (ELRA-S0347), Japanese (ELRA-S0199), Korean (ELRA-S0200), Polish (ELRA-S0320), Portuguese (Brazilian) (ELRA-S0201), Russian (ELRA-S0202), Spanish (Latin America) (ELRA-S0203), Swedish (ELRA-S0204), Tamil (ELRA-S0205), Thai (ELRA-S0321), Turkish (ELRA-S0206), Vietnamese (ELRA-S0322). In each language about 100 sentences were read from each of the 100 speakers. The read texts were selected from national newspapers available via Internet to provide a large vocabulary (up to 65,000 words). The read articles cover national and international political news as well as economic news. The speech is available in 16bit, 16kHz mono quality, recorded with a close-speaking microphone (Sennheiser 440-6) and same recording equipment for all languages. The transcriptions are internally validated and supplemented by special markers for spontaneous effects like stuttering, false starts, and non-verbal effects like laughing and hesitations. Speaker information like age, gender, occupation, etc. as well as information about the recording setup complement the database. The entire GlobalPhone corpus contains over 450 hours of speech spoken by more than 1900 native adult speakers. Data is shortened by means of the shorten program written by Tony Robinson, available from Softsound's web page: http://www.softsound.com/ linux distributions, or simulated versions such as cygwin. Alternatively, the data could be delivered unshorten. The Portuguese (Brazilian) corpus was produced using the Folha de Sao Paulo newspaper. It contains recordings of 102 speakers (54 males, 48 females) recorded in Porto Velho and Sao Paulo, Brazil. The following age distribution has been obtained: 6 speakers are below 19, 58 speakers are between 20 and 29, 27 speakers are between 30 and 39, 5 speakers are between 40 and 49, and 5 speakers are over 50 (1 speaker age is unknown).
Le corpus GlobalPhone, développé avec la collaboration du Karlsruhe Institute of Technology (KIT), a été conçu afin de fournir des données de parole lue pour le développement et l’évaluation de systèmes de reconnaissance de la parole continue à large vocabulaire dans les langues les plus répandues dans le monde, l’objectif étant de fournir une base de données audio et textuelles uniforme et multilingue pour la reconnaissance de la parole indépendante de la langue et adaptable à la langue, ainsi que pour des tâches d’identification de la langue. Le corpus GlobalPhone complet permet l’acquisition d’une connaissance acoustico-phonétique pour les 20 langues parlées suivantes: allemand (ELRA-S0198), arabe (arabe standard moderne) (ELRA-S0192), bulgare (ELRA-S0319), chinois-mandarin (ELRA-S0193), chinois de Shanghai (ELRA-S0194), coréen (ELRA-S0200), croate (ELRA-S0195), espagnol (d’Amérique latine) (ELRA-S0203), français (ELRA-S0197), haoussa (ELRA-S0347), japonais (ELRA-S0199), polonais (ELRA-S0320), portugais (brésilien) (ELRA-S0201), russe (ELRA-S0202), suédois (ELRA-S0204), tamoul (ELRA-S0205), thaï (ELRA-S0321), tchèque (ELRA-S0196), turc (ELRA-S0206) et vietnamien (ELRA-S0322). Dans chaque langue, environ 100 phrases ont été lues par chacun des 100 locuteurs. Les textes lus sont extraits d’articles de journaux nationaux disponibles sur internet afin de fournir un large vocabulaire (jusqu’à 65000 mots). Les articles lus couvrent des actualités politiques nationales et internationales, ainsi que des nouvelles économiques. Les données de parole ont été enregistrées en 16 bit, 16 kHz (qualité mono) avec un micro-casque (Sennheiser 440-6) et le même équipement d’enregistrement pour l’ensemble des langues. Les transcriptions ont été validées en interne et annotées au moyen de balises spéciales pour marquer les effets spontanés, tels que le bégaiement, les faux démarrages, et les effets non verbaux comme le rire et les hésitations. La base contient également des informations sur les locuteurs, telles que l’âge, le genre, la profession, etc. ainsi que des informations sur la mise en place de l’enregistrement. Le corpus GlobalPhone dans son entier comprend plus de 450 heures de parole enregistrées par plus de 1900 locuteurs adultes natifs. Les données sont compressées au moyen du programme Shorten écrit par Tony Robinson, disponible depuis la page web de Softsound: http://www.softsound.com/ (distributions linux ou versions simulées telles que cygwin). Au besoin, les données peuvent être fournies non compressées. Le corpus portugais (brésilien) a été produit à partir du journal Folha de Sao Paulo. Il comprend les enregistrements de 102 locuteurs (54 hommes, 48 femmes) enregistrés à Porto Velho et Sao Paulo, Brésil. Les classes d'âge sont réparties comme suit : 6 locuteurs de moins de 19 ans, 58 locuteurs entre 20 et 29 ans, 27 locuteurs entre 30 et 39 ans, 5 locuteurs entre 40 et 49 ans, et 5 locuteurs de plus de 50 ans (1 locuteur d’âge inconnu).
Language Portuguese
Rights ELRA_END_USER
ELRA_VAR
Source META-SHARE
Title GlobalPhone Portuguese (Brazilian)
GlobalPhone portugais (brésilien)
Type Corpus
Contact Point Metashare/2f6c0368de6d11e2b1e400259011f6eac45bfa8538a44cd1b43bbe83f44bb107#contact Person
Description Domaines techniques Langues : Anglais => Italien Domaine: Droit, 8 900 entrées, formes canoniques Les dictionnaires techniques bilingues disposent d'une codification morphologique qui permet de générer toutes les formes fléchies grâce à un logiciel écrit en langage C. Les mots composés contiennent une codification morphologique sur la tête des mots.
Technical domains Languages: English => Italian Format: ASCII format with ISO 8859-1 character set Medium: QIC 150 MB Cartridge Tape Domain: Law, 8,900 entries, canonical forms Technical bilingual Italian dictionaries with a morphological coding which can generate all full forms using a software engine written in C. Multi-word terms contain morphological coding for the head word.
Language English
Italian
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title THAMUS Bilingual dictionaries - Law
THAMUS Dictionnaires bilingues - Droit
Type Lexical Conceptual Resource
Contact Point Metashare/4831f33cde6611e2b1e400259011f6ea53c0a08d9e7d4157a814a2c8dbebd5ab#contact Person
Description This corpus comprises 8,000 Chinese place names uttered by 200 speakers of different dialects, ages and various educational levels, recorded over 4 channels. Speech samples are stored as a sequence of 16-bit 44.1kHz WAV for 12.27 hours of speech per channel. The total capacity of the data is 14.45 Gb. Each speaker read 40 items. Text files are stored in Unicode format. All data have been proofread manually. The corpus aims to be applied to the testing and telephone natural speech recognition system.
Ce corpus comprend 8 000 noms de lieux en chinois prononcés par 200 locuteurs de dialectes, d’âges et de niveaux d’éducation différents, enregistrés via 4 canaux. Les échantillons de parole sont stockés sous la forme de séquences 16-bit 44,1kHz WAV pour un total de 12,27 heures de parole par canal. La taille totale des données est de 14,45 Go. Chaque locuteur a lu 40 éléments. Les fichiers textes sont stockés au format Unicode. Toutes les données ont été vérifiées manuellement. Cette base de données a été conçue pour l’évaluation et le développement de systèmes de reconnaissance de la parole naturelle par téléphone.
Rights ELRA_END_USER
ELRA_VAR
Source META-SHARE
Title Mandarin Chinese high clarity Speech Recognition Corpus (in recording studio) - (desktop) – place name (200 people)
Corpus de reconnaissance de parole du chinois mandarin de haute qualité sonore (enregistrements en studio) – noms de lieux (200 locuteurs)
Type Corpus
Contact Point Metashare/9d9f4008de7111e2b1e400259011f6ea03e9c52feb8441b9962fcf2c02d87100#contact Person
Description A-SpeechDB© is an Arabic speech database suited for training acoustic models for Arabic phoneme-based speaker-independent automatic speech recognition systems. The database contains about 20 hours of continuous speech recorded through one desktop omni microphone by 205 native speakers from Egypt (about 30% of females and 70% of males), aged between 20 and 45. Automatically generated transcriptions are provided with a manually revised version for each sentence. Accuracy: • Detailed speaker information: Age, Accent, place of stay, gender • Recording in office environment • Sentence labeled. • Continuous Speech • Automatic first pass transcription • Manual second pass labeling • Each text prompt is unique, no repeated sentences • Sentences chosen to cover all Arabic phonetics several times Technology: • Automatic transcription using TransArab© • Recording using DBRec© or Validator© • Validation using Validator© Audio: • Sample Rate : 16 KHz • Resolution: 16 bit PCM • Format: MAF (A tool is included to convert the database to WAV format) Text: • Labeled data format: HTK lab format (100 nano-seconds)
A-SpeechDB© est une base de données orale arabe conçue pour entraîner les modèles acoustiques des systèmes de reconnaissance automatique de la parole en arabe, indépendants du locuteur et basés sur les phonèmes. La base de données contient environ 20 heures de parole continue enregistrée sur un microphone de table omni-directionnel par 205 locuteurs égyptiens de langue maternelle arabe (environ 30% de femmes et 70% d’hommes), âgés entre 20 et 45 ans. Les transcriptions générées automatiquement sont fournies avec une version révisée manuellement pour chaque phrase. Niveau de précision: • Information détaillée par locuteur: âge, accent, lieu de résidence, genre • Enregistrement dans un environnement de bureau • Annotation au niveau de la phrase • Parole continue • Transcription automatique (premier passage) • Annotation manuelle (deuxième passage) • Chaque énoncé de texte (prompt) est unique, les phrases ne sont pas répétées • Phrases choisies pour couvrir plusieurs fois l’ensemble de la phonétique arabe Technologie: • Transcription automatique réalisée avec TransArab© • Enregistrements réalisés avec DBRec© ou Validator© • Validation réalisée avec Validator© Audio: • Taux d’échantillonnage: 16 KHz • Résolution: 16 bit PCM • Format: MAF (Un outil est inclus pour convertir la base de données au format WAV) Texte: • Format de données d’annotation: HTK lab (100 nanosecondes)
Language Arabic
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title A-SpeechDB
A-SpeechDB
Type Corpus
Contact Point Metashare/a0b790d4de6b11e2b1e400259011f6ea009dba6071974a2abb1fc2775548515e#contact Person
Description * Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
* Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
Language English
Spanish
Rights ELRA_VAR
Source META-SHARE
Title Base de données terminologique polytechnique et plurilingue VERBA - S-AE Biochimie
VERBA Polytechnic and Plurilingual Terminological Database - S-AE Biochemistry
Type Lexical Conceptual Resource
Contact Point Metashare/769306b4de6911e2b1e400259011f6ea2b79562fde164c3794fe4e44303e058d#contact Person
Description * Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
* Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
Language Spanish
English
Rights ELRA_VAR
Source META-SHARE
Title Base de données terminologique polytechnique et plurilingue VERBA - S-AU Zoologie - général
VERBA Polytechnic and Plurilingual Terminological Database - S-AU Zoology, General Topics
Type Lexical Conceptual Resource
Contact Point Metashare/5bdf732ede6f11e2b1e400259011f6eace66a22319f04c5a8b3e5f021e3c1557#contact Person
Description * Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
* Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
Language English
Spanish
Rights ELRA_VAR
Source META-SHARE
Title Base de données terminologique polytechnique et plurilingue VERBA - W-AA Armes
VERBA Polytechnic and Plurilingual Terminological Database - W-AA Weapons
Type Lexical Conceptual Resource
Contact Point Metashare/d5293d6ade7311e2b1e400259011f6ea9b5520588373489089b74efc02d6f850#contact Person
Description * Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
* Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
Language Spanish
English
Rights ELRA_VAR
Source META-SHARE
Title Base de données terminologique polytechnique et plurilingue VERBA - E-AB Services hospitaliers
VERBA Polytechnic and Plurilingual Terminological Database - E-AB Hospital Services
Type Lexical Conceptual Resource
Contact Point Metashare/949782f6de6a11e2b1e400259011f6ea2adf9dfadb834cfca6d878241f8cb34a#contact Person
Description A. Available Wordnets Following the announcement of the EuroWordNet databases in the last issue of the ELRA Newsletter (Vol.4 N.2), we are happy to announce that the list of EuroWordNet languages has grown. The following wordnets are now available via ELRA: ELRA ref. Language Synsets Word Meanings Language Internal Relations Equi-valence Relations ELRA-M0015 English Addition to English WordNet 16361 40588 42140 0 ELRA-M0016 Dutch 44015 70201 111639 53448 ELRA-M0017 Spanish 23370 50526 55163 21236 ELRA-M0018 Italian 48529 48499 117068 71789 ELRA-M0019 German 15132 20453 34818 16347 ELRA-M0020 French 22745 32809 49494 22730 ELRA-M0021 Czech 12824 19949 26259 12824 ELRA-M0022 Estonian 9317 13839 16318 9004 B. LR(1) Common Components (All Foreground - Data of layer 1) A. The Inter-Lingual-Index, which is a list of records (ILI-records), in the form of synsets mainly taken from WordNet1.5 or manually created. An ILI-record contains: A.1 synset: set of synonymous words or phrases (mostly from WordNet1.5) A.2 part-of-speech, A.3 one or more Top-Concept classifications (Optional) A.4 one or more Domain labels (Optional) A.5 a gloss in English (mostly from WordNet1.5) A.6 a unique ID linking the synset to its source (mostly WordNet1.5) B. Top-Ontology: an ontology of 63 basic semantic classes based on fundamental distinctions. By means of the Top-Ontology all the wordnets can be accessed using a single language-independent classification-scheme. Top-Concepts are only assigned to ILI-records. C. Domain-ontology: an ontology of subject-domains optionally assigned to ILI-records. D. A selection of ILI-records, the so-called Base-Concepts, which play a major role in the different wordnets. These Base-Concepts form the core of all the wordnets. All the Base-Concepts are classified in terms of the Top-Concepts that apply to them. E. WordNet1.5 (91591 synsets; 168217 meanings; 126520 entry words) in EuroWordNet format. C. LR(2) Language-Specific Components (Data of layer 2- partly Foreground and partly Background) Wordnets produced in the first project (LE2-4003): F. Dutch wordnet G. English wordnet (additional relations which are missing in WordNet1.5) H. Italian wordnet I. Spanish wordnet After extension of the project (LE4-8328): J. German wordnet K. French wordnet L. Czech wordnet M. Estonian wordnet The specific wordnets are language-internal structures, minimally containing: o set of variants or synonyms making up the synset o part-of-speech o language-internal relations to other synsets o equivalence relations with ILI-records o a unique-id linking the synset to its source Each wordnet will be distributed with LR1 and will include documentation on LR1 and the distributed wordnet. All the data will be distributed as text-files in the EuroWordNet import format and as Polaris database files (see below LR3). The EuroWordNet viewer (Periscope, see below LR3) can be used to access the database version. Polaris has to be licensed to modify and extend the database version. The wordnets are distributed without: o glosses o usage labels o morpho-syntactic properties o examples o word-to-word translations D. LR(3) Software The multilingual EUROWORDNET Database (partly Foreground, partly Background) consists of three components: o The actual wordnets in Flaim database format: an indexing and compression format of Novell. o Polaris (Louw 1997): a wordnet editing tool for creating, editing and exporting wordnets. o Periscope (Cuypers and Adriaens 1997): a graphical database viewer for viewing and exporting wordnets. The Polaris tool is a re-implementation of the Novell ConceptNet toolkit (Díez-Orzas et al 1995) adapted to the EuroWordNet architecture. Polaris can import new wordnets or wordnet fragments from ASCII files with the correct import format and it creates an indexed EUROWORDNET Database. Furthermore, it allows a user to edit and add relations in the wordnets and to formulate queries. The Polaris toolkit makes it possible to visualise the semantic relations as a tree-structure that can directly be edited. These trees can be expanded and shrunk by clicking on word-meanings and by specifying so-called TABs indicating the kind and depth of relations that need to be shown. Expanded trees or sub-trees can be stored as a set of synsets, which can be manipulated, saved or loaded. Additionally, it is possible to access the ILI or the ontologies, and to switch between the wordnets and ontologies via the ILI. Finally, it contains an interface to project sets of synsets across wordnets. The Periscope program is a public viewer that can be used to look at wordnets created by the Polaris tool and to compare them in a graphical interface. Word meanings can be looked up and trees can be expanded. Individual meanings or complete branches can be projected on another wordnet or wordnet structures can be compared via the equivalence relations with the Inter-Lingual-Index. Selected trees can be exported to text files. The Periscope program cannot be used for importing or changing wordnets. N. The Polaris program is partly Background and partly Foreground. It is property of Vantage Research and can be licensed as a EuroWordNet result from Vantage Research (http://www.vantage.com). O. The Periscope viewer is property of Vantage Research and is Foreground. E. Prices The prices indicated in the tables below are based on the number of synsets in each language wordnet. Members are offered a 50% discount on the public price. Each language wordnet has a fixed number of non divisible synsets. There are 4 different types of use: VAR-C = Commercial use VAR-I = Internal use by a commercial organisation VAR-E = Evaluation licence (3 month licence) End-User = Research use by an academic institution Language wordnet Number of synsets ELRA-M0015 English Addition 16,361 ELRA-M0016 Dutch 44,015 ELRA-M0017 Spanish 23,370 ELRA-M0018 Italian 48,529 ELRA-M0019 German 15,132 ELRA-M0020 French 22,745 ELRA-M0021 Czech 12,824 ELRA-M0022 Estonian 9,317 Discount*** Number of synsets Discount Above 60,000 cumulated synsets 5% Above 100,000 cumulated synsets 10% Above 160,000 cumulated synsets 20% ***A discount is offered to both members and non-members according to the total (cumulated) number of synsets that are ordered at one time. The total number of synsets is calculated by adding up the number of synsets for each language wordnet purchased. For example, if you order the English and Dutch wordnets, the total amount of synsets is 16,361 synsets (English) + 44,015 synsets (Dutch) = 60,376 synsets. In this case, the 5% corresponding discount is applied. F. Technical support Technical support may be provided by members of the consortium. It will be implemented through bilateral agreements between the User and the member of the consortium responsible for the data acquired by User. As an indication the support contract will be on a yearly basis and will cost 10-20 KEURO/Year. For more information about the EuroWordNet project: http://www.hum.uva.nl/~ewn
A. Wordnets disponibles : ELRA ref. Langue Synsets Sens des mots Relations internes à la langue Relations d'équivalence ELRA-M0015 Anglais: Addition au WordNet anglais 16361 40588 42140 0 ELRA-M0016 Hollandais 44015 70201 111639 53448 ELRA-M0017 Espagnol 23370 50526 55163 21236 ELRA-M0018 Italien 48529 48499 117068 71789 ELRA-M0019 Allemand 15132 20453 34818 16347 ELRA-M0020 Français 22745 32809 49494 22730 ELRA-M0021 Tchèque 12824 19949 26259 12824 ELRA-M0022 Estonien 9317 13839 16318 9004 B. LR(1) Composants communs Une sélection d'enregistrements de l'index inter-lingue, concepts de base, qui jouent un rôle majeur dans les différents wordnets. Ces concepts de base forment le noyau de tous les wordnets. Tous les concepts de base sont classés en termes de concepts supérieurs qui s'y appliquent. A.L'index inter-lingue, qui consiste en une liste d'enregistrements sous la forme de \"synsets\" (ensembles/réseaux sémantiques, principalement issus de WordNet5.1 ou créés manuellement), comprend : A.1. un ensemble de synsets de mots ou phrases synonymiques (provenant pour la plupart de WordNet1.5) ; A.2. une \"partie-du-discours\" ; A.3. un ou plusieurs concepts supérieurs (optionnel) ; A.4. un ou plusieurs étiquettes de domaine (optionnel) ; A.5. un glossaire en anglais (provenant pour la plupart de WordNet1.5) ; A.6. un code unique reliant le synset à sa source (provenant pour la plupart de WordNet1.5). B.Ontologie supérieure : une ontologie de 63 classes sémantiques de base reposant sur des distinctions fondamentales. Grâce à l'ontologie supérieure, on accède à tous les wordnets en utilisant un schéma de classifiaction unique indépendant de la langue. Les concepts supérieurs sont également assignés aux enregistrements de l'index inter-lingue. C.Ontologie de domaine : une ontologie de domaines sujets assignés aux enregistrements de l'index inter-lingue D.Une sélection d'enregistrements de l'index inter-lingue, concepts de base, qui jouent une rôle majeur dans les différents wordnets. Ces concepts de base forment le noyau de tous les wordnets. Tous les concepts de base sont classés en termes de concepts supérieurs qui s'y appliquent. E.WordNet1.5 (91591 synsets; 168217 sens; 126520 mots d'entrée) au format EuroWordNet. C. LR(2) Composants spécifiques à la langue Wordnets produits dans le premier projet (LE2-4003) : F.Wordnet hollandais G.Wordnet anglais (relations supplémentaires au WordNet1.5) H.Wordnet italien I.Wordnet espagnol Extension du projet (LE4-8328) : J.Wordnet allemand K.Wordnet français L.Wordnet tchèque M.Wordnet estonien Les wordnets sont des structures internes spécifiques à la langue et contiennent au minimum : - ensemble de variantes ou synonymes formant le synset - \"partie-du-discours\" - relations à d'autres synsets internes à la langue - relations d'équivalence avec les enregistrements de l'index inter-lingue - un code unique reliant le synset à sa source Chaque wordnet est distribué avec LR1 et comprend une documentation sur LR1 et le wordnet distribué. Toutes les données sont distribuées en fichiers textes dans le format EuroWordNet et sous la forme de fichiers de base de données Polaris (voir LR3 ci-dessous). Le visualiseur EuroWordNet (Periscope, voir LR3) peut être utilisé pour accéder à la version base de données. Pour modifier et étendre la version de la base de données, il faut acquérir une licence Polaris. Les wordnets ne contiennent pas de : - glossaires - étiquettes d'usage - propriétés morpho-syntaxiques - exemples - traductions mot-à-mot D. LR(3) Logiciels La base de données multilingue EUROWORDNET est composée de trois parties : Les wordnets au format base de données Flaim : un format Novell d'indexation et de compression. - Polaris (Louw 1997): un éditeur pour la création, l'édition et l'exportation de wordnets. - Periscope (Cuypers and Adriaens 1997) : un outil graphique pour la visualisation et l'exportation de wordnets. Polaris peut importer de nouveaux wordnets ou des fragments de wordnets depuis des fichiers ASCII avec le format d'importation correct et crée une base de données indexée EUROWORDNET. De plus, il permet à un utilisateur d'éditer et d'ajouter des relations dans les wordnets et de formuler des requêtes. Polaris rend possible la visualisation de relations sémantiques sous la forme d'une structure arborescente qui peut être directement éditée. Ces arborescences peuvent être étendues et raccourcies en cliquant sur les sens du mot et en spécifiant des \"TABs\" qui indiquent le type et la profondeur des relations qui doivent être montrées. Les arbres étendus ou les sous-arbres peuvent être stockés sous un ensemble de synsets, qui peuvent être maniés, sauvegardés ou chargés. Il est également possible d'accéder à l'index inter-lingue ou aux ontologies, et de passer des wordnets aux ontologies via l'index inter-lingue. Enfin, il contient une interface permettant de projeter les ensembles de synsets à travers les wordnets. Le logiciel Periscope est un visualiseur public qui peut être utilisé pour regarder les wordnets créés par Polaris et pour les comparer dans une interface graphique. Les sens des mots peuvent être visualisés et les arborescences étendues. Les sens individuels ou des branches entières peuvent être projetées sur un autre wordnet ou des structure de wordnets peuvent être comparées via les relations d'équivalence avec l'index inter-lingue. Les arbres sélectionnés peuvent être exportés vers des fichiers textes. Periscope ne peut pas importer ou changer les wordnets. N.Le programme Polaris est la propriété de Vantage Research et est mis à disposition en tant que résultat d'EuroWordNet à Vantage Research (www.vantage.com). O.Le logiciel Periscope est la propriété de Vantage Research. E. Prix Les prix sont basés sur le nombre de synsets pour chaque langue. Les membres bénéficient d'une remise de 50% sur le prix public. Chaque langue comprend un nombre fixe et indivisible de synsets. Il y a 4 types différents d'usage : VAR-C = Usage commercial VAR-I = Usage interne pour une organisation commerciale VAR-E = Licence d'évalutation (licence limitée à une durée de 3 mois) End-User = Usage de recherche par une institution académique Langue Nombre de synsets ELRA-M0015 Anglais (complément) 16 361 ELRA-M0016 Hollandais 44 015 ELRA-M0017 Espagnol 23 370 ELRA-M0018 Italien 48 529 ELRA-M0019 Allemand 15 132 ELRA-M0020 Français 22 745 ELRA-M0021 Tchèque 12 824 ELRA-M0022 Estonien 93172 Remise*** Nombre de synsets Remise Au-delà de 60 000 synsets cumulés 5 % Au-delà de 100 000 synsets cumulés 10 % Au-delà de 160 000 synsets cumulés 20 % ***Une remise est offerte à la fois aux membres et aux non membres selon le nombre total (cumulé) de synsets faisant l'objet d'une même commande. Le nombre total de synsets est calculé en additionnant le nombre de synsets de chaque langue achetée. Par exemple, si vous commandez les wordnets anglais et hollandais, le montant total de synsets sera 16 361 synsets (anglais) + 44 015 synsets (hollandais) = 60 376 synsets. Dans ce cas, la remise correspondante de 5 % sera appliquée. D. Support technique Un support technique peut être apporté par les membres du consortium, selon les termes de contrats bilatéraux à conclure entre l'utilisateur et le membre du consortium responsable des données acquises. A titre indicatif le contrat se fera sur une base annuelle et coûtera entre 10 et 20 KEURO/AN. Pour plus d'informations sur le projet EuroWordNet: http://www.hum.uva.nl/~ewnaux enregistrements de l'index inter-lingue
Rights ELRA_VAR
ELRA_END_USER
ELRA_EVALUATION
Source META-SHARE
Title EuroWordNet Estonian
EuroWordNet estonien
Type Lexical Conceptual Resource
Contact Point Metashare/c67b539ade7111e2b1e400259011f6ea1977b1e87fed4b12a045e324f155b4b1#contact Person
Description * Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
* Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
Language Spanish
English
Rights ELRA_VAR
Source META-SHARE
Title VERBA Polytechnic and Plurilingual Terminological Database - G-GY Integrated Circuits
Base de données terminologique polytechnique et plurilingue VERBA - G-GY Circuits intégrés
Type Lexical Conceptual Resource
Contact Point Metashare/9b2fbbe8de7811e2b1e400259011f6ea5df8d9f9ed0b423597e28a6422792d5b#contact Person
Description This corpus comprises sentences uttered by 100 speakers of different dialects, ages and various educational levels. Speech samples are stored as a sequence of 16-bit 8kHz WAV for a total of 7.3 hours of speech. The total capacity of the data is 400 Mb. Each speaker read 40 items. Text files are stored in Unicode format. All data have been proofread manually. The corpus aims to be applied to the testing and telephone natural speech recognition system.
Ce corpus comprend des phrases prononcées par 100 locuteurs de dialectes, d’âges et de niveaux d’éducation différents. Les échantillons de parole sont stockés sous la forme de séquences 16-bit 8kHz WAV pour un total de 7,3 heures de parole par canal. La taille totale des données est de 400 Mo. Chaque locuteur a lu 40 éléments. Les fichiers textes sont stockés au format Unicode. Toutes les données ont été vérifiées manuellement. Cette base de données a été conçue pour l’évaluation et le développement de systèmes de reconnaissance de la parole naturelle par téléphone.
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title Mandarin Chinese Speech Recognition Corpus (telephone channel) - Chinese single sentence (100 people)
Corpus de reconnaissance de parole téléphonique du chinois mandarin – phrases (100 locuteurs)
Type Corpus
Contact Point Metashare/aee9fa36de6911e2b1e400259011f6ea9a9fa363e71e4076846ac55a434fff9e#contact Person
Description Cette base de données comprend les modèles HTS Festival bilingues (anglais et espagnol). Les modèles ont été entraînés à partir de 9 heures de parole réalisés par 2 locuteurs bilingues femmes et 2 locuteurs bilingues hommes. Chaque locuteur a enregistré 2h 15 min par langue. La base de données de parole peut être trouvée dans la base de données orale de conversion vocale bilingue TC-STAR pour l’espagnol (ELRA-S0311) et dans la base de données de parole expressive bilingue TC-STAR (ELRA-S0313).
This database contains Bilingual (English and Spanish) Festival HTS models. Models were trained with 9h of speech from 2 female bilingual speakers and 2 male bilingual speakers. Each speaker recorded 2h 15 min per language. The speech data can be found in the TC-STAR Bilingual Voice-Conversion Spanish Speech Database (ELRA-S0311) and in the TC-STAR Bilingual Expressive Spanish Speech Database (ELRA-S0313).
Language Spanish
English
Rights ELRA_END_USER
ELRA_VAR
Source META-SHARE
Title Bilingual (Spanish-English) Speech synthesis HTS models
Modèles HTS bilingues pour la synthèse vocale (espagnol-anglais)
Type Corpus
Contact Point Metashare/fd11707cde7311e2b1e400259011f6ea85d38ca6430c4730909ac9faf64ee2a6#contact Person
Description * Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
* Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
Language English
Spanish
Rights ELRA_VAR
Source META-SHARE
Title Base de données terminologique polytechnique et plurilingue VERBA - D-AE Contrôle climatique
VERBA Polytechnic and Plurilingual Terminological Database - D-AE Climate Control
Type Lexical Conceptual Resource
Contact Point Metashare/ef504ebede7211e2b1e400259011f6ea00426fc7d67744068f128b774af09a9b#contact Person
Description * Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
* Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
Language English
Spanish
Rights ELRA_VAR
Source META-SHARE
Title VERBA Polytechnic and Plurilingual Terminological Database - G-GR Ionics
Base de données terminologique polytechnique et plurilingue VERBA - G-GR Physique ionique
Type Lexical Conceptual Resource
Contact Point Metashare/f46fb304de6711e2b1e400259011f6ea6a6d9c4d02d0426ba71def65f648890a#contact Person
Description The Dutch CELEX data is derived from R.H. Baayen, R. Piepenbrock & L. Gulikers, The CELEX Lexical Database (CD-ROM), Release 2, Dutch Version 3.1, Linguistic Data Consortium, University of Pennsylvania, Philadelphia, PA, 1995. Apart from orthographic features, the CELEX database comprises representations of the phonological, morphological, syntactic and frequency properties of lemmata. For the Dutch data, frequencies have been disambiguated on the basis of the 42.4m Dutch Instituut voor Nederlandse Lexicologie text corpora. To make for greater compatibility with other operating systems, the databases have not been tailored to fit any particular database management program. Instead, the information is presented in a series of plain ASCII files, which can be queried with tools such as AWK and ICON. Unique identity numbers allow the linking of information from different files.This database can be divided into different subsets: · orthography: with or without diacritics, with or without word division positions, alternative spellings, number of letters/syllables; · phonology: phonetic transcriptions with syllable boundaries or primary and secondary stress markers, consonant-vowel patterns, number of phonemes/syllables, alternative pronunciations, frequency per phonetic syllable within words; · morphology: division into stems and affixes, flat or hierarchical representations, stems and their inflections; · syntax: word class, subcategorisations per word class; · frequency of the entries: disambiguated for homographic lemmata.
Les données en hollandais de CELEX sont extraites de la base de données lexicale CELEX (CD-ROM) de R.H. Baayen, R. Piepenbrock & L. Gulikers, seconde édition, version hollandaise 3.1, Linguistic Data Consortium, Université de Pennsylvanie, Philadelphie, PA, 1995. En-dehors des traits orthographiques, la base de données CELEX comprend des représentations des propriétés phonologiques, morphologiques, syntaxiques et fréquentielles des lemmes. En ce qui concerne les données du hollandais, les fréquences ont été désambigüisées sur la base du corpus de textes de l\\'Instituut voor Nederlandse Lexicologie. Afin de permettre une meilleure compatibilité avec d\\'autres systèmes, les bases ne sont adaptées à aucun système de gestion de base de données spécifique. Au contraire, l\\'information est présentée dans une série de fichiers textes ASCII, pouvant être interrogés par des outils tels que AWK et ICON. Des numéros d\\'identification uniques permettent d\\'accéder et d\\'établir les relations entre les informations provenant de différents fichiers. Cette base de données peut être divisée en cinq sous-ensembles selon les niveaux d\\'informations suivants : * orthographe: avec ou sans diacritiques, avec ou sans la position de la coupure de mot (césure), option d\\'orthographe, nombre de lettres/syllabes ; * phonologie : transcriptions phonétiques avec segmentation des syllabes ou balisage des accents primaires ou secondaires, schémas consonne-voyelle, nombre de phonèmes/syllabes, options de prononciation, fréquence par syllabe phonétique dans les mots ; · morphologie : division en radical et affixes, représentations à plat ou hiérarchisées, radicaux et leurs flexions ; · syntaxe : classe de mot, sous-catégorisation par classe de mot ; · fréquence des entrées : désambigüisation des lemmes homographes.
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title CELEX Dutch lexical database - Derivational Morphology Subset
CELEX - Base de données lexicale du hollandais - sous-ensemble \"morphologie dérivationnelle\"
Type Lexical Conceptual Resource
Contact Point Metashare/22e59ec8de6e11e2b1e400259011f6ea779372c767ed4f1ca98efcf969d29e12#contact Person
Description The GlobalPhone corpus developed in collaboration with the Karlsruhe Institute of Technology (KIT) was designed to provide read speech data for the development and evaluation of large continuous speech recognition systems in the most widespread languages of the world, and to provide a uniform, multilingual speech and text database for language independent and language adaptive speech recognition as well as for language identification tasks. The entire GlobalPhone corpus enables the acquisition of acoustic-phonetic knowledge of the following 20 spoken languages: Arabic (ELRA-S0192), Bulgarian (ELRA-S0319), Chinese-Mandarin (ELRA-S0193), Chinese-Shanghai (ELRA-S0194), Croatian (ELRA-S0195), Czech (ELRA-S0196), French (ELRA-S0197), German (ELRA-S0198), Hausa (ELRA-S0347), Japanese (ELRA-S0199), Korean (ELRA-S0200), Polish (ELRA-S0320), Portuguese (Brazilian) (ELRA-S0201), Russian (ELRA-S0202), Spanish (Latin America) (ELRA-S0203), Swedish (ELRA-S0204), Tamil (ELRA-S0205), Thai (ELRA-S0321), Turkish (ELRA-S0206), Vietnamese (ELRA-S0322). In each language about 100 sentences were read from each of the 100 speakers. The read texts were selected from national newspapers available via Internet to provide a large vocabulary (up to 65,000 words). The read articles cover national and international political news as well as economic news. The speech is available in 16bit, 16kHz mono quality, recorded with a close-speaking microphone (Sennheiser 440-6) and same recording equipment for all languages. The transcriptions are internally validated and supplemented by special markers for spontaneous effects like stuttering, false starts, and non-verbal effects like laughing and hesitations. Speaker information like age, gender, occupation, etc. as well as information about the recording setup complement the database. The entire GlobalPhone corpus contains over 450 hours of speech spoken by more than 1900 native adult speakers. Data is shortened by means of the shorten program written by Tony Robinson, available from Softsound's web page: http://www.softsound.com/ linux distributions, or simulated versions such as cygwin. Alternatively, the data could be delivered unshorten. The Croatian corpus was produced using the HRT and Obzor Nacional newspapers. It contains recordings of 94 speakers (38 males, 56 females) recorded in Zagreb, Croatia, and parts of Bosnia. The following age distribution has been obtained: 21 speakers are below 19, 30 speakers are between 20 and 29, 14 speakers are between 30 and 39, 15 speakers are between 40 and 49, and 13 speakers are over 50 (1 speaker age is unknown).
Le corpus GlobalPhone, développé avec la collaboration du Karlsruhe Institute of Technology (KIT), a été conçu afin de fournir des données de parole lue pour le développement et l’évaluation de systèmes de reconnaissance de la parole continue à large vocabulaire dans les langues les plus répandues dans le monde, l’objectif étant de fournir une base de données audio et textuelles uniforme et multilingue pour la reconnaissance de la parole indépendante de la langue et adaptable à la langue, ainsi que pour des tâches d’identification de la langue. Le corpus GlobalPhone complet permet l’acquisition d’une connaissance acoustico-phonétique pour les 20 langues parlées suivantes: allemand (ELRA-S0198), arabe (arabe standard moderne) (ELRA-S0192), bulgare (ELRA-S0319), chinois-mandarin (ELRA-S0193), chinois de Shanghai (ELRA-S0194), coréen (ELRA-S0200), croate (ELRA-S0195), espagnol (d’Amérique latine) (ELRA-S0203), français (ELRA-S0197), haoussa (ELRA-S0347), japonais (ELRA-S0199), polonais (ELRA-S0320), portugais (brésilien) (ELRA-S0201), russe (ELRA-S0202), suédois (ELRA-S0204), tamoul (ELRA-S0205), thaï (ELRA-S0321), tchèque (ELRA-S0196), turc (ELRA-S0206) et vietnamien (ELRA-S0322). Dans chaque langue, environ 100 phrases ont été lues par chacun des 100 locuteurs. Les textes lus sont extraits d’articles de journaux nationaux disponibles sur internet afin de fournir un large vocabulaire (jusqu’à 65000 mots). Les articles lus couvrent des actualités politiques nationales et internationales, ainsi que des nouvelles économiques. Les données de parole ont été enregistrées en 16 bit, 16 kHz (qualité mono) avec un micro-casque (Sennheiser 440-6) et le même équipement d’enregistrement pour l’ensemble des langues. Les transcriptions ont été validées en interne et annotées au moyen de balises spéciales pour marquer les effets spontanés, tels que le bégaiement, les faux démarrages, et les effets non verbaux comme le rire et les hésitations. La base contient également des informations sur les locuteurs, telles que l’âge, le genre, la profession, etc. ainsi que des informations sur la mise en place de l’enregistrement. Le corpus GlobalPhone dans son entier comprend plus de 450 heures de parole enregistrées par plus de 1900 locuteurs adultes natifs. Les données sont compressées au moyen du programme Shorten écrit par Tony Robinson, disponible depuis la page web de Softsound: http://www.softsound.com/ (distributions linux ou versions simulées telles que cygwin). Au besoin, les données peuvent être fournies non compressées. Le corpus croate a été produit à partir des journaux HRT et Obzor Nacional. Il comprend les enregistrements de 94 locuteurs (38 hommes, 56 femmes) enregistrés à Zagreb, Croatie, ainsi que dans d’autres lieux en Bosnie. Les classes d'âge sont réparties comme suit : 21 locuteurs de moins de 19, 30 locuteurs entre 20 et 29 ans, 14 locuteurs entre 30 et 39 ans, 15 locuteurs entre 40 et 49 ans, et 13 locuteurs de plus de 50 ans (1 locuteur d’âge inconnu).
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title GlobalPhone Croatian
GlobalPhone croate
Type Corpus
Contact Point Metashare/93c9c4f4de6c11e2b1e400259011f6ead57b054cfad346fe995d9c5728f01c46#contact Person
Description Contrats d'assurance, assurance publique et privée, ressources terminologiques utilisées dans les institutions de l'Union Européenne. Fiches disponibles : 1000 Langues : Catalan, Espagnol, Anglais Format: ASCII Support : disquette Description de la fiche : Chaque fiche de cette base terminologique contient une définition, des abréviations, des notes, des étiquettes grammaticales (catégorie, genre et nombre), synonymes.
Insurance contracts, private and public insurance, resource terminology used within European Union institutions. Cards available: 1000 Languages: Catalan, Spanish, English Format: ASCII Medium: floppy disk Card Description: Each card in this terminological database contains a definition, abbreviations, notes, grammatical labels (category, gender and number), synonyms.
Language Catalan
Spanish
English
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title Assurance (Termcat)
Insurance (Termcat)
Type Lexical Conceptual Resource