Index

Contact Point Metashare/d7abf49c68a811e281b65cf3fcb88b70ef60c6dce745433e949a1bad011aa6bf#contact Person
Description The Dictionary of Antonyms in Bulgarian Language covers the body of synonyms in Modern Bulgarian. It contains about 8,500 unique word forms pertaining to four parts-of-speech, distributed into 3,644 antonym sets, as follows: verbs: 571 antonym sets and a total number of over 3,000 words; nouns: 1,399 antonym sets and a total number of over 5,000 words; adjectives: 1,092 antonym sets and a total number of over 4,100 words; adverbs: 582 antonym sets and a total number of over 2,100 words. The words are given in their basic form. Verbs are given only in imperfective form, while perfectives are marked by a grammatical note in parentheses after the verb, as in: дойда (само св.). One word may be a member of more than one antonym set depending on its meaning. When searching in the database for a certain word, antonym sets, containing the searched word, are displayed in a row in ascending order. To specify the stylistic or grammatical characteristics of words in an antonym set, if necessary, notes are placed in parentheses after the word.
Language Bulgarian
Rights CC-BY-NC-ND
Source META-SHARE
Title Dictionary of Antonyms in Bulgarian Language
Type Lexical Conceptual Resource
Contact Point Metashare/7b10d004a37611e3960f001dd8b71c190dc084e401f34fbe95921abf1ac2cc7f#contact Person
Description Collection of comparable sentences from Wikipedia obtained with Lexacc tool developed in ACCURAT project. For each sentence pair confidence score of the alignment is assigned.
Language English
Rights CC-BY
Source META-SHARE
Title English-Lithuanian cross-linked collection of comparable sentences from Wikipedia
Type Corpus
Contact Point Metashare/d18d7c5ade6611e2b1e400259011f6ea6efb98eb962d46ff8584eef8239f4ac8#contact Person
Description 4116 entrées, domaine Géographie, histoire, arts. Les entrées contiennent des informations morphologiques pour les différentes classes de mots. Les informations sur les termes composés sont fournies par la tête du terme (tête du syntagme).
4,116 entries for Geography, History, Arts. The entries contain morphological information for part-of-speech and inflectional class. The information on multi-word terms is provided by the headword.
Language Spanish
English
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title Bilingual Spanish-English and English-Spanish lexicons (INCYTA) - Geography, History, Arts
Lexiques bilingues espagnol-anglais et anglais-espagnol (INCYTA) - Géographie, histoire, arts
Type Lexical Conceptual Resource
Contact Point Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#contact Person
Description Les dictionnaires de prononciation GlobalPhone, créés dans le cadre du corpus multilingue de parole GlobalPhone, ont été développés avec la collaboration du Karlsruhe Institute of Technology (KIT). Les dictionnaires de prononciation GlobalPhone contiennent les prononciations de toutes les formes de mots des données de transcription de la base de données textuelle et orale GlobalPhone. Les dictionnaires de prononciation sont actuellement disponibles en 15 langues: arabe (29230 entrées/27059 mots), bulgare (20193 entrées), croate (23497 entrées/20628 mots), tchèque (33049 entrées/32942 mots), français (36837 entrées/20710 mots), allemand (48979 entrées/46035 mots), hausa (42662 entrées/42079 mots), japonais (18094 entrées), polonais (36484 entrées), portugais (brésilien) (54146 entrées/54130 mots), russe (28818 entrées/27667 mots), espagnol (d’Amérique latine) (43264 entrées/33960 mots), suédois (env. 25000 entrées), turc (31330 entrées/31087 mots), et vietnamien (38504 entrées/29974 mots). 3 autres langues seront également distribuées: chinois-mandarin, coréen et thaï. 1) Codage du dictionnaire: Les entrées du dictionnaire de prononciation consiste en des formes de mots entières et sont données soit dans le script original de la langue, principalement au format de codage UTF-8 (bulgare, croate, tchèque, français, polonais, russe, espagnol, thaï) corresondant aux fichiers trl des transcriptions GlobalPhone, soit dans le script romanisé (arabe, allemand, hausa, japonais, coréen, mandarin, portugais, suédois, turc, vietnamien) correspondant aux fichiers rmn des transcriptions GlobalPhone. Dans le dernier cas, la documentation fournit principalement un mapping de la version romanisée vers le script original. 2) Ensemble des phones du dictionnaire : Les ensembles de phones de chaque langue sont dérivés individuellement des publications qui présentent les meilleures pratiques du traitement automatique de la parole. Chaque ensemble de phones est expliqué et décrit dans la documentation fournie en utilisant les standards internationaux de l’alphabet phonétique international (International Phonetic Alphabet - IPA). Pour la plupart des langues est fourni un mapping avec les conventions de noms GlobalPhone indépendantes de la langue (indiquées par “M_”), dans un but de partage de données à travers les langues pour construire des modèles acoustiques multilingues. 3) Génération du dictionnaire: Lorsque la relation graphème-phonème le permettait, les dictionnaires ont été créés semi-automatiquement d’après une méthode à base de règles en utilisant un ensemble de règles de mapping graphème-phonème. Le nombre de règles dépend fortement de la langue. Après la procédure de création automatique, tous les dictionnaires ont été vérifiés manuellement de façon croisée par des locuteurs natifs, afin de corriger les erreurs potentielles du processus de génération automatique de prononciation. La plupart des dictionnaires ont été soumis à une reconnaissance de la parole à large vocabulaire. Dans beaucoup de cas, les dictionnaires GlobalPhone ont été comparés à une simple reconnaissance de la parole basée sur le graphème et d’autres sources alternatives, telles que Wiktionary et se sont avérés habituellement supérieurs en termes de qualité, couverture et précision. 4) Format: Le format des dictionnaires est simple et identique pour chaque langue. Chaque ligne consiste en une forme de mot et sa prononciation séparés par un espace. La prononciation consiste en une concaténation des symboles de phones séparés par des espaces. Les mots et leurs prononciations sont donnés dans la forme d’une liste avec un script tcl, c’est-à-dire inclus dans des “{}”, puisque les phones peuvent avoir des étiquettes, indiquant le ton et la longueur d’une voyelle, ou la limite du mot avec l’étiquette “WB”, qui indique la limite d’une unité du dictionnaire. L’étiquette WB peut par exemple être incluse comme une question standard dans les questions d’arbre décisionnel pour la capture de modèles de mots croisés dans la modélisation dépendante du contexte. Les variantes de prononciation sont indiquées par (<n>) avec n = 2, 3, 4,… indiquant le nombre de variantes par mot. L’ordre dans lequel les variantes interviennent dans le dictionnaire n’est pas nécessairement lié à leur fréquence dans le corpus. {word} {{w WB} o r {d WB}} 5) Documentation: Les dictionnaires de prononciation pour chaque langue sont complétés par une documentation qui décrit le format du dictionnaire, l’ensemble de phones incluant le mapping avec l’alphabet phonétique international (International Phonetic Alphabet - IPA), et la répartition des fréquences des phones dans les dictionnaires. La plupart des dictionnaires de prononciation ont été soumis à un système de reconnaissance de la parole à large vocabulaire avec succès et les références à des publications sont données lorsque celles-ci sont disponibles.
The GlobalPhone pronunciation dictionaries, created within the framework of the multilingual speech and language corpus GlobalPhone, were developed in collaboration with the Karlsruhe Institute of Technology (KIT). The GlobalPhone pronunciation dictionaries contain the pronunciations of all word forms found in the transcription data of the GlobalPhone speech & text database. The pronunciation dictionaries are currently available in 15 languages: Arabic (29230 entries/27059 words), Bulgarian (20193 entries), Croatian (23497 entries/20628 words), Czech (33049 entries/32942 words), French (36837 entries/20710 words), German (48979 entries/46035 words), Hausa (42662 entries/42079 words), Japanese (18094 entries), Polish (36484 entries), Portuguese (Brazilian) (54146 entries/54130 words), Russian (28818 entries/27667 words), Spanish (Latin American) (43264 entries/33960 words), Swedish (about 25000 entries), Turkish (31330 entries/31087 words), and Vietnamese (38504 entries/29974 words). Other 3 languages will also be released: Chinese-Mandarin, Korean and Thai. 1) Dictionary Encoding: The pronunciation dictionary entries consist of full word forms and are either given in the original script of that language, mostly in UTF-8 encoding (Bulgarian, Croatian, Czech, French, Polish, Russian, Spanish, Thai) corresponding to the trl-files of the GlobalPhone transcriptions or in Romanized script (Arabic, German, Hausa, Japanese, Korean, Mandarin, Portuguese, Swedish, Turkish, Vietnamese) corresponding to the rmn-files of the GlobalPhone transcriptions, respectively. In the latter case the documentation mostly provides a mapping from the Romanized to the original script. 2) Dictionary Phone set: The phone sets for each language were derived individually from the literature following best practices for automatic speech processing. Each phone set is explained and described in the documentation using the international standards of the International Phonetic Alphabet (IPA). For most languages a mapping to the language independent GlobalPhone naming conventions (indicated by “M_”) is provided for the purpose of data sharing across languages to build multilingual acoustic models. 3) Dictionary Generation: Whenever the grapheme-to-phoneme relationship allowed, the dictionaries were created semi-automatically in a rule-based fashion using a set of grapheme-to-phoneme mapping rules. The number of rules highly depends on the language. After the automatic creation process, all dictionaries were manually cross-checked by native speakers, correcting potential errors of the automatic pronunciation generation process. Most of the dictionaries have been applied to large vocabulary speech recognition. In many cases the GlobalPhone dictionaries were compared to straight-forward grapheme-based speech recognition and to alternative sources, such as Wiktionary and usually demonstrated to be superior in terms of quality, coverage, and accuracy. 4) Format: The format of the dictionaries is the same across languages and is straight-forward. Each line consists of one word form and its pronunciation separated by blank. The pronunciation consists of a concatenation of phone symbols separated by blanks. Both, words and their pronunciations are given in tcl-script list format, i.e. enclosed in “{}”, since phones can carry tags, indicating the tone and length of a vowel, or the word boundary tag “WB”, indicating the boundary of a dictionary unit. The WB tag can for example be included as a standard question in the decision tree questions for capturing crossword models in context-dependent modeling. Pronunciation variants are indicated by (<n>) with n = 2, 3, 4,… indicating the number of variants per word. The order in which variants occur in the dictionary is not necessarily related to their frequency in the corpus. {word} {{w WB} o r {d WB}} 5) Documentation: The pronunciation dictionaries for each language are complemented by a documentation that describes the format of the dictionary, the phone set including its mapping to the International Phonetic Alphabet (IPA), and the frequency distribution of the phones in the dictionary. Most of the pronunciation dictionaries have been successfully applied to large vocabulary speech recognition and references to publications are given when available.
Language Spanish
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title GlobalPhone Spanish (Latin American) Pronunciation Dictionary
Dictionnaire de prononciation GlobalPhone espagnol (d’Amérique latine)
Type Lexical Conceptual Resource
Contact Point Metashare/44e98d30de7411e2b1e400259011f6ea8245a3ca587042069e78640b083d350c#contact Person
Description Ce corpus a été collecté dans le cadre du projet FASiL, EU FP5 IST-2001-38685 (http://www.fasil.co.uk), pour une expérience en magicien d’oz. Ainsi, il comprend les enregistrements des sujets et du magicien pour un total de 70 sujets. Le corpus est formaté en fichiers .wav (u-law) pour la partie audio, ASCII pour la partie transcriptions (.txt), et un fichier maître relie les .txt et les .wav. Le fichier maître est une sorte de réseau d’interaction temporelle qui contient l’ordre exact des interactions et des mesures de temps. Le fichier maître correspond approximativement au format de réseau HTK-SLF. L’expérience magicien d’oz tient dans l’interaction orale avec un « assistant personnel virtuel » (Virtual Personal Assistent (VPA)) dans une tâche d’email, de gestion de calendrier et de contacts. Les hésitations sont marquées par la balise “UH”, le bruit par la balise “NOISE” et les autres éléments non pertinents par la balise “IRRELEVANT”. Toutes les annotations sont en minuscules, excepté les balises précédemment citées. Une documentation précise de l’expérience est présentée dans le livrable FASiL D.2.2. Les interactions comprennent principalement des phrases mais également des noms épelés, des adresses email, des numéros de téléphone, des questions fermées.
The corpus was collected in the context of the FASiL project, EU FP5 IST-2001-38685 (http://www.fasil.co.uk), as a wizard-of-oz experiment. Therefore, there are sound recordings of subject and wizard. A total of 70 subjects were recorded. The corpus is formatted as .wav files (u-law) for audio, plain ASCII text (.txt) for transcriptions, and a masterfile which binds .txt and .wav together. The masterfile is a “lattice” of the ineraction in time, and contains the exact order of the interaction plus timings. The masterfile is loosely related to the HTK-SLF lattice format. The woz experiment is about the voice interaction with a Virtual Personal Assistent (VPA) for an email, calender and contacts task. Hesitations are marked as “UH”, noise as “NOISE” and other irrelevant stuff as “IRRELEVANT”. All annotations are in lower case, except for the former mentioned cases. Exact documentation of experiment in FASiL deliverable D.2.2 The interactions contain mostly sentences but also spelled names, email addresses, telephone numbers, yes/no questions. S0174-01, S0174-03, S0174-04, and S0174-05.
Language Portuguese
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title Corpus unimodal portugais FASiL “fasil-pt”
FASiL Portuguese unimodal “fasil-pt” corpus
Type Corpus
Contact Point Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#contact Person
Description The GlobalPhone corpus developed in collaboration with the Karlsruhe Institute of Technology (KIT) was designed to provide read speech data for the development and evaluation of large continuous speech recognition systems in the most widespread languages of the world, and to provide a uniform, multilingual speech and text database for language independent and language adaptive speech recognition as well as for language identification tasks. The entire GlobalPhone corpus enables the acquisition of acoustic-phonetic knowledge of the following 20 spoken languages: Arabic (ELRA-S0192), Bulgarian (ELRA-S0319), Chinese-Mandarin (ELRA-S0193), Chinese-Shanghai (ELRA-S0194), Croatian (ELRA-S0195), Czech (ELRA-S0196), French (ELRA-S0197), German (ELRA-S0198), Hausa (ELRA-S0347), Japanese (ELRA-S0199), Korean (ELRA-S0200), Polish (ELRA-S0320), Portuguese (Brazilian) (ELRA-S0201), Russian (ELRA-S0202), Spanish (Latin America) (ELRA-S0203), Swedish (ELRA-S0204), Tamil (ELRA-S0205), Thai (ELRA-S0321), Turkish (ELRA-S0206), Vietnamese (ELRA-S0322). In each language about 100 sentences were read from each of the 100 speakers. The read texts were selected from national newspapers available via Internet to provide a large vocabulary (up to 65,000 words). The read articles cover national and international political news as well as economic news. The speech is available in 16bit, 16kHz mono quality, recorded with a close-speaking microphone (Sennheiser 440-6) and same recording equipment for all languages. The transcriptions are internally validated and supplemented by special markers for spontaneous effects like stuttering, false starts, and non-verbal effects like laughing and hesitations. Speaker information like age, gender, occupation, etc. as well as information about the recording setup complement the database. The entire GlobalPhone corpus contains over 450 hours of speech spoken by more than 1900 native adult speakers. Data is shortened by means of the shorten program written by Tony Robinson, available from Softsound's web page: http://www.softsound.com/ linux distributions, or simulated versions such as cygwin. Alternatively, the data could be delivered unshorten. The Portuguese (Brazilian) corpus was produced using the Folha de Sao Paulo newspaper. It contains recordings of 102 speakers (54 males, 48 females) recorded in Porto Velho and Sao Paulo, Brazil. The following age distribution has been obtained: 6 speakers are below 19, 58 speakers are between 20 and 29, 27 speakers are between 30 and 39, 5 speakers are between 40 and 49, and 5 speakers are over 50 (1 speaker age is unknown).
Le corpus GlobalPhone, développé avec la collaboration du Karlsruhe Institute of Technology (KIT), a été conçu afin de fournir des données de parole lue pour le développement et l’évaluation de systèmes de reconnaissance de la parole continue à large vocabulaire dans les langues les plus répandues dans le monde, l’objectif étant de fournir une base de données audio et textuelles uniforme et multilingue pour la reconnaissance de la parole indépendante de la langue et adaptable à la langue, ainsi que pour des tâches d’identification de la langue. Le corpus GlobalPhone complet permet l’acquisition d’une connaissance acoustico-phonétique pour les 20 langues parlées suivantes: allemand (ELRA-S0198), arabe (arabe standard moderne) (ELRA-S0192), bulgare (ELRA-S0319), chinois-mandarin (ELRA-S0193), chinois de Shanghai (ELRA-S0194), coréen (ELRA-S0200), croate (ELRA-S0195), espagnol (d’Amérique latine) (ELRA-S0203), français (ELRA-S0197), haoussa (ELRA-S0347), japonais (ELRA-S0199), polonais (ELRA-S0320), portugais (brésilien) (ELRA-S0201), russe (ELRA-S0202), suédois (ELRA-S0204), tamoul (ELRA-S0205), thaï (ELRA-S0321), tchèque (ELRA-S0196), turc (ELRA-S0206) et vietnamien (ELRA-S0322). Dans chaque langue, environ 100 phrases ont été lues par chacun des 100 locuteurs. Les textes lus sont extraits d’articles de journaux nationaux disponibles sur internet afin de fournir un large vocabulaire (jusqu’à 65000 mots). Les articles lus couvrent des actualités politiques nationales et internationales, ainsi que des nouvelles économiques. Les données de parole ont été enregistrées en 16 bit, 16 kHz (qualité mono) avec un micro-casque (Sennheiser 440-6) et le même équipement d’enregistrement pour l’ensemble des langues. Les transcriptions ont été validées en interne et annotées au moyen de balises spéciales pour marquer les effets spontanés, tels que le bégaiement, les faux démarrages, et les effets non verbaux comme le rire et les hésitations. La base contient également des informations sur les locuteurs, telles que l’âge, le genre, la profession, etc. ainsi que des informations sur la mise en place de l’enregistrement. Le corpus GlobalPhone dans son entier comprend plus de 450 heures de parole enregistrées par plus de 1900 locuteurs adultes natifs. Les données sont compressées au moyen du programme Shorten écrit par Tony Robinson, disponible depuis la page web de Softsound: http://www.softsound.com/ (distributions linux ou versions simulées telles que cygwin). Au besoin, les données peuvent être fournies non compressées. Le corpus portugais (brésilien) a été produit à partir du journal Folha de Sao Paulo. Il comprend les enregistrements de 102 locuteurs (54 hommes, 48 femmes) enregistrés à Porto Velho et Sao Paulo, Brésil. Les classes d'âge sont réparties comme suit : 6 locuteurs de moins de 19 ans, 58 locuteurs entre 20 et 29 ans, 27 locuteurs entre 30 et 39 ans, 5 locuteurs entre 40 et 49 ans, et 5 locuteurs de plus de 50 ans (1 locuteur d’âge inconnu).
Language Portuguese
Rights ELRA_END_USER
ELRA_VAR
Source META-SHARE
Title GlobalPhone Portuguese (Brazilian)
GlobalPhone portugais (brésilien)
Type Corpus
Contact Point Metashare/c19c566292c211e28763000c291ecfc80a823eb7acd74cda8594e986e44407eb#contact Person2
Metashare/c19c566292c211e28763000c291ecfc80a823eb7acd74cda8594e986e44407eb#contact Person
Description This is the LMF version of the Apertium Spanish dictionary. Monolingual dictionaries for Spanish, Catalan, Gallego and Euskera have been generated from the Apertium expanded lexicons of the es-ca (for both Spanish and Catalan) es-gl (for Galician) and eu-es (for Basque). Apertium is a free/open-source machine translation platform, initially aimed at related-language pairs but recently expanded to deal with more divergent language pairs (such as English-Catalan). The platform provides: a language-independent machine translation engine; tools to manage the linguistic data necessary to build a machine translation system for a given language pair and linguistic data for a growing number of language pairs.
Language Spanish
Rights GPL
Source META-SHARE
Title Spanish LMF Apertium Dictionary
Type Lexical Conceptual Resource
Contact Point Metashare/2f6c0368de6d11e2b1e400259011f6eac45bfa8538a44cd1b43bbe83f44bb107#contact Person
Description Domaines techniques Langues : Anglais => Italien Domaine: Droit, 8 900 entrées, formes canoniques Les dictionnaires techniques bilingues disposent d'une codification morphologique qui permet de générer toutes les formes fléchies grâce à un logiciel écrit en langage C. Les mots composés contiennent une codification morphologique sur la tête des mots.
Technical domains Languages: English => Italian Format: ASCII format with ISO 8859-1 character set Medium: QIC 150 MB Cartridge Tape Domain: Law, 8,900 entries, canonical forms Technical bilingual Italian dictionaries with a morphological coding which can generate all full forms using a software engine written in C. Multi-word terms contain morphological coding for the head word.
Language English
Italian
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title THAMUS Bilingual dictionaries - Law
THAMUS Dictionnaires bilingues - Droit
Type Lexical Conceptual Resource
Contact Point Metashare/9d9f4008de7111e2b1e400259011f6ea03e9c52feb8441b9962fcf2c02d87100#contact Person
Description A-SpeechDB© is an Arabic speech database suited for training acoustic models for Arabic phoneme-based speaker-independent automatic speech recognition systems. The database contains about 20 hours of continuous speech recorded through one desktop omni microphone by 205 native speakers from Egypt (about 30% of females and 70% of males), aged between 20 and 45. Automatically generated transcriptions are provided with a manually revised version for each sentence. Accuracy: • Detailed speaker information: Age, Accent, place of stay, gender • Recording in office environment • Sentence labeled. • Continuous Speech • Automatic first pass transcription • Manual second pass labeling • Each text prompt is unique, no repeated sentences • Sentences chosen to cover all Arabic phonetics several times Technology: • Automatic transcription using TransArab© • Recording using DBRec© or Validator© • Validation using Validator© Audio: • Sample Rate : 16 KHz • Resolution: 16 bit PCM • Format: MAF (A tool is included to convert the database to WAV format) Text: • Labeled data format: HTK lab format (100 nano-seconds)
A-SpeechDB© est une base de données orale arabe conçue pour entraîner les modèles acoustiques des systèmes de reconnaissance automatique de la parole en arabe, indépendants du locuteur et basés sur les phonèmes. La base de données contient environ 20 heures de parole continue enregistrée sur un microphone de table omni-directionnel par 205 locuteurs égyptiens de langue maternelle arabe (environ 30% de femmes et 70% d’hommes), âgés entre 20 et 45 ans. Les transcriptions générées automatiquement sont fournies avec une version révisée manuellement pour chaque phrase. Niveau de précision: • Information détaillée par locuteur: âge, accent, lieu de résidence, genre • Enregistrement dans un environnement de bureau • Annotation au niveau de la phrase • Parole continue • Transcription automatique (premier passage) • Annotation manuelle (deuxième passage) • Chaque énoncé de texte (prompt) est unique, les phrases ne sont pas répétées • Phrases choisies pour couvrir plusieurs fois l’ensemble de la phonétique arabe Technologie: • Transcription automatique réalisée avec TransArab© • Enregistrements réalisés avec DBRec© ou Validator© • Validation réalisée avec Validator© Audio: • Taux d’échantillonnage: 16 KHz • Résolution: 16 bit PCM • Format: MAF (Un outil est inclus pour convertir la base de données au format WAV) Texte: • Format de données d’annotation: HTK lab (100 nanosecondes)
Language Arabic
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title A-SpeechDB
A-SpeechDB
Type Corpus
Contact Point Metashare/7cc8f944a37611e3960f001dd8b71c196ad86505bd174002805862e0d9dd8212#contact Person
Description The Road Terms Technical Dictionary has been based on the 7th Edition of International Road Association (PIARC) terms dictionary (1997) EN-FR. It contains approx. 1200 most often used terms complemented by definitions and charts. The dictionary has been approved by the Terminology Commission of Latvian Academy of Science. The dictionary is available * online * as an electronic database * as a printed publication
Angļu - latviešu autoceļu terminu tehniskā vārdnīca ir sastādīta, pamatojoties uz Pasaules Ceļu Asociācijas (PIARC) 1997. gadā izdoto Technical dictionary of road terms (7th edition) English - French. Tajā iekļauti apmēram 1200 nozarē plašāk lietotie un nepieciešamākie termini angļu – latviešu valodās, kuri ir papildināti ar definīcijām un attēliem. Vārdnīca paredzēta lietošanai plašam nozares speciālistu lokam – valsts pasūtītājam, uzņēmējiem, kā arī augstskolas mācību spēkiem un studentiem. Vārdnīcu pēc Autoceļu standartizācijas tehniskās komitejas (ASTK) pasūtījuma sagatavoja Rīgas Tehniskās universitātes (RTU) transportbūvju katedras mācību spēku grupa J.Naudžuna vadībā. Vārdnīca saskaņota LZA Terminoloģijas komisijā. Vārdnīca pieejama: * Internetā * Elektroniskā formā * Izdevuma formā
Language English
Rights proprietary
Source META-SHARE
Title English-Latvian Road Terms Technical Dictionary
Angļu - latviešu autoceļu terminu tehniskā vārdnīca
Type Lexical Conceptual Resource
Contact Point Metashare/96561506de7611e2b1e400259011f6eafd90fa503264406b841cecc2b3b5d14b#contact Person
Description TC-STAR is a European integrated project focusing on Speech-to-Speech Translation (SST). To encourage significant breakthrough in all SST technologies, annual open competitive evaluations are organized. Automatic Speech Recognition (ASR), Spoken Language Translation (SLT) and Text-To-Speech (TTS) are evaluated independently and within an end-to-end system. The second TC-STAR evaluation campaign took place in March 2006. Three core technologies were evaluated during the campaign: • Automatic Speech Recognition (ASR), • Spoken Language Translation (SLT), • Text to Speech (TTS). Each evaluation package includes resources, protocols, scoring tools, results of the official campaign, etc., that were used or produced during the second evaluation campaign. The aim of these evaluation packages is to enable external players to evaluate their own system and compare their results with those obtained during the campaign itself. The speech databases made within the TC-STAR project were validated by SPEX, in the Netherlands, to assess their compliance with the TC-STAR format and content specifications. This package includes the material used for the TC-STAR 2006 Spoken Language Translation (SLT) second evaluation campaign for English-to-Spanish translation. The same packages are available for English (ELRA-E0011), Spanish (ELRA-E0012) and Mandarin Chinese (ELRA-E0013) for ASR and for SLT in 2 other directions, Spanish-to-English (ELRA-E0015) and Chinese-to-English (ELRA-E0016). To be able to chain the components, ASR, SLT and TTS evaluation tasks were designed to use common sets of raw data and conditions. Three evaluation tasks, common to ASR, SLT and TTS, were selected: EPPS (European Parliament Plenary Sessions) task, CORTES (Spanish Parliament Sessions) task and VOA (Voice of America) task. The CORTES data were used in addition to the EPPS data to evaluate ASR in Spanish and SLT from Spanish into English. This package was used within the EPPS task and consists of 2 data sets: - Development data set: built upon the ASR development data set, in order to enable end-to-end evaluation. Subsets of 50,000 words were selected from the EPPS verbatim transcriptions, and from the Final Text Edition documents. The source texts were then translated into Spanish by two independent translation agencies. All source text sets and reference translations were formatted using the same SGML DTD that has been used for the NIST Machine Translation evaluations. - Test data set: as for the development set, the same procedure was followed to produce the test data, i.e.: subsets of 50,000 words were selected from the test data set (Parliament’s sessions from 7 to 26 September 2005) both from the manual transcriptions and from the Final Text Edition documents. The source data were then translated into Spanish by two independent agencies.
TC-STAR est un projet intégré européen basé sur la traduction parole-parole (ou SST pour Speech-to-Speech Translation). Pour encourager de manière conséquente l’avancée dans toutes les technologies de la SST, des évaluations ouvertes à la concurrence sont organisées sur une base annuelle. Les technologies de la reconnaissance automatique de la parole (ou ASR pour « Automatic Speech Recognition »), de la traduction de la langue parlée (ou SLT pour « Spoken Language Translation ») et les technologies texte-parole (ou TTS pour « Text-to-Speech ») sont évaluées à la fois de façon indépendante et intégrées à un système « end-to-end » (de « bout en bout »). La deuxième campagne d’évaluation TC-STAR s’est déroulée en mars 2006. Trois technologies de base ont été évaluées lors de cette campagne: • la reconnaissance automatique de la parole (ASR), • la traduction de la langue parlée (SLT), • la synthèse texte-parole (TTS). Chaque package d’évaluation regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la seconde campagne d’évaluation. Le but de ces packages d’évaluation est de permettre à des acteurs externes d’évaluer leur propre système et de comparer leurs résultats à ceux obtenus pendant la campagne. Les bases de données orales produites dans le projet TC-STAR ont été validées par SPEX, Pays-Bas, selon le format et les spécifications de contenu TC-STAR. Ce package comprend le matériel utilisé pour la seconde campagne d’évaluation TC-STAR 2006 Spoken Language Translation (SLT) pour la traduction de l’anglais vers l’espagnol. Des packages similaires sont également disponibles pour l’anglais (ELRA-E0011), l’espagnol (ELRA-E0012) et le mandarin (ELRA-E0013) pour l’ASR, ainsi que pour la SLT dans 2 autres sens, espagnol vers anglais (ELRA-E0015), chinois vers anglais (ELRA-E0016). Pour permettre de regrouper les composants, les tâches d’évaluation ASR, SLT et TTS ont été conçues en utilisant des données brutes et des conditions communes. Trois tâches d’évaluation, communes à l’ASR, la SLT, et la TTS ont été choisies : la tâche EPPS (« European Parliament Plenary Sessions » – Sessions plénières du Parlement européen), la tâche CORTES (« Spanish Parliament Sessions ») et la tâche VOA (« Voice of America » - La voix de l’Amérique). Les données CORTES ont été utilisées en complement des données EPPS pour l’évaluation ASR en espagnol et SLT de l’espagnol vers l’anglais. Le présent package a été utilisé dans le cadre de la tâche EPPS et comprend 2 ensembles de données : - L’ensemble de données de développement : il a été construit à partir des données de développement de l’ASR, afin de permettre l’évaluation « end-to-end ». Un sous-ensemble de 50 000 mots a été choisi à partir des transcriptions orthographiques EPPS, et à partir des documents de l’Edition du texte final. Les textes sources ont été ensuite traduits en espagnol par deux agences de traductions indépendantes. Tous les ensembles de textes sources, ainsi que les traductions de référence ont été formatées en utilisant la même DTD SGML déjà utilisée par les évaluations NIST en traduction automatique. - L’ensemble de données de test : comme pour l’ensemble de développement, la même procédure a été suivie pour produire les données de test, soit : un sous-ensemble de 50 000 mots a été choisi à partir de l’ensemble de données de test (sessions du Parlement du 7 au 26 septembre 2005) à la fois à partir des transcriptions manuelles et des documents de l’Edition du texte final. Les données sources ont été ensuite traduites vers l’espagnol par deux sociétés indépendantes.
Language Spanish
English
Rights ELRA_EVALUATION
Source META-SHARE
Title TC-STAR 2006 Evaluation Package - SLT English-to-Spanish
Package d’évaluation TC-STAR – SLT anglais-espagnol 2006
Type Corpus
Contact Point Metashare/a0b790d4de6b11e2b1e400259011f6ea009dba6071974a2abb1fc2775548515e#contact Person
Description * Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
* Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
Language English
Spanish
Rights ELRA_VAR
Source META-SHARE
Title Base de données terminologique polytechnique et plurilingue VERBA - S-AE Biochimie
VERBA Polytechnic and Plurilingual Terminological Database - S-AE Biochemistry
Type Lexical Conceptual Resource
Contact Point Metashare/d737a72280c211e28763000c291ecfc8d948026400dd4886abf0dd8b2f0f6e4c#contact Person
Description This is a domain-specific gold-standard for English subcategorization frames, in the case, for labour (LAB) domain. This gold-standard was manually developed, choosing a set of 29 verbs and 200 senteces for each verb. For each sentence, the SCFs present for the studied verb were manually annotated. The sentences were selected from crawled Web pages that were automatically detected to be in the English language and were automatically classified as relevant to the ENV domain. Data collection took place in the summer of 2011. This gold-standard was created in the context of PANACEA http://www.panacea-lr.eu), an EU-FP7 Funded Project under Grant Agreement 248064.
Language English
Rights CC-BY-SA
Source META-SHARE
Title PANACEA English V-SUBCAT gold-standard for LAB domain
Type Lexical Conceptual Resource
Contact Point Metashare/769306b4de6911e2b1e400259011f6ea2b79562fde164c3794fe4e44303e058d#contact Person
Description * Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
* Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
Language Spanish
English
Rights ELRA_VAR
Source META-SHARE
Title Base de données terminologique polytechnique et plurilingue VERBA - S-AU Zoologie - général
VERBA Polytechnic and Plurilingual Terminological Database - S-AU Zoology, General Topics
Type Lexical Conceptual Resource
Contact Point Metashare/5bdf732ede6f11e2b1e400259011f6eace66a22319f04c5a8b3e5f021e3c1557#contact Person
Description * Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
* Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
Language English
Spanish
Rights ELRA_VAR
Source META-SHARE
Title Base de données terminologique polytechnique et plurilingue VERBA - W-AA Armes
VERBA Polytechnic and Plurilingual Terminological Database - W-AA Weapons
Type Lexical Conceptual Resource
Contact Point Metashare/d5293d6ade7311e2b1e400259011f6ea9b5520588373489089b74efc02d6f850#contact Person
Description * Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
* Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
Language Spanish
English
Rights ELRA_VAR
Source META-SHARE
Title Base de données terminologique polytechnique et plurilingue VERBA - E-AB Services hospitaliers
VERBA Polytechnic and Plurilingual Terminological Database - E-AB Hospital Services
Type Lexical Conceptual Resource
Contact Point Metashare/c67b539ade7111e2b1e400259011f6ea1977b1e87fed4b12a045e324f155b4b1#contact Person
Description * Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
* Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
Language Spanish
English
Rights ELRA_VAR
Source META-SHARE
Title VERBA Polytechnic and Plurilingual Terminological Database - G-GY Integrated Circuits
Base de données terminologique polytechnique et plurilingue VERBA - G-GY Circuits intégrés
Type Lexical Conceptual Resource
Contact Point Metashare/c48880e492c211e28763000c291ecfc80bfa804def7f49e09fae001c23724841#contact Person2
Metashare/c48880e492c211e28763000c291ecfc80bfa804def7f49e09fae001c23724841#contact Person
Description This is the LMF version of the Galician Apertium dictionary. Monolingual dictionaries for Spanish, Catalan, Galician and Euskera have been generated from the Apertium expanded lexicons of the es-ca (for both Spanish and Catalan) es-gl (for Galician) and eu-es (for Basque). Apertium is a free/open-source machine translation platform, initially aimed at related-language pairs but recently expanded to deal with more divergent language pairs (such as English-Catalan). The platform provides: a language-independent machine translation engine; tools to manage the linguistic data necessary to build a machine translation system for a given language pair and linguistic data for a growing number of language pairs.
Language Galician
Rights GPL
Source META-SHARE
Title Galician LMF Apertium Dictionary
Type Lexical Conceptual Resource
Contact Point Metashare/aee9fa36de6911e2b1e400259011f6ea9a9fa363e71e4076846ac55a434fff9e#contact Person
Description Cette base de données comprend les modèles HTS Festival bilingues (anglais et espagnol). Les modèles ont été entraînés à partir de 9 heures de parole réalisés par 2 locuteurs bilingues femmes et 2 locuteurs bilingues hommes. Chaque locuteur a enregistré 2h 15 min par langue. La base de données de parole peut être trouvée dans la base de données orale de conversion vocale bilingue TC-STAR pour l’espagnol (ELRA-S0311) et dans la base de données de parole expressive bilingue TC-STAR (ELRA-S0313).
This database contains Bilingual (English and Spanish) Festival HTS models. Models were trained with 9h of speech from 2 female bilingual speakers and 2 male bilingual speakers. Each speaker recorded 2h 15 min per language. The speech data can be found in the TC-STAR Bilingual Voice-Conversion Spanish Speech Database (ELRA-S0311) and in the TC-STAR Bilingual Expressive Spanish Speech Database (ELRA-S0313).
Language Spanish
English
Rights ELRA_END_USER
ELRA_VAR
Source META-SHARE
Title Bilingual (Spanish-English) Speech synthesis HTS models
Modèles HTS bilingues pour la synthèse vocale (espagnol-anglais)
Type Corpus