Index

Contact Point Metashare/769306b4de6911e2b1e400259011f6ea2b79562fde164c3794fe4e44303e058d#contact Person
Description * Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
* Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
Language Spanish
English
Rights ELRA_VAR
Source META-SHARE
Title Base de données terminologique polytechnique et plurilingue VERBA - S-AU Zoologie - général
VERBA Polytechnic and Plurilingual Terminological Database - S-AU Zoology, General Topics
Type Lexical Conceptual Resource
Contact Point Metashare/5bdf732ede6f11e2b1e400259011f6eace66a22319f04c5a8b3e5f021e3c1557#contact Person
Description * Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
* Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
Language English
Spanish
Rights ELRA_VAR
Source META-SHARE
Title Base de données terminologique polytechnique et plurilingue VERBA - W-AA Armes
VERBA Polytechnic and Plurilingual Terminological Database - W-AA Weapons
Type Lexical Conceptual Resource
Contact Point Metashare/8489146281b611e2892a000c29bfc0d445c15e3917d74997925aafd9d08a24bc#contact Person
Contributor Bálint Pál Tóth
Mátyás Bartalis
Tamás Bőhm
Tamás Gábor Csapó
Klára Laczkó
Creator Csaba Zainkó
Tamás Bőhm
Description The read speech database contains sentences from weather forecast news. The sentence collection represents the four seasons. This database can be used for analysing speech characteristics in weather forecast news and also as the basic speech database of a corpus based Concept-to-Speech system.
Rights MS-C-NoReD-FF
Source META-SHARE
Title Read speech database in Hungarian
Type Corpus
Contact Point Metashare/d5293d6ade7311e2b1e400259011f6ea9b5520588373489089b74efc02d6f850#contact Person
Description * Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
* Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
Language Spanish
English
Rights ELRA_VAR
Source META-SHARE
Title Base de données terminologique polytechnique et plurilingue VERBA - E-AB Services hospitaliers
VERBA Polytechnic and Plurilingual Terminological Database - E-AB Hospital Services
Type Lexical Conceptual Resource
Contact Point Metashare/949782f6de6a11e2b1e400259011f6ea2adf9dfadb834cfca6d878241f8cb34a#contact Person
Description A. Available Wordnets Following the announcement of the EuroWordNet databases in the last issue of the ELRA Newsletter (Vol.4 N.2), we are happy to announce that the list of EuroWordNet languages has grown. The following wordnets are now available via ELRA: ELRA ref. Language Synsets Word Meanings Language Internal Relations Equi-valence Relations ELRA-M0015 English Addition to English WordNet 16361 40588 42140 0 ELRA-M0016 Dutch 44015 70201 111639 53448 ELRA-M0017 Spanish 23370 50526 55163 21236 ELRA-M0018 Italian 48529 48499 117068 71789 ELRA-M0019 German 15132 20453 34818 16347 ELRA-M0020 French 22745 32809 49494 22730 ELRA-M0021 Czech 12824 19949 26259 12824 ELRA-M0022 Estonian 9317 13839 16318 9004 B. LR(1) Common Components (All Foreground - Data of layer 1) A. The Inter-Lingual-Index, which is a list of records (ILI-records), in the form of synsets mainly taken from WordNet1.5 or manually created. An ILI-record contains: A.1 synset: set of synonymous words or phrases (mostly from WordNet1.5) A.2 part-of-speech, A.3 one or more Top-Concept classifications (Optional) A.4 one or more Domain labels (Optional) A.5 a gloss in English (mostly from WordNet1.5) A.6 a unique ID linking the synset to its source (mostly WordNet1.5) B. Top-Ontology: an ontology of 63 basic semantic classes based on fundamental distinctions. By means of the Top-Ontology all the wordnets can be accessed using a single language-independent classification-scheme. Top-Concepts are only assigned to ILI-records. C. Domain-ontology: an ontology of subject-domains optionally assigned to ILI-records. D. A selection of ILI-records, the so-called Base-Concepts, which play a major role in the different wordnets. These Base-Concepts form the core of all the wordnets. All the Base-Concepts are classified in terms of the Top-Concepts that apply to them. E. WordNet1.5 (91591 synsets; 168217 meanings; 126520 entry words) in EuroWordNet format. C. LR(2) Language-Specific Components (Data of layer 2- partly Foreground and partly Background) Wordnets produced in the first project (LE2-4003): F. Dutch wordnet G. English wordnet (additional relations which are missing in WordNet1.5) H. Italian wordnet I. Spanish wordnet After extension of the project (LE4-8328): J. German wordnet K. French wordnet L. Czech wordnet M. Estonian wordnet The specific wordnets are language-internal structures, minimally containing: o set of variants or synonyms making up the synset o part-of-speech o language-internal relations to other synsets o equivalence relations with ILI-records o a unique-id linking the synset to its source Each wordnet will be distributed with LR1 and will include documentation on LR1 and the distributed wordnet. All the data will be distributed as text-files in the EuroWordNet import format and as Polaris database files (see below LR3). The EuroWordNet viewer (Periscope, see below LR3) can be used to access the database version. Polaris has to be licensed to modify and extend the database version. The wordnets are distributed without: o glosses o usage labels o morpho-syntactic properties o examples o word-to-word translations D. LR(3) Software The multilingual EUROWORDNET Database (partly Foreground, partly Background) consists of three components: o The actual wordnets in Flaim database format: an indexing and compression format of Novell. o Polaris (Louw 1997): a wordnet editing tool for creating, editing and exporting wordnets. o Periscope (Cuypers and Adriaens 1997): a graphical database viewer for viewing and exporting wordnets. The Polaris tool is a re-implementation of the Novell ConceptNet toolkit (Díez-Orzas et al 1995) adapted to the EuroWordNet architecture. Polaris can import new wordnets or wordnet fragments from ASCII files with the correct import format and it creates an indexed EUROWORDNET Database. Furthermore, it allows a user to edit and add relations in the wordnets and to formulate queries. The Polaris toolkit makes it possible to visualise the semantic relations as a tree-structure that can directly be edited. These trees can be expanded and shrunk by clicking on word-meanings and by specifying so-called TABs indicating the kind and depth of relations that need to be shown. Expanded trees or sub-trees can be stored as a set of synsets, which can be manipulated, saved or loaded. Additionally, it is possible to access the ILI or the ontologies, and to switch between the wordnets and ontologies via the ILI. Finally, it contains an interface to project sets of synsets across wordnets. The Periscope program is a public viewer that can be used to look at wordnets created by the Polaris tool and to compare them in a graphical interface. Word meanings can be looked up and trees can be expanded. Individual meanings or complete branches can be projected on another wordnet or wordnet structures can be compared via the equivalence relations with the Inter-Lingual-Index. Selected trees can be exported to text files. The Periscope program cannot be used for importing or changing wordnets. N. The Polaris program is partly Background and partly Foreground. It is property of Vantage Research and can be licensed as a EuroWordNet result from Vantage Research (http://www.vantage.com). O. The Periscope viewer is property of Vantage Research and is Foreground. E. Prices The prices indicated in the tables below are based on the number of synsets in each language wordnet. Members are offered a 50% discount on the public price. Each language wordnet has a fixed number of non divisible synsets. There are 4 different types of use: VAR-C = Commercial use VAR-I = Internal use by a commercial organisation VAR-E = Evaluation licence (3 month licence) End-User = Research use by an academic institution Language wordnet Number of synsets ELRA-M0015 English Addition 16,361 ELRA-M0016 Dutch 44,015 ELRA-M0017 Spanish 23,370 ELRA-M0018 Italian 48,529 ELRA-M0019 German 15,132 ELRA-M0020 French 22,745 ELRA-M0021 Czech 12,824 ELRA-M0022 Estonian 9,317 Discount*** Number of synsets Discount Above 60,000 cumulated synsets 5% Above 100,000 cumulated synsets 10% Above 160,000 cumulated synsets 20% ***A discount is offered to both members and non-members according to the total (cumulated) number of synsets that are ordered at one time. The total number of synsets is calculated by adding up the number of synsets for each language wordnet purchased. For example, if you order the English and Dutch wordnets, the total amount of synsets is 16,361 synsets (English) + 44,015 synsets (Dutch) = 60,376 synsets. In this case, the 5% corresponding discount is applied. F. Technical support Technical support may be provided by members of the consortium. It will be implemented through bilateral agreements between the User and the member of the consortium responsible for the data acquired by User. As an indication the support contract will be on a yearly basis and will cost 10-20 KEURO/Year. For more information about the EuroWordNet project: http://www.hum.uva.nl/~ewn
A. Wordnets disponibles : ELRA ref. Langue Synsets Sens des mots Relations internes à la langue Relations d'équivalence ELRA-M0015 Anglais: Addition au WordNet anglais 16361 40588 42140 0 ELRA-M0016 Hollandais 44015 70201 111639 53448 ELRA-M0017 Espagnol 23370 50526 55163 21236 ELRA-M0018 Italien 48529 48499 117068 71789 ELRA-M0019 Allemand 15132 20453 34818 16347 ELRA-M0020 Français 22745 32809 49494 22730 ELRA-M0021 Tchèque 12824 19949 26259 12824 ELRA-M0022 Estonien 9317 13839 16318 9004 B. LR(1) Composants communs Une sélection d'enregistrements de l'index inter-lingue, concepts de base, qui jouent un rôle majeur dans les différents wordnets. Ces concepts de base forment le noyau de tous les wordnets. Tous les concepts de base sont classés en termes de concepts supérieurs qui s'y appliquent. A.L'index inter-lingue, qui consiste en une liste d'enregistrements sous la forme de \"synsets\" (ensembles/réseaux sémantiques, principalement issus de WordNet5.1 ou créés manuellement), comprend : A.1. un ensemble de synsets de mots ou phrases synonymiques (provenant pour la plupart de WordNet1.5) ; A.2. une \"partie-du-discours\" ; A.3. un ou plusieurs concepts supérieurs (optionnel) ; A.4. un ou plusieurs étiquettes de domaine (optionnel) ; A.5. un glossaire en anglais (provenant pour la plupart de WordNet1.5) ; A.6. un code unique reliant le synset à sa source (provenant pour la plupart de WordNet1.5). B.Ontologie supérieure : une ontologie de 63 classes sémantiques de base reposant sur des distinctions fondamentales. Grâce à l'ontologie supérieure, on accède à tous les wordnets en utilisant un schéma de classifiaction unique indépendant de la langue. Les concepts supérieurs sont également assignés aux enregistrements de l'index inter-lingue. C.Ontologie de domaine : une ontologie de domaines sujets assignés aux enregistrements de l'index inter-lingue D.Une sélection d'enregistrements de l'index inter-lingue, concepts de base, qui jouent une rôle majeur dans les différents wordnets. Ces concepts de base forment le noyau de tous les wordnets. Tous les concepts de base sont classés en termes de concepts supérieurs qui s'y appliquent. E.WordNet1.5 (91591 synsets; 168217 sens; 126520 mots d'entrée) au format EuroWordNet. C. LR(2) Composants spécifiques à la langue Wordnets produits dans le premier projet (LE2-4003) : F.Wordnet hollandais G.Wordnet anglais (relations supplémentaires au WordNet1.5) H.Wordnet italien I.Wordnet espagnol Extension du projet (LE4-8328) : J.Wordnet allemand K.Wordnet français L.Wordnet tchèque M.Wordnet estonien Les wordnets sont des structures internes spécifiques à la langue et contiennent au minimum : - ensemble de variantes ou synonymes formant le synset - \"partie-du-discours\" - relations à d'autres synsets internes à la langue - relations d'équivalence avec les enregistrements de l'index inter-lingue - un code unique reliant le synset à sa source Chaque wordnet est distribué avec LR1 et comprend une documentation sur LR1 et le wordnet distribué. Toutes les données sont distribuées en fichiers textes dans le format EuroWordNet et sous la forme de fichiers de base de données Polaris (voir LR3 ci-dessous). Le visualiseur EuroWordNet (Periscope, voir LR3) peut être utilisé pour accéder à la version base de données. Pour modifier et étendre la version de la base de données, il faut acquérir une licence Polaris. Les wordnets ne contiennent pas de : - glossaires - étiquettes d'usage - propriétés morpho-syntaxiques - exemples - traductions mot-à-mot D. LR(3) Logiciels La base de données multilingue EUROWORDNET est composée de trois parties : Les wordnets au format base de données Flaim : un format Novell d'indexation et de compression. - Polaris (Louw 1997): un éditeur pour la création, l'édition et l'exportation de wordnets. - Periscope (Cuypers and Adriaens 1997) : un outil graphique pour la visualisation et l'exportation de wordnets. Polaris peut importer de nouveaux wordnets ou des fragments de wordnets depuis des fichiers ASCII avec le format d'importation correct et crée une base de données indexée EUROWORDNET. De plus, il permet à un utilisateur d'éditer et d'ajouter des relations dans les wordnets et de formuler des requêtes. Polaris rend possible la visualisation de relations sémantiques sous la forme d'une structure arborescente qui peut être directement éditée. Ces arborescences peuvent être étendues et raccourcies en cliquant sur les sens du mot et en spécifiant des \"TABs\" qui indiquent le type et la profondeur des relations qui doivent être montrées. Les arbres étendus ou les sous-arbres peuvent être stockés sous un ensemble de synsets, qui peuvent être maniés, sauvegardés ou chargés. Il est également possible d'accéder à l'index inter-lingue ou aux ontologies, et de passer des wordnets aux ontologies via l'index inter-lingue. Enfin, il contient une interface permettant de projeter les ensembles de synsets à travers les wordnets. Le logiciel Periscope est un visualiseur public qui peut être utilisé pour regarder les wordnets créés par Polaris et pour les comparer dans une interface graphique. Les sens des mots peuvent être visualisés et les arborescences étendues. Les sens individuels ou des branches entières peuvent être projetées sur un autre wordnet ou des structure de wordnets peuvent être comparées via les relations d'équivalence avec l'index inter-lingue. Les arbres sélectionnés peuvent être exportés vers des fichiers textes. Periscope ne peut pas importer ou changer les wordnets. N.Le programme Polaris est la propriété de Vantage Research et est mis à disposition en tant que résultat d'EuroWordNet à Vantage Research (www.vantage.com). O.Le logiciel Periscope est la propriété de Vantage Research. E. Prix Les prix sont basés sur le nombre de synsets pour chaque langue. Les membres bénéficient d'une remise de 50% sur le prix public. Chaque langue comprend un nombre fixe et indivisible de synsets. Il y a 4 types différents d'usage : VAR-C = Usage commercial VAR-I = Usage interne pour une organisation commerciale VAR-E = Licence d'évalutation (licence limitée à une durée de 3 mois) End-User = Usage de recherche par une institution académique Langue Nombre de synsets ELRA-M0015 Anglais (complément) 16 361 ELRA-M0016 Hollandais 44 015 ELRA-M0017 Espagnol 23 370 ELRA-M0018 Italien 48 529 ELRA-M0019 Allemand 15 132 ELRA-M0020 Français 22 745 ELRA-M0021 Tchèque 12 824 ELRA-M0022 Estonien 93172 Remise*** Nombre de synsets Remise Au-delà de 60 000 synsets cumulés 5 % Au-delà de 100 000 synsets cumulés 10 % Au-delà de 160 000 synsets cumulés 20 % ***Une remise est offerte à la fois aux membres et aux non membres selon le nombre total (cumulé) de synsets faisant l'objet d'une même commande. Le nombre total de synsets est calculé en additionnant le nombre de synsets de chaque langue achetée. Par exemple, si vous commandez les wordnets anglais et hollandais, le montant total de synsets sera 16 361 synsets (anglais) + 44 015 synsets (hollandais) = 60 376 synsets. Dans ce cas, la remise correspondante de 5 % sera appliquée. D. Support technique Un support technique peut être apporté par les membres du consortium, selon les termes de contrats bilatéraux à conclure entre l'utilisateur et le membre du consortium responsable des données acquises. A titre indicatif le contrat se fera sur une base annuelle et coûtera entre 10 et 20 KEURO/AN. Pour plus d'informations sur le projet EuroWordNet: http://www.hum.uva.nl/~ewnaux enregistrements de l'index inter-lingue
Rights ELRA_VAR
ELRA_END_USER
ELRA_EVALUATION
Source META-SHARE
Title EuroWordNet Estonian
EuroWordNet estonien
Type Lexical Conceptual Resource
Contact Point Metashare/c67b539ade7111e2b1e400259011f6ea1977b1e87fed4b12a045e324f155b4b1#contact Person
Description * Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
* Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
Language Spanish
English
Rights ELRA_VAR
Source META-SHARE
Title VERBA Polytechnic and Plurilingual Terminological Database - G-GY Integrated Circuits
Base de données terminologique polytechnique et plurilingue VERBA - G-GY Circuits intégrés
Type Lexical Conceptual Resource
Contact Point Metashare/9b2fbbe8de7811e2b1e400259011f6ea5df8d9f9ed0b423597e28a6422792d5b#contact Person
Description This corpus comprises sentences uttered by 100 speakers of different dialects, ages and various educational levels. Speech samples are stored as a sequence of 16-bit 8kHz WAV for a total of 7.3 hours of speech. The total capacity of the data is 400 Mb. Each speaker read 40 items. Text files are stored in Unicode format. All data have been proofread manually. The corpus aims to be applied to the testing and telephone natural speech recognition system.
Ce corpus comprend des phrases prononcées par 100 locuteurs de dialectes, d’âges et de niveaux d’éducation différents. Les échantillons de parole sont stockés sous la forme de séquences 16-bit 8kHz WAV pour un total de 7,3 heures de parole par canal. La taille totale des données est de 400 Mo. Chaque locuteur a lu 40 éléments. Les fichiers textes sont stockés au format Unicode. Toutes les données ont été vérifiées manuellement. Cette base de données a été conçue pour l’évaluation et le développement de systèmes de reconnaissance de la parole naturelle par téléphone.
Rights ELRA_VAR
ELRA_END_USER
Source META-SHARE
Title Mandarin Chinese Speech Recognition Corpus (telephone channel) - Chinese single sentence (100 people)
Corpus de reconnaissance de parole téléphonique du chinois mandarin – phrases (100 locuteurs)
Type Corpus
Contact Point Metashare/c48880e492c211e28763000c291ecfc80bfa804def7f49e09fae001c23724841#contact Person2
Metashare/c48880e492c211e28763000c291ecfc80bfa804def7f49e09fae001c23724841#contact Person
Description This is the LMF version of the Galician Apertium dictionary. Monolingual dictionaries for Spanish, Catalan, Galician and Euskera have been generated from the Apertium expanded lexicons of the es-ca (for both Spanish and Catalan) es-gl (for Galician) and eu-es (for Basque). Apertium is a free/open-source machine translation platform, initially aimed at related-language pairs but recently expanded to deal with more divergent language pairs (such as English-Catalan). The platform provides: a language-independent machine translation engine; tools to manage the linguistic data necessary to build a machine translation system for a given language pair and linguistic data for a growing number of language pairs.
Language Galician
Rights GPL
Source META-SHARE
Title Galician LMF Apertium Dictionary
Type Lexical Conceptual Resource
Contact Point Metashare/aee9fa36de6911e2b1e400259011f6ea9a9fa363e71e4076846ac55a434fff9e#contact Person
Description Cette base de données comprend les modèles HTS Festival bilingues (anglais et espagnol). Les modèles ont été entraînés à partir de 9 heures de parole réalisés par 2 locuteurs bilingues femmes et 2 locuteurs bilingues hommes. Chaque locuteur a enregistré 2h 15 min par langue. La base de données de parole peut être trouvée dans la base de données orale de conversion vocale bilingue TC-STAR pour l’espagnol (ELRA-S0311) et dans la base de données de parole expressive bilingue TC-STAR (ELRA-S0313).
This database contains Bilingual (English and Spanish) Festival HTS models. Models were trained with 9h of speech from 2 female bilingual speakers and 2 male bilingual speakers. Each speaker recorded 2h 15 min per language. The speech data can be found in the TC-STAR Bilingual Voice-Conversion Spanish Speech Database (ELRA-S0311) and in the TC-STAR Bilingual Expressive Spanish Speech Database (ELRA-S0313).
Language Spanish
English
Rights ELRA_END_USER
ELRA_VAR
Source META-SHARE
Title Bilingual (Spanish-English) Speech synthesis HTS models
Modèles HTS bilingues pour la synthèse vocale (espagnol-anglais)
Type Corpus
Contact Point Metashare/0292790ade6b11e2b1e400259011f6ea65e04fe27a1d42188fd828ea1257aede#contact Person
Description In 1996, some 75 Dutch people participated in recording a multi-purpose continuous speech database. Most of them were recruited from the TNO Human Factors Research Institute, where the recordings were made. The main part of the database consisted of Dutch sentences. However, most speakers participated in recording 10 sentences in English, French and German. This data was initially distributed as a common data set for research leading to presentations and discussions at the ESCA/NATO MIST workshop held in Leusen, The Netherlands, in 1999. The non-nativeness in any particular language, for instance English, is of course very biased towards Dutch, and therefore this database can be considered only as a start for studying non-native speech. However, with experiences with this database, researchers in other countries may record similar data, so that also other foreign accents can be studied, and compared to this database. Recording conditions: - Sennheiser HMD-414-6 close talking microphone - B&K MD-211-N far-field microphone - anechoic silent recording room - sentences read from computer screen - Ariel Pro-Port digital recording equipment - 16 kHz sampling rate, 16 bit resolution Speech material - 10 sentences in Dutch, English, French and German, including 5 sentences per language which are identical for all speakers and 5 sentences per language which are unique for each speaker - Sentence text from newspapers: Dutch: NRC/Handelsblad; English: Wall Street Journal; French: Le Monde; German: Frankfurter Rundschau The text of the English, French and German sentences were obtained from other databases recorded/used in the European project ‘SQALE’. Annotation: - Dutch sentences are orthographically annotated - For English, French and German sentences the prompt texts are available - Only the Dutch unique sentences have been listened to, and annotated accordingly. The English, French and German sentences have been generated from the prompt texts, i.e., only the punctuation characters have been removed. For French and English, the first word has been de-capitalized according to some simple algorithm. - The spoken text is annotated in a format of one line per speech utterance, with the utterance identification in parenthesis at the end. Speakers: - 74 speakers, including 52 males and 22 females - All speakers are native Dutch. Not all of them were able to produce speech in German, English and French.
En 1996, 75 locuteurs hollandais ont participé à l’enregistrement d’une base de données de parole continue multi-objectifs. La plupart d’entre eux ont été recrutés par L’institut de recherche sur les facteurs humains de TNO, où les enregistrements ont été réalisés. La plus grande partie de la base de données consistait en des phrases en hollandais. Cependant, la plupart des locuteurs ont également participé à l’enregistrement de 10 phrases en anglais, en français et en allemand. Ces données ont d’abord été distribuées sous la forme d’un ensemble de données communes pour la recherche qui a conduit à des présentations et des discussions lors de l’atelier ESCA/NATO MIST, de Leusen, aux Pays-Bas, en 1999. Le fait d’être locuteur non natif d’une langue, par exemple l’anglais, est bien sûr très biaisé vis-à-vis du hollandais, et cette base de données peut donc ainsi être considérée uniquement comme une base initiale pour l’étude de la parole non native. Cependant, grâce aux expériences réalisées avec cette base, les chercheurs d’autres pays peuvent enregistrer des données similaires, afin que d’autres accents étrangers puissent être étudiés et être comparés à cette base. Conditions d’enregistrements : - Micro-casque Sennheiser HMD-414-6 - Microphone placé à distance (“far-field”) B&K MD-211-N - enregistrement en chambre sourde - phrases lues sur écran d’ordinateur - équipement d’enregistrement numérique Ariel Pro-Port - taux d’échantillonnage de 16 kHz, résolution de 16 bit Matériel de parole : - 10 phrases en hollandais, anglais, français et allemand, dont 5 phrases identiques par langue pour tous les locuteurs et 5 phrases distinctes par langue et par locuteur - Phrases extraites de journaux: NRC/Handelsblad pour le hollandais, Wall Street Journal pour l’anglais, Le Monde pour le français, Frankfurter Rundschau pour l’allemand Le texte des phrases en anglais, français et allemand a été obtenu à partir d’autres bases de données enregistrées/utilisées dans le projet européen « SQALE ». Annotation : - Les phrases en hollandais sont annotées au niveau orthographique - Pour les phrases en anglais, français et allemand, les textes énoncés sont disponibles - Seules les phrases distinctes en hollandais ont été écoutées et annotées. Les phrases en anglais, français et allemand ont été générées à partir des textes énoncés, c’est-à-dire que seuls les caractères de ponctuation ont été supprimés. Pour le français et l’anglais, la majuscule du premier mot a été supprimée grâce à un algorithme simple. - Le texte parlé est annoté au format suivant : une ligne par occurrence de parole, avec l’identification de l’occurrence entre parenthèses à la fin. Locuteurs : - 74 locuteurs, dont 52 hommes et 22 femmes - Tous les locuteurs sont natifs du hollandais. Tous n’étaient pas capables de produire de la parole en allemand, anglais et français.
Language English
Rights ELRA_END_USER
Source META-SHARE
Title MIST Multi-lingual Interoperability in Speech Technology database
Base de données MIST (Multi-lingual Interoperability in Speech Technology)
Type Corpus
Contact Point Metashare/fd11707cde7311e2b1e400259011f6ea85d38ca6430c4730909ac9faf64ee2a6#contact Person
Description * Entrées anglais-espagnol : Recherche scientifique & sciences mathématiques (906 entrées), géosciences (10 215), informatique, électronique & télécommunications (70 580), industrie (47 578), transports & maintenance (12 291), économie (145 572), sciences biologiques (38 989), communication & média (8 143), sciences chimiques & physiques (27 467). * Entrées allemand-anglais-espagnol-français : Environnement (36 658), santé (66 727), agriculture & alimentation (25 975), construction & travaux publics (8 429), droit & politique (56 578), sports & loisirs (17 312). * Deux lexiques spécialisés: Espagnol-anglais et allemand-anglais-français sans codes de domaine : électronique, télématique, droit, taxes, douanes, etc. (550 000 entrées). * Deux lexiques généraux: Allemand-anglais-espagnol-français et allemand-anglais-espagnol-français-italien-portugais. (83 000 entrées). Cette base de données terminologique contient, pour chaque domaine, l'indication de sous-domaines (de 2 sous-domaines pour la recherche scientifique à 39 pour les sports et loisirs). Chaque entrée comporte une définition, une unité phraséologique, une abréviation, une information sur l'usage et des étiquettes grammaticales. Format: ASCII Support : disquette
* Entries for English-Spanish: Scientific research & mathematical sciences (906 entries), Geosciences (10,215), Computer science, electronics & telecommunications (70,580), Industry (47,578), Transport & Maintenance (12,291), Economy (145,572), Biological sciences (38,989), Communication & media (8,143), Chemical & physical sciences (27,467). * Entries for English-French-German-Spanish: Environment (36,658), Health (66,727), Agriculture & food (25,975), Construction & public works (8,429), Law & policy (56,578), Sports & Leisure (17,312) * Two specialized lexicons: Spanish-English and English-French-German without domain codes: electronics, telematics, law, taxes, customs, etc. (550,000 entries). * Two general lexicons: Spanish-English-French-German and Spanish-English-French-German-Portuguese-Italian (83,000 entries). This terminological database contains, for each domain, a sub-domain indication is given (from 2 sub-domains for Scientific research to 39 for Sports & leisure). Each entry consists of a definition, phraseological unit, abbreviation, usage information, grammatical labels. Format: ASCII Medium: floppy disk
Language English
Spanish
Rights ELRA_VAR
Source META-SHARE
Title Base de données terminologique polytechnique et plurilingue VERBA - D-AE Contrôle climatique
VERBA Polytechnic and Plurilingual Terminological Database - D-AE Climate Control
Type Lexical Conceptual Resource
Contact Point Metashare/3522fe4a703d11e28a985ef2e4e6c59e70fd1df289e94088b13ac5f01449b1cb#contact Person
Description The Croatian Automatic Collocations Dictionary has been created by Lexical Computing Ltd. and have been made available to the research community as part of the CESAR project deliverables.
Rights CC-BY-SA
Source META-SHARE
Title Croatian Automatic Collocations Dictionary
Type Lexical Conceptual Resource
Contact Point Metashare/f9be99cabbb611e28763000c291ecfc8c5698cb825a64a5f91cc4a4866705914#contact Person
Description This data set contains Spanish word n-grams and Spanish word/tag/lemma n-grams in the \"Environment\" (ENV) domain. N-grams are accompanied by their observed frequency counts. The length of the n-grams ranges from unigrams (single words) to five-grams. The data were collected in the context of PANACEA (http://www.panacea-lr.eu), an EU-FP7 Funded Project under Grant Agreement 248064. The n-gram counts were generated from crawled Web pages that were automatically detected to be in the Spanish language and were automatically classified as relevant to the ENV domain. The ENV domain collection used consisted of approximately 49.86 million tokens. Data collection took place in the summer of 2011.
Language Spanish
Rights CC-BY-SA
Source META-SHARE
Title PANACEA Environment Corpus n-grams ES (Spanish)
Type Corpus
Contact Point Metashare/7aa60102a37611e3960f001dd8b71c19498fde966dc143c88ea162c1a2358cd1#contact Person
Description The Corpus of Latvian Literature contains literary works of Latvian authors which are not protected by copyright low. It contains works of 20 authors – poems, stories, novels and other literary works, 66 in total which correspond to 15 000 printed pages.
Rights MSCommons-BY-NC-ND
Source META-SHARE
Title Corpus of Latvian Literature
Type Corpus
Contact Point Metashare/99a27130de7311e2b1e400259011f6ea02c79f0d57784efeb067a83f385bc98c#contact Person
Description The Aurora project was originally set up to establish a world wide standard for the feature extraction software which forms the core of the front-end of a DSR (Distributed Speech Recognition) system. ETSI formally adopted this activity as work items 007 and 008.The two work items within ETSI are : - ETSI DES/STQ WI007 : Distributed Speech Recognition - Front-End Feature Extraction Algorithm & Compression Algorithm - ETSI DES/STQ WI008 : Distributed Speech Recognition - Advanced Feature Extraction Algorithm. This database is a subset of the SpeechDat-Car database in Danish language which has been collected as part of the European Union funded SpeechDat-Car project. It contains isolated and connected Danish digits spoken in the following noise and driving conditions inside a car : 1. High speed good road 2. Low speed rough road 3. Stopped with motor running 4. Town traffic
DESCRIPTION DISPONIBLE EN FRANCAIS PROCHAINEMENT. The Aurora project was originally set up to establish a world wide standard for the feature extraction software which forms the core of the front-end of a DSR (Distributed Speech Recognition) system. ETSI formally adopted this activity as work items 007 and 008.The two work items within ETSI are : - ETSI DES/STQ WI007 : Distributed Speech Recognition - Front-End Feature Extraction Algorithm & Compression Algorithm - ETSI DES/STQ WI008 : Distributed Speech Recognition - Advanced Feature Extraction Algorithm. This database is a subset of the SpeechDat-Car database in Danish language which has been collected as part of the European Union funded SpeechDat-Car project. It contains isolated and connected Danish digits spoken in the following noise and driving conditions inside a car : 1. High speed good road 2. Low speed rough road 3. Stopped with motor running 4. Town traffic
Language Dnj
Rights ELRA_END_USER
Source META-SHARE
Title AURORA Project database - Subset of SpeechDat-Car - Danish database - Evaluation Package
Base de données du projet AURORA - sous-ensemble de la base de données SpeechDat-Car du danois - Package d'évaluation
Type Corpus
Contact Point Metashare/a8bd02c25b2711e2a6e4005056b40024cb25f09c5d5442eca755d617c46060c8#contact Person
Description Frequency lists based on 0,5 million words of fiction texts (representing years 1992-1998), and 0,5 million words newspaper texts (from years 1995-1999). Three frequency lists, with words and their frequencies in the sub-corpora and in the whole corpus: 10 000 lemmas (includes also POS) 1000 most frequent word forms 100 words representing only one of the sub-corpora - words that counted as frequent in one of the sub-corpora, but were missing in the other.
Rights CC-BY
Source META-SHARE
Title Estonian Frequency Dictionary
Type Lexical Conceptual Resource
Contact Point Metashare/c366848692c211e28763000c291ecfc8720a7e22a70f48ec960d5887b7e4a007#contact Person2
Metashare/c366848692c211e28763000c291ecfc8720a7e22a70f48ec960d5887b7e4a007#contact Person
Creator Jimmy O'Reagan
Description This is the LMF version of the Apertium bilingual dictionary for French and Catalan languags. Bilingual LMF dictionaries were generated from Apertium bilingual dix files. For each Apertium bilingual correspondence, the corresponding source and target monolingual entries (LexicalEntry) were generated in addition to the bilingual correspondence (SenseAxis) element. Apertium is a free/open-source machine translation platform, initially aimed at related-language pairs but recently expanded to deal with more divergent language pairs (such as English-Catalan). The platform provides: a language-independent machine translation engine; tools to manage the linguistic data necessary to build a machine translation system for a given language pair and linguistic data for a growing number of language pairs.
Language Catalan
French
Rights GPL
Source META-SHARE
Title French-Catalan LMF Apertium Bilingual dictionary
Type Lexical Conceptual Resource
Contact Point Metashare/a14f35a481b611e2892a000c29bfc0d496d26def4e2a4f8f8064d1d8f7f6436f#contact Person
Description An audio collection of public lectures in Hungarian, together with transcriptions. The lectures took place as part of the Mindentudás Egyeteme television series.
Rights MS-C-NoReD
Source META-SHARE
Title Mindentudás Speech Corpus
Type Corpus
Contact Point Metashare/20e8c776a7fa11e28763000c291ecfc8a00929d03ea04e1dbe2c0cb11ca7c481#contact Person2
Description As a general rule, IULA SOAP web services accept input data either as 'direct string' data or as URL. Output results are given both as 'direct string' data and as URL. For large outputs, the 'direct string' option is dissabled.
Rights GPL
Source META-SHARE
Title IULA lexicon look up Web Service
Type Tool Service