Siirry sisältöön
Tutkimusaineistojen hakupalvelu
FI|EN

TÄRKEÄÄ TIETOA ETSIMEN KÄYTÖSTÄ! Vanha Etsin -palvelu (etsin.avointiede.fi) siirtyy osaksi uudistettua Etsin -palvelua (etsin.fairdata.fi) heinäkuun alussa 2019. CSC siirtää kaikki vanhassa Etsimessä JULKAISTUT aineistot uuteen Etsimeen.
Aineistojen kuvailu päättyy vanhassa Etsimessä 12.6.2019. Aineistot kuvailaan jatkossa uuteen Etsimeen uuden Qvain -palvelun avulla, joka otetaan käyttöön heinäkuun 2019 alussa.
Huom! Muista julkaista aineistosi, jos haluat niiden siirtyvän uuteen Etsimeen.

Etsi aineistoa

Löytyi 201 aineistoa
Lisää kategorioita…
  • Metatiedot: 2/5

    Helsinki Corpus TEI-XML Edition (2011), Korp

    The Helsinki Corpus TEI-XML Edition (2011) is a structured multi-genre diachronic corpus, which includes periodically organized text samples from Old, Middle and Early Modern English. Each sample is preceded by a list of parameter codes giving information on the text and its author. The Corpus is useful particularly in the study of the change of...
  • Metatiedot: 2/5

    Parsed Corpus of Early English Correspondence

    The Parsed Corpus of Early English Correspondence contains 4970 personal letters by 666 writers, altogether 2.2 million words of running text from the years 1410-1681. The letters have been selected to be as socially representative of the literate social ranks of the time as possible. In addition to the flat text version, the corpus has also been provided...
  • Metatiedot: 2/5

    Opusparcus: Open Subtitles Paraphrase Corpus for Six Languages (version 1.0)

    Opusparcus is a paraphrase corpus for six European languages: German, English, Finnish, French, Russian, and Swedish. The paraphrases are extracted from the OpenSubtitles2016 corpus, which contains subtitles from movies and TV shows. The data in Opusparcus has been extracted from OpenSubtitles2016 (http://opus.nlpl.eu/OpenSubtitles2016.php), which is in...
  • Metatiedot: 2/5

    Multimodaalinen korpus Helsingin kaupungin matkailuesitteistä vuosilta 1967-2008

    Aineisto on saatavilla Kielipankissa (ling.helsinki.fi), lataus: http://urn.fi/urn:nbn:fi:lb-2015030301 Multimodaalinen korpus Helsingin kaupungin matkailuesitteistä vuosilta 1967–2008 sisältää 58 aukeamaa koodattuna Genre and Multimodality (GeM) –mallin XML-annotaatiota käyttäen. Malli kuvaa matkailuesitteiden sisältöä, sommittelua (layout), ulkoasua,...
  • Metatiedot: 2/5

    ERME Erzya and Moksha Extended Corpora

    ERME on pääasiassa ersä- ja mokšamordvan kirjallisuusaineisto. Aineisto koostuu useamman median julkaisuista aina 1800-luvulta 2000-luvulle asti. Sitä on kartoitettu sekä Saranskissa vuosina 1997-2004 että Helsingissä vuodesta 2004. Korpusten alkeellisin muoto on XML-formatti, jonka rakeisuus ulottuu kappaletasolle. Päämäärä on korpuksia, joissa...
  • Metatiedot: 2/5

    Pohjoissaamen näytekorpus

    Korpus sisältää ääninäytteitä puhutun pohjoissaamen murteista (merisaame, ruijansaame ja tornionsaame). Se on julkaistu LATissa (https://lat.csc.fi/). Jokainen äänitiedosto sisältää yhden haastattelun. Aineisto on glossattu morfologisesti ja litteraateista on tehty suomen- ja englanninkieliset käännökset. log 26.11.2018 linkki...
  • Metatiedot: 2/5

    Helsinki Corpus of English Texts (1991)

    The Helsinki Corpus of English Texts is a structured multi-genre diachronic corpus, which includes periodically organized text samples from Old, Middle and Early Modern English. Each sample is preceded by a list of parameter codes giving information on the text and its author. The Corpus is useful particularly in the study of the change of linguistic...
  • Metatiedot: 4/5

    Product, Manufacturing Resource and Capability Ontologies

    OWL-pohjaiset ontologiamallit prosessi taksonomian, tuotemallin, tuotantoresurssien ja niiden kyvykkyyksien kuvaamiseen.
  • Metatiedot: 2/5

    Uzbekki-englanti sanakirja (UHLCS)

    The corpus is available in Kielipankki - the Language Bank of Finland (taito-shell.csc.fi, access rights instructions: http://www.kielipankki.fi/access). Location: /appl/kielipankki/mrc-uhlcs/multilingual-language-archive/turkic-lgs/south-east-turkic-lgs/uzbek The Uzbek-English dictionary was compiled by Daniel Kimmage. Size of the dictionary: approx....
  • Metatiedot: 2/5

    Hantin korpus (pohjoishantin aineistot ja käännökset) (UHLCS)

    The corpus is available in Kielipankki - the Language Bank of Finland (taito-shell.csc.fi, access rights instructions: http://www.kielipankki.fi/access). Location: /appl/kielipankki/mrc-uhlcs/multilingual-language-archive/uralic-lgs/finno-ugric-lgs/ugric-lgs/khanty The Khanty computer corpus contains the following sub-corpora: Khanty, Atlym dialect, 519...
  • Metatiedot: 2/5

    Englannin korpus (UHLCS)

    The corpus is available in Kielipankki - the Language Bank of Finland (taito-shell.csc.fi, access rights instructions: http://www.kielipankki.fi/access). Location: /appl/kielipankki/mrc-uhlcs/general-linguistics/indo-european-lgs/germanic-lgs/english The English Corpus is a part of the UHLCS corpus collection. Contents: The English Gutenberg Corpora...
  • Metatiedot: 2/5

    Tšuvassin korpus (UHLCS)

    Aineisto on saatavilla Kielipankin sovelluspalvelimella (taito-shell.csc.fi, käyttöoikeuksien hakemisesta ks. https://www.kielipankki.fi/kayttajaksi/). Tšuvassin korpus sisältää seuraavat dokumentit: Gebräuche und Volksdichtung der Tschuwassen. Gesammelt von Heikki Paasonen, herausgeben von Eino Karahka und Matti Räsänen. Mémoires de la Société...
  • Metatiedot: 4/5

    Wind data from South-Karelia

    Wind data was measured in South Karelia in two locations, Joutseno and Puumala. The measurements were started during the project Development of wind power knowledge and utilization of wind power potential in South Karelia (Tuulivoimaosaamisen kehittäminen ja tuulivoimapotentiaalin hyödyntäminen Etelä-Karjalassa) by LUT University. The measurements were...
  • Metatiedot: 4/5

    Aššur and His Friends: A Statistical Analysis of Neo-Assyrian Texts

    Tämä tutkimusdata liittyy artikkelliin "Aššur and His Friends: A Statistical Analysis of Neo-Assyrian Texts", joka on julkaistu lehdessä Journal of Cuneiform Studies 71 (2019). Raakadata on peräisin projektista Open Richly Annotated Cuneiform Corpus (http://oracc.museum.upenn.edu/). Tutkimustyötämme ja tämän tietoaineiston luomista on...
  • Metatiedot: 2/5

    Corpus of Contemporary American English - Kielipankin ladattava versio 2017H1

    Nykyamerikanenglannin korpus COCA sisältää noin 440 miljoonaa sanetta ja 190 000 tekstiä vuosilta 1990-2012. Korpus on jaettu tekstilajin (puhuttu kieli, fiktio, aikakauslehdet, sanomalehdet, akateeminen genre) mukaan samankokoisiin osiin, joista kukin kattaa noin 88 miljoonaa sanetta.
  • Metatiedot: 2/5

    Corpus of Historical American English - Kielipankin ladattava versio 2017H1

    The corpus is available in Kielipankki - the Language Bank of Finland for download. The Corpus of Historical American English (COHA) contains about 385 million words and 115 000 texts from the years 1810-2009. Each decade has roughly the same balance of fiction, popular magazine, newspaper, and non-fiction books. License details: Researchers in the...
  • Metatiedot: 2/5

    Corpus of Global Web-Based English - Kielipankin ladattava versio 2017H1

    Maailmanlaajuisen verkkoenglannin korpus GloWbE sisältää noin 1,8 miljardia sanetta ja 1 800 000 tekstiä Yhdysvalloista, Iso-Britanniasta, Australiasta, Intiasta ja 16 muusta maasta. Noin 60 % teksteistä on peräisin blogeista.
  • Metatiedot: 3/5

    Data for Äijälä et al., ACP 2019: Constructing a data-driven receptor model f...

    Contains aerosol chemical composition results from the r-CMB receptor model, for SMEAR II station 2008-2011.
  • Metatiedot: 3/5

    Oulun yliopiston Kikosa-kokoelma

    Kikosa-kokoelma on Oulun yliopistossa kerätty jatkuvasti karttuva kokoelma videoituja monikulttuurisia arjen vuorovaikutustilanteita, joita käytetään kielenkäytön ja vuorovaikutuksen tutkimukseen. 25 tunnin kokoelmasta on litteroitu n. 3 tuntia (15.3.2019 mennessä).
  • Metatiedot: 2/5

    The "Hallituskausi 2011–2015" Translation Memory

    The "Hallituskausi 2011–2015" translation memory is intended for those translating administrative texts between Finnish and English. It includes key policy reports published by the Finnish ministries on their websites during the ongoing electoral period. The memory features some 11,000 Finnish-to-English translation segments. The translation memory runs...