Digitalisoituvat kieliaineistot ja tiedonlouhinta

Selaa arkistoa

Dr. Rogier Blokland ja työryhmä175.700 €Building an annotated digital corpus for future research on Komi speech communities in northernmost Russia


This project aims to improve the availability of linguistic documentation of varieties of the Izva dialect of Komi spoken in northern Russia to the research community and native speakers. The main outcome will be an open-access digital corpus of spoken Izva Komi, annotated in standard Komi, Russian and English, linked to multimedia files and intended for linguistic research and for the language communities, to be stored at the Endangered Language Archive in Nijmegen. It is to be carried out within the framework of documentary linguistics of endangered languages as a joint effort between researchers in the Komi Republic and Germany. The language documentation in the project will be based on fieldwork on Izva Komi in the Komi Republic, three diaspora varieties of Izva Komi, and legacy materials. The team shall consist of experienced documentary and Finno-Ugric linguists; one of the three project leaders is a native speaker of Izva Komi. Project leaders are Rogier Blokland (Munich), Marina Fedina (Syktyvkar) and Michael Rießler (Freiburg), specialists in Finno-Ugric and documentary linguistics. Funding for the proposed project would go towards a PhD scholarship for Niko Partanen (Helsinki), remuneration for project collaborators, travel expenditure and material support.
Jaa Twitter | Facebook | Sähköposti

Filosofian maisteri, tutkija Robin Eriksson 4.200 €Reutersin monikielisen korpuksen laadunvarmistus


Koneluettavilla aineistoilla eli korpuksilla on merkittävä osa kieliteknologian ja muiden koneoppimisen sovellusten tutkimustyössä. Tällaiset aineistot ovat kuitenkin ihmisten keräämiä ja näin ollen sisältävät usein virheitä. Pienikin määrä väärin luokiteltua dataa voi haitata tutkimusta merkittävästi. Tutkimuskohteeni on väärin luokitellun datan eristäminen laajista aineistoista. Metodini kehitystä varten haluan tutkia virheellisesti luokitellun datan esiintymiset Reutersin monikielisessä korpuksessa (RCV2) ja julkaista toisaalta korjatun version korpuksesta, toisaalta artikkelin metodista ja sen soveltamisesta tähän aineistoon. Lyhyesti sanottuna metodi keskittyy datan luokitteluun klustereihin ja klustereiden ääriesiintymisten eristämiseen; oikein valitulla klusterointimenetelmällä voidaan olettaa, että hyvin klusteroivat tietueet on oikein luokiteltu ja että klustereiden rajoille sijoittuvat tietueet ovat väärin luokiteltuja. Tutkimus suuntaa toisaalta metodin perusolettamuksen testaamiseen, toisaalta tällaiselle aineistoille sopivan klusterointimenetelmän valitsemiseen.
Jaa Twitter | Facebook | Sähköposti

FT -- FT Filip Ginter ja Veronika Laippala ja työryhmä262.400 €Suomenkielinen Internet kieliaineistoksi morfosyntaktisen analyysin ja tekstin luokittelun avulla


Hanke tuottaa automaattisen morfosyntaktisen analyysin, tekstin luokittelun ja keskeisten piirteiden analyysin avulla vapaasti saatavilla olevan kieliaineiston, jonka lähteenä on koko suomenkielinen Internet.

Morfosyntaktisten merkintöjensä, kokonsa ja sisältämänsä kielellisen variaation ansiosta aineisto tarjoaa uusia mahdollisuuksia kielentutkimukselle ja suomenkielisten kieliteknologiasovellusten kehittämiselle. Dokumentoimalla kielenkäyttöä eri tilanteissa aineisto osallistuu Kieliohjelman tavoitteisiin.

Morfosyntaktinen analyysi toteutetaan riippuvuusjäsentimellä, joka on kehitetty ryhmässämme tätä tarkoitusta varten rakennetun puupankin eli käsin syntaksimerkityn korpuksen, Mate Tools –jäsentimen ja OMorfi-nimisen suomen kielen morfologisen analyysiohjelman pohjalta.

Aineisto luokitellaan erilaisilla automaattisilla menetelmillä, jotka eivät vaadi ennakkotietoa teksteistä. Alakorpusten kielelliset piirteet analysoidaan sekä sanojen että lauserakenteiden kautta eri tilastollisin menetelmin. Näin käyttäjä voi valita, minkälaista osaa aineistosta käyttää.

Lisäksi hankkeessa kehitetään helppokäyttöinen verkkokäyttöliittymä, jolla aineistosta voi hakea sanoja ja morfologisia tai syntaktisia muotoja.

Kolmivuotinen hanke alkaa aineiston jäsentämisellä ja jatkuu luokittelumenetelmien kehittämisellä, näin syntyvien alakorpusten analyysillä ja verkkokäyttöliittymän luomisella. Lopuksi aineisto kuvailutietoineen ja käyttöliittymineen julkaistaan vapaalla lisenssillä.
Jaa Twitter | Facebook | Sähköposti

Itä-Suomen yliopisto, humanistinen osasto 105.400 €Suomen itäpuolisten lähialueiden kielikorpukset


Hankkeessa luodaan ja kehitetään rajakarjalaismurteiden, inkeriläismurteiden sekä Petroskoin yleiskielisen suomen korpuksia, jotta ne tarjoaisivat mahdollisuuksia sekä perinteisiin että uudentyyppisiin tutkimusaiheisiin. Hanke toteuttaa Koneen Säätiön Kieliohjelmassa mainittuja tavoitteita edistää suomen ja sen pienten sukukielten dokumentointia monitieteisesti ja rajoja ylittäen. Hankkeessa kohtaavat suomen, karjalan, viron ja venäjän kielen tutkimus, käännöstiede ja kieliteknologia, ja siinä hyödynnetään monipuolisesti Itä-Suomen yliopiston sisäistä osaamista. Tavoitteena on yhtäältä parantaa aiemmin, jo 1960-luvulta lähtien koottujen puhekielisten aineistojen käytettävyyttä ja toisaalta luoda Karjalan suomen mediateksteistä yhtenäinen tutkimusaineisto, jollaista ei ennestään ole olemassa. Korpusten laadinta hyödyttää myös kieliteknologista tutkimusta: sen avulla voidaan testata kieliteknologisten työkalujen soveltuvuutta sekakieliseen ja murteelliseen puhekielen aineistoon. Hanke toteutetaan yhteistyössä Petroskoin valtiollisen yliopiston kanssa.
Jaa Twitter | Facebook | Sähköposti

FT, yliopistonlehtori Maria Kela ja työryhmä93.600 €Viron- ja venäjänkieliset lapset suomen kielen puhujina. Long Second -aineiston litterointihanke


Long Second -aineisto on yliopistonlehtori Maria Kelan ja hänen opiskelijoidensa keräämä 50 oppitunnin laajuinen luokkahuoneaineisto maahanmuuttajien valmistavasta alakoululuokasta. Keskeisiä informantteja on viisi, ja he ovat viron- ja venäjänkielisiä lapsia. Aineisto on kerätty pitkittäistutkimuksen tekemistä varten, ja sen vuoksi sille on annettu nimeksi Long Second: A LONGitudinal research in SECOND language (Finnish) development in primary school preparatory class.

Kelan tutkijakumppanina on dosentti Annekatrin Kaivapalu Tallinnan yliopistosta. Kaivapalua ja Kelaa yhdistää kiinnostus viron- ja venäjänkielisten oppijoiden suomen kielen omaksumiseen. Käsillä oleva litterointihanke ei kuitenkaan koske toisen kielen oppimisen tutkimusta, vaan ainoastaan kerätyn monikielisen videoaineiston litterointia ja koodausta. Yhdenmukaisesti litteroituna aineistoa voivat hyödyntää sekä kielen että kielenoppimisen tutkimuksesta kiinnostuneet tutkijat. Videoaineistolle on saatu kattavat tutkimusluvat.

Aineiston laatu soveltuu Koneen Säätiön kieliohjelman painopistealueiden mukaiseen kielentutkimukseen. Keskeiset informantit edustavat kahta Suomen suurinta vähemmistökieltä: lähisukukieltämme viroa ja kielinaapuriamme venäjää. Ajankohtaisen lisän nauhoitteiden kielimaisemaan tuo lasten käyttämä omintakeinen lingua franca -englanti.
Jaa Twitter | Facebook | Sähköposti

Kotimaisten kielten keskus 47.500 €Karjalan kielen sana-arkiston digitalisoiminen


Karjalan kielen sana-arkisto on tärkeä osa Kotimaisten kielten keskuksen kansallisesti merkittävää kielitieteen aineistoinfrastruktuuria. Arkisto digitoidaan ja avataan verkossa käytettäviksi. Digitoinnin yhteydessä koneella kirjoitetut sisällöt tunnistetaan tekstiksi, ja aineisto varustetaan haut ja selailun mahdollistavin perusmetatiedoin. Meta- ja sisältötietojen täydentämisessä hyödynnetään talkoistamista.

Karjalan kielen sana-arkiston 0,5 miljoonan sanalipun laajuiset kokoelmat sisältävät karjalan kielen tutkimuksen ja sanakirjatyöhön kerättyä materiaalia 1800-luvun lopulta alkaen. Sana-arkiston kokoelmia ei ole kattavasti varmuuskopioitu, joten on kyse myös aineiston säilyvyyden turvaamisesta.
Jaa Twitter | Facebook | Sähköposti

FT, lehtori Tommi Kurki ja työryhmä126.630 €Suomen kielen prosodian alueellinen ja sosiaalinen variaatio


Hankkeella on kolme tavoitetta:
1. Puhesuomen prosodisten ilmiöiden tarkastelu niin, että huomioon tulevat ekstralingvistiset tekijät. Monitieteisessä tutkimushankkeessa pyritään osaltaan tiivistämään foneetikkojen ja fennistien yhteistyötä. Suomen prosodiaa koskevat tutkimukset ovat tarkastelleet tähän asti enimmäkseen yleiskieltä tai niiden huomio ei ole kohdistunut alueellisiin ja sosiaalisiin vaan funktionaalisiin ja viestinnällisiin tekijöihin. Prosodiset ilmiöt vaatisivat laajempaa dokumentointia ja analysointia.
2. Puhesuomen prosodian variaation tarkastelun tarpeisiin koostetun korpuksen muodostaminen. Suomen tutkimustilanne poikkeaa olennaisesti esimerkiksi Virosta ja Ruotsista, joissa on tutkittu prosodiaa Suomea enemmän ja luotu puhetietokantoja, joista voi tarkastella tai jopa automaattisesti hakea prosodisia jaksoja. Suomessa ei vielä ole juuri prosodian tutkimusta varten koostettua puhesuomen puhetietokantaa. Hankkeen on tarkoitus osaltaan paikata tätä aukkoa suomen kielen tutkimuksessa.
3. Uusien keruumenetelmien kehittäminen ja testaaminen. Vanhojen keruumetodien rinnalle pyritään kehittämään keruutapaa, joka tapahtuisi verkossa keruusivuston kautta. Kehitystyö edellyttää monitieteistä lähestymistapaa, jossa hyödynnetään kielentutkimuksen ja kieliteknologian/tietojenkäsittelytieteen asiantuntemusta. Keruukokeilussa pyritään aktivoimaan maallikot ja harrastelijat mukaan aineistonkeruuseen ja kehittämään talkoistamisesta kiinteä osa korpuksen muodostamista.
Jaa Twitter | Facebook | Sähköposti

Filosofian tohtori Juhani Lehtiranta 22.100 €Arjeploginsaamen suursanakirjan ja kattavan tekstikokoelman luominen


Luodaan olemassa olevista painetuista ja arkistoaineistoista arjeploginsaamen suursanakirja sekä julkaistaan kaikki tunnetut kielen tekstiaineistot.

Sanakirja on sekä tieteellistä tutkimusta että käytännön kielenkäyttöä palveleva. Se rakennetaan tietokannan pohjalle, minkä johdosta se on avoin laajennuksille, (mm. erilaiset kirjoitustavat, metakielet, tekstiesimerkit). Sana-artikkeleissa on linkit tekstiaineiston oleellisiin sanaesiintymiin. Tekstiaineiston sanoista on dynaamiset linkit sanakirjan vastaavaan sana-artikkeleihin. Metakielinä ovat suomi ja ruotsi sekä olemassa olevien pienten Lagercrantzin ja Halászin sana-aineistojen osalta niissä käytetty saksa. Metakieliä voidaan lisätä myöhemmin, koska sanaston tietokanta on avoin.

Sanastossa käytetään sisäisesti arjeploginsaamesta arkkifoneemista kirjoitustapaa, joka perusteltiin vuonna 1992 ilmestyneessä väitöskirjassani. Siitä voidaan johtaa haluttaessa dynaamisesti yksinkertaisempia kirjoitustapoja, mikäli sellaiset koetaan tarpeelliseksi esimerkiksi käytännön kielenkäytön näkökulmasta. Sanakirja ja tekstit toteutetaan selainkäyttöisinä mutta ne voidaan tuottaa tarvittaessa myös painettuina.
Jaa Twitter | Facebook | Sähköposti

Yliopistonlehtori Antti Leino ja työryhmä111.685 €Uralilaisten kielten kognaattikorpus


Hankkeen ensisijaisena tavoitteena on saattaa Koneen säätiön rahoittamassa BEDLAN-hankkeessa koostetut uralilaisten kielten kognaattisanaluettelot tiedeyhteisön saataville sähköisenä korpuksena. Toisena tavoitteena on laajentaa sähköisiä aineistoja koostamalla kognaattisanaluetteloille rinnasteinen korpus näiden kielten rakennepiirteistä. Tällaisen korpuksen olemassaolo antaa mahdollisuuden vertailla kielten sukulaisuutta sanaston lisäksi myös rakenteellisin perustein. Kummankin vaiheen tulokset sekä aineistojen erilaisia analysointitapoja esitellään tieteellisten artikkelien muodossa. Korpusten julkaiseminen luo edellytyksiä näiden kielten sukulaisuussuhteiden kansalliselle ja kansainväliselle laskennalliselle tutkimukselle.

Hankkeen kantava ajatus on luoda "korpustalkoot", jossa asiantuntijat voivat muokata korpuksia uusimman tutkimustiedon perusteella. Vastaavaa lähestymistä käytetään indoeurooppalaisten kielten kognaattikorpuksen yhteydessä, ja työ onkin tarkoitus tehdä tiiviissä yhteistyössä IELex-korpusta ylläpitävän Max Planck Institute for Psycholinguisticsin kanssa.

Hanke on tarkoitus toteuttaa vuosien 2013-2015 aikana pääasiassa Tampereen yliopistolla työskentelevien apurahatutkijoiden voimin. Ensimmäisessä vaiheessa suunnitellaan IELex-korpuksen kanssa yhteensopivat tallennusratkaisut ja muokataan kognaattisanaluettelot verkossa jukaistavaksi korpukseksi. Toisessa vaiheessa kootaan rakennepiirteitä kuvaava korpus ja liitetään se kognaattisanakorpuksen yhteyteen.
Jaa Twitter | Facebook | Sähköposti

FT Larisa Leisiö 134.000 €Nganasanin kielen korpus


Korpus tulee sisältämään pääosin itse tallentamani äänitteet ja niiden kielitieteelliset litteroinnit sekä valokuvat ja videot. Työni pääpaino tulee olemaan nimenomaan nganasaninkielisen digitaalisen tekstikorpuksen luomisessa, nimittäin tekstien litteroinnin ja niiden englanninkielisten käännösten saattamisessa digitaalimuotoon sekä jokaisen nganasaninkielisen sanan morfeemitasoisessa koodauksessa.

Suomen lailla nganasani kuuluu uralilaiseen kieliperheeseen. Tundra- ja metsänenetsien sekä metsä- ja tundraenetsien rinnalla se on pohjoinen samojedikieli. Nganasanit asuvat Taimyrin niemimaalla, Jenisei-joen suiston itäpuolella. Virallisen laskennan mukaan nganasaneja on noin 1.000 henkeä. Äidinkielenään nganasania kuitenkin oman arvioni mukaan puhuu vain noin sata yksilöä. Puhujat ovat pääosin yli 55-vuotiaita; puhujien keski-ikä ja lapsipuhujien puute johtavat arvioon, jonka mukaan kielen elinikä on korkeintaan 30 vuotta.

Olen tutkinut nganasania vuodesta 1986 ja käynyt useilla kenttätyömatkoilla tuon pienen kansan eri asuinpaikoilla Taimyrin niemimaalla Pohjois-Siperiassa. Minulla on useita tunteja äänitteitä, joissa on satuja, lauluja, elämäkertoja, muisteluksia ja tarinoita sekä keskusteluja arkiasioista nganasaniksi. Arkistossani on myös valokuvia, videoita ja vihkoihin kirjoitettua kieli-aineistoa. Digitalisoitu arkistoni tulee sijaitsemaan julkisesti ylläpidetyssä laitoksessa Suomessa.
Jaa Twitter | Facebook | Sähköposti

Associate Professor/Dr. Timothy Riese ja työryhmä146.800 €The Mari Web Project: Phase 2


The suggested project would be a direct continuation of the University of Vienna’s Mari Web Project (www.mari-language.com), which will end on 31 December 2013 without the possibility of a locally funded extension. In this project, we aim to create a second volume of our electronic textbook, a learner’s grammar, and materials for the highly inaccessible Hill Mari language variant. All materials will be created in close collaboration with native Mari speakers, also using the 5,500,000 word text collection at our disposal as a corpus.
Jaa Twitter | Facebook | Sähköposti

Tutkijatohtori Florian Siegl ja työryhmä115.100 €Dulsonin arkiston (Tomskin valtiollinen pedagoginen yliopisto) valikoitujen osien pelastusdigitointi


1930–1980-luvulla Tomskissa pyrittiin systemaattisesti dokumentoimaan ja tutkimaan Länsi- ja Pohjois-Siperian alkuperäiskansojen kieliä ja kulttuureita. Työn tuloksena saatiin kerättyä huomattava kieli- ja kansatieteellistä aineistoja hanteilta, tshulyminturkkilaisilta, nganasaaneilta, enetseiltä, dolgaaneilta, selkupeilta, keteiltä ja jugeilta. Näistä peräkkäisistä kenttätyöprojekteista säilynyt materiaali on nykyisin yksi suurimmista olemassaolevista Siperian alkuperäiskansojen kieli- ja kansatieteellisistä kokoelmista. Nykyään ns. Dulsonin arkisto rappeutuu vähitellen, sillä sen hoitamiseksi tarkoitettu rahoitus on ollut suppeaa. Projektin tarkoitus on digitoida ja annotoida osaa Dulsonin arkistosta, nimittäin kaikki enetsin, nganasaanin, dolgaanin ja itähantin nauhoitukset, osittain myös selkupin nauhoituksia. Kaikki tässä projektiesityksessä mainitut kielet ovat erittäin uhanalaisia, ja niiden puhujamäärät ovat vähentyneet kasvavaa vauhtia viime vuosina. Pelastettavat nauhoitukset arkistoidaan FIN-CLARIN-ympäristöön ja niistä luodaan ELAN-ohjelman avulla vähintään kolme tuntia annotoitua kerrontaa kustakin kielestä olettaen, että digitoidut nauhat sisältävät riittävästi materiaalia. Hakijat Florian Siegl (Helsingin Yliopisto) ja Andrei Filchenko (Tomskin valtiollinen pedagoginen yliopisto) ovat jo pitkään tutkineet Länsi- ja Pohjois-Siperian alkuperäiskansojen kieliä ja yrittävät pelastaa Dulsonin arkiston arvokkaita nauhoituksia tulevaisuutta varten.
Jaa Twitter | Facebook | Sähköposti

Suomalais-Ugrilainen Seura 50.000 €Manuscripta Castreniana Jurak-samoiedica


Manuscripta Castreniana Jurak-Samoiedica -tutkimusprojektin tarkoituksena on luoda M. A. Castrénin nenetsejä koskevista kielitieteellisistä, etnografisista ja folkloristisista käsikirjoitusaineistoista tieteelliset editiot sekä digitaalisessa että painetussa muodossa. Monitieteinen hanke tuottaa uutta tietoa Castrénin työstä ja tieteenhistoriallisesta merkityksestä, tundranenetsin ja metsänenetsin kielen kieliopista, sanastosta ja historiasta sekä nenetsien suullisen runouden sisällöstä ja rakenteesta. Digitaalinen editio täydentää Castrénin käsikirjoitusaineistoja metatietojen avulla ja mahdollistaa siten uusia tulkintoja sekä avaa aineistot kansainväliselle tutkijajoukolle ja kielestään ja kulttuuriperinnöstään kiinnostuneille nenetseille.

Aineistot ja metatiedot koodataan xml-kielellä. Metatietojen lisäksi aineistoon lisätään taustoittavia ja tarkentavia kommentteja. Lisäksi julkaistaan laajempia aineiston tulkintaa avittavia artikkeleita. Hanke kestää 28 kuukautta. Projektin tutkijoista yksi työskentelee etnografisten ja folklorististen muistiinpanojen, yksi (hankkeen johtaja) kielitieteellisten muistiinpanojen ja yksi pääosin kielitieteellisten aineistojen parissa. Hankkeen tutkimusapulainen työskentelee xml-koodin synkronoinnin ja kielitieteellisen aineiston koodaamisen parissa, minkä lisäksi palkataan kääntäjä tarkastamaan englannin käännöksiä ja tietokanta-asiantuntija toteuttamaan digitaalinen editio hakukoneineen.
Jaa Twitter | Facebook | Sähköposti