Eit korpus er kort sagt ei avgrensa samling av utvalde tekstar, til dømes frå eit bestemt område, ein tidsperiode eller ein teksttype. Digitale korpus kan ein søke i, og dei kan vere eit datagrunnlag når ein vil undersøke korleis språket blir brukt i reelle situasjonar.
Under ser du nokre døme på talespråkkorpus og skriftspråkkorpus, og andre samlingar av ulike datasett. Lista er ikkje uttømmande. Snakk med rettleiaren din om korleis du bruker korpus, og kva for nokre av dei som kan vere eigna for prosjektet ditt.
Språkbanken - Nasjonalbiblioteket
Språkbanken ved Nasjonalbiblioteket tilbyr store datasett med norsk tekst og tale. Ressursane rettar seg mot verksemder som utviklar språkteknologiske produkt, språkforskarar og språkstudentar. Alt me utviklar, ligg fritt tilgjengeleg i ressurskatalogen vår.
Her finner du en rekke korpus og databaser for talespråk, skriftspråk og flerspråklige, parallelle tekster. Tekstlab driftes av Institutt for lingvistiske og nordiske studier ved UiO.
Språksamlingane inneheld digitale samlingar for ordbøker (leksikografi), navnegransking, målføre og dialektologi samt gammalnorsk og norrønt. I tillegg samlingane i etterhand fått tilført ei rekke terminologiske ressursar. Ansvarlege: Universitetet i Bergen og Språkrådet.
KorpusDK giver mulighed for at undersøge sprogbrugen i et stort antal danske tekster, i alt 56 millioner ord. Teksterne er specielt behandlet med henblik på sproglige undersøgelser. Sammen med et stærkt søgeværktøj betyder det at man kan søge meget præcist efter eksempler på bestemte udtryk.
Menota er eit nettverk av leiande nordiske arkiv, bibliotek og institutt som arbeider med mellomaldertekstar og handskriftsfaksimilar. Menota bevarer, formidlar og publiserer mellomaldertekstar i digital form. Arkivet omfattar tekstar på dei nordiske folkespråka og på latin.