The MIM-GOLD corpus version 0.9 consists of 13 files with tagged Icelandic text that has been sampled from 13 domains of texts of the 25 million word Tagged Icelandic Corpus (MIM). The texts were cleaned extensively and then run through an automatic tagging process. The tags were then semi-manually and manually corrected. The corpus is intended for the training of data-driven taggers for Icelandic.
---------
Í útgáfu 0,9 af Gullstaðlinum eru 13 skrár með mörkuðum textum sem voru valdir með úrtaki úr 13 textaflokkum úr 25 milljón orða Markaðri íslenskri málheild (MIM, http://malfong.is/?pg=mim). Textarnir voru hreinsaðir og síðan markaðir með sjálfvirkum aðferðum og síðan var mörkun leiðrétt með hálfsjálfvirkum og handvirkum aðferðum. Gert er ráð fyrir að málheildin verði notuð sem gullstaðall fyrir þjálfun námfúsra markara.