The MIM-GOLD corpus version 1.0 consists of 13 files with tagged Icelandic text that has been sampled from 13 domains of texts of the 25 million word Tagged Icelandic Corpus (MIM).
The texts were cleaned extensively and then run through an automatic tagging process. The tags were then semi-manually and manually corrected. This version is based on version 0.9 form 2013 but contains corrections to tokenization and tagging that were performed from 2013 to 2017. The corpus is intended for the training of data-drvien taggers for Icelandic.
-------
Í útgáfu 1.0 af Gullstaðlinum eru 13 skrár með mörkuðum textum sem voru valdir með úrtaki úr 13 textaflokkum úr 25 milljón orða Markaðri íslenskri málheild (MIM, http://malfong.is/?pg=mim).
Textarnir voru hreinsaðir og síðan markaðir með sjálfvirkum aðferðum og síðan var mörkun leiðrétt með hálfsjálfvirkum og handvirkum aðferðum. Þessi útgáfa byggist á útgáfu 0,9 frá 2013 en með leiðréttingum sem voru gerðar á tilreiðslu og mörkun frá 2013 til 2017.
Gert er ráð fyrir að málheildin verði notuð sem gullstaðall fyrir þjálfun námfúsra markara.