Testing and training sets for pos-tagging from IFD 2020.05 (Icelandic Frequency Dictionary) which contains fragments from 100 texts, published between the years 1980 and 1989.
The testing and training pairs were created in such a way that all the 100 texts that constitute the corpus were divided into ten roughly equal parts. Each of these ten parts forms one test set and a corresponding training set contains the other nine parts.
The pos-tags were mapped to Tagset MIM-GOLD 2.0 (see discussion in http://hdl.handle.net/20.500.12537/26).
----------------
Þjálfunar- og prófunarsafn fyrir málfræðilega mörkun sem unnin voru upp úr Orðtíðinibókinni (2020.05) en hún inniheldur brot úr 100 textum sem gefnir voru út á árunum 1980 til 1989.
Pörin voru búin til þannig að hverri skrá var skipt upp í tíu nokkurn veginn jafna hluta. Hver þessara tíu hluta myndar eitt prófunarsafn og samstætt þjálfunarsafn hefur að geyma hina hlutana níu í hvert sinn.
Mörkunum var varpað yfir á nýtt markamengi, MIM-GULL 2.0 (sjá umfjöllun í http://hdl.handle.net/20.500.12537/26).