The total list of stop words includes 59.664 words or non-words that were handpicked from the Icelandic Gigaword Corpus. The sublists are as follows:
- 6.576 abbreviations.
- 27.144 foreign words (especially proper names).
- 588 function words.
- 147 last names or company names.
- 978 mislemmatized words.
- 9.736 outdated words.
- 12.473 typos and OCR errors.
The list is compiled from the 2019 version of the IGC and should not be considered exhaustive.
ÍSLENSKA:
Heildarlistinn inniheldur 59.664 orð eða orðleysur sem voru handvalin úr Risamálheildinni. Undirlistarnir eru eftirfarandi:
- 6.576 styttingar, skammstafanir og annað slíkt. Inniheldur bæði styttingar á borð við Alþingisfrv (frumvarp) og A-Skaftafellssýsla (austur) og skammstafanir á borð við LHÍ (Listaháskóli Íslands).
- 27.144 erlend orð (einkum sérnöfn).
- 588 kerfisorð (t.d. sér, hann, í, hvenær...).
- 147 föðurnöfn (sum stytt) eða fyrirtækjanöfn (t.d. Friðleifsd, hannesson, Essó).
- 978 rangt lemmuð orð (t.d guðspjallur, notönd, allsher).
- 9.736 úrelt orð (t.d. íslenzkir, rjettur).
- 12.473 rangt skrifuð orð og ljóslestrarvillur (t.d. klukkka, komuþeir, skattakerfl).
Listanum er safnað úr 2019 útgáfu Risamálheildarinnar og það ætti ekki að líta á hann sem tæmandi.