The total list of stop words includes 59.664 words or non-words that were handpicked from the Icelandic Gigaword Corpus. The sublists are as follows:
- 6.576 abbreviations.
- 27.144 foreign words (especially proper names).
- 588 function words.
- 147 last names or company names.
- 978 mislemmatized words.
- 9.736 outdated words.
- 12.473 typos and OCR errors.
The list is compiled from the 2019 version of the IGC and should not be considered exhaustive.
Heildarlistinn inniheldur 59.664 orð eða orðleysur sem voru handvalin úr Risamálheildinni. Undirlistarnir eru eftirfarandi:
- 6.576 styttingar, skammstafanir og annað slíkt. Inniheldur bæði styttingar á borð við Alþingisfrv (frumvarp) og A-Skaftafellssýsla (austur) og skammstafanir á borð við LHÍ (Listaháskóli Íslands).
- 27.144 erlend orð (einkum sérnöfn).
- 588 kerfisorð (t.d. sér, hann, í, hvenær...).
- 147 föðurnöfn (sum stytt) eða fyrirtækjanöfn (t.d. Friðleifsd, hannesson, Essó).
- 978 rangt lemmuð orð (t.d guðspjallur, notönd, allsher).
- 9.736 úrelt orð (t.d. íslenzkir, rjettur).
- 12.473 rangt skrifuð orð og ljóslestrarvillur (t.d. klukkka, komuþeir, skattakerfl).
Listanum er safnað úr 2019 útgáfu Risamálheildarinnar og það ætti ekki að líta á hann sem tæmandi.