dc.contributor.author |
Friðriksdóttir, Steinunn Rut |
dc.contributor.author |
Jasonarson, Atli |
dc.date.accessioned |
2021-08-12T13:25:35Z |
dc.date.available |
2021-08-12T13:25:35Z |
dc.date.issued |
2021-08-12 |
dc.identifier.uri |
http://hdl.handle.net/20.500.12537/124 |
dc.description |
The total list of stop words includes 59.664 words or non-words that were handpicked from the Icelandic Gigaword Corpus. The sublists are as follows:
- 6.576 abbreviations.
- 27.144 foreign words (especially proper names).
- 588 function words.
- 147 last names or company names.
- 978 mislemmatized words.
- 9.736 outdated words.
- 12.473 typos and OCR errors.
The list is compiled from the 2019 version of the IGC and should not be considered exhaustive. |
dc.description |
ÍSLENSKA:
Heildarlistinn inniheldur 59.664 orð eða orðleysur sem voru handvalin úr Risamálheildinni. Undirlistarnir eru eftirfarandi:
- 6.576 styttingar, skammstafanir og annað slíkt. Inniheldur bæði styttingar á borð við Alþingisfrv (frumvarp) og A-Skaftafellssýsla (austur) og skammstafanir á borð við LHÍ (Listaháskóli Íslands).
- 27.144 erlend orð (einkum sérnöfn).
- 588 kerfisorð (t.d. sér, hann, í, hvenær...).
- 147 föðurnöfn (sum stytt) eða fyrirtækjanöfn (t.d. Friðleifsd, hannesson, Essó).
- 978 rangt lemmuð orð (t.d guðspjallur, notönd, allsher).
- 9.736 úrelt orð (t.d. íslenzkir, rjettur).
- 12.473 rangt skrifuð orð og ljóslestrarvillur (t.d. klukkka, komuþeir, skattakerfl).
Listanum er safnað úr 2019 útgáfu Risamálheildarinnar og það ætti ekki að líta á hann sem tæmandi. |
dc.language.iso |
isl |
dc.publisher |
The Árni Magnússon Institute for Icelandic Studies |
dc.rights |
Apache License 2.0 |
dc.rights.uri |
https://opensource.org/license/apache2-0-php/ |
dc.rights.label |
PUB |
dc.source.uri |
https://github.com/steinunnfridriks/rmh_filters |
dc.subject |
stop-words |
dc.subject |
word list |
dc.subject |
filters |
dc.title |
Stopporðalisti fyrir Risamálheildina / Stop-words for the Icelandic Gigaword Corpus (21.08) |
dc.type |
lexicalConceptualResource |
metashare.ResourceInfo#ContentInfo.detailedType |
wordList |
metashare.ResourceInfo#ContentInfo.mediaType |
text |
has.files |
yes |
branding |
Clarin IS Repository |
contact.person |
Steinunn Rut Friðriksdóttir srf2@hi.is The Árni Magnússon Institute for Icelandic Studies |
files.size |
1024789 |
files.count |
1 |