Show simple item record

 
dc.contributor.author Friðriksdóttir, Steinunn Rut
dc.contributor.author Daníelsson, Hjalti
dc.contributor.author Eggertsson, Valdimar
dc.contributor.author Jóhannesson, Benedikt Geir
dc.contributor.author Loftsson, Hrafn
dc.contributor.author Einarsson, Hafsteinn
dc.date.accessioned 2022-01-10T12:33:22Z
dc.date.available 2022-01-10T12:33:22Z
dc.date.issued 2022-01-07
dc.identifier.uri http://hdl.handle.net/20.500.12537/168
dc.description MIM-GOLD-EL is an Icelandic Entity Linking (EL) corpus. It is an extended version of the MIM-GOLD-NER corpus which is itself an extended version of the MIM-GOLD corpus. The MIM-GOLD-EL corpus consists of over 21,000 mentions that have been linked to their corresponding Named Entities (NEs) in Wikidata and can be used to train EL models for Icelandic. The NEs are of type Person, Location, Organisation, and Miscellaneous. MIM-GOLD-EL was developed by a team of researchers from the University of Iceland, Reykjavík University, and Quick Lookup during the fall of 2021. The project is funded by the Icelandic Strategic Research and Development Programme for Language Technology. In this work, we used the multilingual EL model mGENRE to suggest records in Wikidata to speed up the EL labelling process. The task of mGENRE is to uniquely identify the entities using pairs of the language in question and the name of the entity in said language. We checked our results manually, accepting or rejecting each of the model's predictions. This resulted in 46.6% of the mentions being accepted. Subsequently, we ran all mentions through a separate process we refer to as Wikipedia API Search (WAPIS). In this process, we used the text of each mention in a search query run on the Wikipedia API, specifically the Icelandic and the English wikis with preference given to Icelandic whenever possible. Out of the full set of all mentions, only 7.3% were found by WAPIS but not by mGENRE, resulting in a final coverage rate of 53.9%. The remaining unlabelled data mostly consists of mentions that do not have a corresponding Wikidata entry.  The corpus consists of 13 JSON files, one for each subcategory in the MIM-GOLD corpus. Each JSON object within these files consists of the following fields: INDEX: The index of the mention within the subcategory. NAME: The mention itself. SENTENCE: The context surrounding the mention. The mention is identified by [START] and [FINISH] markers. PREDICTION: The top 5 predictions generated by mGENRE for the mention. These predictions consist of the Wikipedia page title along with the corresponding language information and the tensor score the prediction received by mGENRE. The incorrect predictions can serve as negative examples when training classifier models. Note that some of the predictions might in fact be the same entity in different language than the one selected as correct. SENTENCE_ID: The index of the sentence containing the mention within the subcategory. Some sentences will have more than one mention and thus this can be used to reference their context. SECTION: The subcategory containing the mention (same as appears in the title of the files). CORRECT_WIKI: The single Wikipedia page title and corresponding language, generated by mGENRE, manually deemed as correct by our annotators. WIKI_IS: A list containing all suggestions generated by the WAPIS process that come from the Icelandic version of Wikipedia. The incorrect suggestions can serve as negative examples when training classifier models. WIKI_EN: A list containing all suggestions generated by the WAPIS process that come from the English version of Wikipedia. The incorrect suggestions can serve as negative examples when training classifier models. SUGGESTION_WIKI: The Wikipedia page title and corresponding language, generated only by the WAPIS process, manually deemed as correct by our annotators. UNLABELLED: A binary value which indicates whether the mention received a label or not. MIM-GOLD-EL is intended as training data in Icelandic for EL models. The corpus is distributed with the same license as MIM-GOLD, which is based on the MIM license, since the texts in MIM-GOLD were sampled from the MIM corpus. __ MÍM-GOLD-EL er íslensk málheild ætluð til nafnaeinræðingar (e. entity linking). Hún er útgáfa MÍM-GOLD-NER málheildarinnar með viðbætum, sem er sjálf útgáfa af MÍM-GOLD (gullstaðli Markaðrar íslenskrar málheildar) með viðbætum. MÍM-GOLD-EL inniheldur yfir 21.000 nafnaeiningar sem hafa verið tengdar samsvarandi nafnaeiningu (e. named entity) í Wikidata og nýta má þegar þjálfa á íslensk líkön til nafnaeinræðingar. Nafnaeiningarnar sem eru notaðar í málheildinni eru af gerðinni Person (mannanöfn), Location (staðir), Organisation (fyrirtæki og stofnanir) og Miscellaneous (ýmislegt). MÍM-GOLD-EL var þróað af rannsóknarteymi Háskóla Íslands, Háskólans í Reykjavík og Snjallgagna haustið 2021. Verkefnið er fjármagnað af Markáætlun í tungu og tækni. Við vinnuna notuðum við fjölmála nafnaeinræðingarlíkanið mGENRE sem lagði til færslur úr Wikidata og flýtti þar með fyrir nafnaeinræðingunni. mGENRE einræðir nafnaeiningarnar með því að finna pör sem samanstanda af tungumáli og heiti nafnaeiningarinnar á viðkomandi tungumáli. Við handyfirfórum niðurstöðurnar og staðfestum eða höfnuðum tillögum líkansins. Eftir það ferli höfðum við merkt 46,6% nafnaeininganna. Í framhaldinu keyrðum við annað ferli þar sem við notum nafnaeiningarnar sem inntak í leit á Wikipedia API-forritaskilunum. Eingöngu var leitað í íslenska og enska Wikipedia og þar sem hvort tveggja kom til greina var íslenska alltaf valin framyfir ensku. Þegar litið er til allra nafnaeininga í málheildinni voru einungis 7,3% fundinn eingöngu með þessari aðferð. 53,9% nafnaeininganna voru því merkt með þessum tveimur aðferðum. Þau gögn sem voru ekki merkt samanstanda fyrst og fremst af nafnaeiningum sem hafa ekki samsvarandi færslur í Wikidata. Málheildin samanstendur af 13 JSON skrám þar sem hver og ein táknar undirflokk úr MÍM-GOLD málheildinni. Hver JSON-hlutur í skránum samanstendur af eftirfarandi eigindum: INDEX: Númer nafnaeiningarinnar innan undirflokksins. NAME: Nafnaeiningin sjálf. SENTENCE: Samhengið umhverfis nafnaeiningarinnar. Einingin er aðgreind með [START] og [FINISH]. PREDICTION: Þær fimm ágiskanir sem komu frá mGENRE sem fengu hæstu líkindin. Þessar ágiskanir samanstanda af Wikipedia síðutitli ásamt samsvarandi tungumáli og sú tensor einkunn sem mGENRE gaf viðkomandi ágiskun. Rangar ágiskanir er hægt að nota sem neikvæð dæmi þegar flokkunarlíkön eru þjálfuð. Athugið þó að sumar ágiskanirnar gætu verið sama nafnaeiningin og var merkt sem rétt nema á öðru tungumáli. SENTENCE_ID: Númer setningarinnar sem inniheldur nafnaeininguna innan undirflokksins. Sumar setningar innihalda fleiri en eina nafnaeiningu og því má nota þessi númer til þess að vísa til samhengi eininganna. SECTION: Undirflokkurinn sem inniheldur viðkomandi nafnaeiningu (birtist jafnframt í titli skjalanna). CORRECT_WIKI: Sá Wikipedia síðutitill og samsvarandi tungumál (sem mGENRE hefur lagt til) sem var handvirkt merktur sem réttur af rannsakendum okkar. WIKI_IS: Listi sem inniheldur allar tillögur sem urðu til í seinni umferðinni (þ.e.a.s. Wikipedia leitinni) af íslenska Wikipedia. Rangar tillögur má nota sem neikvæð dæmi þegar flokkunarlíkön eru þjálfuð. WIKI_EN: Listi sem inniheldur allar tillögur sem urðu til í seinni umferðinni (þ.e.a.s. Wikipedia leitinni) af enska Wikipedia. Rangar tillögur má nota sem neikvæð dæmi þegar flokkunarlíkön eru þjálfuð. SUGGESTION_WIKI: Sá Wikipedia titill og samsvarandi tungumál (sem var aðeins lagður til í seinni umferðinni) sem var handvirkt merktur sem réttur af rannsakendum okkar. UNLABELLED: Merking sem gefur til kynna hvort viðkomandi nafnaeining fékk merkingu eða ekki. Innihald MÍM-GOLD-EL er ætlað sem þjálfunargögn þegar þjálfa skal íslensk nafnaeinræðingarlíkön. Málheildin er gefin út með sama leyfi og MÍM-GOLD, sem byggir á MÍM-leyfinu, þar sem textarnir í MÍM-GOLD eru úrtak úr MÍM.
dc.language.iso isl
dc.publisher University of Iceland
dc.publisher Reykjavík University
dc.publisher Snjallgögn
dc.rights Icelandic Gigaword Corpus
dc.rights.uri https://repository.clarin.is/repository/xmlui/page/license-gigaword-corpus
dc.rights.label PUB
dc.subject entity linking
dc.subject named entity disambiguation
dc.title MIM-GOLD-EL - entity linking corpus for Icelandic (22.01)
dc.type corpus
metashare.ResourceInfo#ContentInfo.mediaType text
has.files yes
branding Clarin IS Repository
contact.person Steinunn Rut Friðriksdóttir srf2@hi.is University of Iceland
sponsor RANNÍS 200075-5301 Icelandic Strategic Research and Development Programme for Language Technology nationalFunds
size.info 13 files
files.size 6180895
files.count 1


 Files in this item

This item is
Publicly Available
and licensed under:
Icelandic Gigaword Corpus
Icon
Name
MIM-GOLD-EL.zip
Size
5.89 MB
Format
application/zip
Description
zip folder containing 13 files
MD5
87a5c57419c8aa6c245a30710de7a486
 Download file  Preview
 File Preview  
  • MIM-GOLD-EL
    • books_release_candidates.json-1 B
    • fbl_release_candidates.json-1 B
    • websites_release_candidates.json-1 B
    • scienceweb_release_candidates.json-1 B
    • radio_tv_news_release_candidates.json-1 B
    • mbl_release_candidates.json-1 B
    • blog_release_candidates.json-1 B
    • written-to-be-spoken_release_candidates.json-1 B
    • adjudications_release_candidates.json-1 B
    • emails_release_candidates.json-1 B
    • laws_release_candidates.json-1 B
    • school_essays_release_candidates.json-1 B
    • webmedia_release_candidates.json-1 B

Show simple item record