Show simple item record

 
dc.contributor.author Daníelsson, Hjalti
dc.contributor.author Friðriksdóttir, Steinunn Rut
dc.contributor.author Steingrímsson, Steinþór
dc.date.accessioned 2021-06-25T15:51:00Z
dc.date.available 2021-06-25T15:51:00Z
dc.date.issued 2021-06-25
dc.identifier.uri http://hdl.handle.net/20.500.12537/121
dc.description MSL, short for Multi-SimLex, is an evaluation protocol and associated dataset for lexical semantics. The original English-language MSL builds on several older, well-known datasets, most notably SimLex-999, and has already been released in a dozen languages. A fully processed MSL dataset consists of 1,888 unordered word pairs, where each pair is tagged with grammatical categories and marked with a numerical score that indicates the words' semantic similarity. A small number of pairs in our set consist of multiword phrases, when no suitable monolexical translation was available. It should be noted that MSL is, by design, not intended to measure semantic relatedness. For example, antonyms, although certainly related in a linguistic sense, are not similar in meaning. The words "black" and "white" may thus be strongly related, both being colors, but are notionally dissimilar and would likely receive a low score as an MSL pair. This similarity score is derived from a team of annotators who, working separately, give each pair in the set a grade between 0 and 6 (inclusive) according to how semantically similar they are, with 0 being the lowest possible level of similarity and 6 the highest. The raw sets of annotator scores are then evaluated and filtered through repeated calculation of average pairwise inter-annotator agreement (APIAA) and average mean inter-annotator agreement (AMIAA), with full sets being removed until a maximum agreement level, or a minimum number of annotators, is reached. Scores of 0.600 and higher indicate "strong agreement" for both APIAA and AMIAA. The average overall APIAA for hereto published MSL sets is 0.631, while the Icelandic MSL set has a score of 0.690. Likewise, the average overall AMIAA is 0.740, while the Icelandic set scores 0.799. Each line represents a single pair and contains four tab-separated entries: The first word in the pair; the second word in the pair; the average annotator score from the final APIAA-filtered set of scores; and the same score normalized to a 0-to-1 range. Multiword phrases have their constituent words separated by a single space. __ MSL, sem er skammstöfun fyrir Multi-SimLex, er matsaðferðafræði og samsvarandi gagnasafn sem mælir merkingarfræðileg líkindi orða. MSL í sinni upprunalegu mynd byggir á ýmsum vel þekktum eldri gagnasöfnum, sér í lagi SimLex-999, og hefur þegar verið gefið út fyrir fjölda annarra tungumála. Lokaútfærsla MSL hverju sinni samanstendur af lista 1.888 innbyrðis óraðaðra orðapara, þar sem hverju orðapari fylgir orðflokkamerking og rauntölueinkunn sem gefur til kynna hversu merkingarfræðilega lík orðin eru. Einstaka pör í gagnasafninu okkar samanstanda af fjölyrtum færslum, í þeim tilvikum þegar engin fullnægjandi einyrt þýðing stóð til boða. Hafa ber í huga að MSL er ekki ætlað að mæla tengsl orða. Sem dæmi má nefna að andheiti eru sannarlega tengd á málfræðilegan hátt en merking þeirra er gjörólík. Með öðrum orðum eru orð eins og „svart“ og „hvítt“ nátengd, enda vísa þau bæði til lita, en merking þeirra er ólík og myndu þau því fá lága einkunn sem MSL orðapar. Teymi einkunnagjafa ákvarðar líkindaeinkunnina án þess að ráðfæra sig hver við annan. Einkunnagjafarnir gefa hverju pari einkunn á bilinu 0 til 6 eftir því hversu merkingarfræðilega lík orðin eru, þar sem 0 táknar lægstu mögulegu líkindi þeirra á milli og 6 þau hæstu. Óunnin einkunnasöfn eru svo metin og síuð út frá því hversu samkvæm þau eru hvort öðru að meðaltali, gegnum svokallaða APIAA (average pairwise inter-annotator agreement) og AMIAA (average mean inter-annotator agreement) stuðla. Í því ferli eru einkunnasöfn frá stökum einkunnagjöfum fjarlægð í heild sinni, þangað til að annað hvort hámarks samkvæmni eða lágmarksfjölda einkunnasafna er náð. Samkvæmniseinkunnir upp á 0,600 og hærra gefa til kynna „sterka samkvæmni“ fyrir bæði APIAA og AMIAA. Meðaltal APIAA einkunna fyrir fyrri MSL söfn á öðrum tungumálum er 0,631 en hið íslenska MSL safn fær einkunnina 0,690. Að sama skapi er meðaltal fyrri AMIAA einkunna 0,740 en íslenska MSL safnið fær 0,799. Hver lína safnsins samsvarar einu stöku pari úr MSL og inniheldur fjórar færslur sem aðskildar eru með línuhliðrun („tab“). Í lesröð eru þær: Fyrra orð parsins; seinna orð parsins; meðaltal þeirra einkunna sem eftir stóðu í einkunnasafni eftir APIAA síun; og hið sama meðaltal staðlað á 0-til-1 span. Í fjölyrtum færslum eru stök orð aðskilin með einu bili.
dc.language.iso isl
dc.publisher The Árni Magnússon Institute for Icelandic Studies
dc.relation.isreferencedby https://direct.mit.edu/coli/article/46/4/847/97326/Multi-SimLex-A-Large-Scale-Evaluation-of
dc.rights Creative Commons - Attribution 4.0 International (CC BY 4.0)
dc.rights.uri https://creativecommons.org/licenses/by/4.0/
dc.rights.label PUB
dc.source.uri https://github.com/stofnun-arna-magnussonar/ordgreypingar_embeddings
dc.subject word embeddings
dc.subject lexical semantics
dc.subject semantic similarity
dc.subject test sets
dc.title Icelandic Multi-SimLex (21.06)
dc.type lexicalConceptualResource
metashare.ResourceInfo#ContentInfo.detailedType wordList
metashare.ResourceInfo#ContentInfo.mediaType text
has.files yes
branding Clarin IS Repository
contact.person Hjalti Daníelsson hjalti.danielsson@arnastofnun.is The Árni Magnússon Institute for Icelandic Studies
contact.person Steinunn Rut Friðriksdóttir srf2@hi.is The Árni Magnússon Institute for Icelandic Studies
contact.person Steinþór Steingrímsson steinthor.steingrimsson@arnastofnun.is The Árni Magnússon Institute for Icelandic Studies
sponsor Ministry of Education Semantic analysis - Pre-trained embeddings - I8b Language Technology for Icelandic 2019-2023 nationalFunds
files.size 61664
files.count 1


 Files in this item

This item is
Publicly Available
and licensed under:
Creative Commons - Attribution 4.0 International (CC BY 4.0)
Icon
Name
msl.txt
Size
60.22 KB
Format
Text file
Description
txt file
MD5
c56cd5b5d6a9e4a7f668d22a6adb08c6
 Download file  Preview
 File Preview  
á	dalur	0.5	0.08333333333
á	sjór	1.45	0.2416666667
á	streymi	3.2	0.5333333333
á merkingarbæran hátt	ákaflega	1.25	0.2083333333
á mikilvægan hátt	alvarlega	2.35	0.3916666667
á mikilvægan hátt	sannarlega	1.95	0.325
á morgun	í kvöld	0.6	0.1
á staðnum	gaumgæfilega	0.15	0.025
á taugaveiklaðan hátt	mæðulega	1.95	0.325
á þroskaðan hátt	sniðuglega	1.45	0.2416666667
áburður	vöxtur	1.1	0.1833333333
aðallega	varanlega	0.55	0.09166666667
aðgerð	stefna	1.15	0.1916666667
aðgerðalaust	hljóðlega	1	0.1666666667
aðgerðalaust	vandlega	0.3	0.05
aðgreina	sameina	0.15	0.025
aðskilja	fara	0.75	0.125
aðskilja	tengja	0.1	0.01666666667
aðstæður	ástand	3.4	0.5666666667
aðstoða	hjálpa	5.8	0.9666666667
aðstoðarflugmaður	flugmannsklefi	0.55	0.09166666667
aðstoðarlögreglustjóri	lögregluþjónn	3	0.5
aðstoðarmaður	þjónustustúlka	2.85	0.475
áður	eftir	0.3	0.05
æð	bláæð	4.35	0.725
æfa	endurtaka	3.6	0.6
ævisaga	skáldskapur	1.55	0.2583333333
af öryggi	ánægjulega	0.55	0.09166666667
afdráttarlaust . . .
                                            

Show simple item record