dc.contributor.author | Daníelsson, Hjalti |
dc.contributor.author | Friðriksdóttir, Steinunn Rut |
dc.contributor.author | Steingrímsson, Steinþór |
dc.date.accessioned | 2021-06-25T15:51:00Z |
dc.date.available | 2021-06-25T15:51:00Z |
dc.date.issued | 2021-06-25 |
dc.identifier.uri | http://hdl.handle.net/20.500.12537/121 |
dc.description | MSL, short for Multi-SimLex, is an evaluation protocol and associated dataset for lexical semantics. The original English-language MSL builds on several older, well-known datasets, most notably SimLex-999, and has already been released in a dozen languages. A fully processed MSL dataset consists of 1,888 unordered word pairs, where each pair is tagged with grammatical categories and marked with a numerical score that indicates the words' semantic similarity. A small number of pairs in our set consist of multiword phrases, when no suitable monolexical translation was available. It should be noted that MSL is, by design, not intended to measure semantic relatedness. For example, antonyms, although certainly related in a linguistic sense, are not similar in meaning. The words "black" and "white" may thus be strongly related, both being colors, but are notionally dissimilar and would likely receive a low score as an MSL pair. This similarity score is derived from a team of annotators who, working separately, give each pair in the set a grade between 0 and 6 (inclusive) according to how semantically similar they are, with 0 being the lowest possible level of similarity and 6 the highest. The raw sets of annotator scores are then evaluated and filtered through repeated calculation of average pairwise inter-annotator agreement (APIAA) and average mean inter-annotator agreement (AMIAA), with full sets being removed until a maximum agreement level, or a minimum number of annotators, is reached. Scores of 0.600 and higher indicate "strong agreement" for both APIAA and AMIAA. The average overall APIAA for hereto published MSL sets is 0.631, while the Icelandic MSL set has a score of 0.690. Likewise, the average overall AMIAA is 0.740, while the Icelandic set scores 0.799. Each line represents a single pair and contains four tab-separated entries: The first word in the pair; the second word in the pair; the average annotator score from the final APIAA-filtered set of scores; and the same score normalized to a 0-to-1 range. Multiword phrases have their constituent words separated by a single space. __ MSL, sem er skammstöfun fyrir Multi-SimLex, er matsaðferðafræði og samsvarandi gagnasafn sem mælir merkingarfræðileg líkindi orða. MSL í sinni upprunalegu mynd byggir á ýmsum vel þekktum eldri gagnasöfnum, sér í lagi SimLex-999, og hefur þegar verið gefið út fyrir fjölda annarra tungumála. Lokaútfærsla MSL hverju sinni samanstendur af lista 1.888 innbyrðis óraðaðra orðapara, þar sem hverju orðapari fylgir orðflokkamerking og rauntölueinkunn sem gefur til kynna hversu merkingarfræðilega lík orðin eru. Einstaka pör í gagnasafninu okkar samanstanda af fjölyrtum færslum, í þeim tilvikum þegar engin fullnægjandi einyrt þýðing stóð til boða. Hafa ber í huga að MSL er ekki ætlað að mæla tengsl orða. Sem dæmi má nefna að andheiti eru sannarlega tengd á málfræðilegan hátt en merking þeirra er gjörólík. Með öðrum orðum eru orð eins og „svart“ og „hvítt“ nátengd, enda vísa þau bæði til lita, en merking þeirra er ólík og myndu þau því fá lága einkunn sem MSL orðapar. Teymi einkunnagjafa ákvarðar líkindaeinkunnina án þess að ráðfæra sig hver við annan. Einkunnagjafarnir gefa hverju pari einkunn á bilinu 0 til 6 eftir því hversu merkingarfræðilega lík orðin eru, þar sem 0 táknar lægstu mögulegu líkindi þeirra á milli og 6 þau hæstu. Óunnin einkunnasöfn eru svo metin og síuð út frá því hversu samkvæm þau eru hvort öðru að meðaltali, gegnum svokallaða APIAA (average pairwise inter-annotator agreement) og AMIAA (average mean inter-annotator agreement) stuðla. Í því ferli eru einkunnasöfn frá stökum einkunnagjöfum fjarlægð í heild sinni, þangað til að annað hvort hámarks samkvæmni eða lágmarksfjölda einkunnasafna er náð. Samkvæmniseinkunnir upp á 0,600 og hærra gefa til kynna „sterka samkvæmni“ fyrir bæði APIAA og AMIAA. Meðaltal APIAA einkunna fyrir fyrri MSL söfn á öðrum tungumálum er 0,631 en hið íslenska MSL safn fær einkunnina 0,690. Að sama skapi er meðaltal fyrri AMIAA einkunna 0,740 en íslenska MSL safnið fær 0,799. Hver lína safnsins samsvarar einu stöku pari úr MSL og inniheldur fjórar færslur sem aðskildar eru með línuhliðrun („tab“). Í lesröð eru þær: Fyrra orð parsins; seinna orð parsins; meðaltal þeirra einkunna sem eftir stóðu í einkunnasafni eftir APIAA síun; og hið sama meðaltal staðlað á 0-til-1 span. Í fjölyrtum færslum eru stök orð aðskilin með einu bili. |
dc.language.iso | isl |
dc.publisher | The Árni Magnússon Institute for Icelandic Studies |
dc.relation.isreferencedby | https://direct.mit.edu/coli/article/46/4/847/97326/Multi-SimLex-A-Large-Scale-Evaluation-of |
dc.rights | Creative Commons - Attribution 4.0 International (CC BY 4.0) |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ |
dc.rights.label | PUB |
dc.source.uri | https://github.com/stofnun-arna-magnussonar/ordgreypingar_embeddings |
dc.subject | word embeddings |
dc.subject | lexical semantics |
dc.subject | semantic similarity |
dc.subject | test sets |
dc.title | Icelandic Multi-SimLex (21.06) |
dc.type | lexicalConceptualResource |
metashare.ResourceInfo#ContentInfo.detailedType | wordList |
metashare.ResourceInfo#ContentInfo.mediaType | text |
has.files | yes |
branding | Clarin IS Repository |
contact.person | Hjalti Daníelsson hjalti.danielsson@arnastofnun.is The Árni Magnússon Institute for Icelandic Studies |
contact.person | Steinunn Rut Friðriksdóttir srf2@hi.is The Árni Magnússon Institute for Icelandic Studies |
contact.person | Steinþór Steingrímsson steinthor.steingrimsson@arnastofnun.is The Árni Magnússon Institute for Icelandic Studies |
sponsor | Ministry of Education Semantic analysis - Pre-trained embeddings - I8b Language Technology for Icelandic 2019-2023 nationalFunds |
files.size | 61664 |
files.count | 1 |
Files in this item
This item is
Creative Commons - Attribution 4.0 International (CC BY 4.0)
Publicly Available
and licensed under:Creative Commons - Attribution 4.0 International (CC BY 4.0)
- Name
- msl.txt
- Size
- 60.22 KB
- Format
- Text file
- Description
- txt file
- MD5
- c56cd5b5d6a9e4a7f668d22a6adb08c6
á dalur 0.5 0.08333333333 á sjór 1.45 0.2416666667 á streymi 3.2 0.5333333333 á merkingarbæran hátt ákaflega 1.25 0.2083333333 á mikilvægan hátt alvarlega 2.35 0.3916666667 á mikilvægan hátt sannarlega 1.95 0.325 á morgun í kvöld 0.6 0.1 á staðnum gaumgæfilega 0.15 0.025 á taugaveiklaðan hátt mæðulega 1.95 0.325 á þroskaðan hátt sniðuglega 1.45 0.2416666667 áburður vöxtur 1.1 0.1833333333 aðallega varanlega 0.55 0.09166666667 aðgerð stefna 1.15 0.1916666667 aðgerðalaust hljóðlega 1 0.1666666667 aðgerðalaust vandlega 0.3 0.05 aðgreina sameina 0.15 0.025 aðskilja fara 0.75 0.125 aðskilja tengja 0.1 0.01666666667 aðstæður ástand 3.4 0.5666666667 aðstoða hjálpa 5.8 0.9666666667 aðstoðarflugmaður flugmannsklefi 0.55 0.09166666667 aðstoðarlögreglustjóri lögregluþjónn 3 0.5 aðstoðarmaður þjónustustúlka 2.85 0.475 áður eftir 0.3 0.05 æð bláæð 4.35 0.725 æfa endurtaka 3.6 0.6 ævisaga skáldskapur 1.55 0.2583333333 af öryggi ánægjulega 0.55 0.09166666667 afdráttarlaust . . .