Show simple item record

 
dc.contributor.author Friðriksdóttir, Steinunn Rut
dc.contributor.author Daníelsson, Hjalti
dc.contributor.author Steingrímsson, Steinþór
dc.date.accessioned 2021-06-25T15:31:30Z
dc.date.available 2021-06-25T15:31:30Z
dc.date.issued 2021-06-25
dc.identifier.uri http://hdl.handle.net/20.500.12537/120
dc.description IceBATS is an Icelandic adaptation of the Bigger Analogy Test Set (BATS). BATS is intended to evaluate word embeddings based on word analogy tasks. This extensive set demonstrates a language model’s ability to recognize various linguistic relations with the use of the vector offset method. In its simplest form, a word analogy consists of two word pairs, (a:b) and (c:d), where the relationship between a and b is considered to be analogous to the relationship between c and d. A famous example is (man:woman) and (king:queen). If word embeddings have been suitably trained, their offset between the word vectors b and a should be equivalent to that between c and d. In other words, d = c - a + b, or in our example, queen = king - man + woman, the linguistic relation is captured as a distance in the vector space. The test set contains 98,000 analogy questions that cover inflectional and derivational morphology as well as lexicographic and encyclopedic semantics. Each category is divided into 10 subcategories and each of them has 50 unique word pairs. The morphological categories are sampled to reduce homonymy so that words that can belong to more than one word category are avoided (e.g. run : runs which could either be nouns or verbs). Additionally, the semantic categories include multiple correct answers where applicable, something that becomes especially important when testing relations such as homonyms and hypernyms. IceBATS follows the original set structurally, making minor changes where applicable. Changes are usually due to varying morphological characteristics and important syntactical parts of the language in question. ____ IceBATS er íslensk útgáfa BATS eða Bigger Analogy Test Set. Tilgangur BATS er að meta gæði orðgreypinga með notkun hlutfallsjafna (analógíu) sem sýna fram á getu orðgreypingalíkans til að fanga ýmiskonar merkingarfræðileg og orðhlutafræðileg tengsl orðapara með notkun vigrafjarlægðaraðferðar. Hlutfallsjafna í þessu samhengi felur í sér að tvö orðapör, (a:b) og (c:d), eru álitin hafa samskonar tengingu. Frægt dæmi um slíka tengingu er (maður:kona) og (kóngur:drottning). Ef orðgreypingarnar hafa verið þjálfaðar á réttan hátt ætti vigrafjarlægðin á milli A og B að vera jöfn fjarlægðinni á milli C og D. Með öðrum orðum er d = c - a + b, eða eins og í dæminu hér fyrir ofan, drottning = kóngur - maður + kona. Fjarlægðin í vigurrýminu fangar merkingarfræðilegu tengslin. Prófunarsettið inniheldur 98.000 hlutfallsjöfnur sem taka á fjórum meginþáttum: hvað orðhlutafræði snertir eru beygingarfræði og afleiðsla/samsetning tekin fyrir en hvað merkingarfræði varðar eru það orðabókartengsl og alfræðileg tengsl. Hverjum meginflokki er skipt upp í 10 undirflokka og hver þeirra inniheldur 50 orðapör. Orðapörunum í orðhlutafræðilegu flokkunum var safnað með það í huga að minnka tvíræðni eins og kostur er á svo orð sem geta verið af fleiri en einum orðflokki er sleppt (t.d. ganga sem getur hvort tveggja verið nafnorð og sagnorð). Merkingarfræðilegu flokkarnir innihalda fleiri en eitt rétt svar þar sem það á við en það er til dæmis mikilvægt þegar um yfirheiti og undirheiti er að ræða. Uppsetning IceBATS er eins og í upprunalega settinu með smávægilegum breytingum þar sem það á við. Breytingarnar eru venjulega vegna þess hve enska og íslenska eru ólík tungumál í uppbyggingu.
dc.language.iso isl
dc.publisher The Árni Magnússon Institute for Icelandic Studies
dc.relation.isreferencedby https://www.aclweb.org/anthology/N16-2002.pdf
dc.rights Creative Commons - Attribution 4.0 International (CC BY 4.0)
dc.rights.uri https://creativecommons.org/licenses/by/4.0/
dc.rights.label PUB
dc.source.uri https://github.com/stofnun-arna-magnussonar/ordgreypingar_embeddings
dc.subject word embeddings
dc.subject test sets
dc.subject word analogy
dc.subject semantics
dc.subject morphology
dc.title IceBATS - The Icelandic Bigger Analogy Test Set (21.06)
dc.type lexicalConceptualResource
metashare.ResourceInfo#ContentInfo.detailedType wordList
metashare.ResourceInfo#ContentInfo.mediaType text
has.files yes
branding Clarin IS Repository
contact.person Steinunn Rut Friðriksdóttir srf2@hi.is The Árni Magnússon Institute for Icelandic Studies
contact.person Hjalti Daníelsson hjalti.danielsson@arnastofnun.is The Árni Magnússon Institute for Icelandic Studies
contact.person Steinþór Steingrímsson steinthor.steingrimsson@arnastofnun.is The Árni Magnússon Institute for Icelandic Studies
sponsor Ministry of Education Semantic analysis - Pre-trained embeddings - I8b Language Technology for Icelandic 2019-2023 nationalFunds
files.size 462044
files.count 1


 Files in this item

This item is
Publicly Available
and licensed under:
Creative Commons - Attribution 4.0 International (CC BY 4.0)
Icon
Name
IceBATS.zip
Size
451.21 KB
Format
application/zip
Description
4 txt files zipped
MD5
fe04eb72af7bd6881ddc9e7ebc470216
 Download file  Preview
 File Preview  
  • IceBATS
    • analogy_lexicographic.txt-1 B
    • analogy_inflectional.txt-1 B
    • analogy_encyclopedic.txt-1 B
    • analogy_derivational.txt-1 B

Show simple item record