Show simple item record

 
dc.contributor.author Jónsson, Haukur Páll
dc.contributor.author Snæbjarnarson, Vésteinn
dc.contributor.author Símonarson, Haukur Barri
dc.contributor.author Þorsteinsson, Vilhjálmur
dc.date.accessioned 2021-09-28T10:13:33Z
dc.date.available 2021-09-28T10:13:33Z
dc.date.issued 2021-09-01
dc.identifier.uri http://hdl.handle.net/20.500.12537/130
dc.description This repository contains a test set for measuring the progress in Named-Entity (NE) translation between Icelandic and English. This is parallel data which has been NER-tagged with language specific NE-taggers. Code which leverages these datasets is available here: https://github.com/mideind/MT-NE-Pipeline (Under "release" see "M6") Format "$dataset.$lang" contains text in language "$lang", sentence per line. "$dataset.$lang.ner" contains the corresponding NEs found in "$dataset.$lang", line by line. Each tag has the NE tag type information and start and stop character indices referring to the original text. NEs are separated with spaces. Tag types in Icelandic test data: Location, Misc, Organization, Person, Money, Percent, Date, Time Tag types in English test data: Location, Misc, Organization, Person The test data were created by sampling subcorpora in ParIce and then a language specific NE tagger was run on both sides. Then each side was tagged with an NE tagger. Since the NE taggers produce different tag sets the tags were mapped to a common tag set, namely Location, Person and Organization. The semantics of these tags between taggers tend to be similar. After tagging we removed all lines that contained no NEs and all lines where both sides did not contain the same number of NE tags. This ensures that only useful lines remain in the corpora. --- Í þessarri hirslu eru prófunargögn til að meta framfarir í þýðingum á nafnatókum á milli íslensku og ensku. Þessi gögn eru samhliða og eru nafnamerkt með nafnaþekkjara aðlagaðann fyrir bæði tungumál. Kóði sem nýtir þessi gögn hér: https://github.com/mideind/MT-NE-Pipeline (undir "release" sjá "M6") Snið "$gagnasett.$tungumál" inniheldur texta á tungumáli "$tungumál", ein setning fyrir hverja línu. "$gagnasett".$tungumál.ner" inniheldur tilsvarandi nafnatóka sem fyrirfinnast í "$gagnasett.$tungumál", línu fyrir línu. Sérhver nafnatóki er merktur með tagi og byrjunar- og lokastaðsetningu strengs í upphaflegs texta. Nafnatókar eru aðgreindir með bili. Tög í íslenskri hlið prófunargagna: Staðsetning, annað, samtök, persónur, peningur, prósentur, dagsetning og tími. Tög í enskri hlið prófunargagna: Staðsetning, annað, samtök, persónur. Prófunargögnin eru fengin úr ParIce með því að velja af handahófi úr undirmálheildum og svo er keyrður nafnaþekkjari fyrir bæði tungumál. Svo er keyrður nafnaþekkjari á báðar hliðar. Þar sem nafnaþekkjararnir skila mismunandi tögum þá er þeim varpað í sameiginlegt undirmengi, staðsetning, samtök og persónur. Merking þessara taga á milli nafnaþekkjara er sambærileg. Eftir keyrsluna eru gögnin síuð svo línur sem innihalda enga nafnatóka eru fjarlægðar og einnig línur sem innihalda ekki sama magn af sérhverjum flokki nafnataga. Þetta tryggir það að einungis gagnlegar línur verða eftir.
dc.language.iso isl
dc.language.iso eng
dc.publisher Miðeind ehf
dc.rights Creative Commons - Attribution 4.0 International (CC BY 4.0)
dc.rights.uri https://creativecommons.org/licenses/by/4.0/
dc.rights.label PUB
dc.subject neural machine translation
dc.subject machine translation
dc.subject named entity recognition
dc.subject parallel
dc.title En-Is Parallel Named Entity Robustness Corpus - Test data
dc.type corpus
metashare.ResourceInfo#ContentInfo.mediaType text
has.files yes
branding Clarin IS Repository
demo.uri https://velthyding.is/
contact.person Vésteinn Snæbjarnarson vesteinn@mideind.is Miðeind ehf
sponsor Ministry of Education, Science and Culture V4b – Named entity pre- and post-processing Language Technology for Icelandic 2019-2023 nationalFunds nationalFunds
size.info 37000 sentences
files.size 2848782
files.count 1


 Files in this item

This item is
Publicly Available
and licensed under:
Creative Commons - Attribution 4.0 International (CC BY 4.0)
Icon
Name
test_sets.zip
Size
2.72 MB
Format
application/zip
Description
Unknown
MD5
674c48cb4527aec1e9af8e7949970acd
 Download file  Preview
 File Preview  
  • test_sets
    • emea2016.is.ner35 kB
    • tatoeba.is.ner1 kB
    • bible.is.ner11 kB
    • bible.is129 kB
    • eso.is.ner20 kB
    • os2018.en.ner23 kB
    • tatoeba.en35 kB
    • wmt-2021-dev.is.ner25 kB
    • ees.en.ner68 kB
    • wmt-2021-dev.en239 kB
    • emea2016.en968 kB
    • flores-dev.en.ner10 kB
    • os2018.en310 kB
    • ees.en1 MB
    • flores-dev.en123 kB
    • eso.en276 kB
    • tatoeba.is42 kB
    • emea2016.en.ner41 kB
    • tatoeba.en.ner1 kB
    • bible.en.ner11 kB
    • eso.en.ner25 kB
    • wmt-2021-dev.is270 kB
    • emea2016.is1 MB
    • os2018.is320 kB
    • ees.is1 MB
    • flores-dev.is135 kB
    • wmt-2021-dev.en.ner24 kB
    • eso.is281 kB
    • os2018.is.ner21 kB
    • bible.en121 kB
    • ees.is.ner42 kB
    • flores-dev.is.ner9 kB

Show simple item record