dc.contributor.author | Jónsson, Haukur Páll |
dc.contributor.author | Snæbjarnarson, Vésteinn |
dc.contributor.author | Símonarson, Haukur Barri |
dc.contributor.author | Þorsteinsson, Vilhjálmur |
dc.date.accessioned | 2021-09-28T10:13:33Z |
dc.date.available | 2021-09-28T10:13:33Z |
dc.date.issued | 2021-09-01 |
dc.identifier.uri | http://hdl.handle.net/20.500.12537/130 |
dc.description | This repository contains a test set for measuring the progress in Named-Entity (NE) translation between Icelandic and English. This is parallel data which has been NER-tagged with language specific NE-taggers. Code which leverages these datasets is available here: https://github.com/mideind/MT-NE-Pipeline (Under "release" see "M6") Format "$dataset.$lang" contains text in language "$lang", sentence per line. "$dataset.$lang.ner" contains the corresponding NEs found in "$dataset.$lang", line by line. Each tag has the NE tag type information and start and stop character indices referring to the original text. NEs are separated with spaces. Tag types in Icelandic test data: Location, Misc, Organization, Person, Money, Percent, Date, Time Tag types in English test data: Location, Misc, Organization, Person The test data were created by sampling subcorpora in ParIce and then a language specific NE tagger was run on both sides. Then each side was tagged with an NE tagger. Since the NE taggers produce different tag sets the tags were mapped to a common tag set, namely Location, Person and Organization. The semantics of these tags between taggers tend to be similar. After tagging we removed all lines that contained no NEs and all lines where both sides did not contain the same number of NE tags. This ensures that only useful lines remain in the corpora. --- Í þessarri hirslu eru prófunargögn til að meta framfarir í þýðingum á nafnatókum á milli íslensku og ensku. Þessi gögn eru samhliða og eru nafnamerkt með nafnaþekkjara aðlagaðann fyrir bæði tungumál. Kóði sem nýtir þessi gögn hér: https://github.com/mideind/MT-NE-Pipeline (undir "release" sjá "M6") Snið "$gagnasett.$tungumál" inniheldur texta á tungumáli "$tungumál", ein setning fyrir hverja línu. "$gagnasett".$tungumál.ner" inniheldur tilsvarandi nafnatóka sem fyrirfinnast í "$gagnasett.$tungumál", línu fyrir línu. Sérhver nafnatóki er merktur með tagi og byrjunar- og lokastaðsetningu strengs í upphaflegs texta. Nafnatókar eru aðgreindir með bili. Tög í íslenskri hlið prófunargagna: Staðsetning, annað, samtök, persónur, peningur, prósentur, dagsetning og tími. Tög í enskri hlið prófunargagna: Staðsetning, annað, samtök, persónur. Prófunargögnin eru fengin úr ParIce með því að velja af handahófi úr undirmálheildum og svo er keyrður nafnaþekkjari fyrir bæði tungumál. Svo er keyrður nafnaþekkjari á báðar hliðar. Þar sem nafnaþekkjararnir skila mismunandi tögum þá er þeim varpað í sameiginlegt undirmengi, staðsetning, samtök og persónur. Merking þessara taga á milli nafnaþekkjara er sambærileg. Eftir keyrsluna eru gögnin síuð svo línur sem innihalda enga nafnatóka eru fjarlægðar og einnig línur sem innihalda ekki sama magn af sérhverjum flokki nafnataga. Þetta tryggir það að einungis gagnlegar línur verða eftir. |
dc.language.iso | isl |
dc.language.iso | eng |
dc.publisher | Miðeind ehf |
dc.rights | Creative Commons - Attribution 4.0 International (CC BY 4.0) |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ |
dc.rights.label | PUB |
dc.subject | neural machine translation |
dc.subject | machine translation |
dc.subject | named entity recognition |
dc.subject | parallel |
dc.title | En-Is Parallel Named Entity Robustness Corpus - Test data |
dc.type | corpus |
metashare.ResourceInfo#ContentInfo.mediaType | text |
has.files | yes |
branding | Clarin IS Repository |
demo.uri | https://velthyding.is/ |
contact.person | Vésteinn Snæbjarnarson vesteinn@mideind.is Miðeind ehf |
sponsor | Ministry of Education, Science and Culture V4b – Named entity pre- and post-processing Language Technology for Icelandic 2019-2023 nationalFunds nationalFunds |
size.info | 37000 sentences |
files.size | 2848782 |
files.count | 1 |
Files in this item
This item is
Creative Commons - Attribution 4.0 International (CC BY 4.0)
Publicly Available
and licensed under:Creative Commons - Attribution 4.0 International (CC BY 4.0)
- Name
- test_sets.zip
- Size
- 2.72 MB
- Format
- application/zip
- Description
- Unknown
- MD5
- 674c48cb4527aec1e9af8e7949970acd
- test_sets
- emea2016.is.ner35 kB
- tatoeba.is.ner1 kB
- bible.is.ner11 kB
- bible.is129 kB
- eso.is.ner20 kB
- os2018.en.ner23 kB
- tatoeba.en35 kB
- wmt-2021-dev.is.ner25 kB
- ees.en.ner68 kB
- wmt-2021-dev.en239 kB
- emea2016.en968 kB
- flores-dev.en.ner10 kB
- os2018.en310 kB
- ees.en1 MB
- flores-dev.en123 kB
- eso.en276 kB
- tatoeba.is42 kB
- emea2016.en.ner41 kB
- tatoeba.en.ner1 kB
- bible.en.ner11 kB
- eso.en.ner25 kB
- wmt-2021-dev.is270 kB
- emea2016.is1 MB
- os2018.is320 kB
- ees.is1 MB
- flores-dev.is135 kB
- wmt-2021-dev.en.ner24 kB
- eso.is281 kB
- os2018.is.ner21 kB
- bible.en121 kB
- ees.is.ner42 kB
- flores-dev.is.ner9 kB