Show simple item record

 
dc.contributor.author Jónsson, Haukur Páll
dc.contributor.author Snæbjarnarson, Vésteinn
dc.contributor.author Símonarson, Haukur Barri
dc.contributor.author Þorsteinsson, Vilhjálmur
dc.date.accessioned 2021-09-28T10:04:03Z
dc.date.available 2021-09-28T10:04:03Z
dc.date.issued 2021-09-01
dc.identifier.uri http://hdl.handle.net/20.500.12537/129
dc.description This submission contains a synthetic parallel corpus which has roughly 2 million aligned NEs. The corpus is meant as additional backtranslation training data and contains Location (L), Organization (O) and Person (P) tags. Code which leverages these datasets is available here: https://github.com/mideind/MT-NE-Pipeline Format "$dataset.$lang" contains text in language "$lang", sentence per line. "$dataset.$lang.ner" contains the corresponding NEs found in "$dataset.$lang", line by line. Each tag has the NE tag type information and start and stop character indices referring to the original text. NEs are separated with spaces. Tag types in Icelandic test data: Location, Misc, Organization, Person, Money, Percent, Date, Time Tag types in English test data: Location, Misc, Organization, Person The synthetic parallel is sourced from News Crawl and Icelandic news articles. The data has been translated using mBART25-cont (see report M6 V4a) and shuffled. Then each side was tagged with an NE tagger. Since the NE taggers produce different tag sets the tags were mapped to a common tag set, namely Location, Person and Organization. The semantics of these tags between taggers tend to be similar. After tagging we removed all lines that contained no NEs and all lines where both sides did not contain the same number of NE tags. This ensures that only useful lines remain in the corpora. --- Í þessarri hirslu eru gervi samhliðagögn sem inniheldur u.þ.b. 2 milljón raðaðra nafnatóka. Gögnin er ætluð sem auka bakþýðingargögn fyrir þjálfun og innihalda merkingar fyrir staðsetningu (L), samtök (O) og persónur (P). Auklega er kóði sem nýtir þessi gögn hér: https://github.com/mideind/MT-NE-Pipeline. Snið "$gagnasett.$tungumál" inniheldur texta á tungumáli "$tungumál", ein setning fyrir hverja línu. "$gagnasett".$tungumál.ner" inniheldur tilsvarandi nafnatóka sem fyrirfinnast í "$gagnasett.$tungumál", línu fyrir línu. Sérhver nafnatóki er merktur með tagi og byrjunar- og lokastaðsetningu strengs í upphaflegs texta. Nafnatókar eru aðgreindir með bili. Tög í íslenskri hlið prófunargagna: Staðsetning, annað, samtök, persónur, peningur, prósentur, dagsetning og tími. Tög í enskri hlið prófunargagna: Staðsetning, annað, samtök, persónur. Prófunargögnin eru fengin úr ParIce með því að velja af handahófi úr undirmálheildum og svo er keyrður nafnaþekkjari fyrir bæði tungumál. Gervi samhliðagögnin er fengin úr News Crawl og íslenskum fréttum. Gögnin eru þýdd með mBART25-cont (sjá M6 V4a skýrslu) og stokkuð. Svo er keyrður nafnaþekkjari á báðar hliðar. Þar sem nafnaþekkjararnir skila mismunandi tögum þá er þeim varpað í sameiginlegt undirmengi, staðsetning, samtök og persónur. Merking þessara taga á milli nafnaþekkjara er sambærileg. Eftir keyrsluna eru gögnin síuð svo línur sem innihalda enga nafnatóka eru fjarlægðar og einnig línur sem innihalda ekki sama magn af sérhverjum flokki nafnataga. Þetta tryggir það að einungis gagnlegar línur verða eftir.
dc.language.iso eng
dc.language.iso isl
dc.publisher Miðeind ehf
dc.rights Creative Commons - Attribution 4.0 International (CC BY 4.0)
dc.rights.uri https://creativecommons.org/licenses/by/4.0/
dc.rights.label PUB
dc.source.uri https://velthyding.is/
dc.subject neural machine translation
dc.subject machine translation
dc.subject named entity recognition
dc.subject back translation
dc.title En-Is Synthetic Parallel Named Entity Robustness Corpus
dc.type corpus
metashare.ResourceInfo#ContentInfo.mediaType text
has.files yes
branding Clarin IS Repository
contact.person Vésteinn Snæbjarnarson vesteinn@mideind.is Miðeind ehf
sponsor Ministry of Education, Science and Culture Text processing (pre-and postprocessing) (V3b) Language Technology for Icelandic 2019-2023 nationalFunds
size.info 2000000 sentences
files.size 146420645
files.count 1


 Files in this item

This item is
Publicly Available
and licensed under:
Creative Commons - Attribution 4.0 International (CC BY 4.0)
Icon
Name
parallel_ne_corpora.zip
Size
139.64 MB
Format
application/zip
Description
Unknown
MD5
cd0ea90e44a7ed1e43a75b461dba1a02
 Download file  Preview
 File Preview  
  • parallel_corpora_out
    • greynir_articles_01-11-2020:01-06-2021.filtered.is74 MB
    • greynir_articles_01-11-2020:01-06-2021.filtered.en.ner7 MB
    • newscrawl_2007-2019.filtered.en.ner8 MB
    • newscrawl_2007-2019.filtered.en72 MB
    • greynir_articles_01-11-2020:01-06-2021.filtered.is.ner7 MB
    • newscrawl_2007-2019.filtered.is.ner8 MB
    • newscrawl_2007-2019.filtered.is81 MB
    • greynir_articles_01-11-2020:01-06-2021.filtered.en68 MB

Show simple item record