dc.contributor.author | Jónsson, Haukur Páll |
dc.contributor.author | Snæbjarnarson, Vésteinn |
dc.contributor.author | Símonarson, Haukur Barri |
dc.contributor.author | Þorsteinsson, Vilhjálmur |
dc.date.accessioned | 2021-09-28T10:04:03Z |
dc.date.available | 2021-09-28T10:04:03Z |
dc.date.issued | 2021-09-01 |
dc.identifier.uri | http://hdl.handle.net/20.500.12537/129 |
dc.description | This submission contains a synthetic parallel corpus which has roughly 2 million aligned NEs. The corpus is meant as additional backtranslation training data and contains Location (L), Organization (O) and Person (P) tags. Code which leverages these datasets is available here: https://github.com/mideind/MT-NE-Pipeline Format "$dataset.$lang" contains text in language "$lang", sentence per line. "$dataset.$lang.ner" contains the corresponding NEs found in "$dataset.$lang", line by line. Each tag has the NE tag type information and start and stop character indices referring to the original text. NEs are separated with spaces. Tag types in Icelandic test data: Location, Misc, Organization, Person, Money, Percent, Date, Time Tag types in English test data: Location, Misc, Organization, Person The synthetic parallel is sourced from News Crawl and Icelandic news articles. The data has been translated using mBART25-cont (see report M6 V4a) and shuffled. Then each side was tagged with an NE tagger. Since the NE taggers produce different tag sets the tags were mapped to a common tag set, namely Location, Person and Organization. The semantics of these tags between taggers tend to be similar. After tagging we removed all lines that contained no NEs and all lines where both sides did not contain the same number of NE tags. This ensures that only useful lines remain in the corpora. --- Í þessarri hirslu eru gervi samhliðagögn sem inniheldur u.þ.b. 2 milljón raðaðra nafnatóka. Gögnin er ætluð sem auka bakþýðingargögn fyrir þjálfun og innihalda merkingar fyrir staðsetningu (L), samtök (O) og persónur (P). Auklega er kóði sem nýtir þessi gögn hér: https://github.com/mideind/MT-NE-Pipeline. Snið "$gagnasett.$tungumál" inniheldur texta á tungumáli "$tungumál", ein setning fyrir hverja línu. "$gagnasett".$tungumál.ner" inniheldur tilsvarandi nafnatóka sem fyrirfinnast í "$gagnasett.$tungumál", línu fyrir línu. Sérhver nafnatóki er merktur með tagi og byrjunar- og lokastaðsetningu strengs í upphaflegs texta. Nafnatókar eru aðgreindir með bili. Tög í íslenskri hlið prófunargagna: Staðsetning, annað, samtök, persónur, peningur, prósentur, dagsetning og tími. Tög í enskri hlið prófunargagna: Staðsetning, annað, samtök, persónur. Prófunargögnin eru fengin úr ParIce með því að velja af handahófi úr undirmálheildum og svo er keyrður nafnaþekkjari fyrir bæði tungumál. Gervi samhliðagögnin er fengin úr News Crawl og íslenskum fréttum. Gögnin eru þýdd með mBART25-cont (sjá M6 V4a skýrslu) og stokkuð. Svo er keyrður nafnaþekkjari á báðar hliðar. Þar sem nafnaþekkjararnir skila mismunandi tögum þá er þeim varpað í sameiginlegt undirmengi, staðsetning, samtök og persónur. Merking þessara taga á milli nafnaþekkjara er sambærileg. Eftir keyrsluna eru gögnin síuð svo línur sem innihalda enga nafnatóka eru fjarlægðar og einnig línur sem innihalda ekki sama magn af sérhverjum flokki nafnataga. Þetta tryggir það að einungis gagnlegar línur verða eftir. |
dc.language.iso | eng |
dc.language.iso | isl |
dc.publisher | Miðeind ehf |
dc.rights | Creative Commons - Attribution 4.0 International (CC BY 4.0) |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ |
dc.rights.label | PUB |
dc.source.uri | https://velthyding.is/ |
dc.subject | neural machine translation |
dc.subject | machine translation |
dc.subject | named entity recognition |
dc.subject | back translation |
dc.title | En-Is Synthetic Parallel Named Entity Robustness Corpus |
dc.type | corpus |
metashare.ResourceInfo#ContentInfo.mediaType | text |
has.files | yes |
branding | Clarin IS Repository |
contact.person | Vésteinn Snæbjarnarson vesteinn@mideind.is Miðeind ehf |
sponsor | Ministry of Education, Science and Culture Text processing (pre-and postprocessing) (V3b) Language Technology for Icelandic 2019-2023 nationalFunds |
size.info | 2000000 sentences |
files.size | 146420645 |
files.count | 1 |
Files in this item
This item is
Creative Commons - Attribution 4.0 International (CC BY 4.0)
Publicly Available
and licensed under:Creative Commons - Attribution 4.0 International (CC BY 4.0)
- Name
- parallel_ne_corpora.zip
- Size
- 139.64 MB
- Format
- application/zip
- Description
- Unknown
- MD5
- cd0ea90e44a7ed1e43a75b461dba1a02
- parallel_corpora_out
- greynir_articles_01-11-2020:01-06-2021.filtered.is74 MB
- greynir_articles_01-11-2020:01-06-2021.filtered.en.ner7 MB
- newscrawl_2007-2019.filtered.en.ner8 MB
- newscrawl_2007-2019.filtered.en72 MB
- greynir_articles_01-11-2020:01-06-2021.filtered.is.ner7 MB
- newscrawl_2007-2019.filtered.is.ner8 MB
- newscrawl_2007-2019.filtered.is81 MB
- greynir_articles_01-11-2020:01-06-2021.filtered.en68 MB