En-Is Synthetic Parallel Named Entity Robustness Corpus

Jónsson, Haukur Páll; Snæbjarnarson, Vésteinn; Símonarson, Haukur Barri; Þorsteinsson, Vilhjálmur

dc.contributor.author	Jónsson, Haukur Páll
dc.contributor.author	Snæbjarnarson, Vésteinn
dc.contributor.author	Símonarson, Haukur Barri
dc.contributor.author	Þorsteinsson, Vilhjálmur
dc.date.accessioned	2021-09-28T10:04:03Z
dc.date.available	2021-09-28T10:04:03Z
dc.date.issued	2021-09-01
dc.identifier.uri	http://hdl.handle.net/20.500.12537/129
dc.description	This submission contains a synthetic parallel corpus which has roughly 2 million aligned NEs. The corpus is meant as additional backtranslation training data and contains Location (L), Organization (O) and Person (P) tags. Code which leverages these datasets is available here: https://github.com/mideind/MT-NE-Pipeline Format "$dataset.$lang" contains text in language "$lang", sentence per line. "$dataset.$lang.ner" contains the corresponding NEs found in "$dataset.$lang", line by line. Each tag has the NE tag type information and start and stop character indices referring to the original text. NEs are separated with spaces. Tag types in Icelandic test data: Location, Misc, Organization, Person, Money, Percent, Date, Time Tag types in English test data: Location, Misc, Organization, Person The synthetic parallel is sourced from News Crawl and Icelandic news articles. The data has been translated using mBART25-cont (see report M6 V4a) and shuffled. Then each side was tagged with an NE tagger. Since the NE taggers produce different tag sets the tags were mapped to a common tag set, namely Location, Person and Organization. The semantics of these tags between taggers tend to be similar. After tagging we removed all lines that contained no NEs and all lines where both sides did not contain the same number of NE tags. This ensures that only useful lines remain in the corpora. --- Í þessarri hirslu eru gervi samhliðagögn sem inniheldur u.þ.b. 2 milljón raðaðra nafnatóka. Gögnin er ætluð sem auka bakþýðingargögn fyrir þjálfun og innihalda merkingar fyrir staðsetningu (L), samtök (O) og persónur (P). Auklega er kóði sem nýtir þessi gögn hér: https://github.com/mideind/MT-NE-Pipeline. Snið "$gagnasett.$tungumál" inniheldur texta á tungumáli "$tungumál", ein setning fyrir hverja línu. "$gagnasett".$tungumál.ner" inniheldur tilsvarandi nafnatóka sem fyrirfinnast í "$gagnasett.$tungumál", línu fyrir línu. Sérhver nafnatóki er merktur með tagi og byrjunar- og lokastaðsetningu strengs í upphaflegs texta. Nafnatókar eru aðgreindir með bili. Tög í íslenskri hlið prófunargagna: Staðsetning, annað, samtök, persónur, peningur, prósentur, dagsetning og tími. Tög í enskri hlið prófunargagna: Staðsetning, annað, samtök, persónur. Prófunargögnin eru fengin úr ParIce með því að velja af handahófi úr undirmálheildum og svo er keyrður nafnaþekkjari fyrir bæði tungumál. Gervi samhliðagögnin er fengin úr News Crawl og íslenskum fréttum. Gögnin eru þýdd með mBART25-cont (sjá M6 V4a skýrslu) og stokkuð. Svo er keyrður nafnaþekkjari á báðar hliðar. Þar sem nafnaþekkjararnir skila mismunandi tögum þá er þeim varpað í sameiginlegt undirmengi, staðsetning, samtök og persónur. Merking þessara taga á milli nafnaþekkjara er sambærileg. Eftir keyrsluna eru gögnin síuð svo línur sem innihalda enga nafnatóka eru fjarlægðar og einnig línur sem innihalda ekki sama magn af sérhverjum flokki nafnataga. Þetta tryggir það að einungis gagnlegar línur verða eftir.
dc.language.iso	eng
dc.language.iso	isl
dc.publisher	Miðeind ehf
dc.rights	Creative Commons - Attribution 4.0 International (CC BY 4.0)
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/
dc.rights.label	PUB
dc.source.uri	https://velthyding.is/
dc.subject	neural machine translation
dc.subject	machine translation
dc.subject	named entity recognition
dc.subject	back translation
dc.title	En-Is Synthetic Parallel Named Entity Robustness Corpus
dc.type	corpus
metashare.ResourceInfo#ContentInfo.mediaType	text
has.files	yes
branding	Clarin IS Repository
contact.person	Vésteinn Snæbjarnarson vesteinn@mideind.is Miðeind ehf
sponsor	Ministry of Education, Science and Culture Text processing (pre-and postprocessing) (V3b) Language Technology for Icelandic 2019-2023 nationalFunds
size.info	2000000 sentences
files.size	146420645
files.count	1

Files in this item

This item is

Publicly Available

and licensed under:
Creative Commons - Attribution 4.0 International (CC BY 4.0)

Name: parallel_ne_corpora.zip
Size: 139.64 MB
Format: application/zip
Description: Unknown
MD5: cd0ea90e44a7ed1e43a75b461dba1a02

Download file Preview

File Preview

parallel_corpora_out
- greynir_articles_01-11-2020:01-06-2021.filtered.is74 MB
- greynir_articles_01-11-2020:01-06-2021.filtered.en.ner7 MB
- newscrawl_2007-2019.filtered.en.ner8 MB
- newscrawl_2007-2019.filtered.en72 MB
- greynir_articles_01-11-2020:01-06-2021.filtered.is.ner7 MB
- newscrawl_2007-2019.filtered.is.ner8 MB
- newscrawl_2007-2019.filtered.is81 MB
- greynir_articles_01-11-2020:01-06-2021.filtered.en68 MB

Show simple item record

Files in this item

Partners, Coordination, Funding

Repository

More