Synthetic back-translated training corpus for neural machine translation. The GreynirT2T Transformer network created the corpus by translating Icelandic and English sentences. The English sentences (44,7m) are retrieved from the Wikipedia, Newscrawl and Europarl corpora. The Icelandic sentences (31,3m) are sourced from the Icelandic Gigaword Corpus.
Samhliða gervimálheild með bakþýddum þjálfunargögnum fyrir vélþýðingar. Tauganetið GreynirT2T Transformer bjó til málheildina með því að þýða enskar og íslenskar setningar. Ensku setningarnar (44,7m) eru fengnar úr Wikipedia, Newscrawl og Europarl málheildunum. Þær íslensku eru fengnar úr Risamálheildinni (31,3m).