Show simple item record

 
dc.contributor.author Ingólfsdóttir, Svanhvít Lilja
dc.contributor.author Óladóttir, Hulda
dc.contributor.author Einar Haukur, Jóhannesson
dc.contributor.author Haukur Páll, Jónsson
dc.date.accessioned 2024-09-25T11:49:25Z
dc.date.available 2024-09-25T11:49:25Z
dc.date.issued 2024-09-20
dc.identifier.uri http://hdl.handle.net/20.500.12537/341
dc.description This dataset was created as part of a collaborative project between the City of Reykjavík and Miðeind ehf. to develop a specialized translation engine between Polish and Icelandic. The data consists of texts that have been manually translated from Icelandic to Polish and aligned. All data is in the same JSONL format, where each line represents one document, but only in the "Kjarnavefur" dataset are paragraph breaks preserved. More detailed information can be found in the README files for each section of the data. Core Website of the City of Reykjavík (Kjarnavefur, is-pl_gogn/kjarnavefur) Content from the City of Reykjavík's website for Polish-speaking residents. The content is divided into three areas: business, residents, and administration (atvinnulif, ibuar, stjornsysla), mirroring the structure of the Icelandic website of the City of Reykjavík. The collection contains original documents in Icelandic and manually translated corresponding documents in Polish. The collection contains a total of 2,455 sentences (business: 391 sentences, residents: 1,631 sentences, administration: 433 sentences). Other Data from the City of Reykjavík (is-pl_gogn/onnur_gogn) Additional content from the City of Reykjavík, such as from other departments, as well as several documents from the National University Hospital. The content was originally in PDF and Word formats but has been aligned and converted to JSONL. The collection contains original documents in Icelandic and manually translated corresponding documents in Polish. This data was aligned automatically (using the Bleualign alignment tool (https://github.com/rsennrich/Bleualign)), so the alignment may not be perfectly reliable. The collection contains a total of 3,113 sentences. Minimum Vocabulary (is-pl_gogn/lagmarksordafordi) Data developed as a supplement to the City of Reykjavík's bilingual data, intended to cover the basic vocabulary that a translation model for the vocabulary of municipalities and similar institutions needs to encompass. The content thus includes both common Icelandic words that did not appear in other available training data, as well as common terms in texts from the City of Reykjavík. This was done to fill potential gaps, as bilingual data between Icelandic and Polish is scarce, to ensure that the most common words appear in the training data. The minimum Icelandic vocabulary was primarily obtained from the IceFlash 4K word list (http://hdl.handle.net/20.500.12537/308), while specialized administrative vocabulary comes from the City of Reykjavík. Icelandic text snippets containing words that appear less than five times in the available training data were identified and manually translated into Polish. The text snippets are sourced from the open part of the 2022 edition of the Icelandic Gigaword Corpus (http://hdl.handle.net/20.500.12537/253), with each snippet being approximately three sentences long. The collection contains a total of 3,434 sentences (general/basic vocabulary: 1,853 sentences, specialized vocabulary: 1,581 sentences). Term lists (is-pl_gogn/hugtakalistar_rvk) Two term lists with specialized vocabulary in the field of the City of Reykjavík, in Polish and Icelandic. The larger list is compiled by the City of Reykjavík, with 823 Icelandic terms. The Polish translations of the terms are generated automatically from all the aforementioned bilingual data, with the help of a large language model. The other term list was created to complement the larger one and contains 209 terms extracted from the Core Website data (Kjarnavefur) with the help of a large language model. The model identified terms in the Icelandic and Polish texts that could belong on a list of concepts related to the work of the City of Reykjavík. For both lists, it is necessary to review the Polish translations before use, as they were generated automatically and have not been verified by an expert. Í þessu gagnasafni eru gögn sem urðu til í samstarfsverkefni Reykjavíkurborgar og Miðeindar ehf. um að þróa sérhæfða þýðingarvél milli pólsku og íslensku. Gögnin eru textar sem hafa verið handþýddir úr íslensku yfir á pólsku og samraðað. Gögnin eru öll á sama JSONL-sniði, þar sem hver lína er eitt skjal, en aðeins í „Kjarnavefur Reykjavíkurborgar“ eru efnisgreinaskil varðveitt. Nánari upplýsingar eru í README-skrám fyrir hvern hluta gagnanna. Kjarnavefur Reykjavíkurborgar (is-pl_gogn/kjarnavefur) Efni af vef Reykjavíkurborgar fyrir pólskumælandi íbúa. Efnið skiptist í þrjú svið: atvinnulíf, íbúar og stjórnsýsla, á sama hátt og íslenskur vefur Reykjavíkurborgar. Safnið inniheldur upphafleg skjöl á íslensku og handþýdd samsvarandi skjöl á pólsku. Í safninu eru samtals 2455 málsgreinar (atvinnulíf: 391 málsgrein, íbúar: 1631 málsgrein, stjórnsýsla: 433 málsgreinar). Önnur gögn frá Reykjavíkurborg (is-pl_gogn/onnur_gogn) Annað efni frá Reykjavíkurborg, svo sem frá öðrum sviðum, auk nokkurra skjala frá Landspítalanum. Efnið var upphaflega á PDF- og Word-sniði, en hefur verið samraðað og snúið á JSONL. Safnið inniheldur upphafleg skjöl á íslensku og handþýdd samsvarandi skjöl á pólsku. Þessi gögn voru samröðuð með vélrænum hætti (með Bleualign-samröðunartólinu (https://github.com/rsennrich/Bleualign)) og samröðunin því ekki fullkomlega áreiðanleg. Í safninu eru samtals 3113 málsgreinar. Lágmarksorðaforði (is-pl_gogn/lagmarksordafordi) Gögn unnin sem viðbót við tvímála gögn Reykjavíkurborgar, ætlað að ná yfir helstu orð sem þýðingarlíkan fyrir orðfæri sveitarfélaga og svipaðra stofnana þarf að ná yfir. Efnið inniheldur þannig bæði algeng orð í íslensku sem ekki komu fyrir í öðrum tiltækum þjálfunargögnum, og svo algeng hugtök í textum Reykjavíkurborgar. Þetta var gert til þess að stoppa í möguleg göt, þar sem tvímála gögn milli íslensku og pólsku eru af skornum skammti, til þess að tryggja að algengustu orð komi fyrir í þjálfunargögnunum. Lágmarksorðaforði í íslensku var fenginn að grunninum til úr orðasafninu IceFlash 4K (http://hdl.handle.net/20.500.12537/308), en sérhæfður stjórnsýsluorðaforði kemur frá Reykjavíkurborg. Fundnir voru íslenskir textabútar með þeim orðum sem koma sjaldnar en fimm sinnum fyrir í tiltækum þjálfunargögnum, og þeir voru handþýddir yfir á pólsku. Textabútarnir eru fengnir úr opna hluta 2022-útgáfu Risamálheildarinnar (http://hdl.handle.net/20.500.12537/253) og er hver bútur u.þ.b. þrjár málsgreinar. Í safninu eru samtals 3434 málsgreinar (almennur orðaforði: 1853 málsgreinar, sértækur orðaforði: 1581 málsgrein). Hugtakalistar (is-pl_gogn/hugtakalistar_rvk) Tveir hugtakalistar með sérhæfðum orðaforða á sviði Reykjavíkurborgar, á pólsku og íslensku. Annar hugtakalistinn er unninn hjá Reykjavíkurborg, með íslenskum hugtökum. Pólsku þýðingarnar á hugtökunum eru unnar með vélrænum hætti upp úr öllum framangreindum tvímála gögnum, með hjálp stórs mállíkans. 823 hugtök eru í hugtakalistanum. Hinn hugtakalistinn var unninn sem viðbót við hinn stærri og inniheldur 209 hugtök sem tekin voru upp úr Kjarnavefsgögnunum með hjálp stórs mállíkans. Líkanið fann hugtök í íslensku og pólsku textunum sem gætu átt heima á lista yfir hugtök tengd starfi Reykjavíkurborgar. Um báða listana gildir að yfirfara þarf pólsku þýðingarnar fyrir notkun, því þær voru unnar vélrænt og hafa ekki verið staðfestar af sérfræðingi.
dc.language.iso isl
dc.language.iso pol
dc.publisher Miðeind ehf.
dc.publisher Reykjavík City
dc.rights Creative Commons - Attribution 4.0 International (CC BY 4.0)
dc.rights.uri https://creativecommons.org/licenses/by/4.0/
dc.rights.label PUB
dc.subject machine translation
dc.subject parallel corpus
dc.title Data for translation between Polish and Icelandic
dc.type corpus
metashare.ResourceInfo#ContentInfo.mediaType text
has.files yes
branding Clarin IS Repository
contact.person Hulda Óladóttir hulda@mideind.is Miðeind ehf.
sponsor Rannís Markáætlun í tungu og tækni Vélþýðing milli pólsku og íslensku, 220173-5302 nationalFunds
size.info 9002 sentences
files.size 863861
files.count 1


 Files in this item

This item is
Publicly Available
and licensed under:
Creative Commons - Attribution 4.0 International (CC BY 4.0)
Icon
Name
is-pl_gogn.zip
Size
843.61 KB
Format
application/zip
Description
Data for Polish and Icelandic
MD5
d8f384d2bedc67a0fff0ce251f9943fa
 Download file  Preview
 File Preview  
  • for_clarin
    • lagmarksordafordi
      • basic_vocabulary_aligned.is.jsonl305 kB
      • basic_vocabulary_aligned.pl.jsonl317 kB
      • specialized_rvk_vocabulary_aligned.pl.jsonl354 kB
      • specialized_rvk_vocabulary_aligned.is.jsonl327 kB
      • README.txt1 kB
    • hugtakalistar_rvk
      • README.txt1 kB
      • hugtok_reykjavik.tsv28 kB
      • hugtok_kjarnavefur.tsv10 kB
    • kjarnavefur
      • stjornsysla.pl.jsonl49 kB
      • ibuar.pl.jsonl189 kB
      • atvinnulif.is.jsonl39 kB
      • stjornsysla.is.jsonl46 kB
      • atvinnulif.pl.jsonl42 kB
      • README.txt1 kB
      • ibuar.is.jsonl161 kB
    • onnur_gogn
      • README.txt1 kB
      • onnur_gogn.pl.jsonl306 kB
      • onnur_gogn.is.jsonl286 kB

Show simple item record