Clarin IS
http://hdl.handle.net/20.500.12537/4
Clarin IS Collection2024-03-26T12:40:14ZIcelandic Parsed Historical Corpus (IcePaHC) 2024.03
http://hdl.handle.net/20.500.12537/325
Icelandic Parsed Historical Corpus (IcePaHC) 2024.03
Wallenberg, Joel C.; Ingason, Anton Karl; Sigurðsson, Einar Freyr; Rögnvaldsson, Eiríkur
The Icelandic Parsed Historical Corpus (IcePaHC) is a manually corrected treebank, parsed according to the annotation guidelines of The Penn Parsed Corpora of Historical English (PPCHE), with minor modifications that are specific to Icelandic (see https://linguist.is/wiki/ for further details). It consists of about 1 million words from the 12th century to the 21st. The samples in the corpus are close to being evenly distributed over this period. Most of the text consists of narratives and religious material but some samples from other genres are also included. The file format is labeled bracketing with a UTF-8 encoding. The corpus is released under a CC BY 4.0 license.
Sögulegi íslenski trjábankinn (IcePaHC) er handleiðréttur trjábanki sem er greindur samkvæmt þáttunarskema sögulegu ensku Penn-trjábankanna (Penn Parsed Corpora of Historical English; PPCHE). Bankinn inniheldur um 1 milljón lesmálsorða frá 12. til 21. aldar. Gögnin í málheildinni eru tiltölulega jafndreifð yfir þetta tímabil. Flestir textarnir eru frásagnartextar eða trúartextar en einnig er um að ræða einhver dæmi um aðrar textategundir. Skráarsniðið er svigasnið (e. labeled bracketing) og textinn er í UTF-8 stafasetti. Málheildinni er dreift með CC BY 4.0 leyfi.
2024-03-01T00:00:00ZByte-Level Neural Error Correction Model for Icelandic - Yfirlestur (24.03)
http://hdl.handle.net/20.500.12537/324
Byte-Level Neural Error Correction Model for Icelandic - Yfirlestur (24.03)
Ingólfsdóttir, Svanhvít Lilja; Arnardóttir, Þórunn; Ragnarsson, Pétur Orri; Jónsson, Haukur Páll; Símonarson, Haukur Barri; Þorsteinsson, Vilhjálmur; Snæbjarnarson, Vésteinn
This Byte-Level Neural Error Correction Model for Icelandic is a fine-tuned byT5-base Transformer model for error correction in natural language. It acts as a machine translation model in that it “translates” from deficient Icelandic to correct Icelandic. The model is an improved version of a previous model which is accessible here: http://hdl.handle.net/20.500.12537/321. The improved model is trained on contextual and domain-tagged data, with an additional span-masking pre-training, along with a wider variety of text genre.
The model is trained on span-masked data, parallel synthetic error data and real error data. The span-masked pre-training data consisted of a wide variety of texts, including forums and texts from the Icelandic Gigaword Corpus (IGC, http://hdl.handle.net/20.500.12537/254). Synthetic error data was taken from different texts, e.g. from IGC (data which was excluded from the span-masked data), MÍM (http://hdl.handle.net/20.500.12537/113), student essays and educational material. This data was scrambled to simulate real grammatical and typographical errors, and some span-masking was included. Fine-tuning data consisted of data from the iceErrorCorpus (IceEC, http://hdl.handle.net/20.500.12537/73) and the three specialised error corpora (L2: http://hdl.handle.net/20.500.12537/131, dyslexia: http://hdl.handle.net/20.500.12537/132, child language: http://hdl.handle.net/20.500.12537/133).
The model can correct a variety of textual errors, even in texts containing many errors, such as those written by people with dyslexia. Measured on the Grammatical Error Correction Test Set (http://hdl.handle.net/20.500.12537/320), the model scores 0.898229 on the GLEU metric (modified BLEU for grammatical error correction) and 0.07% in TER (translation error rate). When measured on the Icelandic Error Corpus' test set, the model scores 0.906834 on the GLEU metric and 0.04% in TER.
Þetta leiðréttingarlíkan fyrir íslensku er fínþjálfað byT5-base Transformer-líkan. Það er í raun þýðingalíkan sem þýðir úr íslenskum texta með villum yfir í texta án villna. Líkanið er uppfærð útgáfa af fyrra líkani sem má nálgast hér: http://hdl.handle.net/20.500.12537/321. Uppfærða líkanið er þjálfað á samhengi og gögnum sem hafa verið merkt fyrir óðölum ásamt eyðufylllingarþjálfun og þjálfun með fjölbreyttari texta.
Líkanið er þjálfað í eyðufyllingu, á samhliða gervivillugögnum og raunverulegum villugögnum. Eyðufyllingargögn voru tekin úr ýmsum texta, m.a. úr spjallborðum og textum úr Risamálheildinni (http://hdl.handle.net/20.500.12537/254). Gervivillugögn voru einnig tekin úr ýmsum texta, m.a. úr Risamálheildinni (þeim hluta sem var ekki í eyðufyllingarverkefninu), MÍM (http://hdl.handle.net/20.500.12537/113), nemendaritgerðum og fræðsluefni. Gögnin voru rugluð til þess að líkja eftir raunverulegum málfræði- og ritunarvillum og voru að hluta til hulin til þess að þjálfa eyðufyllingu. Fínþjálfunargögn voru tekin úr íslensku villumálheildinni (http://hdl.handle.net/20.500.12537/73) og sérhæfðu villumálheildunum þremur (íslenska sem erlent mál: http://hdl.handle.net/20.500.12537/131, lesblinda: http://hdl.handle.net/20.500.12537/132, barnatextar: http://hdl.handle.net/20.500.12537/133).
Líkanið getur leiðrétt fjölbreyttar textavillur, jafnvel í texta sem inniheldur mjög margar villur, svo sem frá fólki með lesblindu. Líkanið skorar 0,898229 GLEU-stig (BLEU nema lagað að málrýni) og er með 0,07% villuhlutfall í þýðingu (translation error rate), þegar það er metið á Prófunarmengi fyrir textaleiðréttingar (http://hdl.handle.net/20.500.12537/320). Þegar það er metið á prófunarmengi íslensku villumálheildarinnar skorar líkanið 0,906834 GLEU-stig og er með 0,04% villuhlutfall í þýðingu.
2024-03-06T00:00:00ZTalrómur RAW (24.01)
http://hdl.handle.net/20.500.12537/322
Talrómur RAW (24.01)
Gunnarsson, Þorsteinn Daði; Gunnar Thor, Örnólfsson; Sigurgeirsson, Atli Þór; Þórhallsdóttir, Ragnheiður; Magnúsdóttir, Eydís Huld; Guðnason, Jón
This is the raw audio from the collection of Talrómur (21.02)¹ in Flac format.
The audio has not been filtered, post processed, or verified in any way.
Some audio files could be broken or missing.
Each collection has one speaker.
There are eight unique speakers in total.
Collection 7 and 26 have the same speaker.
Collection 25 and 28 have the same speaker.
Þetta eru hrágögn á hljóðupptökum frá söfnuninni á Talrómi (21.02)¹.
Ekki hefur verið átt við hljóðið á neitt hátt.
Það gæti vantað einhverjar skrár og aðrar gætu verið ónothæfar.
Hvert skráarsafn inniheldur eina rödd.
Það eru samtals átta mismunandi raddir.
Safn 7 og 26 er sama röddin.
Safn 25 og 28 er sama röddin.
¹http://hdl.handle.net/20.500.12537/104
2024-01-30T00:00:00ZByte-Level Neural Error Correction Model for Icelandic - Yfirlestur (23.12)
http://hdl.handle.net/20.500.12537/321
Byte-Level Neural Error Correction Model for Icelandic - Yfirlestur (23.12)
Ingólfsdóttir, Svanhvít Lilja; Arnardóttir, Þórunn; Ragnarsson, Pétur Orri; Jónsson, Haukur Páll; Símonarson, Haukur Barri; Þorsteinsson, Vilhjálmur; Snæbjarnarson, Vésteinn
This Byte-Level Neural Error Correction Model for Icelandic is a fine-tuned byT5-base Transformer model for error correction in natural language. It acts as a machine translation model in that it “translates” from deficient Icelandic to correct Icelandic. The model is an improved version of a previous model which is accessible here: http://hdl.handle.net/20.500.12537/255. The improved model is trained on contextual and domain-tagged data, with an additional span-masking pre-training, along with a wider variety of text genre.
The model is trained on span-masked data, parallel synthetic error data and real error data. The span-masking pre-training step consisted of 30 million training examples from a wide variety of texts, including forums and texts from the Icelandic Gigaword Corpus (IGC, http://hdl.handle.net/20.500.12537/254). Synthetic error data consisted of 8.5 million training examples taken from different texts. Data for this was e.g. obtained from IGC (data which was excluded from the span-masked data), MÍM (http://hdl.handle.net/20.500.12537/113), student essays and educational material. This data was scrambled to simulate real grammatical and typographical errors. Fine-tuning data consisted of data from the iceErrorCorpus (IceEC, http://hdl.handle.net/20.500.12537/73) and the three specialised error corpora (L2: http://hdl.handle.net/20.500.12537/131, dyslexia: http://hdl.handle.net/20.500.12537/132, child language: http://hdl.handle.net/20.500.12537/133).
The model can correct a variety of textual errors, even in texts containing many errors, such as those written by people with dyslexia. Measured on the Grammatical Error Correction Test Set, the model scores 0.918975 on the GLEU metric (modified BLEU for grammatical error correction) and 0.06% in TER (translation error rate).
Þetta leiðréttingarlíkan fyrir íslensku er fínþjálfað byT5-base Transformer-líkan. Það er í raun þýðingalíkan sem þýðir úr íslenskum texta með villum yfir í texta án villna. Líkanið er uppfærð útgáfa af fyrra líkani sem má nálgast hér: http://hdl.handle.net/20.500.12537/255. Uppfærða líkanið er þjálfað á samhengi og gögnum sem hafa verið merkt fyrir óðölum ásamt eyðufylllingarþjálfun og þjálfun með fjölbreyttari texta.
Líkanið er þjálfað í eyðufyllingu, á samhliða gervivillugögnum og raunverulegum villugögnum. Eyðufyllingarþjálfun var gerð á 30 milljónum þjálfunardæma sem voru tekin úr ýmsum texta, m.a. úr spjallborðum og textum úr Risamálheildinni (http://hdl.handle.net/20.500.12537/254). Gervivillugögn innihéldu 8,5 milljón þjálfunardæmi sem voru einnig tekin úr ýmsum texta. Sá texti var m.a. úr Risamálheildinni (þeim hluta sem var ekki í eyðufyllingarverkefninu), MÍM (http://hdl.handle.net/20.500.12537/113), nemendaritgerðum og fræðsluefni. Gögnin voru rugluð til þess að líkja eftir raunverulegum málfræði- og ritunarvillum. Fínþjálfunargögn voru tekin úr íslensku villumálheildinni (http://hdl.handle.net/20.500.12537/73) og sérhæfðu villumálheildunum þremur (íslenska sem erlent mál: http://hdl.handle.net/20.500.12537/131, lesblinda: http://hdl.handle.net/20.500.12537/132, barnatextar: http://hdl.handle.net/20.500.12537/133).
Líkanið getur leiðrétt fjölbreyttar textavillur, jafnvel í texta sem inniheldur mjög margar villur, svo sem frá fólki með lesblindu. Líkanið skorar 0.918975 GLEU-stig (BLEU nema lagað að málrýni) og er með 0.06% villuhlutfall í þýðingu (translation error rate), þegar það er metið á Prófunarmengi fyrir textaleiðréttingar.
2023-12-31T00:00:00ZGrammatical Error Correction Test Set
http://hdl.handle.net/20.500.12537/320
Grammatical Error Correction Test Set
Símonarson, Haukur Barri; Ingólfsdóttir, Svanhvít Lilja; Arnardóttir, Þórunn; Guðmundsdóttir, Dagbjört; Georgsdóttir, Ella María; Friðjónsdóttir, Guðrún Lilja
The Grammatical Error Correction Test Set contains test data for spell and grammar checking with a focus on semantic analysis.
The test data is divided into three different formats, type 1, 2 and 3. For every original file corrected, three files are included in the test data when possible: _original, _corrected and _metadata. The original and metadata files are always .txt files, but the format of the corrected file differs between types.
Texts corrected are from the News2 subcorpus of the Icelandic Gigaword Corpus (http://hdl.handle.net/20.500.12537/238) and the Icelandic Common Crawl Corpus (IC3) (https://huggingface.co/datasets/mideind/icelandic-common-crawl-corpus-IC3). The News2 corpus is published under an IGC-Corpus License, which does not allow third-party publishing, so original texts corrected are not published. Titles of the original corpus files are provided for every IGC text in the test data along with a script which fetches and prints out the original IGC text with relevant corrections in the test data. Original texts from IC3 are published as part of this data.
Each type serves a different purpose in evaluating a spell and grammar checking system. Type 1, with span marking, can be used to evaluate how well a model detects spans which may contain errors. This can be used for evaluating error detection accuracy, i.e. grammatical error detection, and general error-finding capabilities of large language models. Type 2, with errors marked and corrected, can be used to evaluate grammatical error detection and correction, i.e. both error detection and error correction accuracy. This data can be used to calculate automatic evaluation scores, such as GLEU. Type 3, with errors marked and corrected, enables the computation of error detection and error correction accuracy. This type has the additional information of an explanation to a correction and a severity score, which can be used when training and evaluating future large language models.
Texts in the test set focus on the following error categories:
- Idiomatic expressions.
- Frequent errors, e.g. word space errors, punctuation, capitalization and wrong prepositions used.
- Context in the text, e.g. consistent choice of words or correct personal pronouns used throughout the text.
- Errors relating to cohesion or coherence.
- Semantic analysis, i.e. errors that depend on meaning.
Size
Type 1:
- IC3 texts are 160 and original files consist of 74,308 words.
- IGC-News2 texts are 189 and original files consist of 122,989 words.
Type 2:
- IC3 texts are 98 and original files consist of 47,872 words.
- IGC-News2 texts are 257 and original files consist of 101,325 words.
Type 3:
- IC3 files are 131 and original files consist of 31,455 words.
For more information, see the README file attached to the resource.
Prófunarmengi fyrir textaleiðréttingar inniheldur prófunargögn fyrir stafsetningar- og málfræðileiðréttingu með áherslu á merkingargreiningu.
Prófunarmenginu er skipt eftir þremur mismunandi sniðum: tegund 1, 2 og 3. Fyrir hvert upprunalegt skjal sem er leiðrétt fylgja þrjár skrár þegar hægt er: „_original“, „_corrected“ og „_metadata“. Upprunalega skjalið og lýsigagnaskjal eru alltaf .txt-skrár en snið leiðréttu skráarinnar er mismunandi eftir tegundum.
Leiðréttir textar eru fengnir úr News2-undirmálheild Risamálheildarinnar (http://hdl.handle.net/20.500.12537/238) og úr íslensku Common Crawl-málheildinni (IC3) (https://huggingface.co/datasets/mideind/icelandic-common-crawl-corpus-IC3). News2-málheildin er gefin út undir IGC-Corpus-leyfi sem leyfir ekki endurútgáfu gagnanna þannig að upprunalegir textar málheildarinnar eru ekki gefnir út hér. Heiti upprunalegra skráa í málheildinni eru gefin fyrir hvern texta í prófunarmenginu sem fenginn er úr Risamálheildinni ásamt skriftu sem sækir og prentar út upprunalegan texta Risamálheildarinnar með leiðréttingum úr prófunargögnunum. Upprunalegir textar fengnir úr IC3 eru gefnir út með prófunarmenginu.
Hver tegund af gögnum þjónar mismunandi tilgangi við mat á stafsetningar- og málfræðileiðréttingu. Í tegund 1 eru spannir merktar og þau gögn geta því verið notuð til þess að meta hversu vel líkan finnur spannir sem geta innihaldið villur. Gögnin má nota til þess að reikna út nákvæmni villuuppgötvunar líkans en einnig til að meta almenna getu risamállíkana í að finna mögulegar villur í texta. Í tegund 2 eru villur merktar og leiðréttar og þau gögn geta því verið notuð til þess að meta hversu gott líkan er í að bæði finna og leiðrétta villur. Þessi gögn er hægt að nota til þess að reikna út sjálfvirk matsskor eins og GLEU. Tegund 3 gerir útreikning á villuuppgötvun og villuleiðréttingu mögulegan. Þessi tegund inniheldur einnig útskýringar á leiðréttingum og alvarleikaskor, sem má nota bæði til þess að þjálfa og meta risamállíkön framtíðarinnar.
Textar prófunarmengisins einblína á eftirfarandi villuflokka:
- Föst orðasambönd.
- Algeng málfarsatriði.
- Samhengi í skjali.
- Villur í samloðun/samfellu.
- Merkingargreining.
Umfang
Tegund 1:
- IC3-textar eru 160 talsins og upprunalegar skrár innihalda 74.308 orð.
- News2-textar eru 189 talsins og upprunalegar skrár innihalda 122.989 orð.
Tegund 2:
- IC3-textar eru 98 talsins og upprunalegar skrár innihalda 47.872 orð.
- News2-textar eru 257 talsins og upprunalegar skrár innihalda 101.325 orð.
Tegund 3:
- IC3-textar eru 131 talsins og upprunalegar skrár innihalda 31.455 orð.
Frekari upplýsingar má finna í README-skránni sem fylgir gögnunum.
2023-12-31T00:00:00ZIslex - Icelandic-Scandinavian multilingual dictionary (2023)
http://hdl.handle.net/20.500.12537/319
Islex - Icelandic-Scandinavian multilingual dictionary (2023)
Úlfarsdóttir, Þórdís; Jónsdóttir, Halldóra; Jónsson, Jón Hilmar
[ENG]
ISLEX is a multilingual dictionary between modern Icelandic (as a source language) and six Scandinavian target languages: Danish, Norwegian (both standards: Bokmål and Nynorsk), Swedish, Faroese and Finnish. The project is a collaboration of five institutes: The Árni Magnússon Institute for Icelandic Studies (AMI) in Reykjavík, Iceland; The Danish Society for Language and Literature (DSL) in Copenhagen, Denmark; The Department of Linguistic, Literary and Aesthetic Studies at Bergen University, Norway; and the Department of Swedish at Gothenburg University, Sweden. The project has mainly been financed by the governments of these countries. The administration of ISLEX is in Reykjavík. The Icelandic part of the dictionary is compiled and processed by AMI, and the development of the database and the software is also centred there. The editing of the target languages takes place in the participating countries, each editorial team being responsible for their own target language.
[ISL]
ISLEX er margmála orðabókarverk með íslenskum uppflettiorðum og þýðingum á dönsku, sænsku, norsku (bókmáli og nýnorsku), færeysku og finnsku. ISLEX er samstarfsverkefni fræða- og háskólastofnana á Íslandi, í Danmörku, Svíþjóð, Noregi og Færeyjum. Þær eru Stofnun Árna Magnússonar í íslenskum fræðum (SÁ) í Reykjavík, Institutionen för svenska språket við Háskólann í Gautaborg, Institutt for lingvistiske, litterære og estetiske studier við Háskólann í Bergen og Det Danske Sprog- og Litteraturselskab í Kaupmannahöfn. Íslenska ritstjórnin ber ábyrgð á viðfangsmálinu (íslensku) og mótun og þróun gagnagrunnsins fyrir ISLEX. Vinna við markmálin er í umsjón og á ábyrgð ritstjórna í hverju landi fyrir sig.
2023-12-12T00:00:00ZA Dictionary of Contemporary Icelandic
http://hdl.handle.net/20.500.12537/318
A Dictionary of Contemporary Icelandic
Jónsdóttir, Halldóra; Úlfarsdóttir, Þórdís
[ENG]
A Dictionary of Contemporary Icelandic (Íslensk nútímamálsorðabók) is an online dictionary which has been compiled at the Árni Magnússon Institute for Icelandic Studies, Department of Lexical Studies and Lexicography. The vocabulary amounts to a medium-sized dictionary, 56,000 headwords. The base of this work is the multilingual ISLEX dictionary which is also published by the Árni Magnússon Institute. The dictionary describes Icelandic vocabulary from around 1950 up to the present date. Important words belonging to older stages of the language are also included, in addition to Old Icelandic words that students may encounter in their studies (such as bolöxi, fjörbaugsgarður, hjálmvölur and jarteikn). The editors of the dictionary are Halldóra Jónsdóttir and Þórdís Úlfarsdóttir. Information on other contributors can be found at the ISLEX website (https://islex.arnastofnun.is).
[ISL]
Íslensk nútímamálsorðabók er veforðabók sem samin er á Stofnun Árna Magnússonar í íslenskum fræðum (SÁM), orðfræðisviði. Orðaforðinn er á við rúmlega meðalstóra orðabók, 56 þúsund uppflettiorð. Undirstaða verkefnisins þess er margmála orðabókin ISLEX sem einnig er gefin út af SÁM. Íslensk nútímamálsorðabók lýsir orðaforðanum í íslensku frá því um 1950 til dagsins í dag. Einnig er hér að finna ýmis mikilvæg orð úr eldra máli svo og forníslensku sem vænta má að nemendur geti rekist á í námi sínu (t.d. bolöxi, fjörbaugsgarður, hjálmvölur og jarteikn). Ritstjórar Íslenskrar nútímamálsorðabókar eru Halldóra Jónsdóttir og Þórdís Úlfarsdóttir. Þar sem orðabókin er að miklu leyti byggð á öðru verki, ISLEX, vísast til upplýsinga á þeim vef (https://islex.arnastofnun.is) um aðra starfsmenn sem átt hafa hlut að máli.
2023-12-04T00:00:00ZIGC-Books 23.10 (annotated version)
http://hdl.handle.net/20.500.12537/317
IGC-Books 23.10 (annotated version)
Barkarson, Starkaður; Steingrímsson, Steinþór; Hafsteinsdóttir, Hildur; Ingimundarson, Finnur Ágúst; Magnússon, Árni Davíð
ENGLISH:
IGC-Books is part of the IGC-Project (https://igc.arnastofnun.is) that aims to collect as much as possible of Icelandic texts that can be published under an open or restricted licence. IGC-Books contains texts from books that have been published in Iceland. Each corpus is published in two versions. IGC-Books contains plain text while IGC-Book.ana is a linguistically marked-up version. This corpus contains the tokenized and annotated version of IGC-Books. The unannotated version can be found here: http://hdl.handle.net/20.500.12537/249.
ÍSLENSKA:
IGC-Books er hluti af IGC-verkefninu (https://igc.arnastofnun.is) sem miðar að því að safna eins miklu og mögulegt er af íslenskum texta sem hægt er að gefa út með opnu eða takmörkuðu leyfi. IGC-Books inniheldur texta úr bókum sem hafa komið út á íslensku. Málheildin er gefin út í tveimur útgáfum. IGC-Books inniheldur ótókaðan og ómarkaðan texta á meðan IGC-Book.ana er bæði tókuð og mörkuð. Þessi málheild inniheldur markaða útgáfu af IGC-Books. Ómarkaða útgáfu má finna hér: http://hdl.handle.net/20.500.12537/249.
2023-10-25T00:00:00ZIGC-Books 23.10 (unannotated version)
http://hdl.handle.net/20.500.12537/316
IGC-Books 23.10 (unannotated version)
Barkarson, Starkaður; Steingrímsson, Steinþór; Hafsteinsdóttir, Hildur; Ingimundarson, Finnur Ágúst; Magnússon, Árni Davíð
ENGLSH:
IGC-Books is part of the IGC-Project (https://igc.arnastofnun.is) that aims to collect as much as possible of Icelandic texts that can be published under an open or restricted licence. IGC-Books contains texts from books that have been published in Iceland. Each corpus is published in two versions. IGC-Books contains plain text while IGC-Book.ana is a linguistically marked-up version. This corpus contains the untokenized and unannotated versions of IGC-Books. The annotated version can be found here: http://hdl.handle.net/20.500.12537/250.
ÍSLENSKA:
IGC-Books er hluti af IGC-verkefninu (https://igc.arnastofnun.is) sem miðar að því að safna eins miklu og mögulegt er af íslenskum texta sem hægt er að gefa út með opnu eða takmörkuðu leyfi. IGC-Books inniheldur texta úr bókum sem hafa komið út á íslensku. Málheildin er gefin út í tveimur útgáfum. IGC-Books inniheldur ótókaðan og ómarkaðan texta á meðan IGC-Book.ana er bæði tókuð og mörkuð. Þessi málheild inniheldur ómarkaða útgáfu af IGC-Books. Markaða útgáfu má finna hér: http://hdl.handle.net/20.500.12537/250.
2023-10-25T00:00:00ZGamli: Icelandic Oral History Corpus (2023-06-05)
http://hdl.handle.net/20.500.12537/315
Gamli: Icelandic Oral History Corpus (2023-06-05)
O'Brien, Luke; Ingimundarson, Finnur Ágúst; Steingrímsson, Steinþór; Þorsteinsdóttir, Rósa; Dagsson, Trausti; Kjaran, Róbert; Magnúsdóttir, Eydís Huld
Gamli is an ASR corpus for Icelandic oral histories, the first of its kind for this language, derived from the ethnographic collection of the Árni Magnússon Institute for Icelandic Studies (available on ismus.is) and is the result of collaboration between that same institute and the Icelandic language technology company Tiro. The corpus contains 146 hours of transcribed audio broken down into:
Training set:
1. ∼ 102 hours from optical character recognition (OCR) of previous transcriptions of interviews in various formats.
2. ∼ 35 hours of new transcriptions (post-edited from ASR output).
Test set:
1. ~ 9 hours manually reviewed, corrected and annotated with speaker ID and time alignments in the annotation tool ELAN. This data originally came from optical character recognition (OCR) of previous transcriptions of interviews in various formats. The test set contains recordings with 10 speakers, 5 women and 5 men, plus the interviewers (4 men).
The corpus contains 210 unique speakers, 90 women and 120 men (plus the interviewers: 14 men and 1 woman), but the total audio length with each individual speaker varies quite a lot with three men accounting for one third of the entire data. The age ranges from 38 to 99, but most of the speakers are 60+ (94.8%) and the average age of the speakers is 77 years. This ratio is unprecedented in all existing corpora for Icelandic speech (cf. 4.8% of speakers in Samrómur are 60+) and makes Gamli an important addition to that collection.
Further description of the corpus can be found in the following paper published in the Nodalida 2023 proceedings:
https://aclanthology.org/2023.nodalida-1.59/; [ÍSLENSKA]
Gamli er talmálheild sem byggir á upptökum sem hýstar eru á vefnum ismus.is og eru úr þjóðfræðisafni Stofnunar Árna Magnússonar í íslenskum fræðum. Talmálheildin er afrakstur samstarfsverkefnis milli Árnastofnunar og íslenska máltæknifyrirtækisins Tiro og hefur að geyma 146 klukkustundir af upptökum sem skiptast í:
Þjálfunargögn:
1. ∼ 102 klst. af ljóslesnum uppskriftum sem til voru á ólíku formi í þjóðfræðisafni Árnastofnunar.
2. ∼ 35 klst. af nýjum uppskriftum sem voru yfirfarnar eftir talgreiningu.
Prófunargögn:
1. ∼ 9 klst. af þjálfunargögnum sem voru unnin í forritinu ELAN. Þar eru 10 viðmælendur, 5 konur og 5 karlar, auk spyrla (4 karlar). Þessi gögn byggja einnig á ljóslesnum uppskriftum sem til voru í þjóðfræðisafni Árnastofnunar.
Í málheildinni allri eru 210 viðmælendur, 90 konur og 120 karlar (auk spyrla: 14 karlar og 1 kona), en heildarlengd efnis með hverjum viðmælanda er mislangt og skera þrír karlar sig sérstaklega úr því að þeir eiga samanlagt um þriðjung efnisins. Aldur viðmælenda er á bilinu 38 til 99, en langflestir eru eldri en 60 ára eða um 94,8% og meðalaldur þeirra er 77 ár. Þetta háa hlutfall eldri viðmælenda er langtum hærra en í þeim íslensku málheildum sem þegar eru til (sbr. að einungis 4,8% eru eldri en 60 ára í Samrómi) og er Gamli því mikilvæg viðbót í safnið.
Nánari lýsingu á gögnunum má finna í grein sem birtist í ráðstefnuriti Nodalida 2023: https://aclanthology.org/2023.nodalida-1.59
2023-04-04T00:00:00Z