<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:dc="http://purl.org/dc/elements/1.1/" version="2.0">
<channel>
<title>CLARIN-IS</title>
<link>https://repository.clarin.is:443/repository/xmlui</link>
<description>The LINDAT/CLARIAH-CZ digital repository system captures, stores, indexes, preserves, and distributes digital research material.</description>
<pubDate xmlns="http://apache.org/cocoon/i18n/2.1">Tue, 14 Apr 2026 14:04:43 GMT</pubDate>
<dc:date>2026-04-14T14:04:43Z</dc:date>
<item>
<title>Talrómur 4 (26.04)</title>
<link>http://hdl.handle.net/20.500.12537/383</link>
<description>Talrómur 4 (26.04)
Nikulásdóttir, Anna Björk; Schnell, Daniel
ENGLISH:&#13;
Talrómur 4 is a speech corpus containing recordings of children's voices. Three children at the age of 10, two girls and one boy, were recorded in four to five sessions each. The corpus consists of 2,881 audio clips of various length, from one word utterances up to paragraphs of 50 seconds. Texts accompany each recording. The audio is recorded at 48 kHz sample rate and 24 bit depth. Each audio file is stored in .flac format. In addition to the audio recordings, this corpus includes Voice Activity Detection (VAD) values for each utterance, obtained using OmniVAD.&#13;
The data is available for research and development of children's TTS voices under a restrictive license from University of Iceland. Please get in touch with contact person for further information.&#13;
&#13;
ÍSLENSKA:&#13;
Talrómur 4 er talgagnasafn með upptökum á barnaröddum. Þrjú tíu ára börn, tvær stúlkur og einn drengur, voru tekin upp í fjórum til fimm upptökulotum hvert. Gagnasafnið inniheldur 2.881 upptökur af mismunandi lengd, frá einu orði upp í lengri málsgreinar allt að 50 sekúndur að lengd. Texti fylgir hverri upptöku.&#13;
Hljóðskrárnar voru teknar upp í 48 kHz og með 24 bita dýpt. Skrárnar eru geymdar á .flac sniði&#13;
Auk hljóðskránna inniheldur þessi útgáfa raddvirknimerkingar (Voice Activity Detection values) fyrir hverja segð, fengnar með OmniVAD.&#13;
Gagnasafnið er ekki opið en hægt er að fá aðgang að því til rannsókna og þróunar á barna-talgervilsröddum samkvæmt leyfi frá Háskóla Íslands. Vinsamlegast hafið samband við tengilið verkefnisins fyrir frekari upplýsingar.
</description>
<pubDate>Fri, 10 Apr 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/383</guid>
<dc:date>2026-04-10T00:00:00Z</dc:date>
</item>
<item>
<title>IGC2024 Filtered-2</title>
<link>http://hdl.handle.net/20.500.12537/382</link>
<description>IGC2024 Filtered-2
Daðason, Jón Friðrik; Steingrímsson, Steinþór; Hafsteinsson, Hinrik
[English]&#13;
&#13;
This is a JSONL version of the 2024 release of the Icelandic Gigaword Corpus (IGC), prepared for language model training. The archive contains training and validation sets of unannotated documents from the IGC, licensed using the IGC license.&#13;
The corpus has been filtered, deduplicated, and normalized to remove content unsuitable for training. Documents were excluded if they contained unintended code (e.g., HTML, CSS, or JavaScript), optical character recognition errors, character encoding issues, highly repetitive n-gram sequences, or a very low word count, or if they were duplicates or near-duplicates of other documents in the IGC. In addition, recurring boilerplate text, such as lists of related articles and social media sharing links, has been removed where possible, along with author bylines and image captions. The remaining text has been normalized for whitespace, non-printable and control characters, and other similar issues.&#13;
 &#13;
&#13;
[Icelandic]&#13;
&#13;
Þetta er útgáfa af Íslensku risamálheildinni (RMH) frá 2024 á JSONL sniði, ætluð til þjálfunar á mállíkönum. Hún samanstendur af ómörkuðum skjölum úr RMH sem gefin eru út með risamálheildarleyfinu, IGC license. Gögnunum hefur verið skipt í þjálfunar- og þróunargögn.&#13;
Málheildin hefur verið síuð og normalíseruð til að fjarlægja efni sem hentar illa til þjálfunar. Skjölum var sleppt ef þau innihéldu forritunarkóða (t.d. HTML, CSS eða JavaScript), ljóslestrarvillur, stafasettsvandamál, hátt hlutfall af endurteknum n-stæðum, eða ef þau voru mjög stutt. Endurteknar útgáfur af sama skjali voru einnig fjarlægðar. Þar að auki hefur fastatexti (e. boilerplate text), eins og listar yfir tengdar greinar og hlekkir til að deila efni á samfélagsmiðlum, auk höfundalína og myndatexta, verið fjarlægður þar sem kostur var á. Textinn var að lokum normalíseraður með tilliti til bilstafa, ósýnilegra stafa, stýristafa og annarra svipaðra atriða.
</description>
<pubDate>Mon, 30 Mar 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/382</guid>
<dc:date>2026-03-30T00:00:00Z</dc:date>
</item>
<item>
<title>IGC2024 Filtered-1</title>
<link>http://hdl.handle.net/20.500.12537/381</link>
<description>IGC2024 Filtered-1
Daðason, Jón Friðrik; Steingrímsson, Steinþór; Hafsteinsson, Hinrik
[English]&#13;
&#13;
This is a JSONL version of the 2024 release of the Icelandic Gigaword Corpus (IGC), prepared for language model training. The archive contains training and validation sets of unannotated, CC-BY-licensed documents from the IGC.&#13;
&#13;
 &#13;
&#13;
The corpus has been filtered, deduplicated, and normalized to remove content unsuitable for training. Documents were excluded if they contained unintended code (e.g., HTML, CSS, or JavaScript), optical character recognition errors, character encoding issues, highly repetitive n-gram sequences, or a very low word count, or if they were duplicates or near-duplicates of other documents in the IGC. In addition, recurring boilerplate text, such as lists of related articles and social media sharing links, has been removed where possible, along with author bylines and image captions. The remaining text has been normalized for whitespace, non-printable and control characters, and other similar issues.&#13;
&#13;
 &#13;
&#13;
[Icelandic]&#13;
&#13;
Þetta er útgáfa af Íslensku risamálheildinni (RMH) frá 2024 á JSONL sniði, ætluð til þjálfunar á mállíkönum. Hún samanstendur af ómörkuðum skjölum úr RMH með CC-BY leyfi sem hefur verið skipt í þjálfunar- og þróunargögn.&#13;
&#13;
 &#13;
&#13;
Málheildin hefur verið síuð og normalíseruð til að fjarlægja efni sem hentar illa til þjálfunar. Skjölum var sleppt ef þau innihéldu forritunarkóða (t.d. HTML, CSS eða JavaScript), ljóslestrarvillur, stafasettsvandamál, hátt hlutfall af endurteknum n-stæðum, eða ef þau voru mjög stutt. Endurteknar útgáfur af sama skjali voru einnig fjarlægðar. Þar að auki hefur fastatexti (e. boilerplate text), eins og listar yfir tengdar greinar og hlekkir til að deila efni á samfélagsmiðlum, auk höfundalína og myndatexta, verið fjarlægður þar sem kostur var á. Textinn var að lokum normalíseraður með tilliti til bilstafa, ósýnilegra stafa, stýristafa og annarra svipaðra atriða.
</description>
<pubDate>Mon, 30 Mar 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/381</guid>
<dc:date>2026-03-30T00:00:00Z</dc:date>
</item>
<item>
<title>Sports Terminology 26.03</title>
<link>http://hdl.handle.net/20.500.12537/380</link>
<description>Sports Terminology 26.03
Sigurðsson, Einar Freyr; Magnússon, Magnús Már; Jasonarson, Atli; Steingrímsson, Steinþór
This dataset contains terminology from basketball, chess, football, golf and gymnastics. The vocabulary found here originates in a test suite at WMT25 (Conference on Machine Translation) where sports segments were translated from English to Icelandic. The data is published in TBX-format, one file for each subdomain, containing an English term, with Icelandic translations and part-of-speech.&#13;
&#13;
Gögnin sem hér eru birt innihalda íþróttaorð, nánar tiltekið úr körfubolta, skák, fótbolta, golfi og fimleikum. Orðaforðinn á uppruna sinn í verkefni á vélþýðingaráðstefnunni WMT25 þar sem íþróttatexti var þýddur úr ensku á íslensku. Gögnin eru birt á TBX-sniði, ein skrá fyrir hverja íþrótt og innihalda orð á ensku, þýðingar þeirra á íslensku og orðflokk.
</description>
<pubDate>Fri, 20 Mar 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/380</guid>
<dc:date>2026-03-20T00:00:00Z</dc:date>
</item>
<item>
<title>Spjallromur 26.03 - Icelandic Conversational Speech</title>
<link>http://hdl.handle.net/20.500.12537/379</link>
<description>Spjallromur 26.03 - Icelandic Conversational Speech
Fong, Judy, Y.; Borsky, Michal; Runarsson, Pall; Hedström, Staffan; Jónsson, Ólafur Helgi; Hólmfriðardóttir, Lára Margrét H.; Þorsteinsdóttir, Sunneva; Eiríksdóttir, Málfriður Anna; Mollberg, David Erok; Magnúsdóttir, Eydís Huld; Þórhallsdóttir, Ragnheiður; Gudnason, Jon
[ENGLISH]&#13;
Spjallromur is an open source conversational speech corpus for speech technology development. The corpus is 21 hrs and 20 mins long, with 54 total conversations, 102 speakers. The data was collected for one year (September 2020 - September 2021) by Reykjavík University. There are two parts, the first part has full conversations, while the second part has half conversations.&#13;
This item contains additional manual transcriptions for 21 full conversations, produced by three transcribers. Includes turn-level timestamps and speaker labels. Seven conversations have multiple transcriptions for inter-annotator comparison.&#13;
&#13;
[ÍSLENSKA]&#13;
Spjallrómur er gagnasafn samræðumálheildar ætlað fyrir þróun á máltæknilausnum, sem gefið er út með opnu leyfi. Gagnasafnið er 21 klst og 20 mín að lengd, alls 54 samtöl og 102 viðmælendur. Gögnunum var safnað í eitt ár (september 2020 - september 2021) af Háskólanum í Reykjavík. Það eru tveir hlutar, sá fyrri hluti hefur heil samtöl, en seinni hlutinn hefur hálf samtöl.&#13;
Hér eru, til viðbótar, handgerðar umritanir fyrir 21 heilt samtal sem voru umrituð af þremur einstaklingum. Það eru tímastimplar til staðar þegar mælendur skiptast á að tala ásamt mælendamerkingum. Sjö samtalanna hafa fleiri en eina umritun sem bera má saman.
</description>
<pubDate>Mon, 02 Mar 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/379</guid>
<dc:date>2026-03-02T00:00:00Z</dc:date>
</item>
<item>
<title>Icelandic-Polish Dictionary</title>
<link>http://hdl.handle.net/20.500.12537/378</link>
<description>Icelandic-Polish Dictionary
Úlfarsdóttir, Þórdís; Jónsdóttir, Halldóra; Bartoszek, Stanislaw; Kieliszewska, Aleksandra; Ambroziak, Mirosław Ólafur; Młyńska, Emilia; Bartoszek, Paweł
[ISL]&#13;
Íslensk-pólsk orðabók er gefin út af Stofnun Árna Magnússonar í íslenskum fræðum. Í henni eru um 54 þúsund íslensk uppflettiorð ásamt orðasamböndum og notkunardæmum. Allt efnið er þýtt á pólsku. Orðabókinni er ætlað að þjóna þörfum mismunandi notendahópa en helsti markhópurinn er pólskumælandi íbúar Íslands. Einnig kennarar og nemendur á öllum skólastigum, svo og þýðendur milli íslensku og pólsku. Íslenska ritstjórnin annast íslenska hluta orðabókarinnar ásamt tæknivinnslu, en vinna við pólsku er í umsjón pólsku ritstjórnarinnar. Orðabókin er aðgengileg á https://polska.arnastofnun.is en þar er að finna frekari upplýsingar.&#13;
&#13;
[EN]&#13;
The Icelandic-Polish Dictionary is published by the Árni Magnússon Institute for Icelandic Studies. It contains about 54,000 Icelandic headwords as well as phrases and usage examples. All the material is translated into Polish. The dictionary is intended to serve the needs of various user groups, but the primary target group is Polish-speaking residents of Iceland. Also teachers and students at all school levels, and translators between Icelandic and Polish. The Icelandic team manages the Icelandic part of the dictionary and the development of its computer system. The work on the Polish is done by the Polish editors. The dictionary is accessible at https://polska.arnastofnun.is, where further information can be found.
</description>
<pubDate>Fri, 13 Feb 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/378</guid>
<dc:date>2026-02-13T00:00:00Z</dc:date>
</item>
<item>
<title>Icelandic-French Dictionary</title>
<link>http://hdl.handle.net/20.500.12537/377</link>
<description>Icelandic-French Dictionary
Úlfarsdóttir, Þórdís; Jónsdóttir, Halldóra; Davíðsdóttir, Rósa Elín; Salaün, Jean-Christophe; Heenen, François; Pétursdóttir, Ólöf
[ISL]&#13;
Íslensk-frönsk orðabók er gefin út af Stofnun Árna Magnússonar í íslenskum fræðum í samstarfi við Stofnun Vigdísar Finnbogadóttur í erlendum tungumálum. Orðabókin nefnist Lexía. Í henni eru um 54 þúsund íslensk uppflettiorð ásamt orðasamböndum og notkunardæmum. Allt efnið er þýtt á frönsku. Orðabókinni er ætlað að þjóna þörfum mismunandi notendahópa, einkum kennurum og nemendum á efri skólastigum, svo og þýðendum milli íslensku og frönsku. Íslenska ritstjórnin annast íslenska hluta orðabókarinnar ásamt tæknivinnslu, en vinna við franska hlutann er í umsjón frönsku ritstjórnarinnar. Orðabókin er aðgengileg á https://lexia.arnastofnun.is en þar er að finna frekari upplýsingar.&#13;
&#13;
[EN]&#13;
The Icelandic-French Dictionary is published by the Árni Magnússon Institute for Icelandic Studies, in collaboration with the Vigdís Finnbogadóttir Institute for Foreign Languages. The dictionary is named Lexía. It contains about 54,000 Icelandic headwords as well as numerous phrases and usage examples. All the material is translated into French. The dictionary is intended to serve the needs of various user groups, especially teachers and students at higher school levels, and translators between Icelandic and French. The Icelandic team manages the Icelandic part of the dictionary and the development of its computer system, while work on the French part is under the supervision of the French editorial team. The dictionary is accessible at https://lexia.arnastofnun.is, where further information can be found.
</description>
<pubDate>Tue, 10 Feb 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/377</guid>
<dc:date>2026-02-10T00:00:00Z</dc:date>
</item>
<item>
<title>Islex - Icelandic-Scandinavian multilingual dictionary (2026-02)</title>
<link>http://hdl.handle.net/20.500.12537/376</link>
<description>Islex - Icelandic-Scandinavian multilingual dictionary (2026-02)
Úlfarsdóttir, Þórdís; Jónsdóttir, Halldóra
[ISL]&#13;
ISLEX er margmála skandinavísk orðabók með íslenskum uppflettiorðum og þýðingum á dönsku, sænsku, norsku (bókmáli og nýnorsku), færeysku og finnsku. ISLEX er samstarfsverkefni fræða- og háskólastofnana á Íslandi, í Danmörku, Svíþjóð, Noregi, Færeyjum og Finnlandi. Þær eru: Stofnun Árna Magnússonar í íslenskum fræðum í Reykjavík, Det Danske Sprog- og Litteraturselskab í Kaupmannahöfn, Institutionen för svenska språket við Háskólann í Gautaborg, Institutt for lingvistiske, litterære og estetiske studier við Háskólann í Bergen, Fróðskaparsetur Færeyja í Þórshöfn og Háskólinn í Helsinki, Finnlandi. Íslenska ritstjórnin ber ábyrgð á viðfangsmálinu (íslensku) ásamt mótun og þróun tölvukerfisins. Vinna við markmálin er í umsjón og á ábyrgð ritstjórna í hverju landi fyrir sig. Orðaforði ISLEX er um 55.000 orð.&#13;
&#13;
[EN]&#13;
ISLEX is a multilingual dictionary with Icelandic as a source language and translations in Danish, Swedish, Norwegian (Bokmål and Nynorsk), Faroese, and Finnish. ISLEX is a collaborative project between research and university institutions in Iceland, Denmark, Sweden, Norway, the Faroe Islands and Finland. These are: the Árni Magnússon Institute for Icelandic Studies in Reykjavík, the Danish Society for Language and Literature in Copenhagen, the Department of Swedish Language at the University of Gothenburg, the Department of Linguistic, Literary and Aesthetic Studies at the University of Bergen, the University of the Faroe Islands in Tórshavn and the University of Helsinki, Finland. The Icelandic editorial team is responsible for the source language as well as the development of the computer system. Work on the target languages is under the supervision and responsibility of editorial teams in each respective country. The vocabulary of ISLEX is approximately 55,000 words
</description>
<pubDate>Wed, 11 Feb 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/376</guid>
<dc:date>2026-02-11T00:00:00Z</dc:date>
</item>
<item>
<title>A Dictionary of Contemporary Icelandic</title>
<link>http://hdl.handle.net/20.500.12537/375</link>
<description>A Dictionary of Contemporary Icelandic
Úlfarsdóttir, Þórdís; Jónsdóttir, Halldóra
[ISL]&#13;
Íslensk nútímamálsorðabók (ÍNO) er veforðabók sem er gefin út af Stofnun Árna Magnússonar í íslenskum fræðum. Orðaforðinn er um 56 þúsund uppflettiorð auk orðasambanda og notkunardæma. Undirstaða verkefnisins er skandinavíska margmála orðabókin ISLEX sem einnig er gefin út af Árnastofnun. Íslensk nútímamálsorðabók lýsir orðaforðanum í íslensku frá því um 1950 til dagsins í dag. Einnig er hér að finna ýmis mikilvæg orð úr eldra máli svo og forníslensku sem vænta má að nemendur geti rekist á í námi sínu. Ritstjórar ÍNO eru Halldóra Jónsdóttir og Þórdís Úlfarsdóttir. Orðabókin er aðgengileg á https://islenskordabok.arnastofnun.is en þar er að finna frekari upplýsingar.&#13;
&#13;
[EN]&#13;
A Dictionary of Contemporary Icelandic (ÍNO) is an online dictionary published by the Árni Magnússon Institute for Icelandic Studies. The vocabulary consists of approximately 56,000 headwords, as well as phrases and examples of use. The project is based on the multilingual Scandinavian dictionary ISLEX, also published by the Árni Magnússon Institute.&#13;
The dictionary is centred on Icelandic vocabulary from around 1950 to the present day. It also includes various important words from older stages of the language, as well as Old Norse, which students are likely to encounter in their studies. The editors of ÍNO are Halldóra Jónsdóttir and Þórdís Úlfarsdóttir. The dictionary is available at https://islenskordabok.arnastofnun.is, where further information can be found.
</description>
<pubDate>Tue, 10 Feb 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/375</guid>
<dc:date>2026-02-10T00:00:00Z</dc:date>
</item>
<item>
<title>IceBERT-PoS (12-09-2025)</title>
<link>http://hdl.handle.net/20.500.12537/374</link>
<description>IceBERT-PoS (12-09-2025)
Jónsson, Haukur Páll
The IceBERT-PoS model is an adaptation of IceBERT (https://huggingface.co/mideind/IceBERT) specifically trained for tagging. Detailed README is available at https://huggingface.co/mideind/IceBERT-PoS.&#13;
&#13;
Líkanið IceBERT-PoS er aðlögun á IceBERT (https://huggingface.co/mideind/IceBERT) sem er sérþjálfað fyrir mörkun. Ítarlega README-skrá er að finna á https://huggingface.co/mideind/IceBERT-PoS.
</description>
<pubDate>Tue, 09 Dec 2025 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/374</guid>
<dc:date>2025-12-09T00:00:00Z</dc:date>
</item>
</channel>
</rss>
