<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:dc="http://purl.org/dc/elements/1.1/" version="2.0">
<channel>
<title>Clarin IS</title>
<link>http://hdl.handle.net/20.500.12537/4</link>
<description>Clarin IS Collection</description>
<pubDate>Sat, 06 Jun 2026 23:44:35 GMT</pubDate>
<dc:date>2026-06-06T23:44:35Z</dc:date>
<item>
<title>Talrómur 3 (v1.0)</title>
<link>http://hdl.handle.net/20.500.12537/387</link>
<description>Talrómur 3 (v1.0)
Örnólfsson, Gunnar Thor; Sigurgeirsson, Atli Þór; Nikulásdóttir, Anna Björk; Schnell, Daniel
ENGLISH:&#13;
Talrómur 3 is a public domain speech corpus for Text-To-Speech (TTS) research and development in the domain of emotional speech synthesis. The corpus consists of 21,528 audio clips of ten different speakers reading short sentences. The audio was recorded in 2024 by Reykjavík University and Grammatek as part of The Icelandic Language Technology Program. Each speaker read a script of 340 utterances in 6 different styles (neutral, happy, sad, angry, surprised and helpful). Additionally, each speaker read all letters in the icelandic alphabet and numbers from 0 to 20 both in isolation and as part of an enumeration.&#13;
The audio is recorded at 48 kHz sample rate and 24 bit depth. Each audio file is stored in .flac format.&#13;
In addition to the audio recordings, this corpus includes Voice Activity Detection (VAD) values for each utterance, obtained using Silero VAD, as well as Montreal Forced Aligner (MFA) phoneme-level alignments.&#13;
These additional data can be used to trim the audio or during model training.&#13;
 &#13;
ICELANDIC:&#13;
Talrómur 3 er opið gagnasafn ætlað til rannsókna og þróunar á talgervlum fyrir íslensku á sviði tilfinningaríkrar talgervingar. Gagnasafnið inniheldur 21.528 stuttar upptökur frá tíu mismunandi röddum. Hákólinn í Reykjavík og Grammatek stóðu að söfnun gagnanna árið 2024 á vegum Máltækniáætlunar fyrir íslensku. Fyrir hverja rödd hafa 340 segðir verið lesnar inn í 6 mismunandi tilbrigðum (hlutlaus, gleði, depurð, reiði, undrun og hjálpsemi). Þar að auki voru lesnir inn allir stafir stafrófsins og tölur frá 0 upp í 20 á tvo mismunandi vegu: í einangrun og líkt og í upptalningu.&#13;
Hljóðskrárnar voru teknar upp í 48 kHz og með 24 bita dýpt. Skrárnar eru geymdar á .flac sniði&#13;
Auk hljóðskránna inniheldur þessi útgáfa raddvirknimerkingar (Voice Activity Detection values) fyrir hverja segð, fengnar með Silero VAD, auk Montreal Forced Aligner (MFA) samraðana á hljóðanaskala.&#13;
Þessi viðbótargögn geta nýst til að snyrta hljóðskrárnar eða við þjálfun líkana.
</description>
<pubDate>Mon, 25 Aug 2025 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/387</guid>
<dc:date>2025-08-25T00:00:00Z</dc:date>
</item>
<item>
<title>Kyutai-stt-1b-is-en v1.0.0</title>
<link>http://hdl.handle.net/20.500.12537/386</link>
<description>Kyutai-stt-1b-is-en v1.0.0
Jónsson, Haukur Páll
A streaming speech-to-text model fine-tuned from kyutai/stt-1b-en_fr for Icelandic. The fine-tune extends the text vocabulary with Icelandic sub-words and adds two task-domain prompts so the same checkpoint can either transcribe Icelandic or translate Icelandic → English. More information can be found at https://huggingface.co/mideind/kyutai-stt-1b-is-en.&#13;
&#13;
Streymandi talgreiningarlíkan sem er fínþjálfað úr kyutai/stt-1b-en_fr fyrir íslensku. Fínþjálfunin stækkar orðaforða líkansins með íslenskum orðhlutum og bætir við tvenns konar fyrirmælum þannig að sami gátstaður getur annaðhvort umritað íslensku eða þýtt úr íslensku yfir á ensku. Frekari upplýsingar má finna á https://huggingface.co/mideind/kyutai-stt-1b-is-en.
</description>
<pubDate>Fri, 29 May 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/386</guid>
<dc:date>2026-05-29T00:00:00Z</dc:date>
</item>
<item>
<title>Revoxx - Speech Recording Application (v1.3.2)</title>
<link>http://hdl.handle.net/20.500.12537/385</link>
<description>Revoxx - Speech Recording Application (v1.3.2)
Schnell, Daniel
ENGLISH: Revoxx - Speech Recording Application Revoxx is a speech recording application specifically designed for creating high-quality TTS datasets quickly and reliably. Born from the experience gained during the recording of Talrómur 3 (the Icelandic emotional speech dataset, http://hdl.handle.net/20.500.12537/344), Revoxx condenses these learnings into a streamlined tool that minimizes recording and post-processing time. The application features automatic text size adjustment to screen real-estate, separate recording engineer and speaker views with multi-screen support (including Apple Sidecar for iPad), and maintains a complete archive of all raw recordings - even deleted takes. Key features include session-based recording organization with consistent audio settings and metadata across all recordings, automatic progress tracking, real-time mel spectrogram monitoring, industry-standard Peak/RMS level presets, advanced search and navigation by label/emotion/text, and batch export capabilities with optional VAD-based voice timestamps. Revoxx supports both emotional and non-emotional recordings, making it ideal for creating diverse speech datasets. For further documentation see project URL.&#13;
&#13;
ICELANDIC: Revoxx - Upptökuforrit fyrir talgagnasöfn Revoxx er upptökuforrit sem er sérstaklega hannað til að taka upp og útbúa hágæða gagnasöfn til þjálfunar á talgervlum. Forritið byggir á reynslu af upptökum á Talrómi 3 (íslenskt gagnasafn með tilfinningaríku tali, http://hdl.handle.net/20.500.12537/344) og hefur það að markmiði að lágmarka upptöku- og eftirvinnslutíma. Forritið býður upp á sjálfvirka textastærðaraðlögun að skjástærð, aðskilin upptökustjóra- og raddgjafaviðmót með fjölskjáastuðningi (þar með talið Apple Sidecar fyrir iPad), og heldur utan um heildarsafn allra frumupptaka, að þeim upptökum meðtöldum sem kann að hafa verið eytt á meðan á upptökum stóð. Helstu eiginleikar eru lotubundið upptökuskipulag með samræmdum hljóðstillingum og lýsigögnum fyrir allar upptökur, sjálfvirk framvinduskráning, mel-rófsrita vöktun í rauntíma, staðlaðar hámarks/RMS-stigs forstillingar, leitarvirkni eftir merkingum/tilfinningum/texta, og magnútflutningsgeta (e. batch export) með valfrjálsum VAD-tímastimplum. Revoxx styður bæði upptökur á hlutlausu og tilfinningaríku tali, sem gerir það kjörið fyrir fjölbreytt raddgagnasöfn. Sjá GitHub hirslu fyrir frekari skjölun.
</description>
<pubDate>Fri, 10 Apr 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/385</guid>
<dc:date>2026-04-10T00:00:00Z</dc:date>
</item>
<item>
<title>Icelandic ASR API</title>
<link>http://hdl.handle.net/20.500.12537/384</link>
<description>Icelandic ASR API
Schnell, Daniel
ENGLISH:&#13;
This project provides an OpenAI Whisper-compatible ASR service with automatic language detection and optimized Icelandic speech-to-text. The Icelandic models used are trained by Language and Voice Lab at the Reykjavik University. The package was developed primarily to be used by the Revoxx audio recording tool (http://hdl.handle.net/20.500.12537/365) to verify recordings. The tool is language independent but optimized for Icelandic.&#13;
&#13;
ÍSLENSKA:&#13;
Íslensk talgreiningarþjónusta sem er innleidd skv. OpenAI Whisper forritaskilum. Þjónustan inniheldur tungumálakennsl og notar fínþjálfuð íslensk líkön fyrir íslensku, þjálfuð af Mál- og raddtæknistofu HR. Þessi talgreiningarþjónusta er sett upp fyrst og fremst til þess að nýtast með Revoxx upptökutólinu, sjá (http://hdl.handle.net/20.500.12537/365). Talgreiningarþjónustan er ekki háð tungumáli, en sett upp með það fyrir augum að gagnast sérstaklega vel fyrir íslensku.
</description>
<pubDate>Fri, 10 Apr 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/384</guid>
<dc:date>2026-04-10T00:00:00Z</dc:date>
</item>
<item>
<title>Talrómur 4 (26.04)</title>
<link>http://hdl.handle.net/20.500.12537/383</link>
<description>Talrómur 4 (26.04)
Nikulásdóttir, Anna Björk; Schnell, Daniel
ENGLISH:&#13;
Talrómur 4 is a speech corpus containing recordings of children's voices. Three children at the age of 10, two girls and one boy, were recorded in four to five sessions each. The corpus consists of 2,881 audio clips of various length, from one word utterances up to paragraphs of 50 seconds. Texts accompany each recording. The audio is recorded at 48 kHz sample rate and 24 bit depth. Each audio file is stored in .flac format. In addition to the audio recordings, this corpus includes Voice Activity Detection (VAD) values for each utterance, obtained using OmniVAD.&#13;
The data is available for research and development of children's TTS voices under a restrictive license from University of Iceland. Please get in touch with contact person for further information.&#13;
&#13;
ÍSLENSKA:&#13;
Talrómur 4 er talgagnasafn með upptökum á barnaröddum. Þrjú tíu ára börn, tvær stúlkur og einn drengur, voru tekin upp í fjórum til fimm upptökulotum hvert. Gagnasafnið inniheldur 2.881 upptökur af mismunandi lengd, frá einu orði upp í lengri málsgreinar allt að 50 sekúndur að lengd. Texti fylgir hverri upptöku.&#13;
Hljóðskrárnar voru teknar upp í 48 kHz og með 24 bita dýpt. Skrárnar eru geymdar á .flac sniði&#13;
Auk hljóðskránna inniheldur þessi útgáfa raddvirknimerkingar (Voice Activity Detection values) fyrir hverja segð, fengnar með OmniVAD.&#13;
Gagnasafnið er ekki opið en hægt er að fá aðgang að því til rannsókna og þróunar á barna-talgervilsröddum samkvæmt leyfi frá Háskóla Íslands. Vinsamlegast hafið samband við tengilið verkefnisins fyrir frekari upplýsingar.
</description>
<pubDate>Fri, 10 Apr 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/383</guid>
<dc:date>2026-04-10T00:00:00Z</dc:date>
</item>
<item>
<title>IGC2024 Filtered-2</title>
<link>http://hdl.handle.net/20.500.12537/382</link>
<description>IGC2024 Filtered-2
Daðason, Jón Friðrik; Steingrímsson, Steinþór; Hafsteinsson, Hinrik
[English]&#13;
&#13;
This is a JSONL version of the 2024 release of the Icelandic Gigaword Corpus (IGC), prepared for language model training. The archive contains training and validation sets of unannotated documents from the IGC, licensed using the IGC license.&#13;
The corpus has been filtered, deduplicated, and normalized to remove content unsuitable for training. Documents were excluded if they contained unintended code (e.g., HTML, CSS, or JavaScript), optical character recognition errors, character encoding issues, highly repetitive n-gram sequences, or a very low word count, or if they were duplicates or near-duplicates of other documents in the IGC. In addition, recurring boilerplate text, such as lists of related articles and social media sharing links, has been removed where possible, along with author bylines and image captions. The remaining text has been normalized for whitespace, non-printable and control characters, and other similar issues.&#13;
 &#13;
&#13;
[Icelandic]&#13;
&#13;
Þetta er útgáfa af Íslensku risamálheildinni (RMH) frá 2024 á JSONL sniði, ætluð til þjálfunar á mállíkönum. Hún samanstendur af ómörkuðum skjölum úr RMH sem gefin eru út með risamálheildarleyfinu, IGC license. Gögnunum hefur verið skipt í þjálfunar- og þróunargögn.&#13;
Málheildin hefur verið síuð og normalíseruð til að fjarlægja efni sem hentar illa til þjálfunar. Skjölum var sleppt ef þau innihéldu forritunarkóða (t.d. HTML, CSS eða JavaScript), ljóslestrarvillur, stafasettsvandamál, hátt hlutfall af endurteknum n-stæðum, eða ef þau voru mjög stutt. Endurteknar útgáfur af sama skjali voru einnig fjarlægðar. Þar að auki hefur fastatexti (e. boilerplate text), eins og listar yfir tengdar greinar og hlekkir til að deila efni á samfélagsmiðlum, auk höfundalína og myndatexta, verið fjarlægður þar sem kostur var á. Textinn var að lokum normalíseraður með tilliti til bilstafa, ósýnilegra stafa, stýristafa og annarra svipaðra atriða.
</description>
<pubDate>Mon, 30 Mar 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/382</guid>
<dc:date>2026-03-30T00:00:00Z</dc:date>
</item>
<item>
<title>IGC2024 Filtered-1</title>
<link>http://hdl.handle.net/20.500.12537/381</link>
<description>IGC2024 Filtered-1
Daðason, Jón Friðrik; Steingrímsson, Steinþór; Hafsteinsson, Hinrik
[English]&#13;
&#13;
This is a JSONL version of the 2024 release of the Icelandic Gigaword Corpus (IGC), prepared for language model training. The archive contains training and validation sets of unannotated, CC-BY-licensed documents from the IGC.&#13;
&#13;
 &#13;
&#13;
The corpus has been filtered, deduplicated, and normalized to remove content unsuitable for training. Documents were excluded if they contained unintended code (e.g., HTML, CSS, or JavaScript), optical character recognition errors, character encoding issues, highly repetitive n-gram sequences, or a very low word count, or if they were duplicates or near-duplicates of other documents in the IGC. In addition, recurring boilerplate text, such as lists of related articles and social media sharing links, has been removed where possible, along with author bylines and image captions. The remaining text has been normalized for whitespace, non-printable and control characters, and other similar issues.&#13;
&#13;
 &#13;
&#13;
[Icelandic]&#13;
&#13;
Þetta er útgáfa af Íslensku risamálheildinni (RMH) frá 2024 á JSONL sniði, ætluð til þjálfunar á mállíkönum. Hún samanstendur af ómörkuðum skjölum úr RMH með CC-BY leyfi sem hefur verið skipt í þjálfunar- og þróunargögn.&#13;
&#13;
 &#13;
&#13;
Málheildin hefur verið síuð og normalíseruð til að fjarlægja efni sem hentar illa til þjálfunar. Skjölum var sleppt ef þau innihéldu forritunarkóða (t.d. HTML, CSS eða JavaScript), ljóslestrarvillur, stafasettsvandamál, hátt hlutfall af endurteknum n-stæðum, eða ef þau voru mjög stutt. Endurteknar útgáfur af sama skjali voru einnig fjarlægðar. Þar að auki hefur fastatexti (e. boilerplate text), eins og listar yfir tengdar greinar og hlekkir til að deila efni á samfélagsmiðlum, auk höfundalína og myndatexta, verið fjarlægður þar sem kostur var á. Textinn var að lokum normalíseraður með tilliti til bilstafa, ósýnilegra stafa, stýristafa og annarra svipaðra atriða.
</description>
<pubDate>Mon, 30 Mar 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/381</guid>
<dc:date>2026-03-30T00:00:00Z</dc:date>
</item>
<item>
<title>Sports Terminology 26.03</title>
<link>http://hdl.handle.net/20.500.12537/380</link>
<description>Sports Terminology 26.03
Sigurðsson, Einar Freyr; Magnússon, Magnús Már; Jasonarson, Atli; Steingrímsson, Steinþór
This dataset contains terminology from basketball, chess, football, golf and gymnastics. The vocabulary found here originates in a test suite at WMT25 (Conference on Machine Translation) where sports segments were translated from English to Icelandic. The data is published in TBX-format, one file for each subdomain, containing an English term, with Icelandic translations and part-of-speech.&#13;
&#13;
Gögnin sem hér eru birt innihalda íþróttaorð, nánar tiltekið úr körfubolta, skák, fótbolta, golfi og fimleikum. Orðaforðinn á uppruna sinn í verkefni á vélþýðingaráðstefnunni WMT25 þar sem íþróttatexti var þýddur úr ensku á íslensku. Gögnin eru birt á TBX-sniði, ein skrá fyrir hverja íþrótt og innihalda orð á ensku, þýðingar þeirra á íslensku og orðflokk.
</description>
<pubDate>Fri, 20 Mar 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/380</guid>
<dc:date>2026-03-20T00:00:00Z</dc:date>
</item>
<item>
<title>Spjallromur 26.03 - Icelandic Conversational Speech</title>
<link>http://hdl.handle.net/20.500.12537/379</link>
<description>Spjallromur 26.03 - Icelandic Conversational Speech
Fong, Judy, Y.; Borsky, Michal; Runarsson, Pall; Hedström, Staffan; Jónsson, Ólafur Helgi; Hólmfriðardóttir, Lára Margrét H.; Þorsteinsdóttir, Sunneva; Eiríksdóttir, Málfriður Anna; Mollberg, David Erok; Magnúsdóttir, Eydís Huld; Þórhallsdóttir, Ragnheiður; Gudnason, Jon
[ENGLISH]&#13;
Spjallromur is an open source conversational speech corpus for speech technology development. The corpus is 21 hrs and 20 mins long, with 54 total conversations, 102 speakers. The data was collected for one year (September 2020 - September 2021) by Reykjavík University. There are two parts, the first part has full conversations, while the second part has half conversations.&#13;
This item contains additional manual transcriptions for 21 full conversations, produced by three transcribers. Includes turn-level timestamps and speaker labels. Seven conversations have multiple transcriptions for inter-annotator comparison.&#13;
&#13;
[ÍSLENSKA]&#13;
Spjallrómur er gagnasafn samræðumálheildar ætlað fyrir þróun á máltæknilausnum, sem gefið er út með opnu leyfi. Gagnasafnið er 21 klst og 20 mín að lengd, alls 54 samtöl og 102 viðmælendur. Gögnunum var safnað í eitt ár (september 2020 - september 2021) af Háskólanum í Reykjavík. Það eru tveir hlutar, sá fyrri hluti hefur heil samtöl, en seinni hlutinn hefur hálf samtöl.&#13;
Hér eru, til viðbótar, handgerðar umritanir fyrir 21 heilt samtal sem voru umrituð af þremur einstaklingum. Það eru tímastimplar til staðar þegar mælendur skiptast á að tala ásamt mælendamerkingum. Sjö samtalanna hafa fleiri en eina umritun sem bera má saman.
</description>
<pubDate>Mon, 02 Mar 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/379</guid>
<dc:date>2026-03-02T00:00:00Z</dc:date>
</item>
<item>
<title>Icelandic-Polish Dictionary</title>
<link>http://hdl.handle.net/20.500.12537/378</link>
<description>Icelandic-Polish Dictionary
Úlfarsdóttir, Þórdís; Jónsdóttir, Halldóra; Bartoszek, Stanislaw; Kieliszewska, Aleksandra; Ambroziak, Mirosław Ólafur; Młyńska, Emilia; Bartoszek, Paweł
[ISL]&#13;
Íslensk-pólsk orðabók er gefin út af Stofnun Árna Magnússonar í íslenskum fræðum. Í henni eru um 54 þúsund íslensk uppflettiorð ásamt orðasamböndum og notkunardæmum. Allt efnið er þýtt á pólsku. Orðabókinni er ætlað að þjóna þörfum mismunandi notendahópa en helsti markhópurinn er pólskumælandi íbúar Íslands. Einnig kennarar og nemendur á öllum skólastigum, svo og þýðendur milli íslensku og pólsku. Íslenska ritstjórnin annast íslenska hluta orðabókarinnar ásamt tæknivinnslu, en vinna við pólsku er í umsjón pólsku ritstjórnarinnar. Orðabókin er aðgengileg á https://polska.arnastofnun.is en þar er að finna frekari upplýsingar.&#13;
&#13;
[EN]&#13;
The Icelandic-Polish Dictionary is published by the Árni Magnússon Institute for Icelandic Studies. It contains about 54,000 Icelandic headwords as well as phrases and usage examples. All the material is translated into Polish. The dictionary is intended to serve the needs of various user groups, but the primary target group is Polish-speaking residents of Iceland. Also teachers and students at all school levels, and translators between Icelandic and Polish. The Icelandic team manages the Icelandic part of the dictionary and the development of its computer system. The work on the Polish is done by the Polish editors. The dictionary is accessible at https://polska.arnastofnun.is, where further information can be found.
</description>
<pubDate>Fri, 13 Feb 2026 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/20.500.12537/378</guid>
<dc:date>2026-02-13T00:00:00Z</dc:date>
</item>
</channel>
</rss>
