Clarin IS

Clarin IS http://hdl.handle.net/20.500.12537/4 Clarin IS Collection 2026-07-17T09:39:57Z Icegrams v1.1.3 (2025-09-15) (2026-06-26) http://hdl.handle.net/20.500.12537/390 Icegrams v1.1.3 (2025-09-15) (2026-06-26) Þorsteinsson, Vilhjálmur; Óladóttir, Hulda Icegrams is a Python 3 package that encapsulates a large trigram library for Icelandic. 14 million unique trigrams and their frequency counts are heavily compressed using radix tries and quasi-succinct indices employing Elias-Fano encoding. This enables the ~43 megabyte compressed trigram file to be mapped directly into memory, with no ex ante decompression, for fast queries (typically ~10 microseconds per lookup). More information at: https://github.com/mideind/Icegrams Icegrams er Python 3 pakki sem inniheldur stórt safn orðaþrennda (trigrams) fyrir íslensku. Í safninu eru um 14 milljónir ólíkra þrennda ásamt tíðniupplýsingum. Öllu safninu hefur verið þjappað niður í u.þ.b. 43 megabæti sem varpað er beint í minni þannig að uppfletting er mjög hraðvirk (~10 míkrósekúndur fyrir hverja uppflettingu). Frekari upplýsingar á: https://github.com/mideind/Icegrams 2022-01-01T00:00:00Z GreynirEngine 3.5.8 (2025-09-15) (2026-06-26) http://hdl.handle.net/20.500.12537/389 GreynirEngine 3.5.8 (2025-09-15) (2026-06-26) Þorsteinsson, Vilhjálmur; Óladóttir, Hulda; Þórðarson, Sveinbjörn; Arnardóttir, Þórunn; Eyjólfsson, Logi GreynirPackage is a Python 3 package for working with Icelandic natural language text. Greynir can parse text into sentence trees, find lemmas, inflect noun phrases, assign part-of-speech tags and much more. Greynir's sentence trees can inter alia be used to extract information from text, for instance about people, titles, entities, facts, actions and opinions. Greynir uses the Tokenizer package, by the same authors, to tokenize text (see http://hdl.handle.net/20.500.12537/262). More information at https://github.com/icelandic-lt/GreynirEngine and detailed documentation at https://greynir.is/doc/. GreynirPackage er Python 3 pakki sem vinnur með íslenskan texta. Greynir þáttar texta í setningar, lemmar og markar texta, beygir nafnliði og margt fleira. Hægt er að nýta þáttunartrén sem tólið býr til í þeim tilgangi að draga upplýsingar út úr texta, til dæmis um manneskjur, starfstitla, sérnafnaeiningar, staðreyndir, atburði og skoðanir. Greynir notar Tokenizer-pakkann, eftir sömu höfunda, til að tilreiða texta (sjá http://hdl.handle.net/20.500.12537/262). Frekari upplýsingar má finna á https://github.com/icelandic-lt/GreynirEngine og ítarlega skjölun (á ensku) á https://greynir.is/doc/. 2026-06-23T00:00:00Z BinPackage 1.3.2 (2026-06-26) http://hdl.handle.net/20.500.12537/388 BinPackage 1.3.2 (2026-06-26) Þorsteinsson, Vilhjálmur; Óladóttir, Hulda; Þórðarson, Sveinbjörn BinPackage is a Python Package that embeds the vocabulary of the DMII (https://bin.arnastofnun.is) and offers various lookups and queries of the data. The database, maintained by The Árni Magnússon Institute for Icelandic Studies, contains over 6.5 million entries, over 3.1 million unique word forms, and about 300,000 distinct lemmas. The database has been encapsulated in an easy-to-install Python package, and compressed from 400+ megabyte CSV file to an ~80 megabyte indexed binary structure. More information at: https://github.com/mideind/BinPackage BinPackage er Python-pakki utan um BÍN, Beygingarlýsingu íslensks nútímamáls (https://bin.arnastofnun.is), sem inniheldur yfir 6,5 milljónir færslna, 3,1 milljón einstakra orðmynda og um 300.000 stakar lemmur. Stofnun Árna Magnússonar í íslenskum fræðum heldur utan um gagnagrunninn. Gagnagrunninum, um 400 megabæta CSV-skrá, hefur verið pakkað í um 80 megabæta tvíundarbyggingu með vísum. Frekari upplýsingar á: https://github.com/mideind/BinPackage 2026-06-23T00:00:00Z Talrómur 3 (v1.0) http://hdl.handle.net/20.500.12537/387 Talrómur 3 (v1.0) Örnólfsson, Gunnar Thor; Sigurgeirsson, Atli Þór; Nikulásdóttir, Anna Björk; Schnell, Daniel ENGLISH: Talrómur 3 is a public domain speech corpus for Text-To-Speech (TTS) research and development in the domain of emotional speech synthesis. The corpus consists of 21,528 audio clips of ten different speakers reading short sentences. The audio was recorded in 2024 by Reykjavík University and Grammatek as part of The Icelandic Language Technology Program. Each speaker read a script of 340 utterances in 6 different styles (neutral, happy, sad, angry, surprised and helpful). Additionally, each speaker read all letters in the icelandic alphabet and numbers from 0 to 20 both in isolation and as part of an enumeration. The audio is recorded at 48 kHz sample rate and 24 bit depth. Each audio file is stored in .flac format. In addition to the audio recordings, this corpus includes Voice Activity Detection (VAD) values for each utterance, obtained using Silero VAD, as well as Montreal Forced Aligner (MFA) phoneme-level alignments. These additional data can be used to trim the audio or during model training. ICELANDIC: Talrómur 3 er opið gagnasafn ætlað til rannsókna og þróunar á talgervlum fyrir íslensku á sviði tilfinningaríkrar talgervingar. Gagnasafnið inniheldur 21.528 stuttar upptökur frá tíu mismunandi röddum. Hákólinn í Reykjavík og Grammatek stóðu að söfnun gagnanna árið 2024 á vegum Máltækniáætlunar fyrir íslensku. Fyrir hverja rödd hafa 340 segðir verið lesnar inn í 6 mismunandi tilbrigðum (hlutlaus, gleði, depurð, reiði, undrun og hjálpsemi). Þar að auki voru lesnir inn allir stafir stafrófsins og tölur frá 0 upp í 20 á tvo mismunandi vegu: í einangrun og líkt og í upptalningu. Hljóðskrárnar voru teknar upp í 48 kHz og með 24 bita dýpt. Skrárnar eru geymdar á .flac sniði Auk hljóðskránna inniheldur þessi útgáfa raddvirknimerkingar (Voice Activity Detection values) fyrir hverja segð, fengnar með Silero VAD, auk Montreal Forced Aligner (MFA) samraðana á hljóðanaskala. Þessi viðbótargögn geta nýst til að snyrta hljóðskrárnar eða við þjálfun líkana. 2025-08-25T00:00:00Z Kyutai-stt-1b-is-en v1.0.0 http://hdl.handle.net/20.500.12537/386 Kyutai-stt-1b-is-en v1.0.0 Jónsson, Haukur Páll A streaming speech-to-text model fine-tuned from kyutai/stt-1b-en_fr for Icelandic. The fine-tune extends the text vocabulary with Icelandic sub-words and adds two task-domain prompts so the same checkpoint can either transcribe Icelandic or translate Icelandic → English. More information can be found at https://huggingface.co/mideind/kyutai-stt-1b-is-en. Streymandi talgreiningarlíkan sem er fínþjálfað úr kyutai/stt-1b-en_fr fyrir íslensku. Fínþjálfunin stækkar orðaforða líkansins með íslenskum orðhlutum og bætir við tvenns konar fyrirmælum þannig að sami gátstaður getur annaðhvort umritað íslensku eða þýtt úr íslensku yfir á ensku. Frekari upplýsingar má finna á https://huggingface.co/mideind/kyutai-stt-1b-is-en. 2026-05-29T00:00:00Z Revoxx - Speech Recording Application (v1.3.2) http://hdl.handle.net/20.500.12537/385 Revoxx - Speech Recording Application (v1.3.2) Schnell, Daniel ENGLISH: Revoxx - Speech Recording Application Revoxx is a speech recording application specifically designed for creating high-quality TTS datasets quickly and reliably. Born from the experience gained during the recording of Talrómur 3 (the Icelandic emotional speech dataset, http://hdl.handle.net/20.500.12537/344), Revoxx condenses these learnings into a streamlined tool that minimizes recording and post-processing time. The application features automatic text size adjustment to screen real-estate, separate recording engineer and speaker views with multi-screen support (including Apple Sidecar for iPad), and maintains a complete archive of all raw recordings - even deleted takes. Key features include session-based recording organization with consistent audio settings and metadata across all recordings, automatic progress tracking, real-time mel spectrogram monitoring, industry-standard Peak/RMS level presets, advanced search and navigation by label/emotion/text, and batch export capabilities with optional VAD-based voice timestamps. Revoxx supports both emotional and non-emotional recordings, making it ideal for creating diverse speech datasets. For further documentation see project URL. ICELANDIC: Revoxx - Upptökuforrit fyrir talgagnasöfn Revoxx er upptökuforrit sem er sérstaklega hannað til að taka upp og útbúa hágæða gagnasöfn til þjálfunar á talgervlum. Forritið byggir á reynslu af upptökum á Talrómi 3 (íslenskt gagnasafn með tilfinningaríku tali, http://hdl.handle.net/20.500.12537/344) og hefur það að markmiði að lágmarka upptöku- og eftirvinnslutíma. Forritið býður upp á sjálfvirka textastærðaraðlögun að skjástærð, aðskilin upptökustjóra- og raddgjafaviðmót með fjölskjáastuðningi (þar með talið Apple Sidecar fyrir iPad), og heldur utan um heildarsafn allra frumupptaka, að þeim upptökum meðtöldum sem kann að hafa verið eytt á meðan á upptökum stóð. Helstu eiginleikar eru lotubundið upptökuskipulag með samræmdum hljóðstillingum og lýsigögnum fyrir allar upptökur, sjálfvirk framvinduskráning, mel-rófsrita vöktun í rauntíma, staðlaðar hámarks/RMS-stigs forstillingar, leitarvirkni eftir merkingum/tilfinningum/texta, og magnútflutningsgeta (e. batch export) með valfrjálsum VAD-tímastimplum. Revoxx styður bæði upptökur á hlutlausu og tilfinningaríku tali, sem gerir það kjörið fyrir fjölbreytt raddgagnasöfn. Sjá GitHub hirslu fyrir frekari skjölun. 2026-04-10T00:00:00Z Icelandic ASR API http://hdl.handle.net/20.500.12537/384 Icelandic ASR API Schnell, Daniel ENGLISH: This project provides an OpenAI Whisper-compatible ASR service with automatic language detection and optimized Icelandic speech-to-text. The Icelandic models used are trained by Language and Voice Lab at the Reykjavik University. The package was developed primarily to be used by the Revoxx audio recording tool (http://hdl.handle.net/20.500.12537/365) to verify recordings. The tool is language independent but optimized for Icelandic. ÍSLENSKA: Íslensk talgreiningarþjónusta sem er innleidd skv. OpenAI Whisper forritaskilum. Þjónustan inniheldur tungumálakennsl og notar fínþjálfuð íslensk líkön fyrir íslensku, þjálfuð af Mál- og raddtæknistofu HR. Þessi talgreiningarþjónusta er sett upp fyrst og fremst til þess að nýtast með Revoxx upptökutólinu, sjá (http://hdl.handle.net/20.500.12537/365). Talgreiningarþjónustan er ekki háð tungumáli, en sett upp með það fyrir augum að gagnast sérstaklega vel fyrir íslensku. 2026-04-10T00:00:00Z Talrómur 4 (26.04) http://hdl.handle.net/20.500.12537/383 Talrómur 4 (26.04) Nikulásdóttir, Anna Björk; Schnell, Daniel ENGLISH: Talrómur 4 is a speech corpus containing recordings of children's voices. Three children at the age of 10, two girls and one boy, were recorded in four to five sessions each. The corpus consists of 2,881 audio clips of various length, from one word utterances up to paragraphs of 50 seconds. Texts accompany each recording. The audio is recorded at 48 kHz sample rate and 24 bit depth. Each audio file is stored in .flac format. In addition to the audio recordings, this corpus includes Voice Activity Detection (VAD) values for each utterance, obtained using OmniVAD. The data is available for research and development of children's TTS voices under a restrictive license from University of Iceland. Please get in touch with contact person for further information. ÍSLENSKA: Talrómur 4 er talgagnasafn með upptökum á barnaröddum. Þrjú tíu ára börn, tvær stúlkur og einn drengur, voru tekin upp í fjórum til fimm upptökulotum hvert. Gagnasafnið inniheldur 2.881 upptökur af mismunandi lengd, frá einu orði upp í lengri málsgreinar allt að 50 sekúndur að lengd. Texti fylgir hverri upptöku. Hljóðskrárnar voru teknar upp í 48 kHz og með 24 bita dýpt. Skrárnar eru geymdar á .flac sniði Auk hljóðskránna inniheldur þessi útgáfa raddvirknimerkingar (Voice Activity Detection values) fyrir hverja segð, fengnar með OmniVAD. Gagnasafnið er ekki opið en hægt er að fá aðgang að því til rannsókna og þróunar á barna-talgervilsröddum samkvæmt leyfi frá Háskóla Íslands. Vinsamlegast hafið samband við tengilið verkefnisins fyrir frekari upplýsingar. 2026-04-10T00:00:00Z IGC2024 Filtered-2 http://hdl.handle.net/20.500.12537/382 IGC2024 Filtered-2 Daðason, Jón Friðrik; Steingrímsson, Steinþór; Hafsteinsson, Hinrik [English] This is a JSONL version of the 2024 release of the Icelandic Gigaword Corpus (IGC), prepared for language model training. The archive contains training and validation sets of unannotated documents from the IGC, licensed using the IGC license. The corpus has been filtered, deduplicated, and normalized to remove content unsuitable for training. Documents were excluded if they contained unintended code (e.g., HTML, CSS, or JavaScript), optical character recognition errors, character encoding issues, highly repetitive n-gram sequences, or a very low word count, or if they were duplicates or near-duplicates of other documents in the IGC. In addition, recurring boilerplate text, such as lists of related articles and social media sharing links, has been removed where possible, along with author bylines and image captions. The remaining text has been normalized for whitespace, non-printable and control characters, and other similar issues. [Icelandic] Þetta er útgáfa af Íslensku risamálheildinni (RMH) frá 2024 á JSONL sniði, ætluð til þjálfunar á mállíkönum. Hún samanstendur af ómörkuðum skjölum úr RMH sem gefin eru út með risamálheildarleyfinu, IGC license. Gögnunum hefur verið skipt í þjálfunar- og þróunargögn. Málheildin hefur verið síuð og normalíseruð til að fjarlægja efni sem hentar illa til þjálfunar. Skjölum var sleppt ef þau innihéldu forritunarkóða (t.d. HTML, CSS eða JavaScript), ljóslestrarvillur, stafasettsvandamál, hátt hlutfall af endurteknum n-stæðum, eða ef þau voru mjög stutt. Endurteknar útgáfur af sama skjali voru einnig fjarlægðar. Þar að auki hefur fastatexti (e. boilerplate text), eins og listar yfir tengdar greinar og hlekkir til að deila efni á samfélagsmiðlum, auk höfundalína og myndatexta, verið fjarlægður þar sem kostur var á. Textinn var að lokum normalíseraður með tilliti til bilstafa, ósýnilegra stafa, stýristafa og annarra svipaðra atriða. 2026-03-30T00:00:00Z IGC2024 Filtered-1 http://hdl.handle.net/20.500.12537/381 IGC2024 Filtered-1 Daðason, Jón Friðrik; Steingrímsson, Steinþór; Hafsteinsson, Hinrik [English] This is a JSONL version of the 2024 release of the Icelandic Gigaword Corpus (IGC), prepared for language model training. The archive contains training and validation sets of unannotated, CC-BY-licensed documents from the IGC. The corpus has been filtered, deduplicated, and normalized to remove content unsuitable for training. Documents were excluded if they contained unintended code (e.g., HTML, CSS, or JavaScript), optical character recognition errors, character encoding issues, highly repetitive n-gram sequences, or a very low word count, or if they were duplicates or near-duplicates of other documents in the IGC. In addition, recurring boilerplate text, such as lists of related articles and social media sharing links, has been removed where possible, along with author bylines and image captions. The remaining text has been normalized for whitespace, non-printable and control characters, and other similar issues. [Icelandic] Þetta er útgáfa af Íslensku risamálheildinni (RMH) frá 2024 á JSONL sniði, ætluð til þjálfunar á mállíkönum. Hún samanstendur af ómörkuðum skjölum úr RMH með CC-BY leyfi sem hefur verið skipt í þjálfunar- og þróunargögn. Málheildin hefur verið síuð og normalíseruð til að fjarlægja efni sem hentar illa til þjálfunar. Skjölum var sleppt ef þau innihéldu forritunarkóða (t.d. HTML, CSS eða JavaScript), ljóslestrarvillur, stafasettsvandamál, hátt hlutfall af endurteknum n-stæðum, eða ef þau voru mjög stutt. Endurteknar útgáfur af sama skjali voru einnig fjarlægðar. Þar að auki hefur fastatexti (e. boilerplate text), eins og listar yfir tengdar greinar og hlekkir til að deila efni á samfélagsmiðlum, auk höfundalína og myndatexta, verið fjarlægður þar sem kostur var á. Textinn var að lokum normalíseraður með tilliti til bilstafa, ósýnilegra stafa, stýristafa og annarra svipaðra atriða. 2026-03-30T00:00:00Z