Gamli er talmálheild sem byggir á upptökum sem hýstar eru á vefnum og eru úr þjóðfræðisafni Stofnunar Árna Magnússonar í íslenskum fræðum. Talmálheildin er afrakstur samstarfsverkefnis milli Árnastofnunar og íslenska máltæknifyrirtækisins Tiro og hefur að geyma 146 klukkustundir af upptökum sem skiptast í: Þjálfunargögn: 1. ∼ 102 klst. af ljóslesnum uppskriftum sem til voru á ólíku formi í þjóðfræðisafni Árnastofnunar. 2. ∼ 35 klst. af nýjum uppskriftum sem voru yfirfarnar eftir talgreiningu. Dálkarnir í þjálfunargögnunum eru: audio_id,normalized_text,wav_id,interviewee,gender,interviewer Prófunargögn: 1. ∼ 9 klst. af þjálfunargögnum sem voru unnin í forritinu ELAN. Þar eru 10 viðmælendur, 5 konur og 5 karlar, auk spyrla (4 karlar). Þessi gögn byggja einnig á ljóslesnum uppskriftum sem til voru í þjóðfræðisafni Árnastofnunar. Dálkarnir í þjálfunargögnunum eru: audio_id,text,gender,interviewee,date_of_birth,date_of_death ------ Gamli is an ASR corpus for Icelandic oral histories, the first of its kind for this language, derived from the ethnographic collection of the Árni Magnússon Institute for Icelandic Studies (available on and is the result of collaboration between that same institute and the Icelandic language technology company Tiro. The corpus contains 146 hours of transcribed audio broken down into: Training set: 1. ∼ 102 hours from optical character recognition (OCR) of previous transcriptions of interviews in various formats. 2. ∼ 35 hours of new transcriptions (post-edited from ASR output). Training set has: audio_id,normalized_text,wav_id,interviewee,gender,interviewer Test set: 1. ~ 9 hours manually reviewed, corrected and annotated with speaker ID and time alignments in the annotation tool ELAN. This data originally came from optical character recognition (OCR) of previous transcriptions of interviews in various formats. The test set contains recordings with 10 speakers, 5 women and 5 men, plus the interviewers (4 men). Test set has: audio_id,text,gender,interviewee,date_of_birth,date_of_death