# Talrómur 3

Talrómur 3 er frjálst (e. public domain) raddgagnasafn fyrir rannsóknir og þróun á talgervingarkerfum (TTS) á sviði tilfinningamiðaðrar talgerðar. Gagnasafnið samanstendur af 21.526 upptökum frá tíu mismunandi röddum sem lesa stuttar setningar. Gögnunum var safnað árið 2024 af Háskólanum í Reykjavík og Grammateki sem liður í  Máltæknináætlun fyrir íslensku. Hver rödd las handrit með 340 segðum í 6 mismunandi stílum (hlutlaus, glaður, dapur, reiður, undrandi og hjálpsamur), í mismunandi styrkleikastigum ásamt 57 stakorðasegðum í einangrun annars vegar og upptalningu hins vegar.

Hljóðið er tekið upp með 48 kHz sýnatíðni og 24 bita dýpt. Hver hljóðskrá er geymd á .flac sniði.
Auk hljóðupptakanna inniheldur þetta gagnasafn raddvirknigildi (VAD values) fyrir hverja segð, fengin með [Silero VAD](https://github.com/snakers4/silero-vad), sem og samröðun á hljóðanastigi fengna frá Montreal Forced Aligner (MFA).
Þessi viðbótargögn er hægt að nota til að snyrta hljóðið eða við þjálfun líkana.
Þessi útgáfa inniheldur:
recordings.zip - Hráar hljóðskrár á .flac sniði.
vad.zip - Útkomur VAD keyrslu á JSON sniði.
alignment.zip - MFA samraðanir fyrir hverja hljóðskrá á TextGrid sniði.
alignment_json.zip - MFA samraðanir fyrir hverja hljóðskrá á JSON sniði.
LESIST.md - Þetta skjal sem inniheldur lýsingu á gagnasafninu.
README.md - Sambærilega lýsingu á ensku.


## Hönnun
Gagnasafnið inniheldur upptökur af annars vegar 340 segðum sem teknar eru upp í 6 mismunandi tilfinningaflokkum og hins vegar 57 örstuttum segðum sem innihalda stakar tölur og bókstafi og eru teknar upp á 2 mismunandi vegu: í einangrun og í upptalningu.
Tilfinningaflokkarnir sem teknir voru upp í þessu gagnasafni samsvara flokkum úr fyrri verkum á þessu sviði, t.d. [Emotional Speech Database](https://www.sciencedirect.com/science/article/pii/S0167639321001308): Hlutlaus, Glaður, Reiður, Dapur og Undrandi. Til viðbótar við þessar tilfinningar bættum við við "Hjálpsamur" flokki sem, þrátt fyrir að vera ekki beint 'tilfinning', hefur skýrt notagildi í t.d. sýndaraðstoðarmönnum og símsvörum í þjónustuverum.

Auk flokkunarmerkinga á tilfinningum létum við þátttakendur breyta styrkleika allra tilfinningaflokka sem ekki voru hlutlausir. Raddleikarar fengu fyrirmæli um að lesa einstakar setningar samkvæmt meðfylgjandi styrkleikastigi. Styrkleikastigin voru gefin sem gildi á 5 punkta kvarða, þar sem 1 táknar mjög lágan styrkleika og 5 táknar mjög háan styrkleika. Styrkleikastigin voru slembiröðuð fyrir hvern þátttakanda, en endurtekin yfir flokka. Til að fá nægilegt magn af sýnum með miðlungsstyrkleika notuðum við Gauss dreifingu fyrir gildin, þannig að um helmingur heildarsýnanna var 3: miðlungs styrkleiki, og minna en 20% samanlagt voru annaðhvort 1: mjög lágur styrkleiki eða 5: mjög hár styrkleiki.

Viðbótarsegðirnar 57 voru teknar upp bæði sem talaðar í einangrun (addendum) og í upptalningu (addendum_style2).

Stór hluti setninganna er fenginn úr afritum af ræðum og viðtölum, sem og færslum á spjallborðum. Orðfæri og málfræði þessara setninga endurspegla betur náttúrulegt talmál samanborið við mörg önnur gagnasöfn fyrir talgervingu sem nota setningar úr stórum ritmálsgagnasöfnum. Hluti setningalistans var tileinkaður hverri tilfinningu og innihélt setningar sem höfðu inntak sem passaði huglægt við marktilfinninguna.

Rödd M03 las inn handrit sem innihélt ekki 340 heldur 338 segðir í tilfinningum öðrum en 'neutral'. Það þýðir að sú rödd hefur alls 2.144 segðir, en ekki 2.154. Segðirnar sem vantar samanborið við aðrar raddir í gagnasafninu eru 262 ("Það gerðum við, ekki með því að loka heldur að ræða við fólk.") og 325 ("Nei en ég hef trú á því að það hérna sé verið að skoða þetta af alvöru núna.").

## Snið
Gagnasafnið samanstendur af 10 raddmöppum, sem hver um sig inniheldur 8 undirmöppur og index.tsv skrá.
Hver undirmappa inniheldur einn flokk gagnasafnsins. Undirhlutarnir (hlutlaus, glaður, dapur, reiður, undrandi, hjálpsamur) innihalda 340 segðir hver, og undirhlutarnir (addendum, addendum_style2) innihalda 57 mjög stuttar segðir hver; tölur frá 0 til 20 og alla stafi íslenska stafrófsins auk (c, w, z).

index.tsv skráin hefur 5 dálka aðskilda með tab:
1. Hljóðskráarheiti
2. Auðkenni raddar / heiti raddarmöppu
3. Tilfinningaflokkur / heiti undirmöppu
4. Styrkleiki tilfinningar
5. Texti setningar

| Rödd  | Kyn  |  Heildarlengd  |     Taltími     | Meðal f0 |
|------:|:----:|:--------------:|:---------------:|:--------:|
|   F01 |  F   |    02:45:22    |     02:12:50    |  278 Hz  |
|   F02 |  F   |    02:22:31    |     01:57:14    |  257 Hz  |
|   F03 |  F   |    02:29:53    |     02:01:00    |  275 Hz  |
|   F04 |  F   |    02:37:05    |     02:05:18    |  278 Hz  |
|   F05 |  F   |    02:28:39    |     01:59:03    |  272 Hz  |
|   M01 |  M   |    02:34:08    |     01:58:17    |  183 Hz  |
|   M02 |  M   |    02:22:39    |     01:51:04    |  177 Hz  |
|   M03 |  M   |    02:25:48    |     01:48:36    |  134 Hz  |
|   M04 |  M   |    02:09:57    |     01:36:48    |  150 Hz  |
|   M05 |  M   |    01:56:55    |     01:28:58    |  147 Hz  |

## Ráðning þátttakenda
Til að laða að hæfa þátttakendur auglýstum við verkefnið í netsamfélögum fyrir söngvara og leikara. Laun voru boðin þeim sem yrðu fyrir valinu. Umsóknarferlið fól í sér að taka upp 5 einstaka segðir í 5 tilfinningastílum hver, með því að nota vefupptökuforrit. Okkur bárust alls 97 umsóknir.
Við notuðum 2ja þrepa matsferli:
Í fyrra þrepinu mátu fjórir sérfræðingar hverja umsókn hver í sínu lagi á 5 punkta kvarða, og byggðu mat sitt á raddgæðum, framburði, viðkunnanleika og tilfinningalegri tjáningu.
Í síðara þrepinu voru 10 bestu karl- og 10 bestu kvenraddir úr fyrsta þrepinu skoðaðar nánar og flokkaðar af sömu matsmönnum með Borda talningu. Við höfðum síðan samband við 5 efstu karl- og 5 efstu kvenumsækjendur úr öðru þrepinu. Tveir umsækjendur kusu að taka ekki þátt, svo umsækjendur neðar í röðinni voru valdir.

## Upptökuaðstaða
Fyrir upptökurnar notuðum við hljóðeinangraðað stúdíó staðsett innan HR. Hljóðneminn samanstóð af AKG C480B formagnara með CK 61-ULS nýrna þéttihneppi. Hljóðneminn var staðsettur í höggdeyfi og hafði áfastan pop-filter til að lágmarka óæskileg aukahljóð. Presonus Clarett 2pre hljóðviðmót með innbyggðum formagnara var notað til að stafvæða hljóðið. Hljóðskrárnar eru 48 kHz einóma hljóð með 24 bita dýpt.
Við notuðum breytta útgáfu af [upptökuhugbúnaðarpakka fyrir raddgögn](https://github.com/grammatek/speechrecorder) til að birta setningar fyrir talara og stjórna upptökum.

## Eftirvinnsla
Til að spara pláss breyttum við hráu .wav skránum í .flac, en engin önnur stafræn hljóðvinnsla var framkvæmd. Þetta þýðir að hljóðstyrkur getur verið mjög breytilegur milli upptaka, jafnvel fyrir sömu rödd. Við mælum með að beita einhvers konar hljóðstyrksjöfnun áður en hljóðið er notað til að þjálfa líkön, t.d. [EBU R128](https://tech.ebu.ch/docs/r/r128.pdf). Þar sem slík vinnsla er óhjákvæmilega með tapi, eftirlátum við notandanum að beita henni.
Við notuðum [Silero-VAD](https://github.com/snakers4/silero-vad) til að merkja raddvirkni í upptökunum til að fjarlægja þögn í upphafi og enda hvers sýnis. Að lokum samröðuðum við gagnasafninu á hljóðanastigi með Montreal Forced Aligner (MFA). Samröðunargögnin sem úr því komu eru gefin út samhliða hljóðskránum, bæði á TextGrid og JSON sniði.

Mikilvægt er að taka fram að þetta gagnasafn inniheldur meira misræmi milli talaðra hljóða og hljóðanaumritana samanborið við fyrri gagnasöfn. Þetta stafar aðallega af áherslu okkar á að kalla fram eðlilegan talsmáta, sem er nauðsynlegt til að miðla tilfinningum á sannfærandi hátt. Af þessum sökum geta umritanir á hljóðanastigi og þar af leiðandi samröðunin frá Montreal Forced Aligner (MFA) verið ónákvæm.
Þetta misræmi er til staðar á öllum styrkleikastigum, þó það geti verið meira áberandi í þeim upptökum sem innihalda sterka tilfinningatjáningu. Ólíkt fyrri gagnasöfnum sem miðuðu að stýrðari 'fréttaþuls'-stíl, inniheldur þetta gagnasafn náttúruleg talmynstur, þar með talið verulegar hljóðfræðilegar veiklanir (e. phonetic reduction) og framburðartilbrigði.
Við tókum eftir að MFA á stundum í erfiðleikum með ákveðin hljóðön, svo sem tunguvaramælt önghljóð, og merkir þau stundum ranglega sem þögn.
Í ljósi þess ráðleggjum við notendum að nálgast MFA samröðunina með varúð og vera meðvitaðir um hugsanlega ónákvæmni, sérstaklega þegar unnið er með tilfinningaþrungin eða sérstaklega náttúruleg talsýni.
Öll eftirvinnsla var ítarlega skrásett og allur kóði sem nýttur var hefur verið settur inn á [GitHub hirslu](https://github.com/icelandic-lt/emospeech-scripts).

## Núverandi og næsta útgáfa
Þetta er útgáfa 1.0 af gagnasafninu, og inniheldur öll gögnin sem söfnuðust: 5 kvenraddir og 5 karlaraddir.
