dc.description |
Prosody feature extraction with speaker information
This Praat script is designed as a module based on the output of the diarization annotation tool dscore. The script takes as input a audio file and a corresponding .rttm file with speaker annotations. The script calculates the prosodic features Pitch, Harmioncity both with the auto-correlation function (AC)method and Intensity from the audio input. The features extracted are collected in time steps of 0.01 seconds, paired with the corresponding speaker information from the .rttm file. The output is stored in a <filename>Features.txt file. Features are extracted for the entire audio file and recorded for voiced as well as unvoiced sections.
Requirements
Praat non GUI version is sufficient
see e.g. http://www.fon.hum.uva.nl/praat/download_linux.html for Linux based OS
Data output from the dscore diarization tool
https://github.com/cadia-lvl/dscore
Parameter settings
The features extracted and their parameter settings are
Pitch: Time steps=0.01 s, Pitch floor=75 Hz, Pitch ceiling=600 Hz
Harmonicitiy: Time steps=0.01 s, Pitch floor=75 Hz, Silence threshold = 0.1, Number of periods per window=4.5
Intensity: Minimum pitch=75 Hz, Time step=0.01 s
Speaker information
Speaker information is retrieved from an rttm file, assumptions are that the format of the files does not change form the following:
SPEAKER Fréttirkl1900-5004310T0 <NA> 0.10 0.12 <NA> <NA> SpeakerTag <NA> <NA>
Assumptions are that the timing information is aligned from the beginning between the audio and .rttm files.
Output is a .txt file containing information
Time[s] Pitch [Hz] Harmac Intensity Speaker nr.
6.520 132.410 6.091 80.373 SpeakerTag1
For unvoiced sections the output
Time[s] Pitch [Hz] Harmac Intensity Speaker nr.
0.500 --undefined-- -135.415 75.025 Sil
0.510 --undefined-- -208.007 75.829 Sil
Running the script
For Linux terminal, first the path to Praat and then the command --run followed by the script name in double quotation marks finally the input directorry in double quotation marks.
/home/eydis/bin/praat --run "FED.praat" "/home/eydis/inputFiles"
For more information e.g. for Mac or Windows see the Praat manual. https://www.fon.hum.uva.nl/praat/manual/Scripting_6_9__Calling_from_the_command_line.html
Credits
Developer
Eydis Huld Magnusdottir - eydishm@ru.is
Language and voice lab https://lvl.ru.is/
Reykjavik University
This is part of the Language Technology Program by The Icelandic Government through Almannaromur
FED - Tól fyrir einkenni hljóðvistar með mælendaupplýsingum
FED tólið notar opna hugbúnaðinn Praat og er hannað sem viðbótareining við tólið dscore og byggir fulla virkni á frálagi þess. Dscore er tól til að merkja hver mælandi er í samræðum fleiri en eins aðila. FED tólið reiknar hljómfallseinkennin tónhæð (e. Pitch), samhljóm (e. Harmonicity) með sjálfvirku fylgni (e. auto-correlation) aðferð og styrkleika (e. Intensity) tals í hljóðskrám. Gildi einkennana er safnað á 0.01 sekúndna fresti, ásamt því að mælandi er auðkenndur með upplýsingum úr skrá úr dscore á skráarforminu .rttm. Frálag tólsins er að lokum vistað á forminu <filename>Features.txt. Einkennin eru dregin úr hljóðskránni í heild og safnað fyrir alla hljóðskrána óháð því hvort tal á sér stað eða ekki.
Forsendur virkni
Praat án notendaviðmóts (non GUI) er nægjanleg fyrir virkni tólsins
sjá t.d. http://www.fon.hum.uva.nl/praat/download_linux.html fyrir Linux stýrikerfi
Frálag úr dscore með skrárforminu .rttm fyrir mælendaupplýsignar
https://github.com/cadia-lvl/dscore
Breytustillingar
Breytustillingarnar sem eru settar fyrir hvert einkenni eru:
Tónhæð: Tímabil=0.01 s, Lágmarks tónhæð=75 Hz, Hámarks tónhæð=600 Hz
Samhljómur: Tímabil=0.01 s, Lágmarks tónhæð=75 Hz, Þagnarskil=0.1, Fjöldi tímabila pr. glugga=4.5
Styrkleiki: Lágmarks tónhæð=75 Hz, Tímabil=0.01 s
Mælendaupplýsingar
Mælendaupplýsingar eru fengnar úr .rttm skrám sem eru frálag dscore tólsins. Kóðinn gerir ráð fyrir að hver lína sé nákvæmlega sett upp á eftirfarandi hátt:
SPEAKER Fréttirkl1900-5004310T0 <NA> 0.10 0.12 <NA> <NA> SpeakerTag <NA> <NA>
Einnig er gert ráð fyrir að tímaupplýsingar stemmi í upphafi milli hljóðskrár og .rttm skrár.
Frálag tólsins er á .txt formi og inniheldur upplýsingar líkt og í eftirfarandi dæmi.
Time[s] Pitch [Hz] Harmac Intensity Speaker nr.
6.520 132.410 6.091 80.373 SpeakerTag1
Fyrir hluta sem innihalda ekki tal gætu upplýsingarnar litið út eins og efrirfarandi
Time[s] Pitch [Hz] Harmac Intensity Speaker nr.
0.500 --undefined-- -135.415 75.025 Sil
0.510 --undefined-- -208.007 75.829 Sil
Að keyra tólið
Í Linux stýrikerfi er tólið keyrt í gegnum skipanaglugga (e. terminal) með eftirfarandi hætti. Í fyrsta hluta er gefin upp slóðin þar sem Praat tólið er geymt svo er skrifuð inn skipunin –run, svo nafnið á skránni sem á að keyra í tvöföldum gæsalöppum og að lokum slóðin þar sem hljóð og .rttm gögnin er að finna í tvöföldum gæsalöppum. Dæmi:
/home/user/bin/praat --run "FED.praat" "/home/user/inputFiles"
Fyrir Mac og Windows stýrikerfi er hægt að finna viðbótarupplýsingar til að keyra tólið í leiðbeiningum sem fylgja Praat. https://www.fon.hum.uva.nl/praat/manual/Scripting_6_9__Calling_from_the_command_line.html
Kreditlisti
Framkvæmdaraðili
Eydis Huld Magnusdottir - eydishm@ru.is
Mál- og raddtæknistofa Gervigreindarseturs HR https://lvl.ru.is/
Háskólinn í Reykjavík
Tól þetta er hluti af 5 ára Máltækniáætlun styrkt af Ríkistjórn Íslands í gegnum Almannaróm. |