Show simple item record

 
dc.contributor.author Gudnason, Jon
dc.contributor.author Magnusdottir, Eydis
dc.contributor.author Fong, Judy
dc.date.accessioned 2020-09-30T13:13:50Z
dc.date.available 2020-09-30T13:13:50Z
dc.date.issued 2020-09-29
dc.identifier.uri http://hdl.handle.net/20.500.12537/75
dc.description Prosody feature extraction with speaker information This Praat script is designed as a module based on the output of the diarization annotation tool dscore. The script takes as input a audio file and a corresponding .rttm file with speaker annotations. The script calculates the prosodic features Pitch, Harmioncity both with the auto-correlation function (AC)method and Intensity from the audio input. The features extracted are collected in time steps of 0.01 seconds, paired with the corresponding speaker information from the .rttm file. The output is stored in a <filename>Features.txt file. Features are extracted for the entire audio file and recorded for voiced as well as unvoiced sections. Requirements Praat non GUI version is sufficient see e.g. http://www.fon.hum.uva.nl/praat/download_linux.html for Linux based OS Data output from the dscore diarization tool https://github.com/cadia-lvl/dscore Parameter settings The features extracted and their parameter settings are Pitch: Time steps=0.01 s, Pitch floor=75 Hz, Pitch ceiling=600 Hz Harmonicitiy: Time steps=0.01 s, Pitch floor=75 Hz, Silence threshold = 0.1, Number of periods per window=4.5 Intensity: Minimum pitch=75 Hz, Time step=0.01 s Speaker information Speaker information is retrieved from an rttm file, assumptions are that the format of the files does not change form the following: SPEAKER Fréttirkl1900-5004310T0 <NA> 0.10 0.12 <NA> <NA> SpeakerTag <NA> <NA> Assumptions are that the timing information is aligned from the beginning between the audio and .rttm files. Output is a .txt file containing information Time[s] Pitch [Hz] Harmac Intensity Speaker nr. 6.520 132.410 6.091 80.373 SpeakerTag1 For unvoiced sections the output Time[s] Pitch [Hz] Harmac Intensity Speaker nr. 0.500 --undefined-- -135.415 75.025 Sil 0.510 --undefined-- -208.007 75.829 Sil Running the script For Linux terminal, first the path to Praat and then the command --run followed by the script name in double quotation marks finally the input directorry in double quotation marks. /home/eydis/bin/praat --run "FED.praat" "/home/eydis/inputFiles" For more information e.g. for Mac or Windows see the Praat manual. https://www.fon.hum.uva.nl/praat/manual/Scripting_6_9__Calling_from_the_command_line.html Credits Developer Eydis Huld Magnusdottir - eydishm@ru.is Language and voice lab https://lvl.ru.is/ Reykjavik University This is part of the Language Technology Program by The Icelandic Government through Almannaromur FED - Tól fyrir einkenni hljóðvistar með mælendaupplýsingum FED tólið notar opna hugbúnaðinn Praat og er hannað sem viðbótareining við tólið dscore og byggir fulla virkni á frálagi þess. Dscore er tól til að merkja hver mælandi er í samræðum fleiri en eins aðila. FED tólið reiknar hljómfallseinkennin tónhæð (e. Pitch), samhljóm (e. Harmonicity) með sjálfvirku fylgni (e. auto-correlation) aðferð og styrkleika (e. Intensity) tals í hljóðskrám. Gildi einkennana er safnað á 0.01 sekúndna fresti, ásamt því að mælandi er auðkenndur með upplýsingum úr skrá úr dscore á skráarforminu .rttm. Frálag tólsins er að lokum vistað á forminu <filename>Features.txt. Einkennin eru dregin úr hljóðskránni í heild og safnað fyrir alla hljóðskrána óháð því hvort tal á sér stað eða ekki. Forsendur virkni Praat án notendaviðmóts (non GUI) er nægjanleg fyrir virkni tólsins sjá t.d. http://www.fon.hum.uva.nl/praat/download_linux.html fyrir Linux stýrikerfi Frálag úr dscore með skrárforminu .rttm fyrir mælendaupplýsignar https://github.com/cadia-lvl/dscore Breytustillingar Breytustillingarnar sem eru settar fyrir hvert einkenni eru: Tónhæð: Tímabil=0.01 s, Lágmarks tónhæð=75 Hz, Hámarks tónhæð=600 Hz Samhljómur: Tímabil=0.01 s, Lágmarks tónhæð=75 Hz, Þagnarskil=0.1, Fjöldi tímabila pr. glugga=4.5 Styrkleiki: Lágmarks tónhæð=75 Hz, Tímabil=0.01 s Mælendaupplýsingar Mælendaupplýsingar eru fengnar úr .rttm skrám sem eru frálag dscore tólsins. Kóðinn gerir ráð fyrir að hver lína sé nákvæmlega sett upp á eftirfarandi hátt: SPEAKER Fréttirkl1900-5004310T0 <NA> 0.10 0.12 <NA> <NA> SpeakerTag <NA> <NA> Einnig er gert ráð fyrir að tímaupplýsingar stemmi í upphafi milli hljóðskrár og .rttm skrár. Frálag tólsins er á .txt formi og inniheldur upplýsingar líkt og í eftirfarandi dæmi. Time[s] Pitch [Hz] Harmac Intensity Speaker nr. 6.520 132.410 6.091 80.373 SpeakerTag1 Fyrir hluta sem innihalda ekki tal gætu upplýsingarnar litið út eins og efrirfarandi Time[s] Pitch [Hz] Harmac Intensity Speaker nr. 0.500 --undefined-- -135.415 75.025 Sil 0.510 --undefined-- -208.007 75.829 Sil Að keyra tólið Í Linux stýrikerfi er tólið keyrt í gegnum skipanaglugga (e. terminal) með eftirfarandi hætti. Í fyrsta hluta er gefin upp slóðin þar sem Praat tólið er geymt svo er skrifuð inn skipunin –run, svo nafnið á skránni sem á að keyra í tvöföldum gæsalöppum og að lokum slóðin þar sem hljóð og .rttm gögnin er að finna í tvöföldum gæsalöppum. Dæmi: /home/user/bin/praat --run "FED.praat" "/home/user/inputFiles" Fyrir Mac og Windows stýrikerfi er hægt að finna viðbótarupplýsingar til að keyra tólið í leiðbeiningum sem fylgja Praat. https://www.fon.hum.uva.nl/praat/manual/Scripting_6_9__Calling_from_the_command_line.html Kreditlisti Framkvæmdaraðili Eydis Huld Magnusdottir - eydishm@ru.is Mál- og raddtæknistofa Gervigreindarseturs HR https://lvl.ru.is/ Háskólinn í Reykjavík Tól þetta er hluti af 5 ára Máltækniáætlun styrkt af Ríkistjórn Íslands í gegnum Almannaróm.
dc.language.iso isl
dc.publisher Reykjavik University Language and Voice Lab
dc.source.uri https://github.com/cadia-lvl/FeatExtDiarization
dc.subject prosodic features
dc.subject feature extraction
dc.subject diarization
dc.title Prosody feature extraction with speaker information (20.09)
dc.type toolService
metashare.ResourceInfo#ContentInfo.detailedType suiteOfTools
metashare.ResourceInfo#ResourceComponentType#ToolServiceInfo.languageDependent false
has.files no
branding Clarin IS Repository
contact.person Jon Gudnason jg@ru.is Reykjavik University
sponsor Ministry of Education, Science and Culture Dialects, acoustic analysis and speaker diarization (H14) Language Technology for Icelandic 2019-2023 nationalFunds
files.size 0
files.count 0


Show simple item record