• Home
  • Repository
  • About CLARIN-IS
  • CLARIN
  •  Login
  • English íslenska
  • CLARIN-IS Repository Home
  • View Item
  •  
  •   What can you do?
  •   Browse  
    •    All of the Repository  
      •   Issue Date
      •   Authors
      •   Titles
      •   Subjects
      •   Publisher
      •   Language
      •   Type
      •   Rights Label
  •   My Account  
    •    Login
  •   Statistics  
    •    StatisticsBETA
  •   General Information  
    •    Deposit
    •    Cite
    •    Submission Lifecycle
    •    FAQ
    •    About
    •    Help Desk
 
 

Prosody feature extraction with speaker information (20.09)

 
Clarin IS Repository
  Authors
Gudnason, Jon ; Magnusdottir, Eydis and Fong, Judy
  Item identifier
http://hdl.handle.net/20.500.12537/75
 Project URL
https://github.com/cadia-lvl/FeatExtDiarization
 Date issued
2020-09-29
 Type
toolService
 Language(s)
Icelandic
 Description
Prosody feature extraction with speaker information This Praat script is designed as a module based on the output of the diarization annotation tool dscore. The script takes as input a audio file and a corresponding .rttm file with speaker annotations. The script calculates the prosodic features Pitch, Harmioncity both with the auto-correlation function (AC)method and Intensity from the audio input. The features extracted are collected in time steps of 0.01 seconds, paired with the corresponding speaker information from the .rttm file. The output is stored in a <filename>Features.txt file. Features are extracted for the entire audio file and recorded for voiced as well as unvoiced sections. Requirements Praat non GUI version is sufficient see e.g. http://www.fon.hum.uva.nl/praat/download_linux.html for Linux based OS Data output from the dscore diarization tool https://github.com/cadia-lvl/dscore Parameter settings The features extracted and their parameter settings are Pitch: Time steps=0.01 s, Pitch floor=75 Hz, Pitch ceiling=600 Hz Harmonicitiy: Time steps=0.01 s, Pitch floor=75 Hz, Silence threshold = 0.1, Number of periods per window=4.5 Intensity: Minimum pitch=75 Hz, Time step=0.01 s Speaker information Speaker information is retrieved from an rttm file, assumptions are that the format of the files does not change form the following: SPEAKER Fréttirkl1900-5004310T0 <NA> 0.10 0.12 <NA> <NA> SpeakerTag <NA> <NA> Assumptions are that the timing information is aligned from the beginning between the audio and .rttm files. Output is a .txt file containing information Time[s] Pitch [Hz] Harmac Intensity Speaker nr. 6.520 132.410 6.091 80.373 SpeakerTag1 For unvoiced sections the output Time[s] Pitch [Hz] Harmac Intensity Speaker nr. 0.500 --undefined-- -135.415 75.025 Sil 0.510 --undefined-- -208.007 75.829 Sil Running the script For Linux terminal, first the path to Praat and then the command --run followed by the script name in double quotation marks finally the input directorry in double quotation marks. /home/eydis/bin/praat --run "FED.praat" "/home/eydis/inputFiles" For more information e.g. for Mac or Windows see the Praat manual. https://www.fon.hum.uva.nl/praat/manual/Scripting_6_9__Calling_from_the_command_line.html Credits Developer Eydis Huld Magnusdottir - eydishm@ru.is Language and voice lab https://lvl.ru.is/ Reykjavik University This is part of the Language Technology Program by The Icelandic Government through Almannaromur FED - Tól fyrir einkenni hljóðvistar með mælendaupplýsingum FED tólið notar opna hugbúnaðinn Praat og er hannað sem viðbótareining við tólið dscore og byggir fulla virkni á frálagi þess. Dscore er tól til að merkja hver mælandi er í samræðum fleiri en eins aðila. FED tólið reiknar hljómfallseinkennin tónhæð (e. Pitch), samhljóm (e. Harmonicity) með sjálfvirku fylgni (e. auto-correlation) aðferð og styrkleika (e. Intensity) tals í hljóðskrám. Gildi einkennana er safnað á 0.01 sekúndna fresti, ásamt því að mælandi er auðkenndur með upplýsingum úr skrá úr dscore á skráarforminu .rttm. Frálag tólsins er að lokum vistað á forminu <filename>Features.txt. Einkennin eru dregin úr hljóðskránni í heild og safnað fyrir alla hljóðskrána óháð því hvort tal á sér stað eða ekki. Forsendur virkni Praat án notendaviðmóts (non GUI) er nægjanleg fyrir virkni tólsins sjá t.d. http://www.fon.hum.uva.nl/praat/download_linux.html fyrir Linux stýrikerfi Frálag úr dscore með skrárforminu .rttm fyrir mælendaupplýsignar https://github.com/cadia-lvl/dscore Breytustillingar Breytustillingarnar sem eru settar fyrir hvert einkenni eru: Tónhæð: Tímabil=0.01 s, Lágmarks tónhæð=75 Hz, Hámarks tónhæð=600 Hz Samhljómur: Tímabil=0.01 s, Lágmarks tónhæð=75 Hz, Þagnarskil=0.1, Fjöldi tímabila pr. glugga=4.5 Styrkleiki: Lágmarks tónhæð=75 Hz, Tímabil=0.01 s Mælendaupplýsingar Mælendaupplýsingar eru fengnar úr .rttm skrám sem eru frálag dscore tólsins. Kóðinn gerir ráð fyrir að hver lína sé nákvæmlega sett upp á eftirfarandi hátt: SPEAKER Fréttirkl1900-5004310T0 <NA> 0.10 0.12 <NA> <NA> SpeakerTag <NA> <NA> Einnig er gert ráð fyrir að tímaupplýsingar stemmi í upphafi milli hljóðskrár og .rttm skrár. Frálag tólsins er á .txt formi og inniheldur upplýsingar líkt og í eftirfarandi dæmi. Time[s] Pitch [Hz] Harmac Intensity Speaker nr. 6.520 132.410 6.091 80.373 SpeakerTag1 Fyrir hluta sem innihalda ekki tal gætu upplýsingarnar litið út eins og efrirfarandi Time[s] Pitch [Hz] Harmac Intensity Speaker nr. 0.500 --undefined-- -135.415 75.025 Sil 0.510 --undefined-- -208.007 75.829 Sil Að keyra tólið Í Linux stýrikerfi er tólið keyrt í gegnum skipanaglugga (e. terminal) með eftirfarandi hætti. Í fyrsta hluta er gefin upp slóðin þar sem Praat tólið er geymt svo er skrifuð inn skipunin –run, svo nafnið á skránni sem á að keyra í tvöföldum gæsalöppum og að lokum slóðin þar sem hljóð og .rttm gögnin er að finna í tvöföldum gæsalöppum. Dæmi: /home/user/bin/praat --run "FED.praat" "/home/user/inputFiles" Fyrir Mac og Windows stýrikerfi er hægt að finna viðbótarupplýsingar til að keyra tólið í leiðbeiningum sem fylgja Praat. https://www.fon.hum.uva.nl/praat/manual/Scripting_6_9__Calling_from_the_command_line.html Kreditlisti Framkvæmdaraðili Eydis Huld Magnusdottir - eydishm@ru.is Mál- og raddtæknistofa Gervigreindarseturs HR https://lvl.ru.is/ Háskólinn í Reykjavík Tól þetta er hluti af 5 ára Máltækniáætlun styrkt af Ríkistjórn Íslands í gegnum Almannaróm.
 Publisher
Reykjavik University Language and Voice Lab
 Acknowledgement

Ministry of Education, Science and Culture

Project code: Dialects, acoustic analysis and speaker diarization (H14)

Project name: Language Technology for Icelandic 2019-2023

 Subject(s)
prosodic features feature extraction diarization
 Collection(s)
Clarin IS
Show full item record
 
 

Partners, Coordination, Funding

  • Arni Magnusson Institute for Icelandic Studies
  • Ministry of Culture and Business Affairs

Repository

  • Main page
  • Submission Lifecycle
  • FAQ
  • About and Policies

More

  • CLARIN
  • META-Net

CLARIN-IS is fully supported by the Ministry of Culture and Business Affairs

Copyright (c) 2023. Arni Magnusson Institute for Icelandic Studies. All rights reserved.