dc.contributor.author | Friðriksdóttir, Steinunn Rut |
dc.contributor.author | Ingason, Anton Karl |
dc.date.accessioned | 2020-05-06T14:12:57Z |
dc.date.available | 2020-05-06T14:12:57Z |
dc.date.issued | 2020-05-06 |
dc.identifier.uri | http://hdl.handle.net/20.500.12537/19 |
dc.description | The Icelandic Confusion Set Corpus (ICoSC) is available under a CC-BY licence. It was compiled during the course of 8 months by Steinunn Rut Friðriksdóttir and Anton Karl Ingason of the language technology department in the University of Iceland. Included in the ICoSC are CSV spreadsheets containing all collected confusion sets of each phonetic category and their frequencies. The spreadsheets are organized so that for each set, the total frequency of each candidate is calculated along with the frequency of each possible PoS tag for that candidate. The seventh and eight column of the tables contain binary values referring to whether the confusion set is grammatically disjoint (all PoS tags differ for the two candidates) or grammatically identical (all PoS tags are identical for the two candidates). The final column shows the frequency of the less frequent candidate of the set which can be used to determine which sets are viable in an experiment. Also included are text files containing the list of words from each category and text files containing sentence examples from the Icelandic Gigaword Corpus which contain the words for each category. As the n/nn examples are by far the most frequent confusion sets, the corpus also includes a word list and sentence examples for the 55 most frequent sets. There are also spreadsheets containing all of the collected word pairs which are grammatically identical, grammatically disjoint or neither of the aforementioned categories. All files have UTF-8 encoding. The ICoSC consists of the following categories of confusion sets, selected for their linguistic properties as homophones, separated orthographically by a single letter. The categories are: •197 pairs containing y/i (leyti ’extent’ / leiti ’search’) •150 pairs containing ý/í (sýn ’vision’ / sín ’theirs (possessive reflexive)’) •1203 pairs containing nn/n (forvitinn ’curious(masc.)’ / forvitin ’curious (fem.)’) •8 pairs commonly confused by Icelandic speakers (mig 'me' (accusative) / mér 'me' (dative)) •24 pairs containing hv/kv (hvað ’what’ / kvað ’chanted’) •42 pairs containing rð/ðr (veðri ’weather’ / verði ’will become’) •110 pairs containing rr/r (klárri ’smart’ / klári ’smart’) •25 pairs containing f/ff (kafi 'underwater' / kaffi 'coffee') •87 pairs containing g/gg (vegi 'roads' / veggi 'walls') •113 pairs containing s/ss (kysi 'would choose' / kyssi 'kiss') •161 pairs containing k/kk (taka 'to take' / takka 'button') •34 pairs containing p/pp (tapa 'loose' / tappa 'cap/plug') •456 pairs containing l/ll (vel 'well' / vell 'gush') •38 pairs containing m/mm (ama 'bother' / amma 'grandmother') •401 pairs containing t/tt (ættu 'should' / ætu 'would eat') •261 pairs containing a/á (láta 'put' / lata 'lazy') •92 pairs containing e/é (lék 'played' / lek 'leaks') •290 pairs containing i/í (sín 'theirs (possesive)' / sin 'tendon') •189 pairs containing o/ó (góðum 'good' / goðum '(heathen) gods') •100 pairs containing u/ú (skútum 'sailboats' / skutum 'shot') •582 pairs containing g/k (leika 'to play' / leiga 'rent') •62 pairs containing gg/kk (bakka 'go backwards' / bagga 'bale') •162 pairs containing p/b (best 'best' / pest 'illness') •19 pairs containing pp/bb (pabbi 'dad' / pappi 'cardboard') •432 pairs containing t/d (myndir 'pictures' / myntir 'coins/currencies') •115 pairs containing tt/dd (fædd 'born (feminine)' / fætt 'born (neutral)') •314 pairs containing v/f (fara 'leave' / vara 'lips') __ Íslenska ruglingsmengjamálheildin er birt með CC-BY leyfi. Hún var smíðuð á 8 mánaða tímabili af Steinunni Rut Friðriksdóttur og Antoni Karli Ingasyni í máltæknideild Háskóla Íslands. Málheildin inniheldur CVS skjöl sem innihalda öll ruglingsmengi viðkomandi flokks og tíðni þeirra. Skjölin eru þannig skipulögð að fyrir hvert mengi birtist tíðni viðkomandi orða ásamt tíðni allra mögulegra málfræðilegra marka þeirra. Sjöundi og áttundi dálkurinn innihalda sanngildi sem vísa til þess hvort ruglingsmengið er málfræðilega sundurlægt (orðin í parinu eiga ekkert mark sameiginlegt) eða málfræðilega eins (öll mörk eru eins). Síðasti dálkurinn sýnir tíðni orðsins sem er sjaldgæfara innan parsins sem má nýta til þess að ákveða hvaða mengi eru nýtileg við prófanir. Þá inniheldur pakkinn jafnframt textaskjöl sem innihalda orðalista úr hverjum flokki og textaskjöl sem innihalda setningadæmi fengin úr Risamálheildinni sem innihalda orðin sem um ræðir. Þar sem n/nn dæmin eru langalgengust inniheldur pakkinn jafnframt setningadæmi fyrir 55 algengustu n/nn mengin. Einnig má finna skjöl sem innihalda öll þau mengi sem safnað var sem eru málfræðilega eins, málfræðilega sundurlæg og þau sem falla undir hvorugan fyrrnefndan flokk. Skjölin eru í UTF-8 sniðmáti. Málheildin inniheldur eftirfarandi flokka en aðeins einn stafur aðskilur orðin innan paranna í flokkunum: •197 pör með y/i (leyti / leiti) •150 pör með ý/í (sýn / sín) •1203 pör með nn/n (forvitinn / forvitin) •8 pör annars eðlis (mig / mér) •24 pör með hv/kv (hvað / kvað) •42 pör með rð/ðr (veðri / verði) •110 pör með rr/r (klárri / klári) •25 pör með f/ff (kafi / kaffi) •87 pör með g/gg (vegi / veggi) •113 pör með s/ss (kysi / kyssi) •161 pör með k/kk (taka / takka) •34 pör með p/pp (tapa / tappa) •456 pör með l/ll (vel / vell) •38 pör með m/mm (ama / amma) •401 pör með t/tt (ætu / ættu) •261 pör með a/á (láta / lata) •92 pör með e/é (lék / lek) •290 pör með i/í (sín / sin) •189 pör með o/ó (góðum / goðum) •100 pör með u/ú (skútum / skutum) •582 pör með g/k (leika / leiga) •62 pör með gg/kk (bakka / bagga) •162 pör með p/b (best / pest) •19 pör með pp/bb (pabbi / pappi) •432 pör með t/d (myndir / myntir) •115 pör með tt/dd (fædd / fætt) •314 pör með v/f (fara / vara) |
dc.language.iso | isl |
dc.publisher | Háskóli Íslands |
dc.relation.isreferencedby | https://www.insticc.org/Primoris/Resources/PaperPdf.ashx?idPaper=93715 |
dc.relation.isreferencedby | https://26679e8b-5ba3-4907-88f4-76d04d4fe176.filesusr.com/ugd/c75ba8_db0942eec06f4c09a71654b1be7e4efe.pdf |
dc.relation.replaces | http://hdl.handle.net/20.500.12537/13 |
dc.rights | Creative Commons - Attribution 4.0 International (CC BY 4.0) |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ |
dc.rights.label | PUB |
dc.source.uri | https://github.com/steinunnfridriks/ICoSC |
dc.subject | homophones |
dc.subject | confusion sets |
dc.subject | context dependency |
dc.subject | rich morphology |
dc.subject | disambiguation |
dc.title | The Icelandic Confusion Set Corpus (ICoSC) 2.0 (2020-05-06) |
dc.type | corpus |
metashare.ResourceInfo#ContentInfo.mediaType | text |
has.files | yes |
branding | Clarin IS Repository |
contact.person | Steinunn Rut Friðriksdóttir srf2@hi.is Háskóli Íslands |
files.size | 998032056 |
files.count | 1 |
- Frequency tables