########################################################################### ############ Textar af Vísindavef og Evrópuvef [VV_EV.ana] ############### ############ http://hdl.handle.net/20.500.12537/362 ############### ########################################################################### [LÝSING] Málheildin inniheldur spurningar og svör af Vísindavefnum (www.visindavefur.is) og Evrópuvefnum (www.evropuvefur.is) sem Háskóli Íslands heldur úti. Málheildin inniheldur ekki alla texta vefjanna heldur eingöngu þá sem höfundar hafa veitt leyfi fyrir. Þessi útgáfa inniheldur tilreiddan, markaðan og lemmaðan texta. Hægt er að nálgast ótilreidda og ómarkaða útgáfu á http://hdl.handle.net/20.500.12537/361. Skjalið VV_EV-2502.ana.xml inniheldur upplýsingar um málheildina, m.a. stærð og lista yfir alla höfunda og flokka sem notaðir eru á vefsíðunum. Í skjalinu eru einnig slóðir á öll TEI-skjölin sem hvert um sig inniheldur eina grein (þ.e. spurningu og svar). Í hverju TEI-skjali eru að minnsta kosti tvö div-tög. Þau hafa stikann 'type' en gildi hans er ýmist 'question' eða 'answer' eftir því hvort um er að ræða spurningu eða svar. Í sumum tilfellum er gildi 'type' 'question_long' en það div-tag inniheldur lengri útgáfu spurningarinnar. Þegar því var komið við var ýmsum upplýsingum sem birtast á eftir svari (heimildir, neðnmálsgreinar ...) geymdar í div með type='rest'. [LEYFI] Málheildin er gefin út með takmörkuðu leyfi: https://repository.clarin.is/repository/xmlui/page/license-gigaword-corpus [ÚTGEFANDI] Árni Magnússon Institute for Icelandic Studies. [FORRIT] Tokenizer: Tilreiðsla setninga og tóka var framkvæmd með Tokenizer frá Miðeind (http://hdl.handle.net/20.500.12537/219) ABLTagger (PoS): Málfræðileg mörkun var framkvæmd með ABLTagger (PoS) (http://hdl.handle.net/20.500.12537/115) Nefnir: Lemmun var framkvæmd með https://github.com/jonfd/nefnir [TÖLFRÆÐI] Fjöldi greina: 11.431 Fjöldi setninga: 318.541 Fjöldi orða: 4.648.251 Fjöldi tóka: 5.280.314