Icelandic GPT-SW3 for spell and grammar checking is a GPT-SW3 model fine-tuned on Icelandic and particularly on the spell and grammar checking task. The 6.7B GPT-SW3 model (https://huggingface.co/AI-Sweden-Models/gpt-sw3-6.7b) was pre-trained on Icelandic texts and fine-tuned on Icelandic error corpora. Texts for pre-training included texts from the Icelandic Gigaword Corpus (http://hdl.handle.net/20.500.12537/253) and MÍM (http://hdl.handle.net/20.500.12537/195). For fine-tuning, the following Icelandic error corpora were used: the Icelandic Error Corpus (http://hdl.handle.net/20.500.12537/105), the Icelandic L2 Error Corpus (http://hdl.handle.net/20.500.12537/280), the Icelandic Dyslexia Error Corpus (http://hdl.handle.net/20.500.12537/281), and the Icelandic Child Language Error Corpus (http://hdl.handle.net/20.500.12537/133).
The model is fine-tuned on three different tasks:
- Task 1: The model evaluates one text with regards to e.g. grammar and spelling, and returns all errors in the input text as a list, with their position in the text and their corrections.
- Task 2: The model evaluates two texts and chooses which one is better with regards to e.g. grammar and spelling.
- Task 3: The model evaluates one text with regards to e.g. grammar and spelling, and returns a corrected version of the text.
For task 1, the model delivers a 0.28 F0.5 score on the Grammatical Error Correction Test Set (http://hdl.handle.net/20.500.12537/320) and for task 2, the model delivers a 63.95% accuracy score on the same test set. For task 3, the model scores 0.925559 on the GLEU metric (modified BLEU for grammatical error correction) and 0.02 in TER (translation error rate).
Íslenskt GPT-SW3 fyrir málfræði- og stafsetningarleiðréttingu er GPT-SW3-líkan sem hefur verið fínþjálfað á íslensku og sérstaklega í málfræði- og stafsetningarleiðréttingu. 6,7 milljarða stika GPT-SW3-líkan (https://huggingface.co/AI-Sweden-Models/gpt-sw3-6.7b) var forþjálfað á íslenskum textum og fínþjálfað á íslenskum villumálheildum. Forþjálfunartextar samanstóðu m.a. af textum úr Risamálheildinni (http://hdl.handle.net/20.500.12537/253) og MÍM (http://hdl.handle.net/20.500.12537/195). Í fínþjálfun voru eftirfarandi villumálheildir notaðar: íslenska villumálheildin (http://hdl.handle.net/20.500.12537/105), íslenska annarsmálsvillumálheildin (http://hdl.handle.net/20.500.12537/280), íslenska dyslexíuvillumálheildin (http://hdl.handle.net/20.500.12537/281) og íslenska barnamálsmálheildin (http://hdl.handle.net/20.500.12537/133).
Líkanið er fínþjálfað á þremur mismunandi verkefnum:
- Verkefni 1: Líkanið metur einn texta hvað varðar t.d. málfræði og stafsetningu og skilar öllum villum í inntakstexta sem lista, þar sem staðsetning þeirra í textanum er tekin fram ásamt leiðréttum myndum þeirra.
- Verkefni 2: Líkanið metur tvo texta og velur hvor þeirra er betri hvað varðar t.d. málfræði og stafsetningu.
- Verkefni 3: Líkanið metur einn texta hvað varðar t.d. málfræði og stafsetningu og skilar leiðréttri útgáfu af textanum.
Í verkefni 1 skilar líkanið 0.28 F0.5-skori þegar það er metið á Prófunarmengi fyrir textaleiðréttingar (http://hdl.handle.net/20.500.12537/320) og í verkefni 2 skilar líkanið 63,95% nákvæmni þegar það er metið á sömu gögnum. Í verkefni 3 skorar líkanið 0.925559 GLEU-stig (BLEU nema lagað að málrýni) og er með 0.02 villuhlutfall í þýðingu (translation error rate).
Þórunn Arnardóttir thar@hi.is University of Iceland
sponsor
Ministry of Education, Science and Culture Semantic analysis for spell and grammar checking (L13) Language Technology for Icelandic 2019-2023 nationalFunds