Manau, jog du failus turėti neverta – juk pakeisti jo koduotę ir perrašyti antraštę yra labai nesudėtinga, ir prireikus tai galima automatizuoti.
Dėl klaidos priežasties: iš pradžių aš įtariau, kad gal šią klaidą „paslepia“ tavo minėtosios dvi eilutės failo antraštėje:
LEFTHYPHENMIN 2
RIGHTHYPHENMIN 2
tačiau jas pašalinus, skiemenavimo rezultatas nekinta, tad ši teorija atkrenta (kadangi example teko kompiliuotis, tai padariau tai virtualioj mašinoj):
rq@lubuntu:~/hunspell-hyphen$ ./example lt-LT/hyph_lt_LT.utf-8.2 words.txt
penk=ta=die=nis
ne=penk=ta=die=nis
pen=kli=nė
ne=pen=kli=nė
Kita teorija: tu sakei, kad skiemenavimo taisyklės iš esmės nesiskiria tarp seno ir naujo failo, bet tai netiesa: pakonvertavus iso-8859-13 failą į utf-8 ir palyginus jį su utf-8 failu repozitorijoje, diff'as gaunasi gan nemažas – apie pusantro tūkstančio eilučių, tarp kurių ir štai šios:
-enk4la
-eno1
-ens4
-4enta
+e2n1k
+en3k4la
+e5no1
+e4n1s4
+4en3t2a
+e4n1t
Tuo tarpu paleidus skiemenavimą ir skiemenavimui naudojant pakonvertuotąjį iš ISO-8859-13 failą, rezultatas vis dar yra netinkamas:
./example lt-LT/hyph_lt_LT.dic.utf-8 words.txt
pe=nk=ta=dienis
ne=pe=nk=ta=dienis
pe=n=kli=nė
ne=pe=n=kli=nė
Tad manau, jog esamą ISO-8859-13 failą reikėtų tiesiog pašalinti iš repozitorijos, joje paliekant tik UTF-8 failą. Jeigu matysim, jog tam yra būtinybė, nesunkiai parašysime skriptą, kuris repozitorijoje esantį UTF-8 failą konvertuos į ISO-8859-13.
Beje, tuo pačiu siūlyčiau failą pervadinti iš hyph_lt_LT .dic į hyph_lt.dic, nes mūsų kalba neturi oficialių valstybinių dialektų.
Manau, jog du failus turėti neverta – juk pakeisti jo koduotę ir perrašyti antraštę yra labai nesudėtinga, ir prireikus tai galima automatizuoti.
Dėl klaidos priežasties: iš pradžių aš įtariau, kad gal šią klaidą „paslepia“ tavo minėtosios dvi eilutės failo antraštėje:
LEFTHYPHENMIN 2
RIGHTHYPHENMIN 2
tačiau jas pašalinus, skiemenavimo rezultatas nekinta, tad ši teorija atkrenta (kadangi example teko kompiliuotis, tai padariau tai virtualioj mašinoj): ~/hunspell- hyphen$ ./example lt-LT/hyph_ lt_LT.utf- 8.2 words.txt
rq@lubuntu:
penk=ta=die=nis
ne=penk=ta=die=nis
pen=kli=nė
ne=pen=kli=nė
Kita teorija: tu sakei, kad skiemenavimo taisyklės iš esmės nesiskiria tarp seno ir naujo failo, bet tai netiesa: pakonvertavus iso-8859-13 failą į utf-8 ir palyginus jį su utf-8 failu repozitorijoje, diff'as gaunasi gan nemažas – apie pusantro tūkstančio eilučių, tarp kurių ir štai šios:
-enk4la
-eno1
-ens4
-4enta
+e2n1k
+en3k4la
+e5no1
+e4n1s4
+4en3t2a
+e4n1t
Tuo tarpu paleidus skiemenavimą ir skiemenavimui naudojant pakonvertuotąjį iš ISO-8859-13 failą, rezultatas vis dar yra netinkamas: lt_LT.dic. utf-8 words.txt
./example lt-LT/hyph_
pe=nk=ta=dienis
ne=pe=nk=ta=dienis
pe=n=kli=nė
ne=pe=n=kli=nė
Tad manau, jog esamą ISO-8859-13 failą reikėtų tiesiog pašalinti iš repozitorijos, joje paliekant tik UTF-8 failą. Jeigu matysim, jog tam yra būtinybė, nesunkiai parašysime skriptą, kuris repozitorijoje esantį UTF-8 failą konvertuos į ISO-8859-13.
Beje, tuo pačiu siūlyčiau failą pervadinti iš hyph_lt_LT .dic į hyph_lt.dic, nes mūsų kalba neturi oficialių valstybinių dialektų.