Comment 11 for bug 1411404

Revision history for this message
Rimas Kudelis (rq) wrote :

Manau, jog du failus turėti neverta – juk pakeisti jo koduotę ir perrašyti antraštę yra labai nesudėtinga, ir prireikus tai galima automatizuoti.

Dėl klaidos priežasties: iš pradžių aš įtariau, kad gal šią klaidą „paslepia“ tavo minėtosios dvi eilutės failo antraštėje:
LEFTHYPHENMIN 2
RIGHTHYPHENMIN 2

tačiau jas pašalinus, skiemenavimo rezultatas nekinta, tad ši teorija atkrenta (kadangi example teko kompiliuotis, tai padariau tai virtualioj mašinoj):
rq@lubuntu:~/hunspell-hyphen$ ./example lt-LT/hyph_lt_LT.utf-8.2 words.txt
penk=ta=die=nis
ne=penk=ta=die=nis
pen=kli=nė
ne=pen=kli=nė

Kita teorija: tu sakei, kad skiemenavimo taisyklės iš esmės nesiskiria tarp seno ir naujo failo, bet tai netiesa: pakonvertavus iso-8859-13 failą į utf-8 ir palyginus jį su utf-8 failu repozitorijoje, diff'as gaunasi gan nemažas – apie pusantro tūkstančio eilučių, tarp kurių ir štai šios:
-enk4la
-eno1
-ens4
-4enta
+e2n1k
+en3k4la
+e5no1
+e4n1s4
+4en3t2a
+e4n1t

Tuo tarpu paleidus skiemenavimą ir skiemenavimui naudojant pakonvertuotąjį iš ISO-8859-13 failą, rezultatas vis dar yra netinkamas:
./example lt-LT/hyph_lt_LT.dic.utf-8 words.txt
pe=nk=ta=dienis
ne=pe=nk=ta=dienis
pe=n=kli=nė
ne=pe=n=kli=nė

Tad manau, jog esamą ISO-8859-13 failą reikėtų tiesiog pašalinti iš repozitorijos, joje paliekant tik UTF-8 failą. Jeigu matysim, jog tam yra būtinybė, nesunkiai parašysime skriptą, kuris repozitorijoje esantį UTF-8 failą konvertuos į ISO-8859-13.

Beje, tuo pačiu siūlyčiau failą pervadinti iš hyph_lt_LT .dic į hyph_lt.dic, nes mūsų kalba neturi oficialių valstybinių dialektų.