sutrauka.py: priešdėliniai veiksmažodžiai praranda kelias formas

Bug #531816 reported by Laimonas Vėbra
6
This bug affects 1 person
Affects Status Importance Assigned to Milestone
Ispell-LT (MOVED TO GITHUB)
Fix Released
Low
Laimonas Vėbra

Bug Description

Dabar skliaudžiant priešdėlinius veiksmažodžius tikrinama ar priešdėlinio
žodžio afiksų žymos yra iš šakninio žodžio afiksų žymų aibės:
prefixed_word_flags.issubset(root_word_flags)

(t.y. ar šakninis žodis turi visas priešdėlinio žodžio afiksų žymas). Tai yra netikslinga,
nes skliaudžiant priešdėlinius veiksmažodžius dėl /X /N priešdėlinių dalelyčių (ispell
apribojimo, būdo jas kombinuojant/jungiant) prarandamos kelios priešdėlinio veiksmažodžio
formos, pvz:

    pavartyti/X > te|pa|vartyti, tebe|pa|vartyti, be|pa|vartyti, ...

versus

   vartyti/Xf > tevartyti, tebevartyti, bevartyti, |pa|vartyti, ne|pa|vartyti, ...

T.y. nebūtina tikrinti ar persidengia žodžių (priešdėlinio ir šakninio) žymų aibės;
praradimas DABAR vyksta, net jei jos nepersidengia, pvz:

    nugręžė/PXN : gręžė/PSX; gręžė/PSXNe

(dabar tokie žodžiai neskliaudžiami dėl nesutampančių afiksų žymų (konkrečiai /S, /N),
tačiau jų suskliaudimas jokių naujų klaidų/praradimų neįneštų, nes klaidos DABAR
įvyksta jau/net tada, kai jų afiksų žymos sutampa ir tokie žodžiai (jų virš 30000) sukliaudžiami, pvz:
   nugręžė/PXN : gręžė/PXN; > gręžė/PXNe (prarandama tebenugręžė, benugręžė, ...)

Reziumuojant:

Susitaikius su ir taip DABAR vykstančiu priešdėlinių darinių/formų:

     {tebe, be, te, nebe} |priešdėlis| žodis

praradimu, ir nebetikrinant ar afiksų žymų aibės persidengia, žodyną būtų galima
suglaudinti dar virš 50 kB,

ARBA atvirkščiai -- siekiant, kad nebūtų praradimų, kaip tik nereikėtų tokių žodžių
(jei priešdėlinis žodis turi /X, /N žymas) glaudinti; žodynas tikrai padidėtų virš 300 kB.

Reikia apsispręsti, laukiu pasvarstymų.

Related branches

Laimonas Vėbra (laimis)
Changed in ispell-lt:
status: New → In Progress
assignee: nobody → Laimonas Vėbra (laimis)
importance: Undecided → Low
Revision history for this message
Rimas Kudelis (rq) wrote :

Aš tai nematau problemos padidėjusiame žodyne, jeigu tikrintuvės darbas per daug nesulėtėja.

Revision history for this message
Albertas Agejevas (alga) wrote : Re: [Bug 531816] [NEW]sutrauka.py: priešdėliniai veiksmažodžiaipraranda kelias formas

On Thu, Mar 04, 2010 at 10:11:35AM -0000, Laimonas Vėbra wrote:
> Reziumuojant:
>
> Susitaikius su ir taip DABAR vykstančiu priešdėlinių darinių/formų:
>
> {tebe, be, te, nebe} |priešdėlis| žodis
>
> praradimu, ir nebetikrinant ar afiksų žymų aibės persidengia, žodyną būtų galima
> suglaudinti dar virš 50 kB,
>
> ARBA atvirkščiai -- siekiant, kad nebūtų praradimų, kaip tik nereikėtų tokių žodžių
> (jei priešdėlinis žodis turi /X, /N žymas) glaudinti; žodynas tikrai padidėtų virš 300 kB.
>
> Reikia apsispręsti, laukiu pasvarstymų.

Teisingas sprendimas -- pereiti prie hunspello kaip pagrindinio
formato ir pasinaudojus jo galimybėmis pasiekti ir žodyno
kompaktiškumą ir korektiškumą.

Albertas

Revision history for this message
Rimas Kudelis (rq) wrote :

Pritariu Albertui, tik nenorėjau to pats siūlyti, bijojau, kad būsiu oftopiku apkaltintas. :)

Jeigu teisingai suprantu, iš kompaktiško ir korektiško bazinio žodyno būtų galima generuoti ne tokius kompaktiškus, bet vis dar korektiškus kitų formatų žodynus. Būtų idealu.

Revision history for this message
Laimonas Vėbra (laimis) wrote : Re: [Bug 531816] [NEW]sutrauka.py:priešdėliniai veiksmažodžiaipraranda kelias formas

Albertas Agejevas rašė:
> On Thu, Mar 04, 2010 at 10:11:35AM -0000, Laimonas Vėbra wrote:
>> Reziumuojant:
>>
>> Susitaikius su ir taip DABAR vykstančiu priešdėlinių darinių/formų:
>>
>> {tebe, be, te, nebe} |priešdėlis| žodis
>>
>> praradimu, ir nebetikrinant ar afiksų žymų aibės persidengia, žodyną būtų galima
>> suglaudinti dar virš 50 kB,
>>
>> ARBA atvirkščiai -- siekiant, kad nebūtų praradimų, kaip tik nereikėtų tokių žodžių
>> (jei priešdėlinis žodis turi /X, /N žymas) glaudinti; žodynas tikrai padidėtų virš 300 kB.
>>
>> Reikia apsispręsti, laukiu pasvarstymų.
>
> Teisingas sprendimas -- pereiti prie hunspello kaip pagrindinio
> formato ir pasinaudojus jo galimybėmis pasiekti ir žodyno
> kompaktiškumą ir korektiškumą.

Būtų teisinga apie tai kalbėti ne čia... ;-)

Kad jau užsiminei, tai (trumpai ir nepamirštant topic'o):
Sprendimas teisingas, bet ilgas ir sudėtingas. Nepadaroma per mėnesį ir
per tris, bet tarkime jau pradėjom...
Ypač kalbant apie žodyno kompaktiškumą ir korektiškumą. Ir tai abejo
reiškia atskirą projektą (arba bent jau jų atsiejimą viduje), nes iš
kompaktiško ir korektiško hunspell generuoti bent jau tokį koks dabar
ispell-lt variantą būtų, manau, per daug kompleksiška. Ar verta eiti tuo
keliu? Gal tegu būna tas hunspell-lt laisvas nuo ispell-lt ir myspell
uodegų bent jau ta prasme, kad jų trūkumai ir jų pačių buvimas niekaip
neįtakotų hunspell-lt ir jo tobulinimo; nereikėtų prie jų derintis (pvz.
nebūtų galima laisvai kaitalioti afiksų taisyklių, žodynų, nes tai
reikštų sinchronišką hunspell->ispell|myspell transformatorių perdarymą?)

Kol kas (ispell-lt) palieku beveik taip kaip buvo (dar truputis
suglaudintų priešdėlių; -50 kB prie dabartinių -300 kB ir jų praradimų).
Beje, dar turime laisvų žymų rezerve ir dar būtų galima pridėti
„priešdėlių su dalelytėmis rinkinį“ (/f > [te, tebe, ne, nebe, be] pxf)
žodyno kompaktiškumui ir korektiškumui pagerinti, bet nežinau ar verta...?

Revision history for this message
Laimonas Vėbra (laimis) wrote :

Pataisyta ar išspręsta 84 revizijoje. Žodynas suglaudinamas dar ~70 kB (taip pat buvo pamiršti priešdėliai 'api', 'ati')

Changed in ispell-lt:
status: In Progress → Fix Committed
Laimonas Vėbra (laimis)
Changed in ispell-lt:
status: Fix Committed → Fix Released
To post a comment you must log in.
This report contains Public information  
Everyone can see this information.

Other bug subscribers

Remote bug watches

Bug watches keep track of this bug in other bug trackers.