NLP paket za hrvatski i srpski jezik

Paket u Pyt­hon-u koji podr­ža­va veći­nu južno­slo­ven­skih jezi­ka i sadr­ži toke­ni­za­tor, modul za mor­fo­sin­tak­tič­ko obe­le­ža­va­nje, lema­ti­za­tor, depen­den­ci­jal­ni par­ser, kao i modul za pre­po­zna­va­nje ime­no­va­nih enti­te­ta. Za  hrvat­ski i srp­ski jezik dostup­ni su mode­li za obra­du kako stan­dard­nog tako i nestan­dard­nog jezi­ka koji se javlja na inter­ne­tu. Tač­nost modu­la za mor­fo­sin­tak­tič­no obe­le­ža­va­nje je pro­ce­nje­na na ~94%, dok je tač­nost lema­ti­za­ci­je ~99%. Depen­den­ci­jal­no par­si­ra­nje posti­že LAS (labe­led attach­ment sco­re) od ~0.9, dok pre­po­zna­va­nje ime­no­va­nih enti­te­ta posti­že micro-F1 od ~0.9.

Autor
Niko­la Lju­be­šić
Publi­ca­ti­ons
Ekspe­ri­men­ti koji su dove­li do razvo­ja ovog siste­ma su opi­sa­ni u sle­de­ćem radu: Niko­la Lju­be­šić and Kaja Dobro­voljc (2019). What Does Neu­ral Bring? Ana­lysing Impro­ve­ments in Morp­ho­syn­tac­tic Anno­ta­ti­on and Lem­ma­ti­sa­ti­on of Slo­ve­ni­an, Cro­a­ti­an and Ser­bi­an. Pro­ce­e­dings of the 7th Works­hop on Bal­to-Sla­vic Natu­ral Lan­gu­a­ge Pro­ces­sing. Flo­ren­ce, Ita­ly. pp. 29–34. [Link] [.bib]


Licenca i citiranje

Sof­tver na ovoj stra­ni­ci dostu­pan je pod licen­com Apac­he Licen­se 2.0. Pre­u­zi­ma­njem se oba­ve­zu­je­te na pri­dr­ža­va­nje uslo­va licen­ce.

Pri­li­kom upo­tre­be sof­tve­ra oba­ve­zno je citi­ra­nje rado­va nave­de­nih uz nje­ga i stra­ni­ce ReLDI repo­zi­to­ri­ju­ma.