Automatski označivač vrsta riječi (POS) i morfosintaktičkih oznaka (MSD) za hrvatski i srpski [stari]

Ovde je opi­sa­na sta­ra ver­zi­ja ala­ta čija je novi­ja i una­pre­đe­na vari­jan­ta tre­nut­no dostup­na u okvi­ru NLP pake­ta, ali ne i u obli­ku veb ser­vi­sa.

Alat za auto­mat­sko ozna­ča­va­nje na razi­ni mor­fo­sin­tak­se. Ima moguć­nost ozna­ča­va­nja hrvat­skog i srp­skog jezi­ka, budu­ći da sadr­ži mode­le za oba jezi­ka.
Ozna­či­vač se teme­lji na algo­rit­mu CRF (eng. con­di­ti­o­nal ran­dom forest) koji je tre­ni­ran na ruč­no ozna­če­nom kor­pu­su hrvat­skog jezi­ka veli­či­ne 500.000 pojav­ni­ca u kom­bi­na­ci­ji sa hrLex/srLex lek­si­ko­ni­ma za sva­ki od jezi­ka.

Skup mor­fo­sin­tak­tič­kih ozna­ka kori­šte­nih u kor­pu­su u skla­du je sa smjer­ni­ca­ma revi­di­ra­nog MUL­TE­XT-East V5 sku­pa ozna­ka za hrvat­ski i srp­ski, a dostu­pan je ovdje.

Toč­no­sti ala­ta su izra­ču­na­te na uzor­ci­ma za testi­ra­nje za sva­ki jezik:
  • Hrvat­ski: 92.53%
  • Srp­ski: 92.33%
Autor
Niko­la Lju­be­šić
Dostup­nost
Alat je slo­bod­no dostu­pan u tri obli­ka:
  1. Za lokal­nu upo­ra­bu, pro­gram­ski kod i mode­li ala­ta mogu se pre­u­ze­ti sa slje­de­ćeg Git­Hub repo­zi­to­ri­ja.
  2. Lema­ti­za­tor se može kori­sti­ti i onli­ne, pre­ko našeg mre­žnog suče­lja koje se nala­zi ovdje.
  3. Ala­tu i inter­net­skom ser­vi­su može se pri­stu­pi­ti i pre­ko naše pro­gram­ske knji­ži­ce za Pyt­hon, koja se može pre­u­ze­ti sa CLARIN.SI Git­Hub repo­zi­to­ri­ja. Upu­stva za insta­la­ci­ju ReLDI pro­gram­ske knji­ži­ce sa Git­Hu­ba nala­ze se ovdje (na srp­skom). Alter­na­tiv­ni i naj­lak­ši način za insta­la­ci­ju jest kori­ste­ći PyPI iz komand­ne lini­je. (Detalj­ni­je upu­te tako­đer na Git­Hu­bu.)

Za obra­du veće koli­či­ne poda­ta­ka pre­po­ru­ču­je se tre­ća opci­ja, odno­sno kori­šte­nje ReLDI pro­gram­ske knji­ži­ce za Pyt­hon.

Publi­ka­ci­je
Alat i postu­pak nje­go­ve izgrad­nje detalj­no su opi­sa­ni u slje­de­ćem član­ku:
Niko­la Lju­be­šić, Filip Klu­bič­ka, Želj­ko Agić, Ivo-Pavao Jazbec (2016). New Inflec­ti­o­nal Lexi­cons and Tra­i­ning Cor­po­ra for Impro­ved Morp­ho­syn­tac­tic Anno­ta­ti­on of Cro­a­ti­an and Ser­bi­an. Pro­ce­e­dings of the Tenth Inter­na­ti­o­nal Con­fe­ren­ce on Lan­gu­a­ge Reso­ur­ces and Eva­lu­a­ti­on (LREC’16). Por­to­rož, Slo­ve­nia. [Link] [.bib]


Licenca i citiranje

Sof­tver na ovoj stra­ni­ci dostu­pan je pod licen­com Apac­he Licen­se 2.0. Pre­u­zi­ma­njem se oba­ve­zu­je­te na pri­dr­ža­va­nje uslo­va licen­ce.

Pri­li­kom upo­tre­be sof­tve­ra oba­ve­zno je citi­ra­nje rado­va nave­de­nih uz nje­ga i stra­ni­ce ReLDI repo­zi­to­ri­ju­ma.