Tokenizator za hrvatski i srpski [stari]

Ovde je opi­sa­na sta­ra ver­zi­ja ala­ta čija je novi­ja i una­pre­đe­na vari­jan­ta tre­nut­no dostup­na u okvi­ru NLP pake­ta, ali ne i u obli­ku veb ser­vi­sa.

Alat za auto­mat­sku toke­ni­za­ci­ju (raz­dva­ja­nje tek­sta u rije­či i reče­ni­ce) hrvat­skog i srp­skog jezi­ka. Alat je izra­đen kori­ste­ći repre­zen­ta­tiv­ne podat­ke i može se kori­sti­ti na stan­dard­nom i nestan­dard­nom jezi­ku.

Auto­ri
Niko­la Lju­be­šić, Tomaž Erja­vec
Dostup­nost
Toke­ni­za­tor je slo­bod­no dostu­pan u tri obli­ka:
  1. Za lokal­nu upo­ra­bu, pro­gram­ski kod i mode­li ala­ta mogu se pre­u­ze­ti sa slje­de­ćeg Git­Hub repo­zi­to­ri­ja.
  2. Toke­ni­za­tor se može kori­sti­ti i onli­ne, pre­ko našeg mre­žnog suče­lja koje se nala­zi ovdje.
  3. Ala­tu i inter­net­skom ser­vi­su može se pri­stu­pi­ti i pre­ko naše pro­gram­ske knji­ži­ce za Pyt­hon, koja se može pre­u­ze­ti sa CLARIN.SI Git­Hub repo­zi­to­ri­ja. Upu­stva za insta­la­ci­ju ReLDI pro­gram­ske knji­ži­ce sa Git­Hu­ba nala­ze se ovdje (na srp­skom). Alter­na­tiv­ni i naj­lak­ši način za insta­la­ci­ju jest kori­ste­ći PyPI iz komand­ne lini­je. (Detalj­ni­je upu­te tako­đer na Git­Hu­bu.)

Za obra­du veće koli­či­ne poda­ta­ka pre­po­ru­ču­je se tre­ća opci­ja, odno­sno kori­šte­nje ReLDI pro­gram­ske knji­ži­ce za Pyt­hon.



Licenca i citiranje

Sof­tver na ovoj stra­ni­ci dostu­pan je pod licen­com Apac­he Licen­se 2.0. Pre­u­zi­ma­njem se oba­ve­zu­je­te na pri­dr­ža­va­nje uslo­va licen­ce.

Pri­li­kom upo­tre­be sof­tve­ra oba­ve­zno je citi­ra­nje rado­va nave­de­nih uz nje­ga i stra­ni­ce ReLDI repo­zi­to­ri­ju­ma.