Paket u Python-u koji podržava većinu južnoslovenskih jezika i sadrži tokenizator, modul za morfosintaktičko obeležavanje, lematizator, dependencijalni parser, kao i modul za prepoznavanje imenovanih entiteta. Za  hrvatski i srpski jezik dostupni su modeli za obradu kako standardnog tako i nestandardnog jezika koji se javlja na internetu. Tačnost modula za morfosintaktično obeležavanje je procenjena na ~94%, dok je tačnost lematizacije ~99%. Dependencijalno parsiranje postiže LAS (labeled attachment score) od ~0.9, dok prepoznavanje imenovanih entiteta postiže micro-F1 od ~0.9. Autor Nikola Ljubešić Publications Eksperimenti koji su...

Ovaj paket uključuje četiri ranije objavljena algoritma za svođenje reči na srpskom i hrvatskom na njihov osnovni oblik, reimplementirana u programskom jeziku Java: Pohlepni i optimalni stemer za srpski zasnovan na obuhvatanju sufiksa, autori Vlado Kešelj i Danko Šipka Dorada pomenutog pohlepnog stemera, autor Nikola Milošević "Jednostavan stemer za hrvatski v0.1", autori Nikola Ljubešić i Ivan Pandžić Svi stemeri očekuju da je ulazni tekst kodiran u UTF-8 formatu. Izlazni tekstovi su takođe kodirani kao UTF-8. Autor Vuk Batanović Dostupnost Paket i detaljna dokumentacija mogu se...

Ovde je opisana stara verzija alata čija je novija i unapređena varijanta trenutno dostupna u okviru NLP paketa, ali ne i u obliku veb servisa. Alat za automatsko označavanje na razini morfosintakse. Ima mogućnost označavanja hrvatskog i srpskog jezika, budući da sadrži modele za oba jezika. Označivač se temelji na algoritmu CRF (eng. conditional random forest) koji je treniran na ručno označenom korpusu hrvatskog jezika veličine 500.000 pojavnica u kombinaciji sa hrLex/srLex leksikonima za svaki od jezika. Skup morfosintaktičkih oznaka korištenih u korpusu...

Ovde je opisana stara verzija alata čija je novija i unapređena varijanta trenutno dostupna u okviru NLP paketa, ali ne i u obliku veb servisa. Alat za automatsku tokenizaciju (razdvajanje teksta u riječi i rečenice) hrvatskog i srpskog jezika. Alat je izrađen koristeći reprezentativne podatke i može se koristiti na standardnom i nestandardnom jeziku. Autori Nikola Ljubešić, Tomaž Erjavec Dostupnost Tokenizator je slobodno dostupan u tri oblika: Za lokalnu uporabu, programski kod i modeli alata mogu se preuzeti sa sljedećeg GitHub repozitorija. Tokenizator se može...

Ovde je opisana stara verzija alata čija je novija i unapređena varijanta trenutno dostupna u okviru NLP paketa, ali ne i u obliku veb servisa. Alat za automatsku lematizaciju (svođenje površinskog oblika riječi na njen kanonski, odnosno rječnički oblik). Alat pretražuje leksikone hrLex/srLex, a za lematizaciju nepoznatih riječi koristi prediktivni model koji je treniran na dostupnim korpusima i leksikonima. Autori Nikola Ljubešić Dostupnost Lematizator je slobodno dostupan u tri oblika: Za lokalnu uporabu, programski kod i modeli alata mogu se preuzeti sa sljedećeg GitHub repozitorija. ...

Alat za automatsku redijakritizaciju teksta kojem potencijalno nedostaju dijakritici (npr. transformira kuca u kuća ako je potrebno). Točnost alata jest 99.5% na standardnom jeziku i 99.2% na nestandardnom jeziku. Autori Nikola Ljubešić, Tomaž Erjavec, Darja Fišer Dostupnost Alat je slobodno dostupan u dva oblika: Za lokalnu uporabu, programski kod i modeli alata mogu se preuzeti sa sljedećeg GitHub repozitorija. Alatu i internetskom servisu može se pristupiti i preko naše programske knjižice za Python, koja se može preuzeti sa CLARIN.SI GitHub repozitorija. Upustva za instalaciju...