Ovaj paket uključuje četiri ranije objavljena algoritma za svođenje reči na srpskom i hrvatskom na njihov osnovni oblik, reimplementirana u programskom jeziku Java: Pohlepni i optimalni stemer za srpski zasnovan na obuhvatanju sufiksa, autori Vlado Kešelj i Danko Šipka Dorada pomenutog pohlepnog stemera, autor Nikola Milošević "Jednostavan stemer za hrvatski v0.1", autori Nikola Ljubešić i Ivan Pandžić Svi stemeri očekuju da je ulazni tekst kodiran u UTF-8 formatu. Izlazni tekstovi su takođe kodirani kao UTF-8. Autor Vuk Batanović Dostupnost Paket i detaljna dokumentacija mogu se...

Ovde je opisana stara verzija alata čija je novija i unapređena varijanta trenutno dostupna u okviru NLP paketa, ali ne i u obliku veb servisa. Alat za automatsku lematizaciju (svođenje površinskog oblika riječi na njen kanonski, odnosno rječnički oblik). Alat pretražuje leksikone hrLex/srLex, a za lematizaciju nepoznatih riječi koristi prediktivni model koji je treniran na dostupnim korpusima i leksikonima. Autori Nikola Ljubešić Dostupnost Lematizator je slobodno dostupan u tri oblika: Za lokalnu uporabu, programski kod i modeli alata mogu se preuzeti sa sljedećeg GitHub repozitorija. ...

SETimes.SR je referentni trening korpus srpskih tekstova prikupljenih iz SETimes paralelnog korpusa novinskih članaka. On sadrži 163 dokumenta, podeljena na 3891 rečenicu, odnosno 86 726 tokena. Korpus je ručno označen na nivou: Segmentacije na tokene, rečenice, i dokumente Morfosintaktičkih oznaka Lema Sintaksnih dependencija Imenovanih entiteta Skup morfosintaktičkih oznaka korišćenih u korpusu u skladu je sa smernicama revidiranog MULTEXT-East V5 skupa oznaka za bosanski, hrvatski i srpski, a dostupan je ovde. Sintaksne dependencije su označene prema specifikaciji Universal Dependency v2 (UDv2). Oznake imenovanih entiteta su date...

srLex je flektivni leksikon srpskog jezika. Veličina leksikona jest 169,328 lema, odnosno 6,905,941 površinskih oblika. Svaka natuknica u leksikonu sastoji se od osmorki u obliku (površinski oblik, lema, MSD, MSD odlike, UPOS, morfološke odlike, apsolutna frekvencija, frekvencija na milijun pojavnica). Frekvencije su procijenjene na temelju srWaCa, srpskog mrežnog korpusa. Skup morfosintaktičkih oznaka korištenih u korpusu u skladu je sa smjernicama MULTEXT-East V6 skupa oznaka za srpsko-hrvatski makrojezik, a dostupan je ovdje. Autori Nikola Ljubešić Dostupnost srLex se kao tekstualna datoteka za lokalnu uporabu može preuzeti ovdje. srLexu se također može pristupiti,...

Alat za automatsku redijakritizaciju teksta kojem potencijalno nedostaju dijakritici (npr. transformira kuca u kuća ako je potrebno). Točnost alata jest 99.5% na standardnom jeziku i 99.2% na nestandardnom jeziku. Autori Nikola Ljubešić, Tomaž Erjavec, Darja Fišer Dostupnost Alat je slobodno dostupan u dva oblika: Za lokalnu uporabu, programski kod i modeli alata mogu se preuzeti sa sljedećeg GitHub repozitorija. Alatu i internetskom servisu može se pristupiti i preko naše programske knjižice za Python, koja se može preuzeti sa CLARIN.SI GitHub repozitorija. Upustva za instalaciju...