Resursi i alati

Found 18 Results
Page 1 of 1

Alat za redijakritizaciju


Alat za auto­mat­sku redi­ja­kri­ti­za­ci­ju tek­sta kojem poten­ci­jal­no nedo­sta­ju dija­kri­ti­ci (npr. trans­for­mi­ra kuca u kuća ako je potreb­no). Toč­nost ala­ta jest 99.5% na stan­dard­nom jezi­ku i 99.2% na nestan­dard­nom jezi­ku. Auto­ri Niko­la Lju­be­šić, Tomaž Erja­vec, Dar­ja Fišer Dostup­nost Alat je slo­bod­no dostu­pan u dva obli­ka: Za lokal­nu upo­ra­bu, pro­gram­ski kod i mode­li ala­ta mogu se pre­u­ze­ti sa slje­de­ćeg Git­Hub repo­zi­to­ri­ja. Ala­tu i inter­net­skom ser­vi­su može se pri­stu­pi­ti i pre­ko naše pro­gram­ske knji­ži­ce za Pyt­hon, koja se može pre­u­ze­ti sa CLARIN.SI Git­Hub…

02/05/2016


Automatski označivač vrsta riječi (POS) i morfosintaktičkih oznaka (MSD) za hrvatski i srpski [stari]


Ovde je opi­sa­na sta­ra ver­zi­ja ala­ta čija je novi­ja i una­pre­đe­na vari­jan­ta tre­nut­no dostup­na u okvi­ru NLP pake­ta, ali ne i u obli­ku veb ser­vi­sa. Alat za auto­mat­sko ozna­ča­va­nje na razi­ni mor­fo­sin­tak­se. Ima moguć­nost ozna­ča­va­nja hrvat­skog i srp­skog jezi­ka, budu­ći da sadr­ži mode­le za oba jezi­ka. Ozna­či­vač se teme­lji na algo­rit­mu CRF (eng. con­di­ti­o­nal ran­dom forest) koji je tre­ni­ran na ruč­no ozna­če­nom kor­pu­su hrvat­skog jezi­ka veli­či­ne 500.000 pojav­ni­ca u kom­bi­na­ci­ji sa hrLex/srLex lek­si­ko­ni­ma za sva­ki od jezi­ka. Skup mor­fo­sin­tak­tič­kih ozna­ka…

30/06/2016


Hrvatski leksikon: hrLex


hrLex je flek­tiv­ni lek­si­kon hrvat­skog jezi­ka. Veli­či­na lek­si­ko­na jest 164,206 lema, odno­sno 6,427,709 povr­šin­skih obli­ka. Sva­ka natuk­ni­ca u lek­si­ko­nu sasto­ji se od osmor­ki u obli­ku (povr­šin­ski oblik, lema, MSD, MSD odli­ke, UPOS, mor­fo­lo­ške odli­ke, apso­lut­na fre­kven­ci­ja, fre­kven­ci­ja na mili­jun pojav­ni­ca). Fre­kven­ci­je su pro­ci­je­nje­ne na teme­lju hrWa­Ca, hrvat­skog mre­žnog kor­pu­sa. Skup mor­fo­sin­tak­tič­kih ozna­ka kori­šte­nih u kor­pu­su u skla­du je sa smjer­ni­ca­ma MUL­TE­­­XT-East V6 sku­pa ozna­ka za srp­sko-hrva­­t­ski makro­je­zik, a dostu­pan je ovdje. Auto­ri Niko­la Lju­be­šić Dostup­nost hrLex se kao tek­stu­al­na dato­te­ka za lokal­nu…

02/05/2016


Hrvatski mrežni korpus: hrWaC


hrWaC je mre­žni kor­pus pri­ku­pljen sa .hr inter­net­ske dome­ne. Ina­či­ca 2.1 sadr­ži 1.4 mili­jar­de pojav­ni­ca. Kor­pus je auto­mat­ski redi­ja­kri­ti­zi­ran, lema­ti­zi­ran te ozna­čen na mor­fo­sin­tak­tič­koj razi­ni. Razi­na ovi­sno­sne sin­tak­se bit će doda­na u ver­zi­ji 2.2. Skup mor­fo­sin­tak­tič­kih ozna­ka kori­šte­nih u kor­pu­su u skla­du je sa smjer­ni­ca­ma revi­di­ra­nog MUL­TE­­­XT-East V5 sku­pa ozna­ka za hrvat­ski i srp­ski, a dostu­pan je ovdje. Auto­ri Niko­la Lju­be­šić, Filip Klu­bič­ka Dostup­nost Za lokal­nu upo­ra­bu, tek­stu­al­na ina­či­ca hrWa­Ca može se pre­u­ze­ti ovdje. hrWa­Cu se tako­đer može pri­stu­pi­ti, te…


Kolekcija filmskih recenzija na srpskom: SerbMR


Kolek­ci­ja film­skih recen­zi­ja na srp­skom sasto­ji se od tri razli­či­ta sku­pa poda­ta­ka na srp­skom koji su sasta­vlje­ni za zada­tak ana­li­ze sen­ti­men­ta: Pri­ku­plje­ne film­ske recen­zi­je na srp­skom (ISLRN 252–457–966–231–5) – nei­zba­lan­si­ran skup od 4725 film­skih recen­zi­ja na srp­skom. SerbMR-2C – Skup film­skih recen­zi­ja na srp­skom (2 kla­se) (ISLRN 016–049–192–514–1) – dvo­kla­san izba­lan­si­ran skup koji sadr­ži 1682 film­ske recen­zi­je sa ozna­če­nim sen­ti­men­tom (841 pozi­tiv­nu i 841 nega­tiv­nu). SerbMR-3C – Skup film­skih recen­zi­ja na srp­skom (3 kla­se) (ISLRN 229–533–271–984–0) – tro­kla­san izba­lan­si­ran skup…

30/06/2016


Lematizator za hrvatski i srpski [stari]


Ovde je opi­sa­na sta­ra ver­zi­ja ala­ta čija je novi­ja i una­pre­đe­na vari­jan­ta tre­nut­no dostup­na u okvi­ru NLP pake­ta, ali ne i u obli­ku veb ser­vi­sa. Alat za auto­mat­sku lema­ti­za­ci­ju (svo­đe­nje povr­šin­skog obli­ka rije­či na njen kanon­ski, odno­sno rječ­nič­ki oblik). Alat pre­tra­žu­je lek­si­ko­ne hrLex/srLex, a za lema­ti­za­ci­ju nepo­zna­tih rije­či kori­sti pre­dik­tiv­ni model koji je tre­ni­ran na dostup­nim kor­pu­si­ma i lek­si­ko­ni­ma. Auto­ri Niko­la Lju­be­šić Dostup­nost Lema­ti­za­tor je slo­bod­no dostu­pan u tri obli­ka: Za lokal­nu upo­ra­bu, pro­gram­ski kod i mode­li ala­ta mogu se…

02/05/2016


NLP paket za hrvatski i srpski jezik


Paket u Pyt­hon-u koji podr­ža­va veći­nu južno­slo­ven­skih jezi­ka i sadr­ži toke­ni­za­tor, modul za mor­fo­sin­tak­tič­ko obe­le­ža­va­nje, lema­ti­za­tor, depen­den­ci­jal­ni par­ser, kao i modul za pre­po­zna­va­nje ime­no­va­nih enti­te­ta. Za  hrvat­ski i srp­ski jezik dostup­ni su mode­li za obra­du kako stan­dard­nog tako i nestan­dard­nog jezi­ka koji se javlja na inter­ne­tu. Tač­nost modu­la za mor­fo­sin­tak­tič­no obe­le­ža­va­nje je pro­ce­nje­na na ~94%, dok je tač­nost lema­ti­za­ci­je ~99%. Depen­den­ci­jal­no par­si­ra­nje posti­že LAS (labe­led attach­ment sco­re) od ~0.9, dok pre­po­zna­va­nje ime­no­va­nih enti­te­ta posti­že micro-F1 od ~0.9. Autor Niko­la Lju­be­šić…

23/02/2021


Označeni korpus hrvatskog jezika: hr500k


hr500k je refe­rent­ni tre­ning kor­pus hrvat­skih tek­sto­va koji sadr­ži 900 doku­me­na­ta podi­je­lje­nih u 24 794 reče­ni­ce, ili 506 457 pojav­ni­ce. On pred­sta­vlja pro­ši­re­nje pret­hod­nih ozna­če­nih kor­pu­sa hrvat­skog jezi­ka, poput SETi­mes.HR i SETi­mes.HR+. Kor­pus je ruč­no ozna­čen na razi­na­ma: Seg­men­ta­ci­je na pojav­ni­ce, reče­ni­ce, i doku­men­te Mor­fo­sin­tak­tič­ke ozna­ke Leme Ovi­sno­sne sin­tak­se Seman­tič­kih ulo­ga Ime­no­va­nih enti­te­ta Cije­li kor­pus je ozna­čen na razi­ni­na­ma leme i mor­fo­sin­tak­tič­ke ozna­ke. Skup mor­fo­sin­tak­tič­kih ozna­ka kori­šte­nih u kor­pu­su u skla­du je sa smjer­ni­ca­ma revi­di­ra­nog MUL­TE­­­XT-East V5 sku­pa ozna­ka za…

02/05/2016


Označeni korpus srpskog jezika: SETimes.SR


SETi­mes.SR je refe­rent­ni tre­ning kor­pus srp­skih tek­sto­va pri­ku­plje­nih iz SETi­mes para­lel­nog kor­pu­sa novin­skih čla­na­ka. On sadr­ži 163 doku­men­ta, pode­lje­na na 3891 reče­ni­cu, odno­sno 86 726 toke­na. Kor­pus je ruč­no ozna­čen na nivou: Seg­men­ta­ci­je na toke­ne, reče­ni­ce, i doku­men­te Mor­fo­sin­tak­tič­kih ozna­ka Lema Sin­tak­snih depen­den­ci­ja Ime­no­va­nih enti­te­ta Skup mor­fo­sin­tak­tič­kih ozna­ka kori­šće­nih u kor­pu­su u skla­du je sa smer­ni­ca­ma revi­di­ra­nog MUL­TE­­­XT-East V5 sku­pa ozna­ka za bosan­ski, hrvat­ski i srp­ski, a dostu­pan je ovde. Sin­tak­sne depen­den­ci­je su ozna­če­ne pre­ma spe­ci­fi­ka­ci­ji Uni­ver­sal Depen­den­cy v2 (UDv2).…


ReLDI-NormTagNER-hr 2.1


ReLDI-Nor­m­Ta­­g­NER-hr 2.1 je ruč­no ano­ti­ra­ni kor­pus tvi­to­va na hrvat­skom. Ovaj kor­pus je zami­šljen kao zlat­ni stan­dard za obu­ku i testi­ra­nje siste­ma za toke­ni­za­ci­ju, raz­dva­ja­nje reče­ni­ca, nor­ma­li­za­ci­ju, mor­fo­sin­tak­sič­ku obra­du, lema­ti­za­ci­ju i pre­po­zna­va­nje ime­no­va­nih enti­te­ta u nestan­dard­nom jezi­ku. Svim tvi­to­vi­ma su auto­mat­ski dode­lje­ne ozna­ke nivoa stan­dard­no­sti (T = teh­nič­ki stan­dard, L = lin­gvi­stič­ki stan­dard). Auto­ri Niko­la Lju­be­šić, Tomaž Erja­vec, Vuk Bata­no­vić, Maja Mili­če­vić, Tanja Samar­džić Dostup­nost Puna ver­zi­ja kor­pu­sa se može pre­u­ze­ti iz repo­zi­to­ri­ju­ma CLARIN.SI. Publi­ka­ci­ja Izra­da kor­pu­sa je (deli­mič­no) opi­sa­na u…

11/08/2017


ReLDI-NormTagNER-sr 2.1


ReLDI-Nor­m­Ta­­g­NER-sr 2.1 je ruč­no ano­ti­ra­ni kor­pus tvi­to­va na srp­skom. Ovaj kor­pus je zami­šljen kao zlat­ni stan­dard za obu­ku i testi­ra­nje siste­ma za toke­ni­za­ci­ju, raz­dva­ja­nje reče­ni­ca, nor­ma­li­za­ci­ju, mor­fo­sin­tak­sič­ku obra­du, lema­ti­za­ci­ju i pre­po­zna­va­nje ime­no­va­nih enti­te­ta u nestan­dard­nom jezi­ku. Svim tvi­to­vi­ma su auto­mat­ski dode­lje­ne ozna­ke nivoa stan­dard­no­sti (T = teh­nič­ki stan­dard, L = lin­gvi­stič­ki stan­dard). Auto­ri Niko­la Lju­be­šić, Tomaž Erja­vec, Vuk Bata­no­vić, Maja Mili­če­vić, Tanja Samar­džić Dostup­nost Puna ver­zi­ja kor­pu­sa se može pre­u­ze­ti iz repo­zi­to­ri­ju­ma CLARIN.SI. Publi­ka­ci­ja Izra­da kor­pu­sa je (deli­mič­no) opi­sa­na u…


Skup kratkih tekstova za analizu sentimenta na srpskom jeziku: SentiComments.SR


Skup poda­ta­ka Sen­ti­Com­ments.SR sadr­ži sle­de­ća tri kor­pu­sa: Glav­ni Sen­ti­Com­ments.SR kor­pus, koji se sasto­ji iz 3490 komen­ta­ra iz film­skog dome­na Film­ski veri­fi­ka­ci­o­ni kor­pus, koji se sasto­ji iz 464 komen­ta­ra iz film­skog dome­na Knji­žev­ni veri­fi­ka­ci­o­ni kor­pus, koji se sasto­ji iz 173 komen­ta­ra iz knji­žev­nog dome­na Glav­ni Sen­ti­Com­ments.SR kor­pus je izgra­đen kori­šće­njem komen­ta­ra pose­ti­la­ca sa saj­ta kakavfilm.com, koji sadr­ži film­ske recen­zi­je na srp­skom jezi­ku. Gra­đa za film­ski veri­fi­ka­ci­o­ni koprus je dobi­je­na sa dva dru­ga saj­ta na srp­skom sa recen­zi­ja­ma fil­mo­va — gledajme.rs i…

23/02/2021


Srpski korpus kratkih novinskih tekstova za određivanje semantičke sličnosti: STS.news.sr


Srp­ski kor­pus krat­kih novin­skih tek­sto­va za odre­đi­va­nje seman­tič­ke slič­no­sti (STS.news.sr) sasto­ji se od 1192 para reče­ni­ca na srp­skom, ili oko 64 hilja­de toke­na, pri­ku­plje­nih iz novin­skih izvo­ra na inter­ne­tu i napi­sa­nih na lati­ni­ci. Sva­kom paru reče­ni­ca su ruč­no dode­lji­va­ne gra­nu­li­ra­ne oce­ne seman­tič­ke slič­no­sti na ska­li od 0 do 5. Final­ne oce­ne su dobi­je­ne kao pro­sek indi­vi­du­al­nih oce­na pet ano­ta­to­ra. Paro­vi reče­ni­ca u ovom sku­pu poda­ta­ka su pre­u­ze­ti iz Srp­skog kor­pu­sa para­fra­za (paraphrase.sr). Meto­do­lo­gi­ja nji­ho­ve ano­ta­ci­je je uglav­nom pra­ti­la onu koja…

10/12/2018


Srpski korpus parafraza: paraphrase.sr


Srp­ski kor­pus para­fra­za (paraphrase.sr) sasto­ji se od 1194 paro­va reče­ni­ca pri­ku­plje­nih iz novin­skih izvo­ra na inter­ne­tu. Sva­kom paru reče­ni­ca je ruč­no dode­lje­na binar­na oce­na slič­no­sti koja govo­ri da li su reče­ni­ce u paru dovolj­no seman­tič­ki slič­ne da bi se mogle sma­tra­ti bli­skim para­fra­za­ma. Kor­pus sadr­ži 553 para reče­ni­ca za koje je pro­ce­nje­no da su seman­tič­ki ekvi­va­lent­ne (46,31% od ukup­nog bro­ja), i 641 par seman­tič­ki razli­či­tih reče­ni­ca (53,69% od ukup­nog bro­ja). Autor Vuk Bata­no­vić Dostup­nost Kor­pus i nje­go­va doku­men­ta­ci­ja se mogu…

10/12/2017


Srpski leksikon: srLex


srLex je flek­tiv­ni lek­si­kon srp­skog jezi­ka. Veli­či­na lek­si­ko­na jest 169,328 lema, odno­sno 6,905,941 povr­šin­skih obli­ka. Sva­ka natuk­ni­ca u lek­si­ko­nu sasto­ji se od osmor­ki u obli­ku (povr­šin­ski oblik, lema, MSD, MSD odli­ke, UPOS, mor­fo­lo­ške odli­ke, apso­lut­na fre­kven­ci­ja, fre­kven­ci­ja na mili­jun pojav­ni­ca). Fre­kven­ci­je su pro­ci­je­nje­ne na teme­lju srWa­Ca, srp­skog mre­žnog kor­pu­sa. Skup mor­fo­sin­tak­tič­kih ozna­ka kori­šte­nih u kor­pu­su u skla­du je sa smjer­ni­ca­ma MUL­TE­­­XT-East V6 sku­pa ozna­ka za srp­sko-hrva­­t­ski makro­je­zik, a dostu­pan je ovdje. Auto­ri Niko­la Lju­be­šić Dostup­nost srLex se kao tek­stu­al­na dato­te­ka za lokal­nu…

02/05/2016


Srpski mrežni korpus: srWaC


srWaC je mre­žni kor­pus pri­ku­pljen sa .rs inter­net­ske dome­ne. Ina­či­ca 1.1 sadr­ži 555 mili­ju­na pojav­ni­ca. Kor­pus je auto­mat­ski redi­ja­kri­ti­zi­ran, lema­ti­zi­ran te ozna­čen na mor­fo­sin­tak­tič­koj razi­ni. Razi­na ovi­sno­sne sin­tak­se bit će doda­na u ver­zi­ji 1.2. Skup mor­fo­sin­tak­tič­kih ozna­ka kori­šte­nih u kor­pu­su u skla­du je sa smjer­ni­ca­ma revi­di­ra­nog MUL­TE­­­XT-East V5 sku­pa ozna­ka za hrvat­ski i srp­ski, a dostu­pan je ovdje. Auto­ri Niko­la Lju­be­šić, Filip Klu­bič­ka Dostup­nost Za lokal­nu upo­ra­bu, tek­stu­al­na ina­či­ca srWa­Ca može se pre­u­ze­ti ovdje. srWa­Cu se tako­đer može pri­stu­pi­ti, te…


Stemeri za srpski i hrvatski: SCStemmers


Ovaj paket uklju­ču­je četi­ri rani­je obja­vlje­na algo­rit­ma za svo­đe­nje reči na srp­skom i hrvat­skom na nji­hov osnov­ni oblik, reim­ple­men­ti­ra­na u pro­gram­skom jezi­ku Java: Pohlep­ni i opti­mal­ni ste­mer za srp­ski zasno­van na obu­hva­ta­nju sufik­sa, auto­ri Vla­do Keše­lj i Dan­ko Šip­ka Dora­da pome­nu­tog pohlep­nog ste­me­ra, autor Niko­la Milo­še­vić “Jed­no­sta­van ste­mer za hrvat­ski v0.1”, auto­ri Niko­la Lju­be­šić i Ivan Pan­džić Svi ste­me­ri oče­ku­ju da je ula­zni tekst kodi­ran u UTF-8 for­ma­tu. Izla­zni tek­sto­vi su tako­đe kodi­ra­ni kao UTF-8. Autor Vuk Bata­no­vić Dostup­nost Paket…

30/06/2016


Tokenizator za hrvatski i srpski [stari]


Ovde je opi­sa­na sta­ra ver­zi­ja ala­ta čija je novi­ja i una­pre­đe­na vari­jan­ta tre­nut­no dostup­na u okvi­ru NLP pake­ta, ali ne i u obli­ku veb ser­vi­sa. Alat za auto­mat­sku toke­ni­za­ci­ju (raz­dva­ja­nje tek­sta u rije­či i reče­ni­ce) hrvat­skog i srp­skog jezi­ka. Alat je izra­đen kori­ste­ći repre­zen­ta­tiv­ne podat­ke i može se kori­sti­ti na stan­dard­nom i nestan­dard­nom jezi­ku. Auto­ri Niko­la Lju­be­šić, Tomaž Erja­vec Dostup­nost Toke­ni­za­tor je slo­bod­no dostu­pan u tri obli­ka: Za lokal­nu upo­ra­bu, pro­gram­ski kod i mode­li ala­ta mogu se pre­u­ze­ti sa slje­de­ćeg…

28/06/2016


Page 1 of 1