Alat za automatsku redijakritizaciju teksta kojem potencijalno nedostaju dijakritici (npr. transformira kuca u kuća ako je potrebno). Točnost alata jest 99.5% na standardnom jeziku i 99.2% na nestandardnom jeziku. Autori Nikola Ljubešić, Tomaž Erjavec, Darja Fišer Dostupnost Alat je slobodno dostupan u dva oblika: Za lokalnu uporabu, programski kod i modeli alata mogu se preuzeti sa sljedećeg GitHub repozitorija. Alatu i internetskom servisu može se pristupiti i preko naše programske knjižice za Python, koja se može preuzeti sa CLARIN.SI GitHub…
02/05/2016
Ovde je opisana stara verzija alata čija je novija i unapređena varijanta trenutno dostupna u okviru NLP paketa, ali ne i u obliku veb servisa. Alat za automatsko označavanje na razini morfosintakse. Ima mogućnost označavanja hrvatskog i srpskog jezika, budući da sadrži modele za oba jezika. Označivač se temelji na algoritmu CRF (eng. conditional random forest) koji je treniran na ručno označenom korpusu hrvatskog jezika veličine 500.000 pojavnica u kombinaciji sa hrLex/srLex leksikonima za svaki od jezika. Skup morfosintaktičkih oznaka…
30/06/2016
hrLex je flektivni leksikon hrvatskog jezika. Veličina leksikona jest 164,206 lema, odnosno 6,427,709 površinskih oblika. Svaka natuknica u leksikonu sastoji se od osmorki u obliku (površinski oblik, lema, MSD, MSD odlike, UPOS, morfološke odlike, apsolutna frekvencija, frekvencija na milijun pojavnica). Frekvencije su procijenjene na temelju hrWaCa, hrvatskog mrežnog korpusa. Skup morfosintaktičkih oznaka korištenih u korpusu u skladu je sa smjernicama MULTEXT-East V6 skupa oznaka za srpsko-hrvatski makrojezik, a dostupan je ovdje. Autori Nikola Ljubešić Dostupnost hrLex se kao tekstualna datoteka za lokalnu…
02/05/2016
hrWaC je mrežni korpus prikupljen sa .hr internetske domene. Inačica 2.1 sadrži 1.4 milijarde pojavnica. Korpus je automatski redijakritiziran, lematiziran te označen na morfosintaktičkoj razini. Razina ovisnosne sintakse bit će dodana u verziji 2.2. Skup morfosintaktičkih oznaka korištenih u korpusu u skladu je sa smjernicama revidiranog MULTEXT-East V5 skupa oznaka za hrvatski i srpski, a dostupan je ovdje. Autori Nikola Ljubešić, Filip Klubička Dostupnost Za lokalnu uporabu, tekstualna inačica hrWaCa može se preuzeti ovdje. hrWaCu se također može pristupiti, te…
Kolekcija filmskih recenzija na srpskom sastoji se od tri različita skupa podataka na srpskom koji su sastavljeni za zadatak analize sentimenta: Prikupljene filmske recenzije na srpskom (ISLRN 252–457–966–231–5) – neizbalansiran skup od 4725 filmskih recenzija na srpskom. SerbMR-2C – Skup filmskih recenzija na srpskom (2 klase) (ISLRN 016–049–192–514–1) – dvoklasan izbalansiran skup koji sadrži 1682 filmske recenzije sa označenim sentimentom (841 pozitivnu i 841 negativnu). SerbMR-3C – Skup filmskih recenzija na srpskom (3 klase) (ISLRN 229–533–271–984–0) – troklasan izbalansiran skup…
30/06/2016
Ovde je opisana stara verzija alata čija je novija i unapređena varijanta trenutno dostupna u okviru NLP paketa, ali ne i u obliku veb servisa. Alat za automatsku lematizaciju (svođenje površinskog oblika riječi na njen kanonski, odnosno rječnički oblik). Alat pretražuje leksikone hrLex/srLex, a za lematizaciju nepoznatih riječi koristi prediktivni model koji je treniran na dostupnim korpusima i leksikonima. Autori Nikola Ljubešić Dostupnost Lematizator je slobodno dostupan u tri oblika: Za lokalnu uporabu, programski kod i modeli alata mogu se…
02/05/2016
Paket u Python-u koji podržava većinu južnoslovenskih jezika i sadrži tokenizator, modul za morfosintaktičko obeležavanje, lematizator, dependencijalni parser, kao i modul za prepoznavanje imenovanih entiteta. Za hrvatski i srpski jezik dostupni su modeli za obradu kako standardnog tako i nestandardnog jezika koji se javlja na internetu. Tačnost modula za morfosintaktično obeležavanje je procenjena na ~94%, dok je tačnost lematizacije ~99%. Dependencijalno parsiranje postiže LAS (labeled attachment score) od ~0.9, dok prepoznavanje imenovanih entiteta postiže micro-F1 od ~0.9. Autor Nikola Ljubešić…
23/02/2021
hr500k je referentni trening korpus hrvatskih tekstova koji sadrži 900 dokumenata podijeljenih u 24 794 rečenice, ili 506 457 pojavnice. On predstavlja proširenje prethodnih označenih korpusa hrvatskog jezika, poput SETimes.HR i SETimes.HR+. Korpus je ručno označen na razinama: Segmentacije na pojavnice, rečenice, i dokumente Morfosintaktičke oznake Leme Ovisnosne sintakse Semantičkih uloga Imenovanih entiteta Cijeli korpus je označen na razininama leme i morfosintaktičke oznake. Skup morfosintaktičkih oznaka korištenih u korpusu u skladu je sa smjernicama revidiranog MULTEXT-East V5 skupa oznaka za…
02/05/2016
SETimes.SR je referentni trening korpus srpskih tekstova prikupljenih iz SETimes paralelnog korpusa novinskih članaka. On sadrži 163 dokumenta, podeljena na 3891 rečenicu, odnosno 86 726 tokena. Korpus je ručno označen na nivou: Segmentacije na tokene, rečenice, i dokumente Morfosintaktičkih oznaka Lema Sintaksnih dependencija Imenovanih entiteta Skup morfosintaktičkih oznaka korišćenih u korpusu u skladu je sa smernicama revidiranog MULTEXT-East V5 skupa oznaka za bosanski, hrvatski i srpski, a dostupan je ovde. Sintaksne dependencije su označene prema specifikaciji Universal Dependency v2 (UDv2).…
ReLDI-NormTagNER-hr 2.1 je ručno anotirani korpus tvitova na hrvatskom. Ovaj korpus je zamišljen kao zlatni standard za obuku i testiranje sistema za tokenizaciju, razdvajanje rečenica, normalizaciju, morfosintaksičku obradu, lematizaciju i prepoznavanje imenovanih entiteta u nestandardnom jeziku. Svim tvitovima su automatski dodeljene oznake nivoa standardnosti (T = tehnički standard, L = lingvistički standard). Autori Nikola Ljubešić, Tomaž Erjavec, Vuk Batanović, Maja Miličević, Tanja Samardžić Dostupnost Puna verzija korpusa se može preuzeti iz repozitorijuma CLARIN.SI. Publikacija Izrada korpusa je (delimično) opisana u…
11/08/2017
ReLDI-NormTagNER-sr 2.1 je ručno anotirani korpus tvitova na srpskom. Ovaj korpus je zamišljen kao zlatni standard za obuku i testiranje sistema za tokenizaciju, razdvajanje rečenica, normalizaciju, morfosintaksičku obradu, lematizaciju i prepoznavanje imenovanih entiteta u nestandardnom jeziku. Svim tvitovima su automatski dodeljene oznake nivoa standardnosti (T = tehnički standard, L = lingvistički standard). Autori Nikola Ljubešić, Tomaž Erjavec, Vuk Batanović, Maja Miličević, Tanja Samardžić Dostupnost Puna verzija korpusa se može preuzeti iz repozitorijuma CLARIN.SI. Publikacija Izrada korpusa je (delimično) opisana u…
Skup podataka SentiComments.SR sadrži sledeća tri korpusa: Glavni SentiComments.SR korpus, koji se sastoji iz 3490 komentara iz filmskog domena Filmski verifikacioni korpus, koji se sastoji iz 464 komentara iz filmskog domena Književni verifikacioni korpus, koji se sastoji iz 173 komentara iz književnog domena Glavni SentiComments.SR korpus je izgrađen korišćenjem komentara posetilaca sa sajta kakavfilm.com, koji sadrži filmske recenzije na srpskom jeziku. Građa za filmski verifikacioni koprus je dobijena sa dva druga sajta na srpskom sa recenzijama filmova — gledajme.rs i…
23/02/2021
Srpski korpus kratkih novinskih tekstova za određivanje semantičke sličnosti (STS.news.sr) sastoji se od 1192 para rečenica na srpskom, ili oko 64 hiljade tokena, prikupljenih iz novinskih izvora na internetu i napisanih na latinici. Svakom paru rečenica su ručno dodeljivane granulirane ocene semantičke sličnosti na skali od 0 do 5. Finalne ocene su dobijene kao prosek individualnih ocena pet anotatora. Parovi rečenica u ovom skupu podataka su preuzeti iz Srpskog korpusa parafraza (paraphrase.sr). Metodologija njihove anotacije je uglavnom pratila onu koja…
10/12/2018
Srpski korpus parafraza (paraphrase.sr) sastoji se od 1194 parova rečenica prikupljenih iz novinskih izvora na internetu. Svakom paru rečenica je ručno dodeljena binarna ocena sličnosti koja govori da li su rečenice u paru dovoljno semantički slične da bi se mogle smatrati bliskim parafrazama. Korpus sadrži 553 para rečenica za koje je procenjeno da su semantički ekvivalentne (46,31% od ukupnog broja), i 641 par semantički različitih rečenica (53,69% od ukupnog broja). Autor Vuk Batanović Dostupnost Korpus i njegova dokumentacija se mogu…
10/12/2017
srLex je flektivni leksikon srpskog jezika. Veličina leksikona jest 169,328 lema, odnosno 6,905,941 površinskih oblika. Svaka natuknica u leksikonu sastoji se od osmorki u obliku (površinski oblik, lema, MSD, MSD odlike, UPOS, morfološke odlike, apsolutna frekvencija, frekvencija na milijun pojavnica). Frekvencije su procijenjene na temelju srWaCa, srpskog mrežnog korpusa. Skup morfosintaktičkih oznaka korištenih u korpusu u skladu je sa smjernicama MULTEXT-East V6 skupa oznaka za srpsko-hrvatski makrojezik, a dostupan je ovdje. Autori Nikola Ljubešić Dostupnost srLex se kao tekstualna datoteka za lokalnu…
02/05/2016
srWaC je mrežni korpus prikupljen sa .rs internetske domene. Inačica 1.1 sadrži 555 milijuna pojavnica. Korpus je automatski redijakritiziran, lematiziran te označen na morfosintaktičkoj razini. Razina ovisnosne sintakse bit će dodana u verziji 1.2. Skup morfosintaktičkih oznaka korištenih u korpusu u skladu je sa smjernicama revidiranog MULTEXT-East V5 skupa oznaka za hrvatski i srpski, a dostupan je ovdje. Autori Nikola Ljubešić, Filip Klubička Dostupnost Za lokalnu uporabu, tekstualna inačica srWaCa može se preuzeti ovdje. srWaCu se također može pristupiti, te…
Ovaj paket uključuje četiri ranije objavljena algoritma za svođenje reči na srpskom i hrvatskom na njihov osnovni oblik, reimplementirana u programskom jeziku Java: Pohlepni i optimalni stemer za srpski zasnovan na obuhvatanju sufiksa, autori Vlado Kešelj i Danko Šipka Dorada pomenutog pohlepnog stemera, autor Nikola Milošević “Jednostavan stemer za hrvatski v0.1”, autori Nikola Ljubešić i Ivan Pandžić Svi stemeri očekuju da je ulazni tekst kodiran u UTF-8 formatu. Izlazni tekstovi su takođe kodirani kao UTF-8. Autor Vuk Batanović Dostupnost Paket…
30/06/2016
Ovde je opisana stara verzija alata čija je novija i unapređena varijanta trenutno dostupna u okviru NLP paketa, ali ne i u obliku veb servisa. Alat za automatsku tokenizaciju (razdvajanje teksta u riječi i rečenice) hrvatskog i srpskog jezika. Alat je izrađen koristeći reprezentativne podatke i može se koristiti na standardnom i nestandardnom jeziku. Autori Nikola Ljubešić, Tomaž Erjavec Dostupnost Tokenizator je slobodno dostupan u tri oblika: Za lokalnu uporabu, programski kod i modeli alata mogu se preuzeti sa sljedećeg…
28/06/2016