Hrvatski mrežni korpus: hrWaC

hrWaC je mre­žni kor­pus pri­ku­pljen sa .hr inter­net­ske dome­ne. Ina­či­ca 2.1 sadr­ži 1.4 mili­jar­de pojav­ni­ca. Kor­pus je auto­mat­ski redi­ja­kri­ti­zi­ran, lema­ti­zi­ran te ozna­čen na mor­fo­sin­tak­tič­koj razi­ni. Razi­na ovi­sno­sne sin­tak­se bit će doda­na u ver­zi­ji 2.2.

Skup mor­fo­sin­tak­tič­kih ozna­ka kori­šte­nih u kor­pu­su u skla­du je sa smjer­ni­ca­ma revi­di­ra­nog MUL­TE­XT-East V5 sku­pa ozna­ka za hrvat­ski i srp­ski, a dostu­pan je ovdje.

Auto­ri
Niko­la Lju­be­šić, Filip Klu­bič­ka
Dostup­nost
Za lokal­nu upo­ra­bu, tek­stu­al­na ina­či­ca hrWa­Ca može se pre­u­ze­ti ovdje.
hrWa­Cu se tako­đer može pri­stu­pi­ti, te ga se može pre­tra­ži­va­ti onli­ne, kori­ste­ći mre­žno suće­lje noSketc­hEn­gi­ne koje je dostup­no ovdje.
Publi­ka­ci­je
Postu­pak izgrad­nje ina­či­ce 1.0 kor­pu­sa opi­san je u slje­de­ćem član­ku:
Niko­la Lju­be­šić, Filip Klu­bič­ka (2014). {bs,hr,sr}WaC — Web cor­po­ra of Bosni­an, Cro­a­ti­an and Ser­bi­an. Pro­ce­e­dings of the 9th Web as Cor­pus Works­hop (WaC-9). Got­hen­burg, Swe­den. [Link] [.bib]


Licenca i citiranje

Resurs na ovoj stra­ni­ci dostu­pan je pod licen­com Cre­a­ti­ve Com­mons Attri­bu­ti­on-Sha­re­A­li­ke 4.0 Inter­na­ti­o­nal Licen­se. Pre­u­zi­ma­njem se oba­ve­zu­je­te na pri­dr­ža­va­nje uslo­va licen­ce.

Creative Commons License

Pri­li­kom upo­tre­be resur­sa oba­ve­zno je citi­ra­nje rado­va nave­de­nih uz nje­ga i stra­ni­ce ReLDI repo­zi­to­ri­ju­ma.