Prvi koraci ka statističkoj analizi

Ovaj tekst je ise­čak iz dok­tor­ske diser­ta­ci­je T. Samar­džić u pre­vo­du Jele­ne Bošnjak i Ane Bje­lo­gr­lić. Pre­gled poj­mo­va u teh­nič­kom delu se naj­ve­ćim delom osla­nja na dva izvo­ra, Baa­yen (2008) i Upton i Cook (1996).

3.3.1 Sumar­ne tabe­le

U sve tri stu­di­je slu­ča­ja u ovoj diser­ta­ci­ji, opser­va­ci­je (poda­ci) se pohra­nju­ju kao dve vrste vari­ja­bli (pro­men­lji­vih). Pra­vi­mo razli­ku izme­đu opser­va­ci­ja instan­ci, koje se odno­se na karak­te­ri­sti­ke upo­tre­be gla­go­la na nivou toke­na, i opser­va­ci­ja tipo­va, koje se odno­se na svoj­stva gla­go­la kao zaseb­nih odred­ni­ca u lek­si­ko­nu. Zarad ilu­stro­va­nja ove dve vrste poda­ta­ka iz kor­pu­sa, u Tabe­la­ma 3.1 i 3.2 dati su jed­no­stav­ni izmi­šlje­ni pri­me­ri. Vari­ja­ble instan­ci sadr­že podat­ke o sva­kom poja­vlji­va­nju nekog gla­go­la u kor­pu­su. Na pri­mer, Tabe­la 3.1 sadr­ži dve vari­ja­ble: mor­fo­lo­ški oblik gla­go­la u datim instan­ca­ma i nje­go­vu sin­tak­tič­ku rea­li­za­ci­ju (da li je upo­tre­bljen kao pre­la­zan ili ne). Vari­ja­ble tipo­va sadr­že infor­ma­ci­je koje su bit­ne za lek­sič­ke jedi­ni­ce na nivou tipa. Fre­kven­ci­ja u kor­pu­su pri­ka­za­na u Tabe­li 3.2 je obič­no vrsta podat­ka koja se odno­si na tipo­ve.

Jed­no­stav­ne tabe­le koje navo­de vred­no­sti vari­ja­bli obič­no ne poma­žu mno­go u uoča­va­nju zani­mlji­vih obra­za­ca; poje­di­nač­ni slu­ča­je­vi nisu zani­mlji­vi za sta­ti­stič­ku ana­li­zu. Mno­go je zani­mlji­vi­ja veza izme­đu vred­no­sti dve ili više vari­ja­bli.

Ozna­ka instan­ce Morf Pre­la­zan
1 pro­šlo vre­me ne
2 sada­šnje vre­me da
3 sada­šnje vre­me da
4 pro­šlo vre­me ne

Tabe­la 3.1: Pri­me­ri vari­ja­bli na nivou instan­ci

Gla­gol Fre­kven­ci­ja
stop 236
dri­ve 75
hide 13
sle­ep 9

Tabe­la 3.2: Pri­me­ri vari­ja­bli na nivou tipo­va

Na pri­mer, pita­nje koje odmah pada na pamet kada se pogle­da Tabe­la 3.1 je da li gla­gol­sko vre­me neka­ko uti­če na pre­la­znost upo­tre­blje­nog gla­go­la ili je slu­čaj obr­nut. Opser­va­ci­je nave­de­ne u tabe­li uka­zu­ju na posto­ja­nje obra­sca: gla­go­li koji su u sada­šnjem vre­me­nu su pre­la­zni, a oni koji su u pro­šlom vre­me­nu su nepre­la­zni.

Jed­no­sta­van način da se pro­u­če odno­si izme­đu vred­no­sti dve ili više vari­ja­bli je da se napra­vi tabe­la kon­tin­gen­ci­je koja poka­zu­je broj zajed­nič­kih poja­vlji­va­nja svih paro­va vred­no­sti. Tabe­la 3.3 je tabe­la kon­tin­gen­ci­je koja sumi­ra opser­va­ci­je nave­de­ne u Tabe­li 3.1. Pred­no­sti tabe­la kon­tin­gen­ci­je možda nisu oči­gled­ne na malom sku­pu poda­ta­ka, ali čim broj opser­va­ci­ja pre­đe deset, neop­hod­ne su takve sumar­ne tabe­le. Što je veći broj vari­ja­bli i mogu­ćih vred­no­sti, to je teže vide­ti veze u jed­no­stav­nim tabe­la­ma.

pro­sto pro­šlo vre­me pre­zent
pre­la­zan 0 2
nepre­la­zan 2 0

Tabe­la 3.3: Jed­no­stav­na tabe­la kon­tin­gen­ci­je koja sumi­ra vari­ja­ble instan­ci

Narav­no, obra­zac koji nai­zgled posto­ji u Tabe­li 3.1 mogao bi biti slu­čaj­nost, a ne pra­va veza izme­đu ove dve vari­ja­ble. To je moguć­nost koju nika­da ne može­mo u pot­pu­no­sti odba­ci­ti. Pro­ce­nji­va­nje vero­vat­no­će da su obra­sci u opser­va­ci­ja­ma pro­i­zvod slu­čaj­no­sti pred­sta­vlja jed­no od ključ­nih pro­ble­ma u sta­ti­sti­ci. Ako je vero­vat­no­ća vrlo mala (obič­no se za nivo zna­čaj­no­sti odre­đu­je p < 0,05), obra­zac se sma­tra zna­ča­ja­nim.

Ono što pro­ce­nu ove vero­vat­no­će gene­ral­no čini lak­šom je broj opser­va­ci­ja. Pri­vid­ni obra­sci se mno­go lak­še javlja­ju u malim nego u veli­kim uzor­ci­ma. S dru­ge stra­ne, pra­ve veze je mogu­će pre­vi­de­ti u malim uzor­ci­ma. Otud naše insi­sti­ra­nje na pri­ku­plja­nju i ana­li­zi­ra­nju veli­kih sku­po­va poda­ta­ka. Za obra­sce koji su oči­gled­ni u veli­kim uzor­ci­ma posto­ji veli­ka vero­vat­no­ća da će biti sta­ti­stič­ki zna­čaj­ni. Ipak, tre­ba ima­ti na umu da, ma koli­ko da su veli­ki naši sku­po­vi opser­va­ci­ja, oni i dalje pred­sta­vlja­ju samo male uzor­ke poja­va koje su gene­ral­no mogu­će u jezi­ku. Ana­li­za uzo­ra­ka ima smi­sla samo u kon­tek­stu sta­ti­stič­kog zaklju­či­va­nja (infe­ren­ci­jal­ne sta­ti­sti­ke).

3.3.2 Sta­ti­stič­ko izvo­đe­nje i mode­lo­va­nje

Kako nagla­ša­va­ju Upton i Cook (1996), osnov­na svr­ha sta­ti­stič­ke ana­li­ze nije opi­si­va­nje opa­že­nih poja­va, već for­mu­li­sa­nje pred­vi­đa­nja u vezi sa neo­pa­že­nim poja­va­ma na osno­vu sku­pa opser­va­ci­ja. Obra­zac koji može­mo da uoči­mo u našem izmi­šlje­nom pri­me­ru u Tabe­li 3.1 sam po sebi nije pre­te­ra­no zani­mljiv, ali bi postao mno­go inte­re­sant­ni­ji ako bismo na osno­vu nje­ga mogli da zaklju­či­mo kakvi će biti mor­fo­lo­ški oblik i sin­tak­tič­ka rea­li­za­ci­ja sva­ke nove instan­ce gla­go­la.

Dobra pred­vi­đa­nja poči­va­ju na dobrom pozna­va­nju odno­sa izme­đu vred­no­sti vari­ja­bli. Ako ove veze dovolj­no dobro razu­me­mo, može­mo da uoči­mo opšte pra­vi­lo koje gene­ri­še i u isto vre­me obja­šnja­va opser­va­ci­je u uzor­ku. Da bismo ovo ilu­stro­va­li, pri­la­go­di­li smo jed­no­sta­van pri­mer koji je sasta­vio Abney (2011). Raz­mo­tri­mo vari­ja­ble zabe­le­že­ne u (3.6).

(3.6)

t d
1 0,5
1 1
2 2
3 ?
4 7

U stup­cu t navo­di se vre­me kada je napra­vlje­na opser­va­ci­ja. Stu­bac d navo­di zabe­le­že­ne vred­no­sti: raz­da­lji­nu koju je pre­šla lop­ta kotr­lja­ju­ći se niz kosu ravan. Posto­je dve vred­no­sti za vre­me t = 1 (0,5 i 1). Nema opser­va­ci­je za t = 3.

(3.7)

abney

U ovom slu­ča­ju, pra­vi­la koja gene­ri­šu opa­že­ne sekven­ce mogu se izra­zi­ti for­mu­la­ma. U (3.7) su date dve mogu­će gene­ra­li­za­ci­je koje samo deli­mič­no pokri­va­ju ovaj niz opser­va­ci­ja. Čak i kada bismo sme­li da iza­be­re­mo vred­no­sti koje je lak­še obja­sni­ti (a ne sme­mo) i da zane­ma­ri­mo vred­nost 0,5 za t = 1, for­mu­la sa leve stra­ne za t = 4 ne pred­vi­đa vred­nost 7 već 8. Vred­nost 0,5 za t = 1 više bi odgo­va­ra­la for­mu­li sa desne stra­ne, ali ni ova for­mu­la ne može da obja­sni vred­nost za t = 4.

Kada bismo sa sigur­no­šću zna­li sve raz­da­lji­ne za sve vre­men­ske tre­nut­ke i kada bi ove vred­no­sti ima­le savr­še­no pra­vi­lan obra­zac, taj obra­zac bi se mogao opi­sa­ti kao jedin­stve­na gene­ra­li­za­ci­ja za koju ne bi bilo izu­ze­ta­ka i na osno­vu koje bi se mogla pred­vi­de­ti sva­ka raz­da­lji­na u bilo koje vre­me, uklju­ču­ju­ći i vred­nost za t = 3 koja nedo­sta­je. Takav način raz­mi­šlja­nja zajed­nič­ki je za sve induk­tiv­ne nauč­ne postup­ke. Među­tim, sigur­ne činje­ni­ce su ret­ke u nau­ci, a opser­va­ci­je se goto­vo nika­da ne mogu obja­sni­ti jed­nom jakom gene­ra­li­za­ci­jom. Situ­a­ci­ja je u stvar­no­sti obič­no mno­go više nalik na situ­a­ci­ju iz pri­me­ra (3.6): ne zna­mo zasi­gur­no činje­ni­ce i ne može­mo u pot­pu­no­sti da ih obja­sni­mo. To se možda poseb­no odno­si na jezič­ke poja­ve, koje su suštin­ski podlo­žne tuma­če­nju. Sta­ti­stič­ko zaklju­či­va­nje je način da se for­mu­li­šu pred­vi­đa­nja uzi­ma­ju­ći u obzir nepo­u­zda­nost i ogra­ni­če­nost obja­šnje­nja.

Sta­ti­stič­ka pred­vi­đa­nja se for­mu­li­šu kao vero­vat­no­ća da će odre­đe­na vari­ja­bla pod odre­đe­nim uslo­vi­ma ima­ti odre­đe­nu vred­nost (ili da će ima­ti jed­nu iz odre­đe­nog raspo­na vred­no­sti). Ta vero­vat­no­ća se obič­no pro­ce­nju­je kao rela­tiv­na fre­kven­ci­ja vred­no­sti vari­ja­ble u uzor­ku pro­u­ča­va­ne poja­ve. Na pri­mer, uzo­rak opser­va­ci­ja u Tabe­li 3.1 sadr­ži četi­ri opser­va­ci­je za vari­ja­blu mor­fo­lo­škog obli­ka i četi­ri za vari­ja­blu sin­tak­tič­ke rea­li­za­ci­je. Od četi­ri mor­fo­lo­ška obli­ka, dva su pro­sto sada­šnje vre­me, a dva pro­šlo vre­me. Vero­vat­no­ća da će nared­ni gla­gol biti u pro­stom sada­šnjem vre­me­nu je sto­ga jed­na­ka vero­vat­no­ći da će on biti u pro­šlom vre­me­nu, p = 2/4 = 0,5. Isti raču­nan se može oba­vi­ti za dru­gu vari­ja­blu, pri čemu bi se dobi­le iste vero­vat­no­će.

ex-hist1ex-hist2

Sli­ka 3.2: Ras­po­de­la vero­vat­no­ća mor­fo­lo­ških obli­ka i sin­tak­tič­kih rea­li­za­ci­ja instan­ci iz pri­me­ra

Dode­lji­va­njem vero­vat­no­će svim mogu­ćim vred­no­sti­ma vari­ja­ble dobi­ja se ras­po­de­la (distri­bu­ci­ja) vero­vat­no­ća, koja se gra­fič­ki može pred­sta­vi­ti kao histo­gram. Histo­gra­mi koji pred­sta­vlja­ju ras­po­de­lu vero­vat­no­ća za vari­ja­ble u tabe­li 3.1 dati su na Sli­ci 3.2. Sli­ka 3.3 poka­zu­je ras­po­de­lu vero­vat­no­ća poda­ta­ka u Tabe­li 3.2 u dva slu­ča­ja. Histo­gram sa leve stra­ne poka­zu­je ras­po­de­lu vero­vat­no­ća za gla­go­le (koli­ko je vero­vat­no poja­vlji­va­nje gla­go­la), a histo­gram sa desne stra­ne poka­zu­je ras­po­de­lu za vred­no­sti fre­kven­ci­je (koli­ko je vero­vat­na sva­ka vred­nost fre­kven­ci­je). Jed­no­stav­no­sti radi, pret­po­sta­vi­će­mo u oba slu­ča­ja da se lek­sič­ki inven­tar sasto­ji samo od ova četi­ri gla­go­la.

Kao što vidi­mo na Sli­ci 3.3, oblik ras­po­de­le može da vari­ra. Pojam obli­ka ras­po­de­le ne tiče se samo vizu­el­nog pred­sta­vlja­nja poda­ta­ka, već je veo­ma važan i za zaklju­či­va­nje. Obra­sci opa­že­ni u uzor­ku mogu se gene­ra­li­zo­va­ti na veću popu­la­ci­ju samo uko­li­ko pret­po­sta­vi­mo da je oblik ras­po­de­le vero­vat­no­ća za neo­pa­že­ne vred­no­sti isti kao i za vred­no­sti opa­že­ne u uzor­ku. Šta­vi­še, gene­ra­li­za­ci­je su često mogu­će samo uko­li­ko može­mo da pret­po­sta­vi­mo da će ras­po­de­la vero­vat­no­ća ima­ti odre­đen oblik.

ex-hist3ex-hist4

Sli­ka 3.3: Ras­po­de­la vero­vat­no­ća gla­go­la iz pri­me­ra i nji­ho­vih fre­kven­ci­ja

Oblik ras­po­de­le odre­đen je vred­no­sti­ma izve­snog bro­ja para­me­ta­ra. Naj­ti­pič­ni­ji pri­me­ri takvih para­me­ta­ra su arit­me­tič­ka sre­di­na i stan­dard­na devi­ja­ci­ja (koja poka­zu­je koli­ko vred­no­sti odstu­pa­ju od arit­me­tič­ke sre­di­ne). Mogu­ći su i dru­gi para­me­tri u zavi­sno­sti od toga koja vrsta vari­ja­ci­ja u vred­no­sti­ma vari­ja­bli se posma­tra.

Nor­mal­na ras­po­de­la, pri­ka­za­na na Sli­ci 3.4, često se pomi­nje u nau­ci budu­ći da mno­gi sta­ti­stič­ki testo­vi zahte­va­ju baš tu ras­po­de­lu. Ona se opi­su­je kao sime­trič­na jer su vred­no­sti oko arit­me­tič­ke sre­di­ne obič­no isto­vre­me­no i naj­ve­ro­vat­ni­je vred­no­sti. Vred­no­sti koje su manje ili veće od arti­me­tič­ke sre­di­ne su pod­jed­na­ko vero­vat­ne, a vero­vat­no­ća opa­da sa uda­lja­va­njem od arit­me­tič­ke sre­di­ne. Mno­ge kvan­ti­ta­tiv­ne vari­ja­ble ima­ju ovaj obra­zac. Tipi­čan pri­mer je visi­na lju­di: veći­na lju­di je sred­nje visi­ne, dok su izu­zet­no viso­ki ili izu­zet­no niski lju­di ret­ki.

ex-normal

Sli­ka 3.4: Uop­šte­ni gra­fič­ki pri­kaz nor­mal­ne ras­po­de­le

Fre­kven­ci­ja reči u tek­stu, na pri­mer, ne pra­ti ovaj obra­zac. Obič­no posto­ji mali broj reči koje su izu­et­no fre­kvent­ne, ali zato ima dosta reči sa izu­zet­no niskom fre­kven­ci­jom, mno­go više nego onih sa sred­njom fre­kven­ci­jom. (Naš izmi­šlje­ni pri­mer u Tabe­li 3.2 i na levoj stra­ni Sli­ke 3.3 ilu­stru­je ovu ten­den­ci­ju koli­ko god da je to mogu­će sa samo četi­ri pri­me­ra.) Budu­ći da stan­dard­ne for­mu­le za sta­ti­stič­ke testo­ve obič­no pod­ra­zu­me­va­ju da će ras­po­de­la biti nor­mal­na, mora­mo biti pažlji­vi kada ih pri­me­nju­je­mo na jezič­ke podat­ke.

Pri­mer stan­dard­nog testa koji se često kori­sti i koji zahte­va da je ras­po­de­la vero­vat­no­ća za vred­no­sti nor­mal­na jeste t-test. Ovaj test je for­mu­la koja se slu­ži para­me­tri­ma ras­po­de­la vero­vat­no­ća u dva uzor­ka kako bi se izra­ču­na­la vero­vat­no­ća da dva uzor­ka pri­pa­da­ju istoj većoj popu­la­ci­ji. Vrlo se uče­sta­lo kori­sti zato što je često važno poka­za­ti da dva uzor­ka ne pri­pa­da­ju istoj većoj popu­la­ci­ji, odno­sno da izme­đu njih posto­ji sta­ti­stič­ki zna­čaj­na razli­ka. U jed­noj od naših stu­di­ja slu­ča­ja, t-test se kori­sti da bi se poka­za­lo da dva uzor­ka zapra­vo pri­pa­da­ju istoj popu­la­ci­ji.

Kao što je pret­hod­no već pome­nu­to, stvar­na pred­vi­đa­nja zasno­va­na na sta­ti­stič­kom zaklju­či­va­nju ret­ko se tiču samo jed­ne vari­ja­ble. Ono što se obič­no izu­ča­va u sta­ti­stič­kim pri­stu­pi­ma jesu veze izme­đu vred­no­sti dve ili više vari­ja­bli. Posma­tra­ju­ći vred­no­sti u uzor­ku, poku­ša­va­mo da utvr­di­mo da li vred­no­sti jed­ne vari­ja­ble (koju nazi­va­mo zavi­snom) zavi­se od dru­gih, neza­vi­snih, vari­ja­bli. Ako može­mo utvr­di­ti da se vred­no­sti zavi­sne vari­ja­ble siste­ma­ti­ski pove­ća­va­ju pove­ća­njem neza­vi­snih vari­ja­bli, tada kaže­mo da posto­ji pozi­tiv­na kore­la­ci­ja među vari­ja­bla­ma. Uko­li­ko su pro­me­ne u vred­no­sti­ma zavi­snih i neza­vi­snih vari­ja­bli dosled­ne, ali se kre­ću u suprot­nim sme­ro­vi­ma (jed­na vred­nost se pove­ća­va, a dru­ga sma­nju­je), kaže­mo da posto­ji nega­tiv­na kore­la­ci­ja. Na pri­mer, visi­na i teži­na pozi­tiv­no kore­li­ra­ju: viši lju­di su uglav­nom teži, upr­kos činje­ni­ci da to nije uvek slu­čaj. Posto­ji neko­li­ko sta­ti­stič­kih testo­va koji­ma se meri jači­na i zna­čaj kore­la­ci­je izme­đu dve vari­ja­ble.

Pojam kore­la­ci­je klju­čan je za kon­stru­i­sa­nje sta­ti­stič­kih mode­la. Ako posto­ji kore­la­ci­ja izme­đu neza­vi­sne i zavi­sne vari­ja­ble, i ako su vred­no­sti obe vari­ja­ble nor­mal­no ras­po­de­lje­ne, onda se vred­no­sti zavi­sne vari­ja­ble mogu pred­vi­de­ti na osno­vu vred­no­sti neza­vi­snih vari­ja­bli. U ovom slu­ča­ju, kaže­mo da se vari­ja­ci­ja zavi­sne vari­ja­ble obja­šnja­va vari­ja­ci­jom neza­vi­sne vari­ja­ble. Svr­ha sta­ti­stič­kih mode­la je pred­vi­đa­nje vred­no­sti jed­ne vari­ja­ble na osno­vu infor­ma­ci­ja sadr­ža­nih u dru­gim vari­ja­bla­ma. Oni pri­ka­zu­ju delić stvar­no­sti kao skup neza­vi­snih vari­ja­bli, poten­ci­jal­nih pre­dik­to­ra, jed­ne zavi­sne vari­ja­ble i pre­ci­zno opi­sa­nih veza izme­đu njih. Pred­vi­đa­nje je obič­no zasno­va­no na regre­si­o­noj ana­li­zi, koja poka­zu­je u kojoj se meri vari­ja­ci­ja zavi­sne vari­ja­ble obja­šnja­va sva­kim poje­di­nač­nim fak­to­rom koji je pred­sta­vljen jed­nom neza­vi­snom vari­ja­blom.

3.3.3 Baje­zi­jan­sko mode­lo­va­nje

Alter­na­tiv­ni pri­stup pred­vi­đa­nju vred­no­sti jed­ne vari­ja­ble na osno­vu vred­no­sti dru­gih vari­ja­bli jeste baje­zi­jan­sko mode­lo­va­nje. Pre­ma ovom okvi­ru, vero­vat­no­ća da će neka vari­ja­bla ima­ti odre­đe­nu vred­nost pro­ce­nju­je se u pogle­du apri­or­ne i poste­ri­or­ne vero­vat­no­će. Apri­or­na vero­vat­no­ća pred­sta­vlja naše opšte zna­nje o nekoj obla­sti pre nego što o njoj sazna­mo neki novi poda­tak. Poste­ri­or­na vero­vat­no­ća je rezul­tat kom­bi­no­va­nja apri­or­ne vero­vat­no­će sa nekim novo­ste­če­nim zna­njem.

Vari­ja­bla Vred­nost Nota­ci­ja Vero­vat­no­ća
pro­va­la u datom sused­stvu deša­va se p(b) 0,014
alarm ako se pro­va­la deša­va akti­vi­ran p(a|b) 0,75
alarm ako se pro­va­la ne deša­va akti­vi­ran p(a|¬b) 0,1
pro­va­la u sused­stvu ako je alarm akti­vi­ran deša­va se p(b|a) ?

Tabe­la 3.4: Pri­mer sažet­ka poda­ta­ka u baje­zi­jan­skom mode­lo­va­nju

Ažu­ri­ra­nje vero­vat­no­će for­mu­li­še se kao uslov­na vero­vat­no­ća, koja se može izra­ču­na­ti iz zajed­nič­ke vero­vat­no­će (vero­vat­no­ća da vari­ja­bla A ima vred­nost a, a da vari­ja­bla B isto­vre­me­no ima vred­nost b) slu­že­ći se opštim pra­vi­lom uslov­ne vero­vat­no­će datim u (3.8).

(3.8)

3.8

Baje­zi­jan­sko mode­lo­va­nje zasno­va­no je na pret­po­stav­ci da se naše zna­nje o sve­tu for­mi­ra u nizu kora­ka koji se ažu­ri­ra­ju i da se može izra­zi­ti kroz uslov­ne vero­vat­no­će, kao što je pri­ka­za­no u Tabe­li 3.4. Ovaj pri­mer, zasno­van na Sil­ve­ru (2012), tiče se pro­ce­ne vero­vat­no­će da se pro­va­la zai­sta dogo­di­la uko­li­ko je alarm akti­vi­ran. Pri pro­ce­ni ove vero­vat­no­će, osla­nja­mo se na neko­li­ko činje­ni­ca (nave­de­nih u Tabe­li 3.4). Iz pret­hod­nog isku­stva zna­mo da je vero­vat­no­ća pro­va­le u datom nase­lju 0,014. To je apri­or­na vero­vat­no­ća u našem pri­me­ru. Tako­đe ima­mo pro­ce­nu toga koli­ko efi­ka­sno alarm detek­tu­je pro­va­lu: dobi­ja­mo pozi­ti­van sig­nal u 75% slu­ča­je­va kada se pro­va­la zai­sta dogo­di­la, i u 10% slu­ča­je­va kad pro­va­le nije bilo. Kom­bi­nu­je­mo ovo zna­nje pri­me­nju­ju­ći jed­na­či­nu u (3.9), pozna­tu kao Baje­so­vo pra­vi­lo, koja je izve­de­na iz pra­vi­la uslov­ne vero­vat­no­će (3.8) pri­me­nju­ju­ći zakon komu­ta­tiv­no­sti.

(3.9)

3.9

Kada opšte sim­bo­le u (3.9) zame­ni­mo nota­ci­jom iz našeg sažet­ka poda­ta­ka, dobi­ja­mo jed­na­či­nu u (3.10). Kada zame­ni­mo čla­no­ve sa kon­kret­nom vero­vat­no­ćom datom u Tabe­li 3.4, kao što je pri­ka­za­no u (3.11), dobi­ja­mo dgo­vor na prvo­bit­no pita­nje: vero­vat­no­ća da se pro­va­la dogo­di­la kada je alarm akti­vi­ran je oko 0,1, što je i dalje niska vred­nost ima­ju­ći u vidu da je sig­nal alar­ma pozi­ti­van.

(3.10)

3.10

(3.11)

3.11

Tre­ba ista­ći da član p(a) nije nave­den u tabe­li. On se izra­ču­na­va iz uslov­nih vero­vat­no­ća koje su dostup­ne. Kao što je pri­ka­za­no u (3.12), vero­vat­no­ća da je alarm akti­vi­ran prvo je izra­že­na kao zbir dve zajed­nič­ke vero­vat­no­će: vero­vat­no­će da je alarm akti­vi­ran i da se pro­va­la odvi­ja i vero­vat­no­će da je alarm akti­vi­ran, a da do pro­va­le nije došlo (vero­vat­no­ća sku­pa kom­ple­men­tar­nih vred­no­sti). Budu­ći da ove dve zajed­nič­ke vero­vat­no­će nisu nave­de­ne u našim poda­ci­ma, izra­ču­na­va­mo ih na osno­vu uslov­nih vero­vat­no­ća koje su pozna­te pri­me­nom pra­vi­la u (3.8). Član p(¬b), koji nam je potre­ban kako bismo to izra­ču­na­li, izvo­di se iz p(b). Kako su ova dva slu­ča­ja kom­ple­men­tar­na, nji­ho­va vero­vat­no­ća izno­si 1, što nam daje p(¬b) = 1 – p(b) = 0,986.

(3.12)

3.12

Ova rela­tiv­no jed­no­stav­na raču­na­nja pru­ža­ju for­mal­ni okvir za ažu­ri­ra­nje apri­or­ne vero­vat­no­će nakon uvi­da u nove infor­ma­ci­je koje se tiču pita­nja koje se istra­žu­je. U našem pri­me­ru, apri­or­na vero­vat­no­ća pro­va­le u datom sused­stvu ažu­ri­ra se nakon što sazna­mo da je alarm bio akti­vi­ran. Ažu­ri­ra­nje se vrši uzi­ma­ju­ći u obzir nei­zve­snost koja je sastav­ni deo zna­nja o poja­vi na sva­kom kora­ku.

Jed­na od pred­no­sti baje­zi­jan­skog mode­lo­va­nja u pore­đe­nju sa „stan­dard­nom“ infe­ren­ci­jal­nom sta­ti­sti­kom pred­sta­vlje­nom u Odelj­ku 3.3.2 leži u tome što pru­ža jed­no­stav­ni­ji meha­ni­zam za kom­bi­no­va­nje doka­za. U stan­dard­nom pri­stu­pu, uti­caj svih poten­ci­jal­nih pre­dik­to­ra na pred­vi­đe­nu vari­ja­blu pro­ce­nju­je se direkt­no. Obja­šnje­nja dobi­je­na pre­dik­to­ri­ma mogu se kom­bi­no­va­ti line­ar­no ili pon­de­ri­sa­no, ali ne i hije­rar­hij­ski. Nasu­prot tome, baje­zi­jan­sko raču­na­nje može se pri­me­ni­ti rekur­ziv­no: nakon što je poste­ri­or­na vero­vat­no­ća izra­ču­na­ta, može se kori­sti­ti kao apri­or­na za neku dru­gu poste­ri­or­nu vero­vat­no­ću. Na pri­mer, apri­or­na vero­vat­no­ća pro­va­le u odre­đe­nom sused­stvu, koja je kori­šće­na u pome­nu­tom raču­na­nju, mogla se izra­ču­na­ti kao poste­ri­or­na vero­vat­no­ća koja šan­se da se pro­va­la uop­šte dogo­di dovo­di u vezu sa nekim karak­te­ri­sti­ka­ma odre­đe­nog sused­stva i nje­go­vom sklo­no­šću ka pro­va­la­ma.

Još jed­na pred­nost baje­zi­jan­skog mode­lo­va­nja jeste to što ne pret­po­sta­vlja kon­kret­ne para­me­tre ras­po­de­la vero­vat­no­ća za vred­no­sti vari­ja­bli. U baje­zi­jan­skom mode­lo­va­nju, akce­nat je sta­vljen na kom­bi­no­va­nje ovih vero­vat­no­ća, dok je nji­ho­vo pore­klo od manje važno­sti. Pro­ce­ne vero­vat­no­će mogu biti izra­zi intu­i­tiv­nog zna­nja (struč­nja­ka), pret­hod­nog isku­stva, ili rela­tiv­ne fre­kven­ci­je u uzor­ku. Raču­na­nja iz kojih dobi­ja­mo nove pro­ce­ne pri­me­nji­va su na bilo koju vrstu ras­po­de­la vero­vat­no­ća za vred­no­sti dok god vero­vat­no­ća svih vred­no­sti ukup­no izno­si 1 (poput vero­vat­no­će da će se pro­va­la dogo­di­ti i vero­vat­no­će da se neće dogo­di­ti, kao što sto­ji u našem pri­me­ru).

Obe istak­nu­te pred­no­sti od poseb­ne su važno­sti u kon­tek­stu mode­lo­va­nja jezič­kih poja­va. Zbog rekur­ziv­ne pri­ro­de, baje­zi­jan­ski mode­li su pogo­dan okvir za sta­ti­stič­ki pri­stup jezič­kim struk­tu­ra­ma, koje su, pre­ma veći­ni teo­rij­skih pri­ka­za, rekur­ziv­ne. Činje­ni­ca da u ovom pri­stu­pu zaklju­či­va­nje ne zavi­si od kon­kret­nih ras­po­de­la vero­vat­no­ća (pogo­tvo od nor­mal­ne ras­po­de­le) bit­na je zato što su jezič­ki poda­ci često pove­za­ni sa neo­bič­nim ras­po­de­la­ma za koje je teško defi­ni­sa­ti mali skup odgo­va­ra­ju­ćih para­me­ta­ra.

Među­tim, ove pred­no­sti ima­ju svo­ju cenu. Istu­pa­nje iz okvi­ra stan­dard­ne infe­ren­ci­jal­ne sta­ti­sti­ke ote­ža­va eva­lu­a­ci­ju pred­vi­đa­nja u baje­zi­jan­skom mode­lo­va­nju. U tra­di­ci­o­nal­nom sta­ti­stič­kom mode­lo­va­nju, dobra pred­vi­đa­nja zajam­če­na su poj­mom sta­ti­stič­kog zna­ča­ja. Ako se iden­ti­fi­ku­je sta­ti­stič­ki zna­ča­jan efe­kat pre­dik­to­ra na pred­vi­đe­nu vari­ja­blu, za pred­vi­đa­nja zasno­va­na na ovoj vezi može se oče­ki­va­ti da budu tač­na u veći­ni slu­ča­je­va. Pojam sta­ti­stič­kog zna­ča­ja nije ugra­đen u pred­vi­đa­nja u baje­zi­jan­skom mode­lo­va­nju. Kva­li­tet pred­vi­đa­nja mora se pro­ce­ni­ti na neki dru­gi način, uglav­nom mere­njem sto­pe uspe­šnih pred­vi­đa­nja.

U ovoj diser­ta­ci­ji kori­ste se oba pri­stu­pa. Pri­me­nju­je­mo stan­dard­ne testo­ve u situ­a­ci­ji kada može­mo pret­po­sta­vi­ti nor­mal­nu ras­po­de­lu vero­vat­no­ća za vred­no­sti vari­ja­ble, i gde hije­rar­hij­ske veze izme­đu kom­po­ne­na­ta jed­nog mode­la nisu kom­plek­sne. U suprot­nom, for­ma­li­zu­je­mo naše gene­ra­li­za­ci­je u vidu baje­zi­jan­skih mode­la i testi­ra­mo pred­vi­đa­nja pore­đe­njem pred­vi­đe­nih i stvar­nih vred­no­sti na uzor­ku kon­trol­nih pri­me­ra. Gene­ra­li­za­ci­je za koje se kori­ste ovi mode­li tiču se veze izme­đu seman­tič­kih svoj­sta­va gla­go­la i opa­žlji­vih for­mal­nih svoj­sta­va nji­ho­vih rea­li­za­ci­ja u tek­sto­vi­ma. Vari­ja­ci­je u instan­ca­ma gla­go­la obja­šnja­va­mo vari­ja­ci­ja­ma u nji­ho­vim seman­tič­kim svoj­stvi­ma.

Bibli­o­gra­fi­ja

Ste­ven Abney. Data-inten­si­ve expe­ri­men­tal lin­gu­i­stics. Lin­gu­i­stic Issu­es in Lan­gu­a­ge Tech­no­lo­gy — LiLT, 6(2):1–30, 2011. [link]

Harald Baa­yen. Ana­lyzing Lin­gu­i­stic Data. A Prac­ti­cal Intro­duc­ti­on to Sta­ti­stics using R. Cam­brid­ge Uni­ver­si­ty Press, Cam­brid­ge, 2008.

Nate Sil­ver. The Sig­nal and the Noi­se: Why So Many Pre­dic­ti­ons Fail — but Some Don’t. The Pen­gu­in Press, New York, 2012.

Gra­ham Upton and Ian Cook. Under­stan­ding sta­ti­stics. Oxford Uni­ver­si­ty Press, Oxford 1996.