Novi statistički kurikul

Novi statistički kurikul

Pripadam u generaciji koja je deskriptivnu statistiku još nedavno, na fakultetu, računala “rukom”, a kritične vrijednosti tražila u tiskanim statističkim tablicama. Ta vremena iz današnje datacentrične perspektive izgledaju romantičnija nego što uistinu jesu. U ovome postu želim dati osvrt na trenutačno stanje u statističkom kurikulu iz iskustva rada na razvoju i predavanja nekoliko statističkih kolegija namijenjenih studentima društvenih i humanističkih znanosti (Primjena statistike, Obrada podataka, Multivarijatne metode, Analiza teksta ). Istaknuo bih tri važne teze: – moderna statistička edukacija postala je narazdvojiva od obrade podataka odnosno podatkovnih znanosti (Data Science); – programi obrazovanja iz podatkovnih znanosti u Hrvatskoj tek su u povojima i ekskluzivno su namjenjeni (unidisciplinarni) stručnjacima za rad s podatcima; – statistički kolegiji u društvenim znanostima reformiraju se kako bi se studenti društvenih smjerova mogli uključiti u aktualne trendove rada s podatcima. Nakon rasprave o ovim trendovima ponudit ću i nekoliko prijedloga za prilagodbu statističkog kurikula za društvene znanosti kako bi bolje odgovarao duhu vremena.

“Veliki” podatci i statistika

Svjedočimo strelovitom porastu količine i intenziteta podataka (Big Data)iz različitih izvora s Web-a, društvenih mreža, mobilinih uređaja, aplikacija, raznih urbanih senzora. Podatci postaju osnova za odlučivanje u skoro svim društvenim sferama: biznisu, politici, javnim politikama, medijima, znanosti…Sveopća prožetost društva podatcima zbog toga je upotrebu statistike učinila istovremeno izrazito uobičajenom i sve složenijom. Uobičajenost je uglavnom povezana sa sve većim potrebama za odlučivanjem na temelju podataka, a rast kompleksnosti povezan je s karakteristikama tih podataka koji su često nestrukturirani, “brzi” (dostupni u realnom vremenu) te međusobno nekompatibilni kao što je povezan i s metodama koje su potrebne da bi se u takvim podatcima uspješno identificirale vrijedne informacije.

Tradicionalna statistika kao alat za pronalazak korisnih informacija u velikim podatcima nailazi na dvije glavne prepreke.

Prva se prepreka odnosi na znatno složenije procedure uvođenja strukture u podatke i njihovu prilagodbu do formata pogodnog za provedbu analize. To znači da vještine nove statističke analize zahtijevaju tehnike i alate za rad na podatcima koji, u strogom smislu, uopće nisu dio tradicionalne statističke analize. Takve se aktivnosti, primjerice, odnose na preuzimanje podataka s Web-a, na rad s bazama podataka, API-je , manipulaciju podatakovnih formata, prilagobu varijabli, suradnju, dijeljenje i komunikaciju rezultata analize… Taj popis uključuje samo najvažnije i nipošto nije konačan, a valja napomenuti da bi se o svakoj pojedinačnoj aktivnosti mogao napraviti zaseban kolegij!

Druga prepreka tiče se sve veće složenosti samih statističkih metoda pa je već i za jednostavan vizualni prikaz podataka u novoj statistici potrebno poznavanje sintakse vizualizacijskih jezika, pri čemu su željeni formati prikaza podataka često dinamički, korisnički prilagodljivi (aplikacije), tematski prilagođeni i sl. Zbog toga će specijalizacija u konkretnim (statističkim) metodološkim pristupima (vrstama analize) zapravo biti nedostatak na (konkurentskom) tržištu rada. Štoviše, specjalizacija u statističkim metodama više nije dovoljna za uspješno snalaženje u novoj podatkovnoj paradigmi, nego je itekako potrebno poznavanje „modernijih“ metoda kao što su strojno učenje, duboko učenje, pojačano učenje i analiza neuralnih mreža.

Podatkovna znanost u Hrvatskoj

Spomenuti rast podataka i pratećih alata za obradu podataka logično povećavaju potražnju za vještinama rada s podatcima. Takvim se vještinama bave podatkovne znanosti (Data Science), koje su se u zadnjih nekoliko (manje od 10) godina iz domene samoukih praktičara počele premiještati i institucionalno pozicionirati na sveučilištima kao zasebna i sve jasnije definirana disciplina. Danas tako postoje već etablirani programi iz podatkovnih znanosti na velikom broju (preko 600) američkih i europskih sveučilišta. Ovdje svakako treba naglasiti i zasluge mnogobrojnih kvaziformalnih pristupa za učenje vještina rada s podatcima poput online tečajeva, blogova, tutorial-a, bootcampova koji su znatno pridonijeli popularizaciji i dostupnosti podatkovnih vještina.

Iako podatkovne znanosti u Hrvatskoj više nisu novina, osobito u poslovnom sektoru, obrazovanje iz ove discipline tek je u povojima. Prvi cjeloviti program iz podatkovnih znanosti na diplomskoj razini u Hrvatskoj uveden je prije tri godine u Algebri Algebri, a pregled programskog kurikuluma ukazuje na to da se radi o sveobuhvatnom, modernom i konkurentnom programu iz podatkovnih znanosti koji bih nadopunio samo zasebnim kolegijima o programskim jezicima i prezentaciji podatka :-). Alternativna opcija je smjer Znanost o podatcima na diplomskom studiju računarstva u Zavodu za elektroničke sustave i obradbu informacija pri FER-u za koji nisam uspio pronaći detaljan kurikulum. U pripremi je i diplomski studij Podatkovna znanost i inženjerstvo na PMF-u u Splitu za koji nisam pronašao više informacija od popisa predmeta (na istom linku) i koji izgleda dosta dobro.

Osim sveučilišnih programa dostupno je i nekoliko kraćih tečajeva poput Certified data scientist Hrvatskog instituta za financije za koji ne znam je li još uvijek u ponudi. U svakom slučaju nudi zanimljiv dvodnevni program. Kratki dvodnevni program Data Science i prediktivna analitika dostupan je i u bird akademiji koja u ponudi ima i nekoliko drugih, tematski bliskih tečajeva. Na tržištu je također dostupno i par usko povezanih tečajeva vezanih uz programski jezik “R” (za podatkovne znanosti) od kojih mi se najbolji čini onaj iz serije tečajeva statistike od Srca, pri čemu su nastavni materijali dostupni za download. Na kraju bih još i spomenuo tečaj iz “R”-a na online platformi Campster.

Pregled dostupnih programa pokazuje da je podatkovna edukacija u Hrvatskoj usmjerena na inženjere i općenito tehničke stručnjake, ali nove su vještine rada s podatcima potrebne mnogo većem broju zanimanja. Naime, riječ je o neophodnim vještinama za široki spektar zanimanja, a osobito za ona povezana s društvenim znanostima. Edukacija iz rada s podatcima upravo je tu najoskudnija i to otežava uključivanje društvenih znanosti u novu podatkovnu pradigmu. Jedini način za ozbiljnu prilagodbu je uključivanje elemenata podatkovnih znanosti u statistički kurikulum na društvenim i humanističkim smjerovima.

Reforma statističkog kurikula

Statistički kurikul u društvenim i humanističkim smjerovima karakterizira naglasak na teorijskim konceptima, primjena tradicionalnih statističkih alata deskriptivne i inferencijalne statistike te nedostatak računarskog (IT) pristupa. Studenti društvenih i humanističkih smjerova zbog toga će se teže uključivati u novu podatkovnu paradigmu u poslovnom i istraživačkom sektoru. Da bi se to izbjeglo, u novu paradigmu treba uključiti osposobljavanje za poslove poput istraživanja tržišta, prediktivnu analitiku, anallitičko novinarstvo i slične. U znanstvenom sektoru potrebno je obuhvatiti računalne društvene znanosti koje su se u zadnjih desetak godina pokazale kao vrlo perspektivno istraživačko područje u nizu disciplina poput ekonomike, politologije, novinarstva, a čini se da puno potencijala nose u sociologiji, demografiji, geografiji i pshologiji i pravu. Kako bi se to ispravilo, novi statistički kurikul trebao bi sadržavati:

  1. elemente računarstva

  2. bolje povezivanje statističke analize i obrade podataka

  3. vještine suradnje i kumunikacije rezultata analize

  4. modernu informatičku logistiku

Računarstvo

Glavni problem u prilagodbi statističkog kurikuluma novoj podatkovnoj paradigmi predstavlja odbojnost studenata društvenih i humanističkih smjerova prema programskim jezicima. Dio je krivnje i na profesorskoj strani na kojoj često nedostaje spremnosti za neugodni uspon po strmoj krivulji učenja sintakse programskih jezika. Kompromis se postiže u korištenju statističkog softvera na bazi padajućih izbornika (SPSS, SAS, EViews) ili kvaziprogramskih jezika poput STATA-e i Matlaba.Takav je kompromis postao prepreka jer poznavanje (high-level) programskih jezika poput Pythona, „R“-a,ili Julie neophodan je (nažalost ne i dovoljan) uvjet za rad u novoj paradigmi. Prijedlog za novi kompromis je uvođenje osnova programskih jezika u kurikul na fakultetima društvenih i humanističkih znanosti ili postupno uvođenje sintakse navedenih programskih jezika kroz kolegije iz statistike, odnosno učenje statističkih koncepata kroz sintaksu programskog jezika. Uz malo dobre volje i obilje dostupnih online resursa (npr. Data Camp koji bi mogao osigurati fakultet) to je moguće postići već unutar dva semestra.

Podatci

Novi bi statistički kurikul trebao staviti naglasak na iskustvo rada s podatcima, po mogućnosti što sličnije radu s podatcima u praksi. Na taj će način edukacija smanjiti frustraciju oko brojnih suptilnih problema koje analiza podataka nosi u praksi. To se posebno odnosi na dohvat i pohranu podataka te prilagodbu i potrebne transformacije podataka prije provedbe završne statističke analize. Upravo takve aktivnosti uzimaju najviše vremena i napora u analizi pa edukacija mora uključivati rad s alatima i procedurama za manipulaciju podatcima. Mislim da je to najbolje uklopiti u kurikulum kroz uvođenje takvih tehnika na realnim i aktualnim primjerima, po mogućnosti kroz prikladne studije slučaja. Tu je također uputno staviti naglasak na opće principe i minimizirati oslanjanje na tehničku notaciju. Pored tehnika manipulacije podatcima, kurikulum treba uključivati i osnovne tehnologije za rad s bazama podatka poput programskog jezika SQL.

Suradnja i komunikacija

Većina današnje analize podataka provodi se u timovima stručnjaka pa je u novi statistički kurikulum neophodno uvesti tehnike i alate za suradnju na obradi i analizi podataka. To bi trebalo uključivati osnovna znanja rada s GitHub platformom za dijeljenje koda na osnovi Git sustava. Osim suradnje, u kurikulu je vrlo važno naglasiti različite mogućnosti komunikacije rezultata analize te kako ih prilagoditi krajnjem korisniku. Ovdje posebnu važnost ima upoznavanje s markdown sintaksom, jednostavnim markup jezikom koji omogućuje simultanu integraciju teksta (analize) i programskog jezika (koda) u analitički izvještaj. Uvođenje markdowna bilo bi na tragu znanstvenih principa reproducibilnosti koji od 2013. godine postoje u prirodnim znanostima pa je za očekivati da će i analiza u društvenim znanostima s vremenom konvergirati takvim standardima. Osim toga, markdown omogućava eksport analize u željeni format, a to danas može biti blog post poput ovoga, akademski članak, knjiga, web stranica, dashboard, aplikacija, API ili nešto drugo.

Logistika

Materijali i resursi za učenje u novom statističkom kurikulu trebali bi biti izrađeni po Open Source principima. Na taj se način razvija i potiče kultura suradnje i dijeljenja koja dominantno karakterizira principe razvoja u podatkovnim znanostima. Osim toga, provedba vlastite analize i nadogradnja postojećeg je na taj način znatno lakša i intuitivnija. Open Source također ograničava ekskluzivnost i monopol nad znanjem te tako doprinosi difuziji tehnologije u društvu. Praktični prijedlog je postaviti kolegij u GitHub repozitorij što će, osim pristupa predavanjima, omogućiti uvid i u cjelokupnu dokumentaciju za izradu predavanja uključujući skripte s kodovima, organizaciju materijala, dodatne resurse i slično. Dodatna je prednost takvog pristupa to što općenito ubrzava i produbljuje učenje o podatkovnim znanostima na način da je svaki korak analize i izrade materijala za predavanje “javan” i objašnjen prema literate programing principima.

Nekoliko zaključnih razmatranja

Pred kraj prvog desetljeća 2000-ih započeo je novi val tehnološkoga razvoja vezan uz “podatke” i rastuću popularnost Google platforme. Tada su uvedeni odnosno objavljeni principi organizacije nove podatkovne infrastrukture i prateća algoritamska podrška zasnovana na MapReduce sustavu.Bilo je jasno da primjena tehnologija vezanih uz podatke znatno brže napreduje u poslovnom nego u akademskom sektoru. U sljedećih se desetak godina na osnovi rastućih potreba za vještinama i znanjima upravljanja podatcima razvila i etablirala nova znanstvena disciplina podatkovnih znanosti. U Hrvatsku je taj trend došao tek nedavno čemu svjedoči otvaranje nekoliko studija iz podatkovnih znanosti, ponajprije namijenjenih inženjerima i specijaliziranim stručnjacima iz tog područja. Izazovi digitalnog doba zahtijevaju nove vještine rada s podatcima u velikom broju zanimanja, a osobito onima iz društvenih usmjerenja. U ovome postu predložena je integracija elemenata podatkovnih znanosti u statistički kurikul za društvene i humanističke studije po principima koji uvažavaju aktualne tehnološke trendove i nagovještaju khunovsku promjenu paradigme u društvenim znanostima.



Comments powered by Talkyard.

Preplatite se

Preplatite se putem newslettera ili RSS feeda

Vidi također