Računalna obrada velikih količina podataka

Voditelj grupe

prof. dr. sc. Sven Gotovac

Suradnici

prof. dr. sc. Ivo Mateljan
izv. prof. dr. sc. Stipo Čelar
doc. dr. sc. Eugen Mudnić
doc. dr. sc. Linda Vicković
mag. ing. Petra Lončar

Opis područja istraživanja i specifičnih aktivnosti

  1. Modeliranje velikih distribuiranih računalnih sustava
  2. Obrada slike (Cluster finder + Tracking)
  3. Obrada slike s bezpilotne letjelice: mashine learning + convolution neural network
  4. Strojno učenje nad velikim količinama podataka (Big Data)

Opis laboratorija i opreme

Poslužiteljska računala, radna stanica s grafičkom karticom i PhI karticom.
Koriste se računalni resursi CERNa i SRCA za dugotrajnije proračune.

Kontakti s akademskim i drugim institucijama:

  1. CERN Ženeva
  2. PMF Zagreb
  3. PMF Mostar
  4. FSR Mostar
  5. Ericsson Nikola Tesla
  6. HT Mostar

Opis dosadašnje suradnje s akademskim i drugim institucijama

Istraživanja vezana uz modeliranje velikih distribuiranih računalnih sustava. Izrada meodela ovakvih sustava temeljem kojih se mogu predvidjeti performanse sustava, odabrati optimalna arhitektura u ovisnosti o tehnološkom razvoju uzimajući u obzir i cijenu sustava. Ovakav model koristiti će se i za optimalnu dodjelu resursa sustava. Istraživanja su za potrebe ALICE eksperimenta za planiranje treće faze mjerenja koja bi trebala biti u produkciji u 2020. g.

Također za potrebe istog eksperimenta istražuju se optimalni algoritmi za on-line sažimanje podataka sa “Time prediction chamber”. Potrebno je odabrati i implementirati algoritme za “cluster finding and tracking” za visoko-paralelne sustave.

U suradnji s HGSSome porenuto je istraživanje vezano uz on-line obradu slika s bezpilotnih letjelica, prijenos istih sigurnim kanalima za offline obradu. Korištenje suvremenih tehnika strojnog učenja i konvolucijskih neuralnih mreža za prepoznavanje ljudi na terenu i klasteriranje terena za potrebe planiranja akcija.

opis istraživanja

Distribuirani sustavi za inteligentnu obradu velikih količina podataka (DSIOVP)

Opis istraživanja za razdoblje od 5 godina

Nastaviti će se istraživanja na CERNu vezana uz modeliranje i primjenu distribuiranih računalnih sustava, odnosno simulaciju i izradu modela optimalne dodjele računalnih resursa te utjecaja diskovnih podsustava na sveukupne performanse sustava pohrane i obrade podataka.

Ovo je posebice interesantno zbog potreba nadogradnje ALICE diskovnog sustava koji se planira proširiti na cca 300 PB te je potrebno izraditi matematički model ovakvog sustava koji bi poslužio za odabir optimalnog rješenja. Navedeno je potencijalna teme jedne doktorske disertacije. Rezultati istraživanja u prethodnoj godini rezultirali su objavom u ALICE technical report.

On-line obrada mjerenja u ALICE eksperimentu zahtjeva obradu i kompresiju slike (mjerenja) koju je potrebno izvesti na paralelnim računalnim arhitekturama (CUDA ili PhI). Algoritmi pronalaženja klastera i 3-D putanja predmet su daljnjih istraživanja.

Ista istraživanja planiraju se provesti za analizu slika za potrebe Hrvatske gorske službe spašavanja. Istraživati će se algoritmi on line i off line obrade slike s bespilotnih letjelica. Planira se izraditi referentna baza podataka slika koja bi se koristila za daljnje obrade korištenjem metoda strojnog učenja. Planira se dovršiti jedna doktorska disertacija te objava rada u časopisu.

Istraživanja na Cernu proširuju se na računalnu paradigmu računarstva u oblacima. Istraživanja veza uz problematiku inteligentne klasifikacije dokumentacije korištenjem modificiranih metoda strojnog učenja provode se u suradnji sa Finom gdje se planira dovršiti jedna doktorska disertacija i objaviti jedan rad u časopisu.

Program rada za razdoblje od 5 godina

  1. Izrada modela računalnog sustava za on/off line obradu podataka na CERN-u. Ovaj dio projekta vodi Eugen Mudnić i Sven Gotovac, a na njemu još rade doktorandi Željko Šeremet i Petra Lončar. Zadatak je korištenjem diskretne simulacije (Discrete Event Simulation) napraviti model računalnog sustava za prihvat oko 1TByte podataka u sekundi, pohranu na diskovni podsustav te naknadni dohvat za proračune. Potrebno je model sustava izraditi za preciznije analize uzimajući u obzir nove računalne tehnologije (procesori, među-procesorska komunikacija, memorijski podsustavi komunikacijski kanali). Također potrebno je izraditi jednostavan ad-hoc model za potrebe brzinske procjene karakteristika predložene konfiguracije, odnosno inicijalne izrade optimalne konfiguracije sustava. Važna zadaća je i definirati model prikupljanja podataka ali i model off line obrade podataka kako bi se moglo pristupiti optimizaciji cjelokupnog modela računalnog sustava za on line i off line obradu velike količine podatataka.
  2. Klasteriranje slike s bespilotne letjelice u realnom vremenu korištenjem metoda strojnog učenja te neuralnih konvolucijskih mreža za detekciju ljudi i segmenta terena. Voditelj ovog zadatka je Sven Gotovac, a na njemu rade doktorandi Željko Marušić i Zrinka Gligo. Ovaj dio istraživanja provodi se u suradnji s Hrvatskom gorskom službom spašavanja i Hrvatskom vatrogasnom zajednicom. Cilj je izraditi model neuralne konvolucijske mreže u kombinaciji s odabranim i adaptiranim algoritmom obrade slike i strojnog učenja koji bi detektirao ljude na slikama s bespilotne letjelice. Drugi važan zadatak je segmentacija terena sukladno unaprijed definiranim značajkama kamenjar, travnati teren, rijetko nisko raslinje, … te dodatne karakteristike koje su značajne za područje primjene.
  3. Izrada referentne baze slika različitih tipova mediteranskog terena, te labeliranje pojedinih objekata na slikama sljedeći je zadatak. Ovakva baza podataka bi trebala sadržavati nekoliko desetaka tisuća slika, na kojima se predviđa labelirati nekoliko desetaka različitih objekata. Ova baza ključna je za fazu učenja konvolucijske neuralne mreže ali i algoritama strojnog učenja koji se definiraju u prethodnom zadatku. U ovu bazu potrebno je ubaciti i slike s stvarnih akcija Hrvatske gorske službe spašavanja kao i Hrvatske vatrogasne zajednice.