English

Sistemi za obdelavo velikih količin podatkov

Visokošolski učitelji: Kos Andrej



Opis predmeta

Pogoji za vključitev v delo oz. za opravljanje študijskih obveznosti:

  • Poznavanje informacijskih in komunikacijskih tehnologij in storitev.

Vsebina:

Zbiranje podatkov: pametni telefoni, senzorji in v internet povezane naprave, splet, čiščenje in priprava podatkov, anonimizacija in deidentifikacija podatkov. Hramba podatkov: razširljive relacijske podatkovne baze, NoSQL podatkovne baze, razumevanje kompromisa med konsistentnostjo podatkov, zmogljivostjo in razpoložljivostjo. Obdelava podatkov: dogodkovno naravnana obdelava, paralelizacija obdelave (map-reduce), pridobivanje strukturiranih podatkov iz nestrukturiranih. Analitika: učinkoviti algoritmi za obdelavo in analizo podatkov, strojno učenje. Vizualizacija: postopki in izzivi vizualizacije velikih količin podatkov, druge modalnosti predstavitve podatkov (soundifikacija, ipd.) Aplikacije predstavljenih tehnik: sistemi za ugotavljanje konteksta, pametni sistemi (aplikacije pametnih mest, pametnega prometa, ipd.), medicinske aplikacije, socialna omrežja, finančni sistemi

Cilji in kompetence:

  • Pozna pojem »big data«. Zna ovrednotiti količino podatkov, hitrost dogodkov, njihovo raznolikost, ter ključne izzive, povezane z velikimi količinami podatkov.
  • Pozna razlike, zna izbrati relacijske ali NoSQL podatkovne baze, in ovrednotiti primernost uporabe.
  • Pozna prednosti in slabosti map-reduce modela ter ovrednotiti v primerjavi z relacijskimi podatkovnimi bazami.
  • Na primeru zna uporabiti osnovne analitske in vizualizacijske tehnike za delo z velikimi količinami podatkov.

Predvideni študijski rezultati:

Razumevanje pojma »big data«: količina podatkov, hitrost dogodkov, njihova raznolikost, ter ključnih izzivov povezanih z velikimi količinami podatkov. Razumevanje relacijskih podatkovnih baz, njihovih zmogljivosti in omejitev. Razumevanje zmogljivosti, prednosti in slabosti NoSQL podatkovnih baz. Razumevanje map-reduce modela, njegovih prednosti in slabosti, ter primerjave z relacijskimi podatkovnimi bazami. Razumevanje osnovnih analitskih in vizualizacijskih tehnik za delo z velikimi količinami podatkov.

Metode poučevanja in učenja:

  • Predavanja ali mentorsko delo
  • Seminar





Gradiva

  1. European Commission: http://www.internet-of-things-research.eu/pdf/Converging_Technologies_for_Smart_Environments_and_Integrated_Ecosystems_IERC_Book_Open_Access_2013.pdf
  2. Tom White: Hadoop: The Definitive Guide, 3rd Edition; Storage and Analysis at Internet Scale; O'Reilly Media
  3. Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman: Mining of Massive Datasets, http://i.stanford.edu/~ullman/mmds/book.pdf
  4. Jimmy Lin, Chris Dyer: Data-Intensive Text Processing with MapReduce, http://lintool.github.io/MapReduceAlgorithms/MapReduce-book-final.pdf
  5. Tamara Munzner: Visualization Analysis and Design (2014 Draft) http://www.cs.ubc.ca/~tmm/courses/533/book/vispmp-draft.pdf
  6. Scott Murray: Interactive Data Visualization for the Web: An Introduction to Designing with D3, O'Reilly Media