Professional Documents
Culture Documents
Analiza Dużych Zbiorów Danych
Analiza Dużych Zbiorów Danych
Informacje podstawowe
Kierunkowe efekty
Kod Efekty w zakresie Metody weryfikacji
uczenia się
1/6
Zna najważniejsze problemy związane INF2DS_W01,
W2 z przetwarzaniem dużych zbiorów danych oraz ich INF2DS_W02, Egzamin
rozwiązania. INF2DS_W04
INF2DS_U01,
Potrafi tworzyć i analizować systemy do przetwarzania
U1 INF2DS_U02, Wykonanie projektu
dużych zbiorów danych
INF2DS_U03
Koordynacja, realizacja
projektu badawczego,
przygotowanie
K1 Korzysta z artykułów naukowych i wyników projektów INF2DS_K01, INF2DS_K02 referatu/publikacji,
organizacja konferencji,
obozów i wycieczek
naukowych
Zaangażowanie w pracę
K2 Potrafi planować pracę w zespole INF2DS_K02
zespołu
Treści programowe zapewniające uzyskanie efektów uczenia się dla modułu zajęć
Celem przedmiotu jest zapoznanie studentów z zagadnieniami przetwarzania dużych zbiorów danych (Big Data) oraz z
technikami i środowiskami do przetwarzania danych w chmurach.
Wykład 30
Ćwiczenia projektowe 16
Ćwiczenia laboratoryjne 14
Przygotowanie do zajęć 30
Liczba godzin
Łączny nakład pracy studenta
147
Liczba godzin
Liczba godzin kontaktowych
60
2/6
Treści programowe
3/6
Architektury jeziora danych (Data Lakes) (2 godz.):
11. Architektury jeziora danych (Data Lakes), globalny W1, W2, K1 Wykład
dostęp do danych, kolokacja danych i obliczeń
Informacje rozszerzone
War
unki
zalic
zeni
Rodzaj zajęć Sposób weryfikacji i oceny efektów uczenia się
a
prze
dmi
otu
Warunki i sposób zaliczenia poszczególnych form zajęć, w tym zasady zaliczeń poprawkowych, a także warunki
dopuszczenia do egzaminu
Warunkiem uzyskania oceny końcowej jest zaliczenie zajęć laboratoryjnych, projektowych, zdanie egzaminu, przygotowanie
opracowania;
Ocena końcowa jest rozsądnie ważoną średnią cen z w/w wymienionych komponentów; uwzględniana jest także aktywność
w trakcie wykładów.
4/6
Sposób i tryb wyrównywania zaległości powstałych wskutek nieobecności studenta na zajęciach
Zasady udziału w poszczególnych zajęciach, ze wskazaniem, czy obecność studenta na zajęciach jest
obowiązkowa
Literatura
Obowiązkowa
1. # Matei Zaharia, Holden Karau, Andy Konwinski, Patrick Wendell: Learning Spark, Lightning-Fast Big Data Analysis,
O'Reilly Media, 2015
2. # Matei Zaharia, Bill Chambers: Spark: The Definitive Guide, Big Data Processing Made Simple; O'Reilly Media, 2018
3. # Dean, J. and Ghemawat, S., 2008. MapReduce: simplified data processing on large clusters. Communications of the
ACM, 51(1), pp.107-113.
4. # Chang, F., Dean, J., Ghemawat, S., Hsieh, W.C., Wallach, D.A., Burrows, M., Chandra, T., Fikes, A. and Gruber, R.E.,
2008. Bigtable: A distributed storage system for structured data. ACM Transactions on Computer Systems (TOCS), 26(2),
p.4.
5. # DeCandia, G., Hastorun, D., Jampani, M., Kakulapati, G., Lakshman, A., Pilchin, A., Sivasubramanian, S., Vosshall, P. and
Vogels, W., 2007, October. Dynamo: amazon's highly available key-value store. In ACM SIGOPS operating systems review
(Vol. 41, No. 6, pp. 205-220). ACM.
6. # Zaharia, M., Chowdhury, M., Das, T., Dave, A., Ma, J., McCauley, M., Franklin, M.J., Shenker, S. and Stoica, I., 2012,
April. Resilient distributed datasets: A fault-tolerant abstraction for in-memory cluster computing. In Proceedings of the
9th USENIX conference on Networked Systems Design and Implementation (pp. 2-2). USENIX Association.
7. # Malewicz, G., Austern, M.H., Bik, A.J., Dehnert, J.C., Horn, I., Leiser, N. and Czajkowski, G., 2010, June. Pregel: a system
for large-scale graph processing. In Proceedings of the 2010 ACM SIGMOD International Conference on Management of
data (pp. 135-146). ACM.
8. # Wybrane artykuły naukowe z: ERCIM News, FGCS, Internet Computing, Dagstuhl Seminars, konferencji naukowych
(seria Springer LNCS)
Badania i publikacje
Publikacje
1. Valentina Avati, Milosz Blaszkiewicz, Enrico Bocchi, Luca Canali, Diogo Castro, Javier Cervantes, Leszek Grzanka, Enrico
Guiraud, Jan Kaspar, Prasanth Kothuri, Massimo Lamanna, Maciej Malawski, Aleksandra Mnich, Jakub Moscicki, Shravan
Murali, Danilo Piparo and Enric Tejedor: Declarative Big Data Analysis for High-Energy Physics: TOTEM Use Case, Euro-Par
2019 Proceedings Andrzej Dębski, Bartłomiej Szczepanik, Maciej Malawski, Stefan Spahr, Dirk Muthig: “In Search for
a Scalable and Reactive Architecture of a Cloud Application: CQRS and Event Sourcing Case Study”, in IEEE Software,
35(2): 62-71 (2018) Piotr Bryk, Maciej Malawski, Gideon Juve, Ewa Deelman: “Storage-aware algorithms for scheduling of
workflow ensembles in clouds” in Journal of Grid Computing 14 (2), 359-378 Maciej Malawski, Gideon Juve, Ewa Deelman,
Jarek Nabrzyski: “Algorithms for Cost- and Deadline-Constrained Provisioning for Scientific Workflow Ensembles in IaaS
Clouds”, in Future Generation Computer Systems, vol. 48, pp 1-18, July 2015
5/6
Kierunkowe efekty uczenia się
Kod Treść
Ma świadomość odpowiedzialności za własną pracę oraz za wspólnie realizowane zadania; potrafi myśleć i
INF2DS_K01
działać w sposób kreatywny i przedsiębiorczy
Potrafi projektować i realizować systemy informatyczne oparte na danych, a także konstruować systemy
INF2DS_U01
uczące się
Potrafi wykorzystać znane algorytmy, metody obliczeniowe i struktury danych w budowie systemu
INF2DS_U02
informatycznego
Posługuje się technikami i językami programowania stosowanymi w analizie danych, uczeniu maszynowym i
systemach wykorzystujących metody sztucznej inteligencji; potrafi ocenić przydatność różnych
INF2DS_U03 paradygmatów i związanych z nimi środowisk programistycznych do rozwiązywania problemów analizy
danych i realizacji systemów uczących się; potrafi czytać ze zrozumieniem, pisać, uruchamiać i weryfikować
programy zapisane z użyciem różnych paradygmatów programowania
Orientuje się w obecnym stanie oraz najnowszych osiągnięciach i trendach rozwojowych informatyki i
INF2DS_W04 dziedzin pokrewnych oraz ma wiedzę niezbędną do rozumienia pozatechnicznych uwarunkowań działalności
inżynierskiej
6/6