Przedmiot fakultatywny 1 - Wprowadzenie do przetwarzania i analizy dużych zbiorów danych
Informacje ogólne
| Kod przedmiotu: | MFI-I.2Z.148 |
| Kod Erasmus / ISCED: | (brak danych) / (brak danych) |
| Nazwa przedmiotu: | Przedmiot fakultatywny 1 - Wprowadzenie do przetwarzania i analizy dużych zbiorów danych |
| Jednostka: | Wydział Matematyki, Fizyki i Informatyki |
| Grupy: |
Przedmioty fakultatywne - informatyka 3 semestr |
| Punkty ECTS i inne: |
0 LUB
4.00
(w zależności od programu)
|
| Język prowadzenia: | polski |
| Wymagania wstępne: | Podstawowa wiedza z zakresu programowania oraz instalacji i konfiguracji systemu Linux. (Bazy danych, Środowisko programisty). |
| Godzinowe ekwiwalenty punktów ECTS: | 4 punktów ECTS = 100 godzin 1 punkt ECTS = 25 godzin Godziny kontaktowe z wykładowcą - 1,2 pkt ECTS Godziny kontaktowe z asystentem - 1,2 pkt ECTS Studia literaturowe: 1 pkt. ECTS Przygotowanie do egzaminu: 0,6 pkt. ECTS |
| Sposób weryfikacji efektów kształcenia: | Egzamin pisemny. Pakiet oprogramowania na zaliczenie laboratorium. |
| Pełny opis: |
W ramach przedmiotu studenci zostaną wprowadzeni w świat nowoczesnych technologii przetwarzania danych z naciskiem na ekosystem Hadoop. Omówione zostaną jego podstawowe komponenty: HDFS(rozproszony system plików), YARN (zarządzanie zasobami i zadaniami), MapReduce (przetwarzanie równoległe), a także narzędzia wyższego poziomu, takie jak Hive (zapytania w stylu SQL), Pig (język przetwarzania danych) oraz Spark (szybkie obliczenia in-memory). Studenci poznają zasady budowy i konfiguracji klastrów Hadoop, metody instalacji i utrzymania środowiska, jak również sposoby integracji z popularnymi platformami chmurowymi. W ramach zajęć zaprezentowane zostaną strategie pozyskiwania, przechowywania i analizy danych, zarówno generowanych przez maszyny, jak i ludzi oraz organizacje. Uczestnicy zdobędą wiedzę na temat algorytmiki rozproszonego przetwarzania, podstawowych paradygmatów obliczeniowych, a także nowoczesnych rozwiązań sprzętowych wspierających Big Data. Poruszone zostaną także aspekty praktyczne: tworzenie własnych środowisk do analizy, konfiguracja narzędzi open source oraz korzystanie z komercyjnych usług w chmurze. Szczególny nacisk położony zostanie na rozwój kompetencji zawodowych niezbędnych w pracy analityka danych, inżyniera Big Data i specjalisty Data Science, z uwzględnieniem realnych scenariuszy wykorzystania technologii Hadoop w przemyśle i badaniach. 1. Przegląd światowych danych w liczbach w ujęciu raportu McKinsey Analytics. Istota Data Science: Przegląd kompetencji Data Science, Data Analytics i Big Data w ujęciu biznesowym. 2. Maszyny, ludzie i organizacje jako podstawowe źródła danych. Internet of Things jako źródło danych na potrzeby Big Data. Istota in-situ processing. Analiza przypadków UPS i Walmart. 3. Pięć głównych V - charakterystyk Big Data (Volume, Velocity, Variety, Veracity, Valence).Proces Data Science – podstawowe kroki (gromadzenie, przygotowanie, analiza, raport, działanie). 4. Proces integracji w Data Science (odkrywanie, dostęp, modelowanie, monitorowanie, transformacja). Pięć P w Data Science (people, purpose, process, platform, programmability). 5. Przegląd rozwiązań softwarowych w Data Science (Apache: Hadoop, Spark, YARN, MLlib, Mahout, Cassandra, HBase) – analiza przeglądowa, funkcjonalna. 6. Ekosystemy hardwarowe w Big Data i data Science – od komputera PC do superkomputera, od GPU do klastrów obliczeniowych, gridów, superkomputerów i chmur - przegląd. 7. Istota rozproszonego systemu plików. 8. Skalowalność obliczeń, redundancja danych, multiplikacja, odporność na awarie i błędy w ujęciu Big Data. Przykłady praktyczne i komercyjne. 9. Repetytorium uniksowe na potrzeby Big Data. Instalacja i konfiguracja pierwszych elementów ekosystemu Big Data. 10. Problematyka w algorytmice obliczeń równoległych w porównaniu z filozofią programowania dla Big Data. Konfiguracja biblioteki MPICH na komputerze wieloprocesorowym, program Hello World w ujęciu równoległym. 11. Ecosystem Hadoop (HDFS, Yarn, Map Reduce, Hive, Pig, Giraph, Storm, Flink, HBase, Cassandra, MongoDB, Zookeeper) – przegląd w ujęciu aplikacyjnym I funkcjonalnym, diagram strukturalny zależności. 12. Istota działania HDFS – rozproszonego systemu plików dostarczanego przez Hadoop. 13. Przykładowe zastosowanie algorytmiki MapReduce i HDFS w Big Data. Zliczanie częstości występowania poszczególnych słów w dziełach zebranych Szekspira. 14. Wycieczka do instalacji klastrowej. 15. Egzamin zerowy. |
| Literatura: |
Nathan Marz, James Warren – Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym (Principles and best practices of scalable realtime data systems) – wyd. oryginalne: 2015 (ang.) Literatura uzupełniająca Daniel Vaughan – Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych – wydanie polskie: 2024 (premiera 3–4 grudnia 2024) Joel Grus – Data science od podstaw. Analiza danych w Pythonie – 1. polskie wydanie: 2018 – 2. polskie wydanie: 2020–2022 (Helion, Wydanie II; często podawany rok: 2020/2022) Russell Jurney – Zwinna analiza danych. Apache Hadoop dla każdego – polskie wydanie: 2014 Tom White – Hadoop. Kompletny przewodnik. Analiza i przechowywanie danych – polskie wydanie: 2015 Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee – Spark. Błyskawiczna analiza danych – polskie wydanie (Wydanie II): 2023 Adi Polak – Spark. Rozproszone uczenie maszynowe na dużą skalę. Jak korzystać z MLlib, TensorFlow i PyTorch – polskie wydanie: 2024 |
| Efekty uczenia się: |
W1:Student zna podstawy inżynierii Big Data (zarówno w ujęciu softwarowym jak i hardwarowych) (K_W07) W2: Student potrafi rozpoznać zagrożenia związane z użytkowaniem aparatury do przetwarzania dużych zbiorów danych (superkomputery - przepisy przeciwpożarowe itp.) (K_W11) U1: Student zan ekosystem Hadoop i strukturę systemu Big Data opartą o taki ekosystem. (K_U10) U2: Student zna podstawowe algrytmy stosowane w Big Data i programowaniu równoległym, w tym Map Reduce. (K_U02) K1: Student potrafi samodzielnie studiować dokumentację techniczną Hadoop. (K_K01) K2: Student potrafi przedstawić korzyści płynące z analizy dużych zbiorów danych osobom, które nie są z wykształcenia informatykami. (K_K05) K_W07 ma ogólną wiedzę w zakresie architektury komputerów (+++) K_W11 zna podstawowe zasady bezpieczeństwa i higieny pracy (++) K_U10 ma umiejętność przetwarzania i przesyłania informacji (+++) K_U02 ma umiejętność tworzenia i analizowania algorytmów (+) K_K01 zna ograniczenia własnej wiedzy i rozumie potrzebę dalszego kształcenia (+++) K_K05 rozumie potrzebę popularnego przedstawiania laikom wybranych osiągnięć matematyki wyższej (++) |
Zajęcia w cyklu "Semestr zimowy 2024/2025" (zakończony)
| Okres: | 2024-10-01 - 2025-02-03 |
Przejdź do planu
PN WT ŚR CZ PT |
| Typ zajęć: |
Laboratorium, 30 godzin
Wykład, 30 godzin
|
|
| Koordynatorzy: | Grzegorz Wójcik | |
| Prowadzący grup: | Bartłomiej Daniluk, Grzegorz Wójcik | |
| Lista studentów: | (nie masz dostępu) | |
| Zaliczenie: |
Przedmiot -
Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę Wykład - Zaliczenie na ocenę |
Zajęcia w cyklu "Semestr zimowy 2025/2026" (w trakcie)
| Okres: | 2025-10-01 - 2026-02-24 |
Przejdź do planu
PN WT LB
LB
ŚR W
CZ LB
PT |
| Typ zajęć: |
Laboratorium, 30 godzin
Wykład, 30 godzin
|
|
| Koordynatorzy: | Grzegorz Wójcik | |
| Prowadzący grup: | Bartłomiej Daniluk, Grzegorz Wójcik | |
| Lista studentów: | (nie masz dostępu) | |
| Zaliczenie: |
Przedmiot -
Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę Wykład - Zaliczenie na ocenę |
Właścicielem praw autorskich jest Uniwersytet Marii Curie-Skłodowskiej w Lublinie.
