Uniwersytet Marii Curie-Skłodowskiej w Lublinie - Centralny System Uwierzytelniania
Strona główna

Przedmiot fakultatywny 1 - Wprowadzenie do przetwarzania i analizy dużych zbiorów danych

Informacje ogólne

Kod przedmiotu: MFI-I.2Z.148
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Przedmiot fakultatywny 1 - Wprowadzenie do przetwarzania i analizy dużych zbiorów danych
Jednostka: Wydział Matematyki, Fizyki i Informatyki
Grupy: Przedmioty fakultatywne - informatyka 3 semestr
Punkty ECTS i inne: 0 LUB 4.00 (w zależności od programu) Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: polski
Wymagania wstępne:

Podstawowa wiedza z zakresu programowania oraz instalacji i konfiguracji systemu Linux. (Bazy danych, Środowisko programisty).

Godzinowe ekwiwalenty punktów ECTS:

4 punktów ECTS = 100 godzin

1 punkt ECTS = 25 godzin


Godziny kontaktowe z wykładowcą - 1,2 pkt ECTS

Godziny kontaktowe z asystentem - 1,2 pkt ECTS

Studia literaturowe: 1 pkt. ECTS

Przygotowanie do egzaminu: 0,6 pkt. ECTS


Sposób weryfikacji efektów kształcenia:

Egzamin pisemny.

Pakiet oprogramowania na zaliczenie laboratorium.


Pełny opis:

W ramach przedmiotu studenci zostaną wprowadzeni w świat nowoczesnych technologii przetwarzania danych z naciskiem na ekosystem Hadoop. Omówione zostaną jego podstawowe komponenty: HDFS(rozproszony system plików), YARN (zarządzanie zasobami i zadaniami), MapReduce (przetwarzanie równoległe), a także narzędzia wyższego poziomu, takie jak Hive (zapytania w stylu SQL), Pig (język przetwarzania danych) oraz Spark (szybkie obliczenia in-memory). Studenci poznają zasady budowy i konfiguracji klastrów Hadoop, metody instalacji i utrzymania środowiska, jak również sposoby integracji z popularnymi platformami chmurowymi. W ramach zajęć zaprezentowane zostaną strategie pozyskiwania, przechowywania i analizy danych, zarówno generowanych przez maszyny, jak i ludzi oraz organizacje. Uczestnicy zdobędą wiedzę na temat algorytmiki rozproszonego przetwarzania, podstawowych paradygmatów obliczeniowych, a także nowoczesnych rozwiązań sprzętowych wspierających Big Data. Poruszone zostaną także aspekty praktyczne: tworzenie własnych środowisk do analizy, konfiguracja narzędzi open source oraz korzystanie z komercyjnych usług w chmurze. Szczególny nacisk położony zostanie na rozwój kompetencji zawodowych niezbędnych w pracy analityka danych, inżyniera Big Data i specjalisty Data Science, z uwzględnieniem realnych scenariuszy wykorzystania technologii Hadoop w przemyśle i badaniach.

1. Przegląd światowych danych w liczbach w ujęciu raportu McKinsey Analytics. Istota Data Science: Przegląd kompetencji Data Science, Data Analytics i Big Data w ujęciu biznesowym.

2. Maszyny, ludzie i organizacje jako podstawowe źródła danych. Internet of Things jako źródło danych na potrzeby Big Data. Istota in-situ processing. Analiza przypadków UPS i Walmart.

3. Pięć głównych V - charakterystyk Big Data (Volume, Velocity, Variety, Veracity, Valence).Proces Data Science – podstawowe kroki (gromadzenie, przygotowanie, analiza, raport, działanie).

4. Proces integracji w Data Science (odkrywanie, dostęp, modelowanie, monitorowanie, transformacja). Pięć P w Data Science (people, purpose, process, platform, programmability).

5. Przegląd rozwiązań softwarowych w Data Science (Apache: Hadoop, Spark, YARN, MLlib, Mahout, Cassandra, HBase) – analiza przeglądowa, funkcjonalna.

6. Ekosystemy hardwarowe w Big Data i data Science – od komputera PC do superkomputera, od GPU do klastrów obliczeniowych, gridów, superkomputerów i chmur - przegląd.

7. Istota rozproszonego systemu plików.

8. Skalowalność obliczeń, redundancja danych, multiplikacja, odporność na awarie i błędy w ujęciu Big Data. Przykłady praktyczne i komercyjne.

9. Repetytorium uniksowe na potrzeby Big Data. Instalacja i konfiguracja pierwszych elementów ekosystemu Big Data.

10. Problematyka w algorytmice obliczeń równoległych w porównaniu z filozofią programowania dla Big Data. Konfiguracja biblioteki MPICH na komputerze wieloprocesorowym, program Hello World w ujęciu równoległym.

11. Ecosystem Hadoop (HDFS, Yarn, Map Reduce, Hive, Pig, Giraph, Storm, Flink, HBase, Cassandra, MongoDB, Zookeeper) – przegląd w ujęciu aplikacyjnym I funkcjonalnym, diagram strukturalny zależności.

12. Istota działania HDFS – rozproszonego systemu plików dostarczanego przez Hadoop.

13. Przykładowe zastosowanie algorytmiki MapReduce i HDFS w Big Data. Zliczanie częstości występowania poszczególnych słów w dziełach zebranych Szekspira.

14. Wycieczka do instalacji klastrowej.

15. Egzamin zerowy.

Literatura:

Nathan Marz, James Warren – Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym (Principles and best practices of scalable realtime data systems) – wyd. oryginalne: 2015 (ang.)

Literatura uzupełniająca

Daniel Vaughan – Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych

– wydanie polskie: 2024 (premiera 3–4 grudnia 2024)

Joel Grus – Data science od podstaw. Analiza danych w Pythonie

– 1. polskie wydanie: 2018

– 2. polskie wydanie: 2020–2022 (Helion, Wydanie II; często podawany rok: 2020/2022)

Russell Jurney – Zwinna analiza danych. Apache Hadoop dla każdego

– polskie wydanie: 2014

Tom White – Hadoop. Kompletny przewodnik. Analiza i przechowywanie danych

– polskie wydanie: 2015

Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee – Spark. Błyskawiczna analiza danych

– polskie wydanie (Wydanie II): 2023

Adi Polak – Spark. Rozproszone uczenie maszynowe na dużą skalę. Jak korzystać z MLlib, TensorFlow i PyTorch

– polskie wydanie: 2024

Efekty uczenia się:

W1:Student zna podstawy inżynierii Big Data (zarówno w ujęciu softwarowym jak i hardwarowych) (K_W07)

W2: Student potrafi rozpoznać zagrożenia związane z użytkowaniem aparatury do przetwarzania dużych zbiorów danych (superkomputery - przepisy przeciwpożarowe itp.) (K_W11)

U1: Student zan ekosystem Hadoop i strukturę systemu Big Data opartą o taki ekosystem. (K_U10)

U2: Student zna podstawowe algrytmy stosowane w Big Data i programowaniu równoległym, w tym Map Reduce. (K_U02)

K1: Student potrafi samodzielnie studiować dokumentację techniczną Hadoop. (K_K01)

K2: Student potrafi przedstawić korzyści płynące z analizy dużych zbiorów danych osobom, które nie są z wykształcenia informatykami. (K_K05)

K_W07 ma ogólną wiedzę w zakresie architektury komputerów (+++)

K_W11 zna podstawowe zasady bezpieczeństwa i higieny pracy (++)

K_U10 ma umiejętność przetwarzania i przesyłania informacji (+++)

K_U02 ma umiejętność tworzenia i analizowania algorytmów (+)

K_K01 zna ograniczenia własnej wiedzy i rozumie potrzebę dalszego kształcenia (+++)

K_K05 rozumie potrzebę popularnego przedstawiania laikom wybranych osiągnięć matematyki wyższej (++)

Zajęcia w cyklu "Semestr zimowy 2024/2025" (zakończony)

Okres: 2024-10-01 - 2025-02-03
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Grzegorz Wójcik
Prowadzący grup: Bartłomiej Daniluk, Grzegorz Wójcik
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę
Wykład - Zaliczenie na ocenę

Zajęcia w cyklu "Semestr zimowy 2025/2026" (w trakcie)

Okres: 2025-10-01 - 2026-02-24
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Grzegorz Wójcik
Prowadzący grup: Bartłomiej Daniluk, Grzegorz Wójcik
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę
Wykład - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Marii Curie-Skłodowskiej w Lublinie.
kontakt deklaracja dostępności mapa serwisu USOSweb 7.3.0.0-25c1ae524a (2026-02-12)