Uniwersytet Marii Curie-Skłodowskiej w Lublinie - Centralny System Uwierzytelniania
Strona główna

Przetwarzanie dużych zbiorów danych

Informacje ogólne

Kod przedmiotu: MFI-I.2S.163
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Przetwarzanie dużych zbiorów danych
Jednostka: Wydział Matematyki, Fizyki i Informatyki
Grupy:
Punkty ECTS i inne: 5.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.
Język prowadzenia: polski
Wymagania wstępne:

Podstawowa znajomość integracji systemów informatycznych, dowolnego języka programowania, podstawowe wiadomości z zakresu baz danych.

Godzinowe ekwiwalenty punktów ECTS:

Godziny realizowane z udziałem nauczyciela:

- wykład: 15 godz.

- laboratorium: 30 godz.

Łącznie z udziałem nauczyciela: 45 godz. / 1,8 pkt ECTS


Praca własna studenta:

- studia literaturowe: 20 godz.

- przygotowanie programów zaliczeniowych: 40 godz.

- przygotowanie do zaliczenia: 20 godz.

Łącznie praca indywidualna: 80 godz. / 3,2 pkt ECTS


Łącznie: 125 godz. / 5 pkt ECTS

Sposób weryfikacji efektów kształcenia:

Test - W1, W2, W3, U1, U2, U3, K1, K2

Prezentacje wypracowanych rozwiązań w formie projektów zaliczeniowych - W1, W2, W3, U1, U2, U3, K1, K2

Pełny opis:

Przedmiot ma na celu zapoznanie studentów z nowoczesnymi technologiami i metodami przetwarzania oraz analizy danych w kontekście wspomagania decyzji biznesowych i zarządzania informacją. Studenci poznają podstawy Business Intelligence, w tym sposoby przekształcania danych w wartościowe informacje wspierające decyzje strategiczne i operacyjne. Omówiona zostanie rola hurtowni danych jako scentralizowanych repozytoriów, umożliwiających analizę dużych zbiorów danych, oraz zastosowanie algorytmu MapReduce w agregacjach danych.

Kolejnym zagadnieniem będzie integracja informacji, obejmująca metody łączenia danych z różnych źródeł. Zajęcia pokażą także zastosowanie wielokanałowej analityki klientów, pozwalającej na kompleksowe zrozumienie zachowań użytkowników. Studenci poznają pipeline’y w Data Science oraz hybrydowe architektury przetwarzania danych, łączące przetwarzanie wsadowe i strumieniowe, a także praktyczne zastosowania Apache Spark w warstwie „batch” i „rapid”.

Przedmiot obejmuje podstawowe modele danych, jeziora danych jako elastyczne repozytoria danych, a także kluczowe zasady teoretyczne: własności ACID zapewniające spójność transakcji oraz twierdzenie CAP opisujące kompromisy w systemach rozproszonych.

Zajęcia będą łączyć wiedzę teoretyczną z praktycznymi przykładami i studium przypadków, pokazującymi, jak nowoczesne technologie wspierają organizacje w zarządzaniu i analizie danych.

1. Biznes intelligence.

2. Hurtownie danych.

3. Agregacje z algorytmem Map Reduce.

4. Integracja informacji. Metody integracji danych.

5. Wielokanałowa analityka klientów.

6. Pipeline'y w Data Science. Hybrydowe architektury przetwarzania danych.

7. Apache Spark. Idea obliczeń z wykorzystaniem warstwy „batch” i „rapid”.

8. Podstawowe modele danych.

9. Jeziora danych.

10. Twierdzenia ACID.

11. Twierdzenie CAP.

12. Test (termin zerowy).

Literatura:

Nathan Marz, James Warren – Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym (Principles and Best Practices of Scalable Realtime Data Systems), 2016 (wyd. polskie; oryg. 2015).

Daniel Vaughan – Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych, 2024.

Joel Grus – Data science od podstaw. Analiza danych w Pythonie, 2018 (wyd. polskie; II wyd. 2020/2022).

Russell Jurney – Zwinna analiza danych. Apache Hadoop dla każdego, 2014.

Tom White – Hadoop. Kompletny przewodnik. Analiza i przechowywanie danych, 2015.

Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee – Spark. Błyskawiczna analiza danych, 2023 (wyd. II, polskie).

Adi Polak – Spark. Rozproszone uczenie maszynowe na dużą skalę. Jak korzystać z MLlib, TensorFlow i PyTorch, 2024.

Efekty uczenia się:

W1 - Student rozumie teorię modelowania, zarządzania, przetwarzania i integracji danych. (K_W06)

W2 - Student rozumie koncepcje hurtowni danych, jezior danych, problematyki business intelligence (K_W07)

W3 - Student rozumie jak zaprojektować "Data Science Pipeline" od akwizycji danych do raportowania. (K_W09)

W4 - W sytuacji pracy w jednostkach analityki danych potrafi powiązać rozwiązania informatyczne z ich znaczeniem ekonomicznym wykorzystując umiejętności informatyczne (K_W12).

U1 - Student potrafi zbudować model danych dla wybranego zagadnienia z życia codziennego (K_U01)

U2 - Student potrafi zaprojektować odpowiednie algorytmy do przetwarzania danych i ich integracji w pipeline (K_U03)

U3 - Student potrafi krytycznie analizować dokumentację poszczególnych rozwiązań informatycznych (K_U05)

K1 - Student wie jak aktywizować środowisko do wdrażania współczesnych rozwiązań IT (K_K03)

K2 - Student wie jak komercjalizować pomysły z zakresu Data Science (K_K05)

Zajęcia w cyklu "Semestr letni 2024/2025" (zakończony)

Okres: 2025-02-25 - 2025-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Wykład, 15 godzin więcej informacji
Koordynatorzy: Grzegorz Wójcik
Prowadzący grup: Bartłomiej Daniluk, Grzegorz Wójcik
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę
Wykład - Zaliczenie na ocenę

Zajęcia w cyklu "Semestr letni 2025/2026" (w trakcie)

Okres: 2026-02-25 - 2026-06-21
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Wykład, 15 godzin więcej informacji
Koordynatorzy: Grzegorz Wójcik
Prowadzący grup: Bartłomiej Daniluk, Grzegorz Wójcik
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę
Wykład - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Marii Curie-Skłodowskiej w Lublinie.
kontakt deklaracja dostępności mapa serwisu USOSweb 7.3.0.0-c859e1a351 (2026-02-27)