Przetwarzanie dużych zbiorów danych
Informacje ogólne
| Kod przedmiotu: | MFI-I.2S.163 |
| Kod Erasmus / ISCED: | (brak danych) / (brak danych) |
| Nazwa przedmiotu: | Przetwarzanie dużych zbiorów danych |
| Jednostka: | Wydział Matematyki, Fizyki i Informatyki |
| Grupy: | |
| Punkty ECTS i inne: |
5.00
|
| Język prowadzenia: | polski |
| Wymagania wstępne: | Podstawowa znajomość integracji systemów informatycznych, dowolnego języka programowania, podstawowe wiadomości z zakresu baz danych. |
| Godzinowe ekwiwalenty punktów ECTS: | Godziny realizowane z udziałem nauczyciela: - wykład: 15 godz. - laboratorium: 30 godz. Łącznie z udziałem nauczyciela: 45 godz. / 1,8 pkt ECTS Praca własna studenta: - studia literaturowe: 20 godz. - przygotowanie programów zaliczeniowych: 40 godz. - przygotowanie do zaliczenia: 20 godz. Łącznie praca indywidualna: 80 godz. / 3,2 pkt ECTS Łącznie: 125 godz. / 5 pkt ECTS |
| Sposób weryfikacji efektów kształcenia: | Test - W1, W2, W3, U1, U2, U3, K1, K2 Prezentacje wypracowanych rozwiązań w formie projektów zaliczeniowych - W1, W2, W3, U1, U2, U3, K1, K2 |
| Pełny opis: |
Przedmiot ma na celu zapoznanie studentów z nowoczesnymi technologiami i metodami przetwarzania oraz analizy danych w kontekście wspomagania decyzji biznesowych i zarządzania informacją. Studenci poznają podstawy Business Intelligence, w tym sposoby przekształcania danych w wartościowe informacje wspierające decyzje strategiczne i operacyjne. Omówiona zostanie rola hurtowni danych jako scentralizowanych repozytoriów, umożliwiających analizę dużych zbiorów danych, oraz zastosowanie algorytmu MapReduce w agregacjach danych. Kolejnym zagadnieniem będzie integracja informacji, obejmująca metody łączenia danych z różnych źródeł. Zajęcia pokażą także zastosowanie wielokanałowej analityki klientów, pozwalającej na kompleksowe zrozumienie zachowań użytkowników. Studenci poznają pipeline’y w Data Science oraz hybrydowe architektury przetwarzania danych, łączące przetwarzanie wsadowe i strumieniowe, a także praktyczne zastosowania Apache Spark w warstwie „batch” i „rapid”. Przedmiot obejmuje podstawowe modele danych, jeziora danych jako elastyczne repozytoria danych, a także kluczowe zasady teoretyczne: własności ACID zapewniające spójność transakcji oraz twierdzenie CAP opisujące kompromisy w systemach rozproszonych. Zajęcia będą łączyć wiedzę teoretyczną z praktycznymi przykładami i studium przypadków, pokazującymi, jak nowoczesne technologie wspierają organizacje w zarządzaniu i analizie danych. 1. Biznes intelligence. 2. Hurtownie danych. 3. Agregacje z algorytmem Map Reduce. 4. Integracja informacji. Metody integracji danych. 5. Wielokanałowa analityka klientów. 6. Pipeline'y w Data Science. Hybrydowe architektury przetwarzania danych. 7. Apache Spark. Idea obliczeń z wykorzystaniem warstwy „batch” i „rapid”. 8. Podstawowe modele danych. 9. Jeziora danych. 10. Twierdzenia ACID. 11. Twierdzenie CAP. 12. Test (termin zerowy). |
| Literatura: |
Nathan Marz, James Warren – Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym (Principles and Best Practices of Scalable Realtime Data Systems), 2016 (wyd. polskie; oryg. 2015). Daniel Vaughan – Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych, 2024. Joel Grus – Data science od podstaw. Analiza danych w Pythonie, 2018 (wyd. polskie; II wyd. 2020/2022). Russell Jurney – Zwinna analiza danych. Apache Hadoop dla każdego, 2014. Tom White – Hadoop. Kompletny przewodnik. Analiza i przechowywanie danych, 2015. Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee – Spark. Błyskawiczna analiza danych, 2023 (wyd. II, polskie). Adi Polak – Spark. Rozproszone uczenie maszynowe na dużą skalę. Jak korzystać z MLlib, TensorFlow i PyTorch, 2024. |
| Efekty uczenia się: |
W1 - Student rozumie teorię modelowania, zarządzania, przetwarzania i integracji danych. (K_W06) W2 - Student rozumie koncepcje hurtowni danych, jezior danych, problematyki business intelligence (K_W07) W3 - Student rozumie jak zaprojektować "Data Science Pipeline" od akwizycji danych do raportowania. (K_W09) W4 - W sytuacji pracy w jednostkach analityki danych potrafi powiązać rozwiązania informatyczne z ich znaczeniem ekonomicznym wykorzystując umiejętności informatyczne (K_W12). U1 - Student potrafi zbudować model danych dla wybranego zagadnienia z życia codziennego (K_U01) U2 - Student potrafi zaprojektować odpowiednie algorytmy do przetwarzania danych i ich integracji w pipeline (K_U03) U3 - Student potrafi krytycznie analizować dokumentację poszczególnych rozwiązań informatycznych (K_U05) K1 - Student wie jak aktywizować środowisko do wdrażania współczesnych rozwiązań IT (K_K03) K2 - Student wie jak komercjalizować pomysły z zakresu Data Science (K_K05) |
Zajęcia w cyklu "Semestr letni 2024/2025" (zakończony)
| Okres: | 2025-02-25 - 2025-09-30 |
Przejdź do planu
PN LB
LB
WT ŚR W
CZ PT |
| Typ zajęć: |
Laboratorium, 30 godzin
Wykład, 15 godzin
|
|
| Koordynatorzy: | Grzegorz Wójcik | |
| Prowadzący grup: | Bartłomiej Daniluk, Grzegorz Wójcik | |
| Lista studentów: | (nie masz dostępu) | |
| Zaliczenie: |
Przedmiot -
Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę Wykład - Zaliczenie na ocenę |
Zajęcia w cyklu "Semestr letni 2025/2026" (w trakcie)
| Okres: | 2026-02-25 - 2026-06-21 |
Przejdź do planu
PN WT ŚR CZ PT |
| Typ zajęć: |
Laboratorium, 30 godzin
Wykład, 15 godzin
|
|
| Koordynatorzy: | Grzegorz Wójcik | |
| Prowadzący grup: | Bartłomiej Daniluk, Grzegorz Wójcik | |
| Lista studentów: | (nie masz dostępu) | |
| Zaliczenie: |
Przedmiot -
Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę Wykład - Zaliczenie na ocenę |
Właścicielem praw autorskich jest Uniwersytet Marii Curie-Skłodowskiej w Lublinie.
