Uniwersytet Marii Curie-Skłodowskiej w Lublinie - Centralny System Uwierzytelniania
Strona główna

Przedmiot fakultatywny 1 - Wprowadzenie do przetwarzania i analizy dużych zbiorów danych

Informacje ogólne

Kod przedmiotu: MFI-I.2Z.148
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Przedmiot fakultatywny 1 - Wprowadzenie do przetwarzania i analizy dużych zbiorów danych
Jednostka: Wydział Matematyki, Fizyki i Informatyki
Grupy: Przedmioty fakultatywne - informatyka 3 semestr
Punkty ECTS i inne: 0 LUB 4.00 (w zależności od programu) Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: polski
Wymagania wstępne:

Podstawowa wiedza z zakresu programowania oraz instalacji i konfiguracji systemu Linux. (Bazy danych, Środowisko programisty)

Godzinowe ekwiwalenty punktów ECTS:

5 punktów ECTS = 125 godzin


1 punkt ECTS = 25 godzin


Laboratorium 30

Wykład 15 godzin


Godziny kontaktowe z wykładowcą - 1.2 pkt ECTS

Godziny kontaktowe z asystentem - 1.2 pkt ECTS

Pozostaje 80 godzin.


20 godzin - przygotowanie do egzaminu.

20 godzin - studia literaturowe

40 godzin - opracowanie systemu informatycznego wybranej jedostki struktury organizaci medycznej.


Sposób weryfikacji efektów kształcenia:

Egzamin pisemny (egzamin ustny).

Pakiet programów na zaliczenie.

Pełny opis:

W ramach przedmiotu „Wprowadzenie do Big Data” studenci zastaną zapoznani z podstawową problematyką i terminologią związaną z tym obszarem w technologii informacyjnej. Opiszemy kompetencje potrzebne w zawodach analityka danych, inżyniera Big Data oraz profesjonalisty Data Science. Przedstawione zostaną dane dotyczące przyrostu danych generowanych przez maszyny, ludzi oraz organizacje. Omówimy strategie integracji dużych danych, podstawowe założenia algorytmiki przetwarzania oraz metod ich przechowywania. Przedstawione zostaną najważniejsze narzędzia związane z przetwarzaniem dużych zbiorów danych, ich pozyskiwanie, instalacja oraz konfiguracja. Zaprezentujemy metody tworzenia własnych środowisk do analizy Big Data jak również możliwości korzystania z komercyjnych rozwiązań chmurowych. Oprócz rozwiązań softwarowych omówione zostaną możliwości rozwiązań sprzętowych.

Ze względu na fakt, iż materiał wykładu jest naturalną kontynuacją takich przedmiotów na studiach informatycznych i matematycznych, jak Systemy Uczące się, Modele Decyzyjne, Data Mining, czy częściowo Sztuczna Inteligencja, wykład ten jest rekomendowany jako wykład monograficzny dla studentów magisterskich i doktoranckich. Warto też podkreślić fakt, iż zadania eksploracji i przetwarzania dużych zbiorów danych związane są z bardzo istotnymi problemami informatycznymi, dotyczącymi projektowania, implementacji oraz wykorzystania systemów wykorzystujących wyżej wspomniane techniki obliczeniowe, jak również matematycznymi, dotyczącymi oceny skalowalności rozwiązań dla bardzo szybko rosnących danych, czy też określania złożoności obliczeń rozproszonych i strumieniowych.

1. Przegląd światowych danych w liczbach w ujęciu raportu McKinsey Analytics. Istota Data Science: Przegląd kompetencji Data Science, Data Analytics i Big Data w ujęciu biznesowym.

2. Maszyny, ludzie i organizacje jako podstawowe źródła danych. Internet of Things jako źródło danych na potrzeby Big Data. Istota in-situ processing. Analiza przypadków UPS i Walmart.

3. Pięć głównych V - charakterystyk Big Data (Volume, Velocity, Variety, Veracity, Valence).Proces Data Science – podstawowe kroki (gromadzenie, przygotowanie, analiza, raport, działanie).

4. Proces integracji w Data Science (odkrywanie, dostęp, modelowanie, monitorowanie, transformacja). Pięć P w Data Science (people, purpose, process, platform, programmability).

5. Przegląd rozwiązań softwarowych w Data Science (Apache: Hadoop, Spark, YARN, MLlib, Mahout, Cassandra, HBase) – analiza przeglądowa, funkcjonalna.

6. Ekosystemy hardwarowe w Big Data i data Science – od komputera PC do superkomputera, od GPU do klastrów obliczeniowych, gridów, superkomputerów i chmur - przegląd.

7. Istota rozproszonego systemu plików.

8. Skalowalność obliczeń, redundancja danych, multiplikacja, odporność na awarie i błędy w ujęciu Big Data. Przykłady praktyczne i komercyjne.

9. Repetytorium uniksowe na potrzeby Big Data. Instalacja i konfiguracja pierwszych elementów ekosystemu Big Data.

10. Problematyka w algorytmice obliczeń równoległych w porównaniu z filozofią programowania dla Big Data. Konfiguracja biblioteki MPICH na komputerze wieloprocesorowym, program Hello World w ujęciu równoległym.

11. Ecosystem Hadoop (HDFS, Yarn, Map Reduce, Hive, Pig, Giraph, Storm, Flink, HBase, Cassandra, MongoDB, Zookeeper) – przegląd w ujęciu aplikacyjnym I funkcjonalnym, diagram strukturalny zależności.

12. Istota działania HDFS – rozproszonego systemu plików dostarczanego przez Hadoop.

13. Przykładowe zastosowanie algorytmiki MapReduce i HDFS w Big Data. Zliczanie częstości występowania poszczególnych słów w dziełach zebranych Szekspira.

Literatura:

Marz, Nathan, and James Warren. Big Data: Principles and best practices of scalable realtime data systems. Manning Publications Co., 2015.

Efekty uczenia się:

W1:Student zna podstawy inżynierii Big Data (zarówno w ujęciu softwarowym jak i hardwarowych) (K_W07)

W2: Student potrafi rozpoznać zagrożenia związane z użytkowaniuem aparatury do przetwarzania dużych zbiorów danych (superkomputery - przepisy przeciwpożarowe itp.) (K_W11)

U1: Student zan ekosystem Hadoop i strukturę systemu Big Data opartą o taki ekosystem. (K_U10)

U2: Student zna podstawowe algrytmy stosowane w Big Data i programowaniu równoległym, w tym Map Reduce. (K_U02)

K1: Student potrafi samodzielnie studiować dokumentację techniczną Hadoop. (K_K01)

K2: Student potrafi przedstawić korzyści płynące z analizy dużych zbiorów danych osobom, które nie są z wykształcenia informatykami. (K_K05)

K_W07 ma ogólną wiedzę w zakresie architektury komputerów (+++)

K_W11 zna podstawowe zasady bezpieczeństwa i higieny pracy (++)

K_U10 ma umiejętność przetwarzania i przesyłania informacji (+++)

K_U02 ma umiejętność tworzenia i analizowania algorytmów (+)

K_K01 zna ograniczenia własnej wiedzy i rozumie potrzebę dalszego kształcenia (+++)

K_K05 rozumie potrzebę popularnego przedstawiania laikom wybranych osiągnięć matematyki wyższej (++)

Zajęcia w cyklu "Semestr zimowy 2022/2023" (zakończony)

Okres: 2022-10-01 - 2023-02-01
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Grzegorz Wójcik
Prowadzący grup: Andrzej Kawiak, Grzegorz Wójcik
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę
Wykład - Zaliczenie na ocenę

Zajęcia w cyklu "Semestr zimowy 2024/2025" (w trakcie)

Okres: 2024-10-01 - 2025-02-03
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Grzegorz Wójcik
Prowadzący grup: Bartłomiej Daniluk, Grzegorz Wójcik
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę
Wykład - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Marii Curie-Skłodowskiej w Lublinie.
kontakt deklaracja dostępności mapa serwisu USOSweb 7.1.0.0