Uniwersytet Marii Curie-Skłodowskiej w Lublinie - Centralny System Uwierzytelniania
Strona główna

Przedmiot fakultatywny 6 - Bezpieczeństwo aplikacji ML/LLM MFI-I.2S.176
Wykład (W) Semestr letni 2024/2025

Informacje o zajęciach (wspólne dla wszystkich grup)

Liczba godzin: 15
Limit miejsc: (brak limitu)
Zaliczenie: Egzamin
Sposób weryfikacji efektów kształcenia: Egzamin końcowy (testowy lub opisowy), weryfikujący wiedzę merytoryczną dotyczącą zagrożeń bezpieczeństwa w ML/LLM oraz metod ochrony. Ocena obejmuje zarówno znajomość ataków (e.g. evasion, poisoning, prompt injection), jak i zrozumienie mechanizmów defensywnych oraz aspektów etycznych i systemowych.
Uwagi: Wykład jest realizowany z zastosowaniem metod i technik kształcenia na odległość, z wykorzystaniem platformy e-learningowej MS Teams.

Wykład prowadzony jest z wykorzystaniem technik i metod SI.
Literatura:

Literatura podstawowa:

1. Rajalingappaa Shanmugamani – Adversarial AI: Attacks, Mitigations, and Defense Strategies, Packt Publishing, 2020.

2. Ian Goodfellow, Yoshua Bengio, Aaron Courville – Deep Learning, MIT Press, 2016.

3. Ian Goodfellow et al. – Explaining and Harnessing Adversarial Examples, ICLR 2015.

Literatura uzupełniająca:

1. Battista Biggio, Fabio Roli – Wild Patterns: Ten Years After the Rise of Adversarial ML, Pattern Recognition 2018.

2. Nicolas Papernot et al. – The Limitations of Deep Learning in Adversarial Settings, IEEE Euro S&P 2016.

3. Carlini, Nicholas et al. – Prompt Injection Attacks Against Text-to-Text Models, arXiv:2202.05262

4. OpenAI – System Card for GPT-4, OpenAI Technical Report 2023

5. OWASP Foundation – LLM Application Security (OWASP Top 10 for LLMs)

6. Google DeepMind – A Taxonomy of Vulnerabilities in Large Language Models, 2023

7. MITRE ATLAS – Adversarial Threat Landscape for AI Systems

8. Florian Tramèr et al. – Stealing Machine Learning Models via Prediction APIs, USENIX 2016

9. Rebuffi et al. – Data Poisoning Attacks on Transfer Learning, 2020

10. Song, Shmatikov – Privacy Risks of Deep Learning, CCS 2017

Efekty uczenia się:

WIEDZA

W01 - Ma pogłębioną wiedzę dotyczącą bezpieczeństwa aplikacji uczenia maszynowego i modeli językowych, w tym rodzajów ataków i ich mechanizmów działania (K_W02)

W02 - Zna współczesne metody testowania podatności modeli ML i LLM oraz techniki ich ochrony (K_W04)

W03 - Rozumie konsekwencje wykorzystania technik Adversarial AI w kontekście etyki, prawa oraz bezpieczeństwa danych i infrastruktury (K_W13)

UMIEJĘTNOŚCI:

U01 - Potrafi analizować zagrożenia oraz projektować ataki (np. evasion, poisoning, prompt injection) w kontrolowanych warunkach eksperymentalnych (K_U01)

U02 - Umie dobrać i zastosować metody obrony (np. detekcja anomalii, retraining, osłabianie ataku) dla wybranych modeli ML i LLM (K_U05)

U03 - Potrafi zrealizować projekt praktyczny z zakresu oceny bezpieczeństwa aplikacji ML/LLM z wykorzystaniem narzędzi i frameworków (np. TextAttack, LlamaGuard) (K_U03)

U04 - Potrafi współpracować w zespole nad projektem obejmującym analizę i przeciwdziałanie zagrożeniom w AI (K_U09)

KOMPETENCJE SPOŁECZNE:

K01 - Ma świadomość etycznej odpowiedzialności związanej z tworzeniem, testowaniem i zabezpieczaniem modeli ML i LLM (K_K06)

K02 - Uznaje znaczenie wiedzy eksperckiej w obszarze bezpieczeństwa AI i potrafi korzystać z niej przy rozwiązywaniu złożonych problemów (K_K02)

Metody i kryteria oceniania:

Egzamin końcowy w formie testu wielokrotnego wyboru, składający się z 20–25 pytań dotyczących zagadnień teoretycznych: rodzajów ataków, mechanizmów obronnych, przypadków użycia, aspektów systemowych i etycznych.

Procentowa skala ocen:

- 50–59% – 3.0

- 60–69% – 3.5

- 70–79% – 4.0

- 80–89% – 4.5

- 90–100% – 5.0

Zakres tematów:

Zakres tematyczny wykładów

1. Wprowadzenie do bezpieczeństwa w systemach ML/LLM

- Podstawowe pojęcia z zakresu bezpieczeństwa systemów uczących się

- Przykłady incydentów i podatności w rzeczywistych aplikacjach AI

- Kontekst systemowy: dane, modele, środowiska uruchomieniowe

2. Klasyfikacja i taksonomia zagrożeń w ML/LLM

- Podział ataków: evasion, poisoning, backdoor, model extraction

- Wektor ataku: dane wejściowe, parametry modelu, interfejs użytkownika

- Modele zagrożeń (threat models) i formalizacja ryzyka

3. Ataki typu evasion i ich zastosowanie

- Techniki generowania przykładów adversarialnych

- Zakłócenia w przestrzeni wejściowej (FGSM, PGD, CW attack)

- Przypadki użycia i skuteczność wobec różnych architektur

4. Ataki typu poisoning i backdoor

- Zatrucie danych treningowych i subtelne manipulacje zbiorami danych

- Ukryte wyzwalacze (triggers) i ich integracja z modelem

- Detekcja i usuwanie backdoorów

5. Bezpieczeństwo aplikacji opartych na LLM (Large Language Models)

- Prompt injection, jailbreak prompts, indirect prompt attacks

- Automatyczne i gradientowe ataki na systemy LLM

- Przykłady z wykorzystaniem ChatGPT, Claude, LLaMA, Bard

6. Mechanizmy obronne w ML/LLM

- Strategie: adversarial training, input preprocessing, detekcja anomalii

- Mechanizmy „safeguards” w LLM (np. LlamaGuard, guardrails.ai)

- Ocena skuteczności i kosztów ochrony

7. Etyczne i prawne aspekty bezpieczeństwa AI

- Zasady odpowiedzialności za działanie modelu

- Audytowalność, przejrzystość i fairness

- Regulacje (AI Act, zasady etyki w AI, kontekst badawczy)

Metody dydaktyczne:

Wykład z prezentacją multimedialną i analizą przypadków – wprowadzenie pojęć, przegląd aktualnych zagrożeń i technik ochrony, ilustracja realnych incydentów bezpieczeństwa w AI.

Samodzielna analiza literatury naukowej – praca z artykułami badawczymi, raportami i dokumentami standardów branżowych (np. OWASP, NIST AI RMF, MITRE ATLAS).

Dyskusja moderowana – analiza etycznych i systemowych aspektów wykorzystania AI w kontekście bezpieczeństwa.

Samodzielna analiza literatury naukowej – praca z artykułami badawczymi, raportami i dokumentami standardów branżowych (np. OWASP, NIST AI RMF, MITRE ATLAS).

Grupy zajęciowe

zobacz na planie zajęć

Grupa Termin(y) Prowadzący Miejsca Liczba osób w grupie / limit miejsc Akcje
1 każda środa, 8:30 - 10:00, (sala nieznana)
Marek Miśkiewicz 20/ szczegóły
Wszystkie zajęcia odbywają się w budynku:
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Marii Curie-Skłodowskiej w Lublinie.
kontakt deklaracja dostępności mapa serwisu USOSweb 7.1.2.0