You are on page 1of 6

Przetwarzanie języka naturalnego

Sylabus modułu zajęć

Informacje podstawowe

Kierunek studiów Cykl dydaktyczny


Informatyka - Data Science 2021/2022

Specjalność Kod przedmiotu


Wszystkie IEiTIDSS.IIi2K.5d7ce000529896dcfd5226bfcc381c3d.21

Jednostka organizacyjna Języki wykładowe


Wydział Informatyki, Elektroniki i Telekomunikacji Polski

Poziom kształcenia Obligatoryjność


studia magisterskie inżynierskie II stopnia Obowiązkowy

Forma studiów Blok zajęciowy


Stacjonarne przedmioty kierunkowe

Profil studiów Przedmiot powiązany z badaniami naukowymi


Ogólnoakademicki Tak

Koordynator Aleksander Smywiński-Pohl


przedmiotu

Prowadzący zajęcia Aleksander Smywiński-Pohl, Zbigniew Kaleta

Okres Forma weryfikacji uzyskanych efektów uczenia się Liczba


Semestr 2 Egzamin punktów ECTS
5.0
Forma prowadzenia i godziny zajęć
Wykład: 30, Ćwiczenia laboratoryjne: 30

1/6
Cele kształcenia dla przedmiotu

C1 zapoznanie studentów ze specyfiką przetwarzania dokumentów tekstowych

zapoznanie studentów z podstawowymi narzędziami przetwarzania tekstu, takimi jak wyrażenia regularne
C2
i odległość Levenshteina

zapoznanie studentów ze zjawiskami występującymi w tekście, istotnymi z punktu widzenia przetwarzania


C3
danych

C4 zapoznanie studentów z narzędziami NLP dedykowanymi dla języka polskiego

C5 zapoznanie studentów z aktualnym stanem badań nad przetwarzaniem języków naturalnych

Efekty uczenia się dla przedmiotu

Kierunkowe efekty
Kod Efekty w zakresie Metody weryfikacji
uczenia się

Wiedzy – Student zna i rozumie:

podstawowe pojęcia związane z dziedziną


W1 INF2DS_W03 Egzamin
przetwarzania języka naturalnego

metody analizy syntaktycznej i semantycznej zdań


W2 INF2DS_W03 Egzamin
języka naturalnego

metody statystycznej analizy tekstów zapisanych


W3 INF2DS_W02 Egzamin
w języku naturalnym

metody uczenia maszynowego stosowane


W4 INF2DS_W02 Egzamin
w przetwarzaniu języka naturalnego

Umiejętności – Student potrafi:

U1 budować statystyczne modele języków naturalnych INF2DS_U01 Zaliczenie laboratorium

opracowywać wybrane narzędzia informatyczne INF2DS_U03,


U2 Zaliczenie laboratorium
wspomagające pracę lingwistów, filologów i tłumaczy INF2DS_U07

korzystać z gotowych bibliotek do przetwarzania


U3 języków naturalnych, w szczególności języka polskiego INF2DS_U04 Zaliczenie laboratorium
i angielskiego

Kompetencji społecznych – Student jest gotów do:

opracowania rozwiązań bazujących na metodach


Egzamin, Zaliczenie
K1 przetwarzania języka naturalnego, w celu rozwiązania INF2DS_K02
laboratorium
problemów technicznych i społecznych

Treści programowe zapewniające uzyskanie efektów uczenia się dla modułu zajęć
Student poznaje strukturę i symboliczne właściwości języka naturalnego oraz podstawowe metody przetwarzania informacji
przekazywanej przez komunikat językowy

Bilans punktów ECTS

Średnia liczba godzin* przeznaczonych


Rodzaje zajęć studenta
na zrealizowane aktywności

Wykład 30

2/6
Ćwiczenia laboratoryjne 30

Przygotowanie do zajęć 31

Samodzielne studiowanie tematyki zajęć 19

Egzamin lub kolokwium zaliczeniowe 2

Dodatkowe godziny kontaktowe 5

Przygotowanie projektu, prezentacji, pracy pisemnej,


33
sprawozdania

Liczba godzin
Łączny nakład pracy studenta
150

Liczba godzin
Liczba godzin kontaktowych
60

* godzina (lekcyjna) oznacza 45 minut

Treści programowe

Efekty uczenia się dla Formy prowadzenia


Lp. Treści programowe
przedmiotu zajęć

Specyfika danych tekstowych. Podział tekstu na


1. W1 Wykład
tokeny. Zastosowanie wyrażeń regularnych.

Podstawowe problemy NLP: klasyfikacja tekstu,


2. klasyfikacja tokenów, tłumaczenie maszynowe, W1, W2, W3, W4 Wykład
odpowiadanie na pytania.

Rola korpusów tekstów w przetwarzaniu języka


naturalnego. Omówienie dostępnych korpusów języka
naturalnego.
3. W1, W3 Wykład
Rola anotacji oraz anotowanych zbiorów danych.
Omówienie dostępnych pre-anotowanych zbiorów
danych.

Analiza morfologiczna: stemming, lematyzacja,


4. W2 Wykład
tagowanie morfosyntaktyczne.

Problem analiza syntaktycznej na przykładzie analizy


5. W2 Wykład
składniowej.

Semantyka języka naturalnego: sieci semantyczne


6. W2 Wykład
oraz wektorowa reprezentacja znaczenia.

Modele neuronalne wykorzystywane w przetwarzaniu


języka naturalnego: sieci konwolucyjne, rekurencyjne,
7. W4 Wykład
quasi-rekruencyjne oraz transformujące. Rola
mechanizmu atencji.

Rola pre-treningu w rozwiązywaniu problemów


8. przetwarzania języka naturalnego. Głębokie modele W2, W4 Wykład
neuronalne.

Wykorzystanie wyrażeń regularnych oraz odległości


9. U3 Ćwiczenia laboratoryjne
edycyjnej jako podstawowych narzędzi analizy tekstu.

3/6
Wykorzystanie silników wyszukiwania
10. U3 Ćwiczenia laboratoryjne
pełnotekstowego do indeksowania dokumentów.

Rozpoznawanie wyrażeń wielosegmentowych w


11. U1, U2 Ćwiczenia laboratoryjne
tekście.

Zastosowanie taggerów morfosyntaktycznych do


12. W2, U2, U3 Ćwiczenia laboratoryjne
analizy tekstu.

13. Wykorzystanie WordNetu do analizy semantycznej. W2, U2, U3 Ćwiczenia laboratoryjne

Wykorzystanie osadzeń słów do semantycznej analizy


14. U1, U2 Ćwiczenia laboratoryjne
tekstu.

15. Automatyczna klasyfikacja tekstu. U2, K1 Ćwiczenia laboratoryjne

Rozpoznawanie jednostek nazewniczych w celu


16. U3 Ćwiczenia laboratoryjne
wykrywania istotnych informacji w tekście.

Zastosowanie modeli językowych do rozwiązywania


17. złożonych problemów z dziedziny przetwarzania W2, W4, U3, K1 Ćwiczenia laboratoryjne
języka naturalnego.

Informacje rozszerzone

Metody i techniki kształcenia:

Wykład tablicowy, Wykonanie ćwiczeń laboratoryjnych, Prace kontrolne i przejściowe

Rodzaj zajęć Sposób weryfikacji i oceny efektów uczenia się Warunki zaliczenia przedmiotu

Wykład Egzamin Ocena pozytywna z egzaminu

Otrzymanie min. 50% punktów za


Ćwiczenia laboratoryjne Zaliczenie laboratorium
ćwiczenia laboratoryjne

Warunki i sposób zaliczenia poszczególnych form zajęć, w tym zasady zaliczeń poprawkowych, a także warunki
dopuszczenia do egzaminu

Warunkiem dopuszczenia do egzaminu jest pozytywna ocena z ćwiczeń.

Sposób obliczania oceny końcowej

Ocena z laboratorium to średnia z ocen uzyskanych za implementację każdego z ćwiczeń wymienionych w opisie
laboratorium. W przypadku nieobecności na zajęciach student wykonuje ćwiczenie w domu i przestawia prowadzącemu
wynik na konsultacji. Ocena końcowa to średnia z oceny z laboratorium oraz egzaminu.

Sposób i tryb wyrównywania zaległości powstałych wskutek nieobecności studenta na zajęciach

Nieobecność na zajęciach student może odrobić przychodząc z inną grupą lub na konsultacje.

Wymagania wstępne i dodatkowe


Znajomość języka Python.
Podstawowa znajomość algebry i analizy matematycznej.

Zasady udziału w poszczególnych zajęciach, ze wskazaniem, czy obecność studenta na zajęciach jest
obowiązkowa

Wykład: Studenci uczestniczą w zajęciach poznając kolejne treści nauczania zgodnie z syllabusem przedmiotu. Studenci
winni na bieżąco zadawać pytania i wyjaśniać wątpliwości.

4/6
Ćwiczenia laboratoryjne: Studenci wykonują ćwiczenia laboratoryjne zgodnie z materiałami udostępnionymi przez
prowadzącego. Student jest zobowiązany do przygotowania się w przedmiocie wykonywanego ćwiczenia. Zaliczenie zajęć
odbywa się na podstawie zaprezentowania rozwiązania postawionego problemu. Zaliczenie modułu jest możliwe po
zaliczeniu wszystkich zajęć laboratoryjnych.

Literatura
Obowiązkowa

1. D. Jurafsky and J. H. Martin, Speech and Language Processing, Prentice Hall, 2000.
2. C. D. Manning and H. Schutze, Foundations of Statistical Language Processing, MIT, 2000.

Dodatkowa

1. W. Lubaszewski red. Słowniki komputerowe I automatyczna ekstrakcja informacji z tekstu, AGH, 2009.
2. B. Sharp, F. Sèdes, W. Lubaszewski red., Cognitive Approach to Natural Language Processing, ISTE/Elsevier, London
2017.
3. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding.

Badania i publikacje
Badania

1. Lemkin - inteligentny system informacji prawnej

Publikacje

1. A. Smywiński-Pohl, K. Wróbel, K. Lasocki, M. Jungiewicz, Application of character-level language models in the domain of
Polish statutory law [w:] Legal Knowledge and Information Systems.
2. A. Smywiński-Pohl, K. Lasocki, K. Wróbel, M. Strzała, Automatic Construction of a Polish Legal Dictionary with Mappings to
Extra-Legal Terms Established via Word Embeddings, [w:] Proceedings of ICAIL ‘19.
3. M. Jungiewicz, A. Smywinski-Pohl, Towards Textual Data Augmentation for Neural Networkds: synonyms and maximum
loss, Computer Science 20(1) 2019.
4. K. Wróbel, A. Smywiński-Pohl, Contextual Character Embeddings, KUKDM 2019.
5. Godny M., Gatkowska I., Lubaszewski W., A Shortest Path in an Experimentally Built Semantic Network in: B. Sharp, W.
Lubaszewski, F. Sèdes eds. Naturtal Language Processing and Cognitive Science Proceedings 2018, p. 51-62.
6. Kaleta Z. Automatic Pairing of Perfective and Imperfective Verbs in Polish, LTC 2017.

5/6
Kierunkowe efekty uczenia się

Kod Treść

Ma świadomość roli społecznej absolwenta uczelni technicznej; rozumie potrzebę formułowania i


przekazywania społeczeństwu informacji i opinii dotyczących osiągnięć informatyki, w tym zwłaszcza metod
INF2DS_K02 eksploracji danych, uczenia maszynowego i sztucznej inteligencji; ma świadomość wagi profesjonalnego
zachowania i przestrzegania zasad etyki zawodowej, prawidłowo identyfikuje i rozstrzyga dylematy
związane z wykonywaniem zawodu

Potrafi projektować i realizować systemy informatyczne oparte na danych, a także konstruować systemy
INF2DS_U01
uczące się

Posługuje się technikami i językami programowania stosowanymi w analizie danych, uczeniu maszynowym i
systemach wykorzystujących metody sztucznej inteligencji; potrafi ocenić przydatność różnych
INF2DS_U03 paradygmatów i związanych z nimi środowisk programistycznych do rozwiązywania problemów analizy
danych i realizacji systemów uczących się; potrafi czytać ze zrozumieniem, pisać, uruchamiać i weryfikować
programy zapisane z użyciem różnych paradygmatów programowania

Potrafi ocenić przydatność i korzystać z dostępnych bibliotek, komponentów oprogramowania i narzędzi z


uwzględnieniem wymagań systemów opartych na danych oraz systemów wykorzystujących metody uczenia
INF2DS_U04 maszynowego i sztucznej inteligencji; potrafi porównać istniejące rozwiązania ze względu na zadane
kryteria użytkowe i ekonomiczne oraz wskazać możliwości ich ulepszenia; potrafi ocenić przydatność i
możliwość wykorzystania nowych osiągnięć w zakresie informatyki

Rozumie potrzebę i zna możliwości podnoszenia kompetencji swoich i innych osób; potrafi współdziałać i
INF2DS_U07
pracować w grupie, przyjmując w niej różne role

Ma pogłębioną wiedzę w zakresie rozwiązań algorytmicznych, struktur danych i metod obliczeniowych


INF2DS_W02
związanych z analizą danych, uczeniem maszynowym i metodami sztucznej inteligencji

Ma szczegółową wiedzę w zakresie wybranych języków, paradygmatów i technik programowania oraz


INF2DS_W03 rozwiązań systemowych w zagadnieniach analizy danych, uczenia maszynowego i metod sztucznej
inteligencji

6/6

You might also like