MED Lab 3 Zad 3 Mandrill

Uploaded by

Szymon Krajewskiego

0% found this document useful (0 votes)

4 views1 page

Original Title

MED-lab-3-Zad-3-Mandrill

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

4 views1 page

MED Lab 3 Zad 3 Mandrill

Uploaded by

Szymon Krajewskiego

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 1

Search inside document

Metody eksploracji danych

Laboratorium

METODY EKSPLORACJI DANYCH

Laboratorium
Klasyfikacja postów na podstawie naiwnego klasyfikatora bayesowskiego

Zadanie 3
Zadanie odnosi się do praktyki całkiem częstego zastosowania naiwnego klasyfikatora
bayesowskiego do klasyfikacji dokumentów. Przykładem zastosowania tego klasyfikatora jest
klasyfikacja wiadomości e-mail jako nas interesującą lub spam. Inne przykłady. Odpowiadamy na
pytanie czy dany post wyraża zadowolenie, obojętność, złośliwość lub agresję piszącego. Czy
przechwycona widomość powinna zostać przekazana Policji? Itp.
Dane załączone do zadania pochodzą z postów w serwisie Twitter dotyczące portalu
mandrill.com firmy MailChimp. Portal służy do przesyłania informacji handlowych za
pośrednictwem e-mail i jest przeznaczony dla programistów, którzy piszą aplikacje do wysyłania
zindywidualizowanych widomości, powiadomień, faktur, wezwań do zapłaty, itd.
Zadanie polega na stworzeniu modelu, który odróżnia intersujące nas posty od postów
nieinteresujących, a które traktujemy jako szum informacyjny. Interesuje nas aplikacja Mandrill,
tzn. chcemy zakwalifikować opublikowane posty w serwisie Twitter odnoszące się tylko do
aplikacji Mandrill jako „Mandrill”, a te które nie odnoszą się do niej, ale odnoszą się do innych
rzeczy związanych z rzeczownikiem „mandrill” zakwalifikujemy jako „inne”.
Zadanie jest namiastką przetwarzania języka naturalnego (ang. NLP – Neuro Linguistic
Programming). W takim przypadku prawie zawsze należy przygotować treść napisaną przez
użytkownika (w naszym przypadku postów opublikowanych w serwisie Twitter) do przetworzenia
przez model.
W załączonym do zadania pliku w formacie .xlsx „MED-lab-3-Zad 3-Mandrill-Dane.xlsx”
znajdują się dwa arkusze zawierające posty odnoszące się do aplikacji Mandrill oraz do „innych
rzeczy”. Proszę zwrócić uwagę na wielojęzyczność postów.
Uwaga. W zadaniach polegających na przetwarzaniu języka naturalnego zamiast
odrzucenia wszystkich krótkich słów usuwa się tylko te słowa, które wchodzą w skład słów
przystankowych danego języka (w wiadomościach napisanych w j. angielskim są to słowa
pochodzące z tzw. „stop list”. Są to słowa charakteryzujące się niską zawartością leksykalną. Z
uwagi na to, że przedstawione dane zawierają posty w j. angielskim prześledźmy to na przykładzie.
W języku angielskim przykładami takich słów są „because” lub „instead”, które mogą się
występować w wielu grupach postów. Jednak większość słów o niskiej zawartości leksykalnej jest
krótka lub bardzo krótka – są to na przykład „a”, „an”, „the”, itp. Wobec tego proszę w zadaniu
uprościć proces przetwarzania postów i usunąć z nich słowa o niskiej zawartości leksykalnej.
Innymi słowy podzielić na leksemy (znaczenie patrz niżej).

Słownik PWN: „leksem - wyraz lub wyrażenie traktowane jako jednostka słownikowa”

Encyklopedia PWN: „leksem [gr. léxis ‘wyraz’], wyraz jako abstrakcyjna jednostka systemu
językowego, wyraz słownikowy;
na leksem składają się: określone znaczenie leksykalne, zespół wszystkich funkcji gramatycznej
oraz ogół form językowych reprezentujących w tekście l. w jego poszczególnych funkcjach; np.
pol. formy obraz, obrazami, obrazie reprezentują l. obraz w jego 3 różnych funkcjach
gramatycznych (Obraz jest wystawiony w muzeum; Krytyk zachwycił się obrazami
ekspresjonistów; Na obrazie widać krajobraz górski); w szczególnych wypadkach l. może być
reprezentowany w tekście przez jedną i tę samą formę, np. miło, wczoraj, natomiast (wyrazy
nieodmienne).”

-1–
Romuald Hoffmann

W Szkole: Wielki Egzamin
Document6 pages
W Szkole: Wielki Egzamin
Christina Lee
No ratings yet
Gramatyka Dla Praktyka - Przykladowe Strony
Document10 pages
Gramatyka Dla Praktyka - Przykladowe Strony
Karolina Gozdalska
43% (7)
Jak Napisać Artykuł Popularnonaukowy
Document4 pages
Jak Napisać Artykuł Popularnonaukowy
Ewelina Folman
No ratings yet
Logika Dla Prawników - 2020 - WYKŁAD
Document28 pages
Logika Dla Prawników - 2020 - WYKŁAD
Agnieszka Niezbecka
No ratings yet
Algorytmy PDF
Document286 pages
Algorytmy PDF
gargoyling
No ratings yet
Konspekt Pracy Dyplomowej
Document4 pages
Konspekt Pracy Dyplomowej
emmadzia28
No ratings yet
Wojciech Połeć - O Zasadach Pisania Prac Naukowych
Document13 pages
Wojciech Połeć - O Zasadach Pisania Prac Naukowych
fajnytoster
No ratings yet
Badania Marketingowe. Podstawy Metodologiczne
Document4 pages
Badania Marketingowe. Podstawy Metodologiczne
bartoszapostolowicz
No ratings yet
Python dla wszystkich: Odkrywanie danych z Python 3
From Everand
Python dla wszystkich: Odkrywanie danych z Python 3
Charles Severance
No ratings yet
Optymalizacja komunikacji pisemnej: Techniki i wskazówki dotyczące jasnego i skutecznego formułowania pomysłów
From Everand
Optymalizacja komunikacji pisemnej: Techniki i wskazówki dotyczące jasnego i skutecznego formułowania pomysłów
Florence Schandeler
No ratings yet
Notatka Karola Max Black
Document4 pages
Notatka Karola Max Black
humanyzmaka
No ratings yet
Konspekt Pracy Dyplomowej: Imię I Nazwisko Studenta Grupa (Kod Grupy)
Document4 pages
Konspekt Pracy Dyplomowej: Imię I Nazwisko Studenta Grupa (Kod Grupy)
natalia
No ratings yet
17-22 Witek
Document5 pages
17-22 Witek
Laura
No ratings yet
Notatka Syntetyzujaca 1
Document10 pages
Notatka Syntetyzujaca 1
karolbarszcz1
No ratings yet
4TIA - 23.04 Angielski M.palczewska-Marcjaniik
Document4 pages
4TIA - 23.04 Angielski M.palczewska-Marcjaniik
dratinki
No ratings yet
Teks Eksposisi
Document7 pages
Teks Eksposisi
M. Ghiza Syifa
No ratings yet
Combine PDF
Document6 pages
Combine PDF
natalia.dabek90
No ratings yet
Writefull - Omówienie
Document5 pages
Writefull - Omówienie
Tomasz Serafin
No ratings yet
Praca Inżynierska - Dobre Praktyki W Pisaniu
Document8 pages
Praca Inżynierska - Dobre Praktyki W Pisaniu
Maria Pawłowska
No ratings yet
Jak Wygląda Rozprawka?: Jak Zacząć Rozprawkę - Przykład
Document8 pages
Jak Wygląda Rozprawka?: Jak Zacząć Rozprawkę - Przykład
frankolo8 kozak
No ratings yet
Dzialania Na Arkuszach Zawierajacych Dane Osobowe W Arkuszu Kalk
Document12 pages
Dzialania Na Arkuszach Zawierajacych Dane Osobowe W Arkuszu Kalk
Jakub Kupaj
No ratings yet
68777jak Napisać Rozprawkę Egzaminacyjną
Document35 pages
68777jak Napisać Rozprawkę Egzaminacyjną
ORIN
No ratings yet
Jak Pisać Zrozumiale
Document16 pages
Jak Pisać Zrozumiale
Kukush69
No ratings yet
Prezentacja WU PDF
Document11 pages
Prezentacja WU PDF
Lefty Lol
No ratings yet
WSB Poradnik Efektywnego Studenta
Document28 pages
WSB Poradnik Efektywnego Studenta
grupawsb
No ratings yet
Łacińska Terminologia Prawnicza - PM PDF
Document23 pages
Łacińska Terminologia Prawnicza - PM PDF
Juzia Fruxia
0% (1)
Maria Weglinska Jak Pisac Prace Magisterska
Document88 pages
Maria Weglinska Jak Pisac Prace Magisterska
vacandoo
No ratings yet
Kurs Logiki Lekcja 16 Badanie Wyrazen Wadliwych Logicznie Niezrozumialosc I
Document12 pages
Kurs Logiki Lekcja 16 Badanie Wyrazen Wadliwych Logicznie Niezrozumialosc I
28r9gqyfwt
No ratings yet
Karta Pracy - Tworzenie Tabelki W Programie Microsoft Word
Document1 page
Karta Pracy - Tworzenie Tabelki W Programie Microsoft Word
Norbert Chotnicki
No ratings yet
Rozprawa Doktorska 2
Document7 pages
Rozprawa Doktorska 2
psychoo4702
No ratings yet
Jak Napisac Rozprawke
Document33 pages
Jak Napisac Rozprawke
Łucja Świst
100% (1)
PHP Dla Zielonych
Document32 pages
PHP Dla Zielonych
Niko
No ratings yet
Ibe Poradnik Matura Jezyk Polski Rozprawka PDF
Document26 pages
Ibe Poradnik Matura Jezyk Polski Rozprawka PDF
Krystian Gierczak
No ratings yet
Jezyk HTML I Podstawy CSS
Document29 pages
Jezyk HTML I Podstawy CSS
sundancebags
No ratings yet
Material Dodatkowy Jak Pisac Prace Licencjacka Ce Eg
Document18 pages
Material Dodatkowy Jak Pisac Prace Licencjacka Ce Eg
Jakub Wichary
No ratings yet
Rozprawka
Document27 pages
Rozprawka
Jan Nowak
100% (1)
Czym Jest Informatyka
Document3 pages
Czym Jest Informatyka
Dominik Marciniuk
No ratings yet
Wypracowane Dla Maturzystow E-Book-Wuqo6z
Document23 pages
Wypracowane Dla Maturzystow E-Book-Wuqo6z
magda
No ratings yet
Powtorzenie Wiadomosci
Document21 pages
Powtorzenie Wiadomosci
Black DemonicYT
No ratings yet
EMOTIKONY Augustyniak
Document12 pages
EMOTIKONY Augustyniak
michał koterla
No ratings yet
GOJP3
Document5 pages
GOJP3
guglocailleach
No ratings yet
HTML Dla Bardzo Początkujących
Document10 pages
HTML Dla Bardzo Początkujących
Marek Kowalski
No ratings yet
Referat Wzorce
Document2 pages
Referat Wzorce
krzystofpiatek96
No ratings yet
Notatki Zbiorcze
Document6 pages
Notatki Zbiorcze
Piotr Tyburski
No ratings yet
DiagramasCU V2
Document20 pages
DiagramasCU V2
Sergio Toledo
No ratings yet
Praaca Magisterska - Jak Pisac + Tematy
Document49 pages
Praaca Magisterska - Jak Pisac + Tematy
Martyna Chlebowska
No ratings yet
Sieciowe Serwery Baz Danych PDF
Document6 pages
Sieciowe Serwery Baz Danych PDF
Ragnar Lothbrok
No ratings yet
Piotr Wróblewski - Algorytmy, Struktury Danych I Techniki Programowania Wydanie V
Document377 pages
Piotr Wróblewski - Algorytmy, Struktury Danych I Techniki Programowania Wydanie V
Marian Oleksy
No ratings yet
Podstawy UML PDF
Document10 pages
Podstawy UML PDF
Karol Kukawski
No ratings yet
Modele Danych Integralnosc
Document8 pages
Modele Danych Integralnosc
arerolka
No ratings yet
SZABLON 2.0 Pracy Dyplomowej
Document16 pages
SZABLON 2.0 Pracy Dyplomowej
Konrad Juszczyk
No ratings yet
GOJP1
Document9 pages
GOJP1
guglocailleach
No ratings yet
Konarzewski PDF
Document16 pages
Konarzewski PDF
OlaPiekarek
No ratings yet
Test Na Maturze - Co Musisz Wiedzieć
Document15 pages
Test Na Maturze - Co Musisz Wiedzieć
Lukasz Geszprych
No ratings yet
ĆWICZENIA
Document5 pages
ĆWICZENIA
kasia kasia
No ratings yet
METAFIZYKA I JĘZYK - M. Heller
Document6 pages
METAFIZYKA I JĘZYK - M. Heller
sebasebix735
No ratings yet
Jak Pisać Pracę Inzynierską
Document13 pages
Jak Pisać Pracę Inzynierską
karola11m
No ratings yet
Zaawansowany Python Zaliczenie
Document2 pages
Zaawansowany Python Zaliczenie
Chekrun
No ratings yet
Jak Stawiac Hipotezy I Pytania Badawcze
Document21 pages
Jak Stawiac Hipotezy I Pytania Badawcze
TheJustysiek
No ratings yet
Elementy Stylu
Document9 pages
Elementy Stylu
wioletowska
No ratings yet
C++11: Zrozumieć Wyrażenia Regularne, wydanie II
From Everand
C++11: Zrozumieć Wyrażenia Regularne, wydanie II
Adam Majczak
No ratings yet
Creative writing informacyjnych tekstów dziennikarskich
From Everand
Creative writing informacyjnych tekstów dziennikarskich
Piotr Lewandowski
No ratings yet
Reakcje Jezykowe kl8
Document2 pages
Reakcje Jezykowe kl8
Dorota Dorota
100% (1)
Michalik J Filozofia I Glos
Document304 pages
Michalik J Filozofia I Glos
Pawel Sadowski
No ratings yet
C7E925CB-1762-41D6-A89C-D56F533B28EF
Document21 pages
C7E925CB-1762-41D6-A89C-D56F533B28EF
Laura Rodzeń
No ratings yet
Józef Łęgowski Aka. DR Nadmorski - "Kaszuby I Kociewie. Język, Zwyczaje, Przesądy, Podania, Zagadki I Pieśni Ludowe W Północnej Części Prus Zachodnich" (1892)
Document180 pages
Józef Łęgowski Aka. DR Nadmorski - "Kaszuby I Kociewie. Język, Zwyczaje, Przesądy, Podania, Zagadki I Pieśni Ludowe W Północnej Części Prus Zachodnich" (1892)
Before After
No ratings yet
Fonetyka
Document7 pages
Fonetyka
gnx
No ratings yet
Jak Widzi Sredniowieczna Legende
Document23 pages
Jak Widzi Sredniowieczna Legende
Maja -P-
No ratings yet
Deutschtour Fit Zeszyt Cwiczen Rozdzialy 1 I 2
Document48 pages
Deutschtour Fit Zeszyt Cwiczen Rozdzialy 1 I 2
judka79
No ratings yet
Ciekawostki o J. Angielskim - Prezentacja Na Europejski Tydzień Języków 2019
Document25 pages
Ciekawostki o J. Angielskim - Prezentacja Na Europejski Tydzień Języków 2019
Anna Szczepańska
No ratings yet
Gramatyka Jezyka Francuskiego Od A Do b2 Maurice Grevisse
Document12 pages
Gramatyka Jezyka Francuskiego Od A Do b2 Maurice Grevisse
Іван Цанько
No ratings yet
Regulamin Konkursu The Big Challenge 2024
Document4 pages
Regulamin Konkursu The Big Challenge 2024
zojaschimber
No ratings yet
Pierwsze Wieki Cesarstwa Chinskiego
Document257 pages
Pierwsze Wieki Cesarstwa Chinskiego
Citation Needed
No ratings yet