Welcome to Scribd!

Skip carousel

Classifying Fake News Using Supervised Learning With NLP: Katharine Jarmul

Uploaded by

NourheneMbarek

0% found this document useful (0 votes)

2 views20 pages

Original Title

chapter4

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

2 views20 pages

Classifying Fake News Using Supervised Learning With NLP: Katharine Jarmul

Uploaded by

NourheneMbarek

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 20

Search inside document

DataCamp Introduction to Natural Language Processing in Python

INTRODUCTION TO NATURAL LANGUAGE PROCESSING IN PYTHON

Classifying fake news

using supervised
learning with NLP
Katharine Jarmul
Founder, kjamistan
DataCamp Introduction to Natural Language Processing in Python

What is supervised learning?

Form of machine learning
Problem has predeﬁned training data
This data has a label (or outcome) you want the model to learn
Classiﬁcation problem
Goal: Make good hypotheses about the species based on geometric
features
Sepal Length Sepal Width Petal Length Petal Width Species

5.1 3.5 1.4 0.2 I. setosa

7.0 3.2 4.77 1.4 I.versicolor

6.3 3.3 6.0 2.5 I.virginica

DataCamp Introduction to Natural Language Processing in Python

Supervised learning with NLP

Need to use language instead of geometric features
scikit-learn: Powerful open-source library

How to create supervised learning data from text?

Use bag-of-words models or tf-idf as features
DataCamp Introduction to Natural Language Processing in Python

IMDB Movie Dataset

Plot Sci-Fi Action

In a post-apocalyptic world in human decay, a ... 1 0

Mohei is a wandering swordsman. He arrives in ... 0 1

#137 is a SCI/FI thriller about a girl, Marla,... 1 0

Goal: Predict movie genre based on plot summary

Categorical features generated using preprocessing
DataCamp Introduction to Natural Language Processing in Python

Supervised learning steps

Collect and preprocess our data
Determine a label (Example: Movie genre)
Split data into training and test sets
Extract features from the text to help predict the label
Bag-of-words vector built into scikit-learn

Evaluate trained model using the test set

DataCamp Introduction to Natural Language Processing in Python

INTRODUCTION TO NATURAL LANGUAGE PROCESSING IN PYTHON

Let's practice!
DataCamp Introduction to Natural Language Processing in Python

INTRODUCTION TO NATURAL LANGUAGE PROCESSING IN PYTHON

Building word count

vectors with scikit-
learn
Katharine Jarmul
Founder, kjamistan
DataCamp Introduction to Natural Language Processing in Python

Predicting movie genre

Dataset consisting of movie plots and corresponding genre
Goal: Create bag-of-word vectors for the movie plots
Can we predict genre based on the words used in the plot summary?
DataCamp Introduction to Natural Language Processing in Python

Count Vectorizer with Python

In [1]: import pandas as pd

In [2]: from sklearn.model_selection import train_test_split

In [3}: from sklearn.feature_extraction.text import CountVectorizer

In [4]: df = ... # Load data into DataFrame

In [5]: y = df['Sci-Fi']

In [6]: X_train, X_test, y_train, y_test = train_test_split(

df['plot'], y,
test_size=0.33,
random_state=53)

In [7]: count_vectorizer = CountVectorizer(stop_words='english')

In [8]: count_train = count_vectorizer.fit_transform(X_train.values)

In [9]: count_test = count_vectorizer.transform(X_test.values)

DataCamp Introduction to Natural Language Processing in Python

INTRODUCTION TO NATURAL LANGUAGE PROCESSING IN PYTHON

Let's practice!
DataCamp Introduction to Natural Language Processing in Python

INTRODUCTION TO NATURAL LANGUAGE PROCESSING IN PYTHON

Training and testing a

classiﬁcation model
with scikit-learn
Katharine Jarmul
Founder, kjamistan
DataCamp Introduction to Natural Language Processing in Python

Naive Bayes classiﬁer

Naive Bayes Model
Commonly used for testing NLP classification problems
Basis in probability
Given a particular piece of data, how likely is a particular outcome?
Examples:
If the plot has a spaceship, how likely is it to be sci-fi?
Given a spaceship and an alien, how likely now is it sci-fi?
Each word from CountVectorizer acts as a feature

Naive Bayes: Simple and eﬀective

DataCamp Introduction to Natural Language Processing in Python

Naive Bayes with scikit-learn

In [10]: from sklearn.naive_bayes import MultinomialNB

In [11]: from sklearn import metrics

In [12]: nb_classifier = MultinomialNB()

In [13]: nb_classifier.fit(count_train, y_train)

In [14]: pred = nb_classifier.predict(count_test)

In [15]: metrics.accuracy_score(y_test, pred)

Out [15]: 0.85841849389820424
DataCamp Introduction to Natural Language Processing in Python

Confusion Matrix
In [16]: metrics.confusion_matrix(y_test, pred, labels=[0,1])
Out [16]:
array([[6410, 563],
[ 864, 2242]])

Action Sci-Fi

Action 6410 563

Sci-Fi 864 2242

DataCamp Introduction to Natural Language Processing in Python

INTRODUCTION TO NATURAL LANGUAGE PROCESSING IN PYTHON

Let's practice!
DataCamp Introduction to Natural Language Processing in Python

INTRODUCTION TO NATURAL LANGUAGE PROCESSING IN PYTHON

Simple NLP, Complex

Problems

Katharine Jarmul
Founder, kjamistan
DataCamp Introduction to Natural Language Processing in Python

Translation

(source: https://twitter.com/Lupintweets/status/865533182455685121)
DataCamp Introduction to Natural Language Processing in Python

Sentiment Analysis

(source: https://nlp.stanford.edu/projects/socialsent/)
DataCamp Introduction to Natural Language Processing in Python

Language Biases

(related talk: https://www.youtube.com/watch?v=j7FwpZB1hWc)

DataCamp Introduction to Natural Language Processing in Python

INTRODUCTION TO NATURAL LANGUAGE PROCESSING IN PYTHON

Let's practice!

Getting Started With Python Programming
Document1,484 pages
Getting Started With Python Programming
Poorna28
100% (7)
Practical Data Science With Python
Document922 pages
Practical Data Science With Python
Saurabh Mehta
100% (20)
Python ML Cheat Sheet
Document29 pages
Python ML Cheat Sheet
Vivashwanth Pai
100% (1)
Python Data Science Group Bootcamp NYC (Affordable Machine Learning)
Document16 pages
Python Data Science Group Bootcamp NYC (Affordable Machine Learning)
Shivgan Joshi
No ratings yet
Cheat Sheet
Document80 pages
Cheat Sheet
Amit Rajbhar
No ratings yet
Pythin Qa
Document8 pages
Pythin Qa
sulavojha
No ratings yet
How To Learn Python For Data Science
Document22 pages
How To Learn Python For Data Science
MyScribd_ielts
No ratings yet
Digital Products Decommissioning Checklist: The Purpose of This Document Is To
Document7 pages
Digital Products Decommissioning Checklist: The Purpose of This Document Is To
adi
No ratings yet
Post Graduate Program In: Artificial Intelligence & Machine Learning
Document19 pages
Post Graduate Program In: Artificial Intelligence & Machine Learning
Tarun Bagga
No ratings yet
Explorer Award Exam: IA Pour L'ingénieur 3DNI ISITCOM 2019-2020
Document12 pages
Explorer Award Exam: IA Pour L'ingénieur 3DNI ISITCOM 2019-2020
NourheneMbarek
No ratings yet
A Report On Industrial Visit
Document15 pages
A Report On Industrial Visit
Chandni Bhagchandani
100% (1)
Python AI Programming
From Everand
Python AI Programming
Patrick J
No ratings yet
Data Science Courses - R & Python Analysis Tutorials - DataCamp
Document24 pages
Data Science Courses - R & Python Analysis Tutorials - DataCamp
N C NAGESH PRASAD KOTI
No ratings yet
Data Science & Python With Deep Learning
Document21 pages
Data Science & Python With Deep Learning
DR. vaibhav pandit
No ratings yet
1810 (W 100 CFi - W 120 CFi - W 130 CFi) PDF
Document1 page
1810 (W 100 CFi - W 120 CFi - W 130 CFi) PDF
adrian
No ratings yet
120 Python Interview Questions and Answers in 2021 - You Should Know
Document42 pages
120 Python Interview Questions and Answers in 2021 - You Should Know
Rishabh Kesarwani
100% (2)
Mazak M Code List - INTEGREX - Helman CNC PDF
Document10 pages
Mazak M Code List - INTEGREX - Helman CNC PDF
Isaias M
No ratings yet
Python For Data Analysis: Data Wrangling With Pandas, NumPy, and IPython - Wes McKinney
Document4 pages
Python For Data Analysis: Data Wrangling With Pandas, NumPy, and IPython - Wes McKinney
gaxabipu
8% (25)
Data Science With Python PDF
Document7 pages
Data Science With Python PDF
rushi sable
0% (1)
Amulet Felicia
Document103 pages
Amulet Felicia
Daniele Pio
No ratings yet
Ship Hydrodynamics NUMECA
Document87 pages
Ship Hydrodynamics NUMECA
Carl Franks
No ratings yet
Python For Network Engineers
Document2 pages
Python For Network Engineers
Jacob
No ratings yet
2018 01 Green Urban Area
Document16 pages
2018 01 Green Urban Area
Cerasella Goia
No ratings yet
Chapter2 PDF
Document22 pages
Chapter2 PDF
NourheneMbarek
No ratings yet
Named Entity Recognition: Katharine Jarmul
Document17 pages
Named Entity Recognition: Katharine Jarmul
NourheneMbarek
No ratings yet
Working With The Class System in Python Chapter4
Document29 pages
Working With The Class System in Python Chapter4
Fgpeqw
No ratings yet
Introduction To Regular Expressions: Katharine Jarmul
Document31 pages
Introduction To Regular Expressions: Katharine Jarmul
NourheneMbarek
No ratings yet
Chapter1 NLP
Document31 pages
Chapter1 NLP
NourheneMbarek
No ratings yet
Data Science & ML Python Course
Document4 pages
Data Science & ML Python Course
business ideas singh
No ratings yet
Python CLASS
Document65 pages
Python CLASS
mansirathee309
No ratings yet
Lab - Manual FDS
Document12 pages
Lab - Manual FDS
Prabha K
No ratings yet
Python Sllyabus
Document12 pages
Python Sllyabus
aj765500
No ratings yet
Exploring Microsoft PowerPoint AI, Using Python
Document16 pages
Exploring Microsoft PowerPoint AI, Using Python
ferdad4real
No ratings yet
ALL Course Curriculum
Document10 pages
ALL Course Curriculum
good 2341
No ratings yet
Python Data Handling - A Deeper Dive - Live Training
Document4 pages
Python Data Handling - A Deeper Dive - Live Training
sapabapjava2012
No ratings yet
Turing College Data Science Outline
Document4 pages
Turing College Data Science Outline
dazu861204
No ratings yet
Python and AI course curriculum overview
Document39 pages
Python and AI course curriculum overview
deepak lachhwani
No ratings yet
Data Analysis With Python
Document24 pages
Data Analysis With Python
Analyn Domingo
0% (1)
Data Mining Essen, Als 2: Data Mining in Prac, Ce, With Python
Document31 pages
Data Mining Essen, Als 2: Data Mining in Prac, Ce, With Python
anon_991097212
No ratings yet
D P Lab Manual
Document54 pages
D P Lab Manual
sanketwakde100
No ratings yet
Course Curriculum: Internship On Python
Document29 pages
Course Curriculum: Internship On Python
Suman Sha
No ratings yet
3.1 ML Data Science Syllabus PDF
Document4 pages
3.1 ML Data Science Syllabus PDF
sdfsdf
No ratings yet
Univelcity Data Science Curriculum
Document7 pages
Univelcity Data Science Curriculum
Francis John
No ratings yet
Free Python, R, ML cheat sheet with tutorials and projects
Document45 pages
Free Python, R, ML cheat sheet with tutorials and projects
Seraj
No ratings yet
Data Analyst Nanodegree Program - Syllabus
Document7 pages
Data Analyst Nanodegree Program - Syllabus
Shaikh Saad Alam
No ratings yet
Technogeeks Data Science Course
Document33 pages
Technogeeks Data Science Course
anjalitech007
No ratings yet
Data Scientist SYLLABUS 2021
Document15 pages
Data Scientist SYLLABUS 2021
Nikhil Kumar
No ratings yet
Tentative Data Manipulation Python
Document4 pages
Tentative Data Manipulation Python
imagtion pdr
No ratings yet
Chapter1-Software Engineering & Data Science
Document30 pages
Chapter1-Software Engineering & Data Science
Komi David ABOTSITSE
No ratings yet
Java Tutorial Asia Sem 2
Document5 pages
Java Tutorial Asia Sem 2
ASIAN TRADERS
No ratings yet
Cheat Sheet
Document45 pages
Cheat Sheet
fforappffor
No ratings yet
1.introduction To Machine Learning and Toolkit
Document102 pages
1.introduction To Machine Learning and Toolkit
Ehab Emam
No ratings yet
CampusX Course Index
Document3 pages
CampusX Course Index
Shameel Lamba
No ratings yet
Intellipaat's Data Science Architect Masters Course PDF
Document13 pages
Intellipaat's Data Science Architect Masters Course PDF
ankur.tomer
No ratings yet
DAL EXT 1 and 2
Document125 pages
DAL EXT 1 and 2
sahil
No ratings yet
Machine Learning
Document5 pages
Machine Learning
karthikeyan G
No ratings yet
PGP Machine Learning Brochure PDF
Document17 pages
PGP Machine Learning Brochure PDF
venkateshbvr453
No ratings yet
Python - Basics of Pandas Using Iris Dataset - GeeksforGeeks
Document1 page
Python - Basics of Pandas Using Iris Dataset - GeeksforGeeks
iicdrive7
No ratings yet
AIML_Bootcamp
Document3 pages
AIML_Bootcamp
Brian Fox
No ratings yet
Getting Started with ML
Document8 pages
Getting Started with ML
son
No ratings yet
Chapter 1
Document16 pages
Chapter 1
Himakar Bavikaty
No ratings yet
DATA SCIENCE LAB MANUAL
Document74 pages
DATA SCIENCE LAB MANUAL
ebinezer.jhonson
No ratings yet
Python & Spark for Big Data Processing
Document2 pages
Python & Spark for Big Data Processing
sfazist
No ratings yet
Python AI Programming: Navigating fundamentals of ML, deep learning, NLP, and reinforcement learning in practice
From Everand
Python AI Programming: Navigating fundamentals of ML, deep learning, NLP, and reinforcement learning in practice
Patrick J
No ratings yet
Python Homework Assignments
Document9 pages
Python Homework Assignments
afodcvuqfroewq
No ratings yet
PYTHON FOR ANALYTICS: GAIN HANDS-ON SKILLS FOR BUSINESS APPLICATIONS
Document13 pages
PYTHON FOR ANALYTICS: GAIN HANDS-ON SKILLS FOR BUSINESS APPLICATIONS
Biz Invest
No ratings yet
Python for Analytics: Master Data Skills
Document14 pages
Python for Analytics: Master Data Skills
martin
No ratings yet
2024 DA Curriculum
Document15 pages
2024 DA Curriculum
neverlosetime8952
No ratings yet
Logistic Regression and Regularization: Michael (Mike) Gelbart
Document19 pages
Logistic Regression and Regularization: Michael (Mike) Gelbart
NourheneMbarek
No ratings yet
SAAI1-AI Analyst 2019-Course Guide 1
Document166 pages
SAAI1-AI Analyst 2019-Course Guide 1
NourheneMbarek
No ratings yet
Welcome To The Course!: Michael (Mike) Gelbart
Document17 pages
Welcome To The Course!: Michael (Mike) Gelbart
NourheneMbarek
No ratings yet
Welcome To The Course!: Michael (Mike) Gelbart
Document17 pages
Welcome To The Course!: Michael (Mike) Gelbart
NourheneMbarek
No ratings yet
Supervised Learning With Scikit-Learn: Introduction To Regression
Document31 pages
Supervised Learning With Scikit-Learn: Introduction To Regression
NourheneMbarek
No ratings yet
Linear Classi Ers: Prediction Equations: Michael (Mike) Gelbart
Document22 pages
Linear Classi Ers: Prediction Equations: Michael (Mike) Gelbart
NourheneMbarek
No ratings yet
Linear Classi Ers: Prediction Equations: Michael (Mike) Gelbart
Document22 pages
Linear Classi Ers: Prediction Equations: Michael (Mike) Gelbart
NourheneMbarek
No ratings yet
Supervised Learning With Scikit-Learn: How Good Is Your Model?
Document31 pages
Supervised Learning With Scikit-Learn: How Good Is Your Model?
Victor Ng
No ratings yet
Spark Machine Learning: Carol Mcdonald @caroljmcdonald
Document58 pages
Spark Machine Learning: Carol Mcdonald @caroljmcdonald
NourheneMbarek
No ratings yet
Supervised Learning With Scikit-Learn: Preprocessing Data
Document32 pages
Supervised Learning With Scikit-Learn: Preprocessing Data
NourheneMbarek
No ratings yet
Introduction To Databases in Python: Filtering and Targeting Data
Document32 pages
Introduction To Databases in Python: Filtering and Targeting Data
NourheneMbarek
No ratings yet
Ch1 - Slides - Supervised Learning
Document32 pages
Ch1 - Slides - Supervised Learning
Hockhin Ooi
No ratings yet
Logistic Regression and Regularization: Michael (Mike) Gelbart
Document19 pages
Logistic Regression and Regularization: Michael (Mike) Gelbart
NourheneMbarek
No ratings yet
Ch1 Slides
Document47 pages
Ch1 Slides
Pierre
No ratings yet
Introduction To Databases in Python: Creating Databases and Tables
Document31 pages
Introduction To Databases in Python: Creating Databases and Tables
NourheneMbarek
No ratings yet
Deep Learning CH3
Document22 pages
Deep Learning CH3
Mikistli Yowaltekutli
No ratings yet
Introduction To Databases in Python: Creating Databases and Tables
Document31 pages
Introduction To Databases in Python: Creating Databases and Tables
NourheneMbarek
No ratings yet
Python Cheat Sheet
Document27 pages
Python Cheat Sheet
Yuva Raj
No ratings yet
Introduction To Databases in Python: Filtering and Targeting Data
Document32 pages
Introduction To Databases in Python: Filtering and Targeting Data
NourheneMbarek
No ratings yet
Import data in Python
Document26 pages
Import data in Python
Mario Zamora
No ratings yet
Importing Data in Python Ii: The Twi!er API and Authentication
Document18 pages
Importing Data in Python Ii: The Twi!er API and Authentication
DabiddoXI
No ratings yet
Introduction To Databases in Python: Calculating Values Ina Query
Document30 pages
Introduction To Databases in Python: Calculating Values Ina Query
NourheneMbarek
No ratings yet
Introduction To Databases in Python: Calculating Values Ina Query
Document30 pages
Introduction To Databases in Python: Calculating Values Ina Query
NourheneMbarek
No ratings yet
Python Cheat Sheet
Document27 pages
Python Cheat Sheet
Yuva Raj
No ratings yet
Importing Data in Python I: Query Relational Databases
Document33 pages
Importing Data in Python I: Query Relational Databases
NourheneMbarek
No ratings yet
Cleaning Data in Python - Techniques for Loading, Inspecting, Tidying, Combining & Cleaning Data
Document14 pages
Cleaning Data in Python - Techniques for Loading, Inspecting, Tidying, Combining & Cleaning Data
NourheneMbarek
No ratings yet
Cleaning Data in Python
Document26 pages
Cleaning Data in Python
NourheneMbarek
No ratings yet
Importing Web Data Python
Document22 pages
Importing Web Data Python
Zubair Ashfaque
No ratings yet
IMPORTING FLAT FILES IN PYTHON
Document39 pages
IMPORTING FLAT FILES IN PYTHON
Jitesh Dhariyal
No ratings yet
Mobile Invoice ICS
Document1 page
Mobile Invoice ICS
chetan
No ratings yet
Proxy Server: Ravi Porria 2208645
Document14 pages
Proxy Server: Ravi Porria 2208645
Ryn Poria
No ratings yet
Don't Gamble with Your Crops! Accurately Measure Soil Moisture with the Handi-TRASE
Document2 pages
Don't Gamble with Your Crops! Accurately Measure Soil Moisture with the Handi-TRASE
Riego Geomembrana
No ratings yet
Atardecer
Document6 pages
Atardecer
franklin
No ratings yet
Offer for Flowmeter Systems
Document7 pages
Offer for Flowmeter Systems
Amit Bidlan
No ratings yet
40-BGP Regular Expression
Document5 pages
40-BGP Regular Expression
prakashrjsekar
No ratings yet
Luce Light Heavy S Works
Document3 pages
Luce Light Heavy S Works
Mihai Iavorschi
No ratings yet
PSPICE Tutorial 2
Document25 pages
PSPICE Tutorial 2
jami
No ratings yet
User Manual
Document60 pages
User Manual
lilya moh
No ratings yet
Law Made Simple Intellectual Property Law Note 1 0f 7 Notes: Musbri Mohamed Dil Adil (Itm) MBL (Ukm)
Document50 pages
Law Made Simple Intellectual Property Law Note 1 0f 7 Notes: Musbri Mohamed Dil Adil (Itm) MBL (Ukm)
musbri mohamed
No ratings yet
IQ Range: Installation and Maintenance Instructions
Document3 pages
IQ Range: Installation and Maintenance Instructions
zeeshan
No ratings yet
Empg
Document10 pages
Empg
Shravan
No ratings yet
Nynas Transformer Oil - Nytro Orion II: Naphthenics Product Data Sheet 2009-01-06
Document1 page
Nynas Transformer Oil - Nytro Orion II: Naphthenics Product Data Sheet 2009-01-06
ANGEL STRAGLIATI
No ratings yet
Bs 5467 Copper Conductor Multi Core Swa PVC 1 9 3 3kv Cable
Document2 pages
Bs 5467 Copper Conductor Multi Core Swa PVC 1 9 3 3kv Cable
Saqib Javed
No ratings yet
Faraz CV English
Document2 pages
Faraz CV English
Arbab
No ratings yet
Hacksaw Type
Document6 pages
Hacksaw Type
Zool Hilmi
No ratings yet
Pentode JJ Ef806s
Document2 pages
Pentode JJ Ef806s
Cristian
No ratings yet
01 03 01 Coolant TR0199 99 2091 en
Document18 pages
01 03 01 Coolant TR0199 99 2091 en
Nelli
No ratings yet
3G3PV Series Advanced General-Purpose Inverter Users Manual - I537-E2-01 PDF
Document320 pages
3G3PV Series Advanced General-Purpose Inverter Users Manual - I537-E2-01 PDF
Александр
No ratings yet
Computer Engineering Syllabus Sem IV - Mumbai University
Document28 pages
Computer Engineering Syllabus Sem IV - Mumbai University
Daivik Chaulkar
No ratings yet
Provozní Mody - Guidance For Operation Modes of The SPH Series Inverter
Document9 pages
Provozní Mody - Guidance For Operation Modes of The SPH Series Inverter
Ladislav Brecka
No ratings yet
OperationManual ASE 2
Document74 pages
OperationManual ASE 2
Masoom Sawaira Dhm
No ratings yet
PRPL - Assignment 2 - Software Analysis Document
Document4 pages
PRPL - Assignment 2 - Software Analysis Document
Dzaki H
No ratings yet