Welcome to Scribd!

Skip carousel

4 POSTagging

Uploaded by

Crypto Genius

0% found this document useful (0 votes)

2 views3 pages

Original Title

4_POSTagging

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

2 views3 pages

4 POSTagging

Uploaded by

Crypto Genius

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 3

Search inside document

4_POSTagging

February 22, 2022

0.0.1 CSC498B-688J_Natural Language Processing

Pauline Maouad, PhD - SAS | CSM, LAU

SPRING, 2022
[ ]: import nltk
# from nltk.book import *
from nltk.stem.porter import *
from nltk.stem import *

from nltk import sent_tokenize, word_tokenize

from nltk.corpus import stopwords
from collections import Counter

from nltk.stem import WordNetLemmatizer

from nltk.tokenize import RegexpTokenizer #regular expression tokenizer

import re # regular expression module

# from nltk import FreqDist

from nltk.corpus import gutenberg as g

from nltk.corpus import brown as b
from nltk.corpus import treebank
from nltk.corpus import nps_chat
from nltk.corpus.reader import TaggedCorpusReader as tcr

[ ]: #The nltk.tag module defines functions and classes for manipulating tagged␣
,→tokens, which combine a basic

#token value with a tag. Tags are case-sensitive strings that identify some␣
,→property of a token, such as

#its part of speech. Tagged tokens are encoded as tuples (tag, token)\

import nltk.tag

1
0.0.2 Various Tagsets

[ ]: treebank.tagged_words()[1:20]

[ ]: treebank.tagged_words(tagset ='universal')[1:20]

0.0.3 Tagset Documentation

[ ]: nltk.help.upenn_tagset('VB.*') # regular expression

[ ]: nltk.help.brown_tagset('VB.*')

0.0.4 Tagging with pos_tag

[ ]: text = "The bitterest tears shed over graves are for words left unsaid and deeds␣
,→left undone - Harriet Beecher Stowe"

tok_text = word_tokenize(text)
nltk.pos_tag(tok_text)

String Representation for Tagged Tokens

[ ]: tagged_token = nltk.tag.str2tuple('Learn/VB')

print(tagged_token)

0.0.5 Corpus reader functions are named based on the type of information they return.

tagged_words() method –> returns tokenized words and their tags

[ ]: # Reading a tagged corpora
# b is an acronym for brown

# Read a tagged text in a given category

print(b.tagged_words(categories='belles_lettres', tagset=('brown'))[1:30])

tagged_sentences() method –> returns tokenized sentences and their tags

[ ]: print(b.tagged_sents(b.fileids()))

# NP-TL --> proper noun-Title

# NN-HL --> noun-Headline

2
Find most common tags
[ ]: brown_tagged = b.tagged_words(categories='science_fiction', tagset='universal')

tag_fd = nltk.FreqDist(tag for (word, tag) in brown_tagged)

print("\n Most common tags: \n", tag_fd.most_common())

The Project Gutenberg RST Manual
From Everand
The Project Gutenberg RST Manual
Marcello Perathoner
No ratings yet
C# Package Mastery: 100 Essentials in 1 Hour - 2024 Edition
From Everand
C# Package Mastery: 100 Essentials in 1 Hour - 2024 Edition
Tenko
No ratings yet
6 - Text Vectorization-CSC688-SP22
Document5 pages
6 - Text Vectorization-CSC688-SP22
Crypto Genius
No ratings yet
NLP Manual
Document21 pages
NLP Manual
1nt21ai012.vynavi
No ratings yet
Assignment 2 NLP 20bci7108
Document2 pages
Assignment 2 NLP 20bci7108
rupa sree
No ratings yet
Assignment No 3
Document5 pages
Assignment No 3
Akshata Chopade
No ratings yet
Natural Language Processing
Document17 pages
Natural Language Processing
coding ak
No ratings yet
Information Security Awareness - Refresher Course
Document83 pages
Information Security Awareness - Refresher Course
sai damodar
100% (2)
Source Code Python Jemmy
Document7 pages
Source Code Python Jemmy
Fadilah Riczky
No ratings yet
Lab2 IR
Document16 pages
Lab2 IR
Pac SaQii
No ratings yet
Artificial Intelligencre
Document38 pages
Artificial Intelligencre
Ajit Kumar
No ratings yet
Effects of Batches - Jupyter Notebook
Document73 pages
Effects of Batches - Jupyter Notebook
jerry.sharma0312
No ratings yet
Project
Document8 pages
Project
Hruthik Pydisetty
No ratings yet
Natural Language Processing With Python & NLTK Cheat Sheet: by Via
Document2 pages
Natural Language Processing With Python & NLTK Cheat Sheet: by Via
Ashwani Rathee
No ratings yet
Shubham Jade MSC It 31031420010 NLP Practical Journal
Document17 pages
Shubham Jade MSC It 31031420010 NLP Practical Journal
Shubham Jade
No ratings yet
MODX Revolution Basic Cheatsheet
Document3 pages
MODX Revolution Basic Cheatsheet
vhristenco
No ratings yet
Read Text
Document13 pages
Read Text
Rasika Jayawardana
No ratings yet
NLP Record
Document6 pages
NLP Record
nuzzurockzz301
No ratings yet
Murenei - Natural Language Processing With Python and NLTK
Document2 pages
Murenei - Natural Language Processing With Python and NLTK
Darlyn LC
No ratings yet
Lab3 IR BIM
Document14 pages
Lab3 IR BIM
Pac SaQii
No ratings yet
NLP - Practical List
Document14 pages
NLP - Practical List
Yash Amin
No ratings yet
ASTW RA03 PracticalManual
Document18 pages
ASTW RA03 PracticalManual
Diksha Nasa
No ratings yet
CSIT366-Lab File
Document17 pages
CSIT366-Lab File
shivangiimishraa1819
No ratings yet
From Import From Import Import As Import: # Load Model and Tokenizer
Document4 pages
From Import From Import Import As Import: # Load Model and Tokenizer
hui
No ratings yet
28days Workout Plan
Document29 pages
28days Workout Plan
Hardik Trivedi
No ratings yet
Code To Extract Plain Text From A PDF File - CodeProject
Document5 pages
Code To Extract Plain Text From A PDF File - CodeProject
chegun Moulero
No ratings yet
NLP 3
Document3 pages
NLP 3
HARSHIT PANDEY
No ratings yet
English
Document17 pages
English
Rahul Raj
No ratings yet
D22dce179 Ai Practical-3,4
Document6 pages
D22dce179 Ai Practical-3,4
Vishv Faldu
No ratings yet
Name: V.J.Karthik REG. NO. 18BCE0413: Web Mining Lab DA-1
Document7 pages
Name: V.J.Karthik REG. NO. 18BCE0413: Web Mining Lab DA-1
Akash Yadav
No ratings yet
TCL and The Cisco Router
Document5 pages
TCL and The Cisco Router
Alphonse Safari
No ratings yet
Lab2a KokChunKiat
Document9 pages
Lab2a KokChunKiat
Abc
No ratings yet
Reading Merged Dataset Reading Merged Dataset: 'Import Successfull'
Document7 pages
Reading Merged Dataset Reading Merged Dataset: 'Import Successfull'
Cookies Keeping
No ratings yet
Magik Language Interview Questions
Document10 pages
Magik Language Interview Questions
Bada Sainath
No ratings yet
CD (Aicte 2020-2021)
Document74 pages
CD (Aicte 2020-2021)
Remi
No ratings yet
A BitTorrent Client in Python 3
Document12 pages
A BitTorrent Client in Python 3
sextyfen
No ratings yet
C Programming
Document8 pages
C Programming
Ligo Pasti
No ratings yet
Text Chunking Using NLTK
Document24 pages
Text Chunking Using NLTK
VenkatMurthy
No ratings yet
CD Cse Record
Document76 pages
CD Cse Record
hnuozoar511230
No ratings yet
Getting Data II Solutions
Document9 pages
Getting Data II Solutions
jfaghm
No ratings yet
EXPERIMENT NO 2 Shristi
Document3 pages
EXPERIMENT NO 2 Shristi
Shrishti Tiwari
No ratings yet
Ty Comps A 42 SPCC Ia
Document3 pages
Ty Comps A 42 SPCC Ia
Dhruv
No ratings yet
NLP Tushar
Document21 pages
NLP Tushar
Yash Amin
No ratings yet
6th Sem Cs CD Ct1 11 Solution
Document20 pages
6th Sem Cs CD Ct1 11 Solution
kamar
No ratings yet
NLP Soc
Document15 pages
NLP Soc
Subbu Buddu
No ratings yet
Report Chat Application
Document15 pages
Report Chat Application
British Empire
No ratings yet
Aped For Fake News
Document6 pages
Aped For Fake News
Bless Co
No ratings yet
Unstructured Data Classification Handson
Document4 pages
Unstructured Data Classification Handson
mohamed yasin
No ratings yet
Combining L TEX With Python: Uwe Ziegenhagen August 9, 2019
Document41 pages
Combining L TEX With Python: Uwe Ziegenhagen August 9, 2019
andres bog
No ratings yet
15 Python Questions
Document10 pages
15 Python Questions
sairaj pol
No ratings yet
Intel (R) Threading Building Blocks: Getting Started Guide
Document12 pages
Intel (R) Threading Building Blocks: Getting Started Guide
Torste Aikio
No ratings yet
M01 Lesson 01
Document27 pages
M01 Lesson 01
Romil Shah
No ratings yet
Using Context Managers: Shayne Miel
Document37 pages
Using Context Managers: Shayne Miel
asfsa
No ratings yet
IR - 754 All Practical
Document21 pages
IR - 754 All Practical
754Durgesh Vishwakarma
No ratings yet
GUI Programming With Python - Labels in Tkinter
Document5 pages
GUI Programming With Python - Labels in Tkinter
Nguyễn Học
No ratings yet
Machine Learning Lecture - 4 and Lecture - 5
Document73 pages
Machine Learning Lecture - 4 and Lecture - 5
Charmil Gandhi
No ratings yet
755 PDFsam PythonNotesForProfessionals
Document1 page
755 PDFsam PythonNotesForProfessionals
Fabricio
No ratings yet
GUI Programming With Python - Labels in Tkinter
Document7 pages
GUI Programming With Python - Labels in Tkinter
ADELAÏDE ARMEL NSEGUE
No ratings yet
Document Type Definition (DTD) : Author: Lukasz Kurgan
Document19 pages
Document Type Definition (DTD) : Author: Lukasz Kurgan
chitra devi
No ratings yet
Features: Microsoft Runtime Visual Studio 2010 Dynamic Language Runtime COM
Document8 pages
Features: Microsoft Runtime Visual Studio 2010 Dynamic Language Runtime COM
bornfordon
No ratings yet
Teaching Business Students Chatbots
Document10 pages
Teaching Business Students Chatbots
Crypto Genius
No ratings yet
Ch8 - Topic Modeling
Document30 pages
Ch8 - Topic Modeling
Crypto Genius
No ratings yet
Bias Variance
Document19 pages
Bias Variance
Crypto Genius
No ratings yet
Chapter 13
Document37 pages
Chapter 13
Crypto Genius
No ratings yet
Homework 3
Document3 pages
Homework 3
Crypto Genius
No ratings yet
Ch6 - Text Vectorization - 1
Document63 pages
Ch6 - Text Vectorization - 1
Crypto Genius
No ratings yet
7-Iris Species Classification and Naïve Bayes-NLP-SP22
Document3 pages
7-Iris Species Classification and Naïve Bayes-NLP-SP22
Crypto Genius
No ratings yet
7 NLP
Document30 pages
7 NLP
Crypto Genius
No ratings yet
8 Probability Review
Document43 pages
8 Probability Review
Crypto Genius
No ratings yet
5 Networks
Document34 pages
5 Networks
Crypto Genius
No ratings yet
Gaddis Python 4e Chapter 03
Document39 pages
Gaddis Python 4e Chapter 03
Crypto Genius
No ratings yet
1 LP Introduction
Document20 pages
1 LP Introduction
Crypto Genius
No ratings yet
MSBA 320 Syllabus Optimization and Simulation
Document5 pages
MSBA 320 Syllabus Optimization and Simulation
Crypto Genius
No ratings yet
6 MOLP and Goal Programming
Document30 pages
6 MOLP and Goal Programming
Crypto Genius
No ratings yet
Gaddis Python 4e Chapter 04
Document30 pages
Gaddis Python 4e Chapter 04
Crypto Genius
No ratings yet
Dictionaries
Document17 pages
Dictionaries
Crypto Genius
No ratings yet
Chapter 2
Document25 pages
Chapter 2
Crypto Genius
No ratings yet
Info Ethics
Document1 page
Info Ethics
Crypto Genius
No ratings yet