Welcome to Scribd!

N Grams Python Program

Uploaded by

0% found this document useful (0 votes)

8 views3 pages

The document loads the Brown corpus from NLTK and preprocesses it by case folding and extracting the vocabulary. It then calculates bigram and trigram counts by sliding a window over the corpus. Finally, it defines a function that takes a sentence as input and suggests the top 3 most probable next words based on the bigram and trigram counts. It provides examples of running this function on sample inputs.

Original Description:

Copyright

Available Formats

DOCX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

8 views3 pages

N Grams Python Program

Uploaded by

lalitha sri

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 3

Search inside document

From nltk.

corpus import brown

From nltk.tokenize import word_tokenize

#Loading the corpus

Corpus = brown.words

#case folding and getting vocab

Lower_case_corpus = [w.lower() for w in corpus]

Vocab = set(lower_case_corpus)

print(‘CORPUS EXAMPLE:’+str(lower_case_corpus[:30])+’\n\n’)

print(‘VOCAB EXAMPLE:’+str(list(vocab)[:10]))

CORPUS EXAMPLE:
[‘the’,’fulton’,’county’,’grand’,’jury’,’said’,’friday’,’an’,’investigation’,’of’,”atlanta’s”,’recent’,’primary’,’electi
on’,’produced’,’’’’,’no’,’evidence’,’’’’,’that’,’any’,’irregularities’,’took’,’place’,’.’,’the’,’jury’,’further’,’said’,’in’]

VOCAB EXAMPLE:[‘drudgery’,’one-
arm’,’growling’,’cutest’,’rain’,’hops’,”network’s”,’expressionists’,’polarization’,’gaussian’]

print(‘Total words in Corpus:’+str(len(lower_case_corpus)))

print(‘Vocab of the Corpus:’+str(len(vocab)))

Total words in Corpus:1161192

Vocab of the Corpus:49815

bigram_counts={}

trigram_counts={}

#sliding through corpus to get bigram and trigram counts

For I in range(len(lower_case_corpus)-2):

#Gettingt bigram and trigram at each slide

bigram = (lower_case_corpus[i],lower_case_corpus[i+1])

trigram = (lower_case_corpus[i],lower_case_corpus[i+2])

#keeping track of the bigram counts

If bigram in bigram_counts.keys():

bigram_counts[bigram]+=1

else:

bigram_counts[bigram]=1
#keeping track of trigram counts

If trigram in trigram counts.keys():

trigram_counts[trigram]+=1

else:

trigram_counts[trigram]=1

print(“Example, count for bigram(‘the’,’king’)is:”+str(bigram_counts(‘the’,’king’)])) Example, count for

bigram(‘the’,’king’)is:51

#Function takes sentences as input and suggests possible words that comes after the sentence

Def suggest_next_word(input_,bigram_counts,trigram_counts,vocab)

#consider the last bigram of sentence

tokenized_input = word_tokenize(input_.lower())

last_bigram = tokenized_input[-2:]

#calculating probability for each word in vocab

Vocab_probabilities = {}

For vocab_word in vocab:

Test_trigram = (last_bigram[0],last_bigram[1],vocab_word)

Test_bigram = (last_bigram[0],last_bigram[1])

Test_trigram_count = trigram_counts.get(test_trigram,0)

Test_bigram_count = bigram_counts.get(test_bigram,0)

Probability = test_trigram_counts/test_bigram_count

Vocab_probabilities[vocab_word] = probability

#sorting the vocab probability in descending order to get top probable words

Top_suggestions = sorted(vocab_probabilities.items(),key=lambda x:x[1],reverse = True)[:3]return

top_suggestions

Suggest_next_word(‘I am the king’,bigram_counts,trigram_counts,vocab)

[(‘james’,0.17647058823529413),(‘of’,0.1568627450980392),(‘arthur’,0.1176470588352941)]

Suggest_next_word(‘I am the king of’,bigram_counts, trigram_counts, vocab)

[(‘france’,0.3333333),(‘hearts’,0.1666666),(‘morocco’,0.0833333)]

Suggest_next_word(‘I am the king of france’, bigram_counts, trigram_counts, vocab)

[(‘and’,0.2666),(‘.’,0.2666),(‘.’,0.2)]

Suggest_next_word(‘I am the king of france and’, bigram_counts, trigram_counts, vocab)

[(‘the’,0.2),(‘germany’,0.1333),(‘some’,0.066667)]

Text Processing
Document16 pages
Text Processing
Nipuni
No ratings yet
BR PRB 2
Document6 pages
BR PRB 2
Pratigya pathak
No ratings yet
Asss 7
Document4 pages
Asss 7
Ashwini Patil
No ratings yet
Week2 N9
Document4 pages
Week2 N9
20131A05N9 SRUTHIK THOKALA
No ratings yet
Abu Minhaj Farooqi 37560 Os Lab Final Exam
Document9 pages
Abu Minhaj Farooqi 37560 Os Lab Final Exam
Minhaj Farooqi
No ratings yet
Python
Document17 pages
Python
Nishant
No ratings yet
Python Programming and SQL
Document5 pages
Python Programming and SQL
BADLA FF
No ratings yet
SDLC BAnk Management System
Document11 pages
SDLC BAnk Management System
kartikay patni
No ratings yet
Natural Language Processing
Document22 pages
Natural Language Processing
sandeepssn47
No ratings yet
While False If False: @array (4,9,1,3,2)
Document2 pages
While False If False: @array (4,9,1,3,2)
thebhas1954
No ratings yet
Latvian Vocabulary
Document6 pages
Latvian Vocabulary
parajms8778
No ratings yet
Assignment 7
Document2 pages
Assignment 7
Ashwini Patil
No ratings yet
29 31
Document4 pages
29 31
kimtien201
100% (3)
Practice Python Programs 2024
Document7 pages
Practice Python Programs 2024
zaidn8724
No ratings yet
Abhiram KS Xii S2 Roll No 03
Document34 pages
Abhiram KS Xii S2 Roll No 03
ABHI CODM
No ratings yet
Bag of Words
Document1 page
Bag of Words
Mohith Kumar Narahari
No ratings yet
Cooller Quakelive Config
Document8 pages
Cooller Quakelive Config
chermak
No ratings yet
Computer Practical Term1
Document13 pages
Computer Practical Term1
Ashree Kesarwani
No ratings yet
Practical 3
Document2 pages
Practical 3
Great King
No ratings yet
Goat Prob
Document3 pages
Goat Prob
Sash Dhoni7
No ratings yet
#Include #Include #Include #Include #Include Void Main
Document3 pages
#Include #Include #Include #Include #Include Void Main
mse231
No ratings yet
Untitled
Document1 page
Untitled
Prathamesh Jadhav
No ratings yet
091 Al-Shams PDF
Document2 pages
091 Al-Shams PDF
putra_emeraldi
No ratings yet
Code Output
Document13 pages
Code Output
Sreyas Kotha
No ratings yet
(Ishida Akira, James Davies) Attack and Defense (Elementary Go Series) Igo Baduk Weiqi
Document250 pages
(Ishida Akira, James Davies) Attack and Defense (Elementary Go Series) Igo Baduk Weiqi
Tikz Krub
100% (3)
Online Coding Course (
Document6 pages
Online Coding Course (
dew
No ratings yet
Javascript - The Good Parts
Document9 pages
Javascript - The Good Parts
magayue
No ratings yet
Computer Science Practical File: Name - Vivek Bhagat Class - XII-A Roll No - 27
Document38 pages
Computer Science Practical File: Name - Vivek Bhagat Class - XII-A Roll No - 27
Uma Bhagat
No ratings yet
Proiect
Document3 pages
Proiect
Simona Alexandra
No ratings yet
Assistant Code Backup
Document10 pages
Assistant Code Backup
Pranav K
No ratings yet
Index
Document19 pages
Index
Sarthak Gupta
No ratings yet
Binary File Rec As List and Nested List
Document6 pages
Binary File Rec As List and Nested List
Ace Eyes
No ratings yet
Random Password Generator
Document1 page
Random Password Generator
Ayush Rane
No ratings yet
Knife Fluxus Script
Document24 pages
Knife Fluxus Script
Diego Garcia tecxooo
No ratings yet
N-Gram Response
Document5 pages
N-Gram Response
lalitha sri
No ratings yet
Death Note
Document10 pages
Death Note
qwerty uiop
No ratings yet
22 - MT 0609 Thur Lect L9
Document6 pages
22 - MT 0609 Thur Lect L9
Xiao Yi
No ratings yet
ASTW RA03 PracticalManual
Document18 pages
ASTW RA03 PracticalManual
Diksha Nasa
No ratings yet
TCL Assignment 2
Document6 pages
TCL Assignment 2
Nikita Patel086
No ratings yet
Programming Finalss
Document8 pages
Programming Finalss
Karissa Devon
No ratings yet
Implementation of Shift Reduce Parser
Document4 pages
Implementation of Shift Reduce Parser
urshari
No ratings yet
Python Example Programs
Document5 pages
Python Example Programs
esmani84
100% (1)
File Decryption
Document2 pages
File Decryption
Miss Invisible
No ratings yet
PRACTICAL FILE CS Armaan Jaiswal
Document26 pages
PRACTICAL FILE CS Armaan Jaiswal
nik
No ratings yet
Computer Project Full
Document23 pages
Computer Project Full
Zainab Nagina
No ratings yet
Automatic Code Generator in Python
Document1 page
Automatic Code Generator in Python
rony roy
No ratings yet
Python Reference Card
Document2 pages
Python Reference Card
marczucker
100% (4)
Array Queue
Document39 pages
Array Queue
Afsaribegum Mohammad
No ratings yet
40 Hadith of Nawawi+additions of Ibn Rajab - Eng
Document17 pages
40 Hadith of Nawawi+additions of Ibn Rajab - Eng
Abul Hasan
No ratings yet
Class XII Practical File 2023-24
Document34 pages
Class XII Practical File 2023-24
krishankumaruppcl
No ratings yet
6.datawrangling: Data Visulation
Document27 pages
6.datawrangling: Data Visulation
Anish pandey
No ratings yet
Sub TransformData Script
Document1 page
Sub TransformData Script
coolshubupaunikar
No ratings yet
TCSH Script
Document7 pages
TCSH Script
Anusha Sagi
No ratings yet
Final Quest 1
Document1 page
Final Quest 1
Miss Invisible
No ratings yet
'ID-2000031385' 'M.Lokesh Naga Sai'
Document9 pages
'ID-2000031385' 'M.Lokesh Naga Sai'
lokesh mara
No ratings yet
'Hello' 'Hello' 'Hi' 'Nice To Meet You' 'Hello' 'Hi' 'Nice To Meet You' 'Hello' 'Hi' 'Nice To Meet You'
Document13 pages
'Hello' 'Hello' 'Hi' 'Nice To Meet You' 'Hello' 'Hi' 'Nice To Meet You' 'Hello' 'Hi' 'Nice To Meet You'
Mostafa Hosseini
No ratings yet
The Longest Code That Ive Created
Document11 pages
The Longest Code That Ive Created
Ling Amos
No ratings yet
STRESS Health
Document40 pages
STRESS Health
Hajra Khan
No ratings yet
Christine Remembered That Today Is The Birthday of Her Boss
Document1 page
Christine Remembered That Today Is The Birthday of Her Boss
A.
No ratings yet
Dr. N. Kumarappan IE (I) Council Candidate - Electrical Division
Document1 page
Dr. N. Kumarappan IE (I) Council Candidate - Electrical Division
shanmugasundaram32
No ratings yet
CrumpleZonesSE (Edit)
Document12 pages
CrumpleZonesSE (Edit)
Dah Unknown Marksmen
No ratings yet
MAPEH-Arts: Quarter 3 - Module 2
Document24 pages
MAPEH-Arts: Quarter 3 - Module 2
Girlie Oguan Lovendino
No ratings yet
Chrysler Dodge Ram Jeep Drive Cycle Information
Document2 pages
Chrysler Dodge Ram Jeep Drive Cycle Information
slpkth
No ratings yet
AnnexIIRecommendationsbyHOTCCommittee06 11 18
Document6 pages
AnnexIIRecommendationsbyHOTCCommittee06 11 18
Bilal Abbas
No ratings yet
14 Days of Prayer and Fasting
Document40 pages
14 Days of Prayer and Fasting
ntsakoramphago
No ratings yet
Pavlishchuck Addison - 2000 - Electrochemical Potentials
Document6 pages
Pavlishchuck Addison - 2000 - Electrochemical Potentials
comsian
No ratings yet
Data Abstraction and Problem Solving With C Walls and Mirrors 6th Edition Carrano Solutions Manual
Document36 pages
Data Abstraction and Problem Solving With C Walls and Mirrors 6th Edition Carrano Solutions Manual
allocaturnonylgvtt
100% (12)
Grade 7 Math Lesson 22: Addition and Subtraction of Polynomials Learning Guide
Document4 pages
Grade 7 Math Lesson 22: Addition and Subtraction of Polynomials Learning Guide
Kez Max
No ratings yet
Calculating Staff Strength:: Find Latest Hospitality Resources at
Document8 pages
Calculating Staff Strength:: Find Latest Hospitality Resources at
Priyanjali Saini
No ratings yet
Adolescents and Career Development
Document10 pages
Adolescents and Career Development
Masrijah Masir
No ratings yet
UVEX - Helmets & Eyewear 2009
Document19 pages
UVEX - Helmets & Eyewear 2009
Ivica1977
No ratings yet
Root End Filling Materials
Document9 pages
Root End Filling Materials
Ruchi Shah
No ratings yet
Enable Modern Authentication in Exchange Online
Document2 pages
Enable Modern Authentication in Exchange Online
dan.artimon2791
No ratings yet
56257375851
Document3 pages
56257375851
Anneliese Fernandes
No ratings yet
THE PERFECT DAY Compressed 1 PDF
Document218 pages
THE PERFECT DAY Compressed 1 PDF
Maria
No ratings yet
WTSDA2021 TSDBlack Belt Manual
Document160 pages
WTSDA2021 TSDBlack Belt Manual
Jesus Hernandez
No ratings yet
MINDSET 1 EXERCISES TEST 1 Pendientes 1º Bach VOCABULARY AND GRAMMAR
Document7 pages
MINDSET 1 EXERCISES TEST 1 Pendientes 1º Bach VOCABULARY AND GRAMMAR
ana
No ratings yet
Web Programming: GET / HTTP/1.1 ..
Document16 pages
Web Programming: GET / HTTP/1.1 ..
Alecu Ilie
No ratings yet
Happiest Refugee Coursework 2013
Document10 pages
Happiest Refugee Coursework 2013
malcrowe
100% (2)
Paper 1 Set 2 PDF
Document531 pages
Paper 1 Set 2 PDF
abdul rehman a
No ratings yet
This Study Resource Was: MCV4U Exam Review
Document9 pages
This Study Resource Was: MCV4U Exam Review
Nathan Walton
No ratings yet
Spring Newsletter 2014-Locked
Document4 pages
Spring Newsletter 2014-Locked
api-244488788
No ratings yet
Dell Inspiron 5547 15
Document7 pages
Dell Inspiron 5547 15
Kiti Howaito
No ratings yet
SafetyStock Overview
Document3 pages
SafetyStock Overview
Josue Fonseca
No ratings yet
Manual Daily Calorie Log: Myfitnesspal
Document4 pages
Manual Daily Calorie Log: Myfitnesspal
Azariah Burnside
100% (2)
Bulletin - February 12, 2012
Document14 pages
Bulletin - February 12, 2012
pprancke
No ratings yet
Week 1 Macro (DDR)
Document49 pages
Week 1 Macro (DDR)
Stevie Sean
100% (1)