Welcome to Scribd!

Artificial Intelligence-Tutorial: CSN - 371 Instructor: Raksha Sharma

Uploaded by

0% found this document useful (0 votes)

5 views5 pages

The document discusses the British National Corpus (BNC), a large text corpus of written and spoken British English from the 1980s-1990s containing around 100 million words. It provides tag distribution statistics for the BNC that show nouns, verbs, adjectives, adverbs, pronouns, determiners, numbers, and prepositions make up the most common tags. The document also outlines an assignment to work with the BNC corpus, which involves preprocessing the data, creating a word-tag frequency dictionary, analyzing word and tag distributions, computing word-tag probabilities, predicting new tags, generating a confusion matrix, and implementing a Bayesian network to predict part-of-speech tags and report accuracy.

Original Description:

Assignments

Original Title

Assigment

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

5 views5 pages

Artificial Intelligence-Tutorial: CSN - 371 Instructor: Raksha Sharma

Uploaded by

Nishant Jain

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 5

Search inside document

Artificial Intelligence-Tutorial

CSN – 371
Instructor: Raksha Sharma
BNC Corpus
● The British National Corpus (BNC) was originally
created by Oxford University press in the 1980s -
early 1990s, and it contains 100 million words of
texts from a wide range of genres (e.g. spoken,
fiction, magazines, newspapers, and academic).
● The corpus covers British English with the intention
that it be a representative sample of spoken and
written British English of that time.
BNC Corpus: Tag Distribution
Noun: 18%
Verb: 15%
Adj: 6%
Adv: 5%
Pronoun: 6.22%
Det: 10%
Number: 1.76%
ProperNoun:
6.2%
Prepositon: 11%
Conjunction:
11%
Other: 9.20%
BNC Corpus: Tag Distribution
- A tagset is a list of part-of-speech tags (POS tags for short), i.e.
labels used to indicate the part of speech and sometimes also other
grammatical categories (case, tense etc.) of each token in a text
corpus.
- When creating user corpora, the recommended tagset is always
preselected.
- BNC corpus is tagged with Penn tagset (File is available with the
assignment).
Assignment
- Bring the corpus into required format. (preprocessing)
word1_tag word2_tag ....... (week-1)
- Create a dictionary having entry for unique word+tag combination with it’s frequency
count in the corpus. (week-2)
- Report top 10 frequently used words and 10 frequently used tags. Provide your analysis of
the word and tag distribution in the corpus. (week-3)
- For each word, compute probabilities of word associations with tags. Program should be
able to display probability of each word given the tag for the training corpus. (week-4)
- Predict the new tags for the words in the test corpus. (week-5)
- Generate confusion matrix for the word-tag pair. (week-6)
- Implement Baysian Network to predict POS tag. (week-7-8-9)
- Report accuracy over test data. (week-10).

Collins Cobuild English Grammar
From Everand
Collins Cobuild English Grammar
HarperCollins UK
Rating: 3.5 out of 5 stars
3.5/5 (12)
Corpus Linguistics Practical Introduction PDF
Document32 pages
Corpus Linguistics Practical Introduction PDF
Heroyuy1994
No ratings yet
Glossary of Linguistics
Document192 pages
Glossary of Linguistics
Miguel Armestar
100% (5)
19 ALG Assignment Part1 2
Document6 pages
19 ALG Assignment Part1 2
Anaya Ranta
No ratings yet
Text Corpus: Meaning, Features, Classification
Document14 pages
Text Corpus: Meaning, Features, Classification
Ксения Дегтярева
No ratings yet
Paul Baker, Andrew Hardie-A Glossary of Corpus Linguistics (Glossaries in Linguistics) (2006)
Document192 pages
Paul Baker, Andrew Hardie-A Glossary of Corpus Linguistics (Glossaries in Linguistics) (2006)
Olga Dzhumatiy
100% (1)
Corpus Linguistics 1
Document48 pages
Corpus Linguistics 1
Abdul Moaiz
No ratings yet
Assignment: A Comparative Analysis of BNC & Coca
Document5 pages
Assignment: A Comparative Analysis of BNC & Coca
Ifrah
No ratings yet
AMALGAM: Automatic Mapping Among Lexico-Grammatical Annotation Models
Document11 pages
AMALGAM: Automatic Mapping Among Lexico-Grammatical Annotation Models
Oksana Yovbak
No ratings yet
Raslan Skell
Document9 pages
Raslan Skell
أبو طارق ابن الحوشبي
No ratings yet
Lesson 1 Linguistic
Document7 pages
Lesson 1 Linguistic
M.H
No ratings yet
Exploring Corpora Task 1 - 2023
Document13 pages
Exploring Corpora Task 1 - 2023
gujianing1110
No ratings yet
Group Members:: Ayesha Azhar Bareera Akbar Irum Masood Maryam Ahmed Tahira Jabeen
Document58 pages
Group Members:: Ayesha Azhar Bareera Akbar Irum Masood Maryam Ahmed Tahira Jabeen
aulia alwina a
No ratings yet
4 29 Utilizing Corpus Analysis Software in Language Teaching
Document34 pages
4 29 Utilizing Corpus Analysis Software in Language Teaching
toopee1
No ratings yet
Corpus Approaches To Language Studies 2020a
Document26 pages
Corpus Approaches To Language Studies 2020a
Roy Altur Robinson
No ratings yet
Corpus Linguistics
Document23 pages
Corpus Linguistics
Mumtaz
No ratings yet
Types
Document41 pages
Types
gujianing1110
No ratings yet
Measuring Vocabulary Levels of English Textbooks and Tests Using A BNC Lemmatised High Frequency Word List
Document19 pages
Measuring Vocabulary Levels of English Textbooks and Tests Using A BNC Lemmatised High Frequency Word List
belinaro8000
No ratings yet
Information On The BNC COCA Word Family Lists 20180705
Document4 pages
Information On The BNC COCA Word Family Lists 20180705
gopinat muthy
No ratings yet
Systemizing The Notation and The Annotation of Collocations: Mojca Pecman
Document14 pages
Systemizing The Notation and The Annotation of Collocations: Mojca Pecman
goran trajkovski
No ratings yet
CorpusSearch Guide
Document104 pages
CorpusSearch Guide
momara021
No ratings yet
TCSE Is A Search Engine Specializing in Exploring Transcripts of TED Talk
Document2 pages
TCSE Is A Search Engine Specializing in Exploring Transcripts of TED Talk
Fariz Ibrahim
No ratings yet
Corpus Linguistics in Teaching Learning
Document12 pages
Corpus Linguistics in Teaching Learning
Nour yahiaoui
No ratings yet
Corpus Linguistics
Document12 pages
Corpus Linguistics
Rogerio Azeredo
100% (5)
Corpus Linguistics: An Introduction
Document43 pages
Corpus Linguistics: An Introduction
Tessy Molada Tebar
No ratings yet
Digital Language Resources
Document69 pages
Digital Language Resources
Petya Raicheva
No ratings yet
Cotesolhandout
Document10 pages
Cotesolhandout
api-347127668
No ratings yet
Building and Annotating The Linguistically Diverse NTU-MC (NTU - Multilingual Corpus)
Document10 pages
Building and Annotating The Linguistically Diverse NTU-MC (NTU - Multilingual Corpus)
Đoàn Vĩnh Thái
No ratings yet
286180-Текст статті-661557-1-10-20230831
Document10 pages
286180-Текст статті-661557-1-10-20230831
Роман Benny Hill Луценко
No ratings yet
1 PB
Document15 pages
1 PB
Sofia Ferro
No ratings yet
Measuring Vocabulary Levels of English Textbooks A
Document20 pages
Measuring Vocabulary Levels of English Textbooks A
Moez Lamti
No ratings yet
Cheng 2012 PP 3-8 Intro
Document6 pages
Cheng 2012 PP 3-8 Intro
Debo
No ratings yet
HG3051 Lec02 Annotation
Document72 pages
HG3051 Lec02 Annotation
Nosheen Irshad
No ratings yet
Getting Started On Natural Language Processing With Python: Crossroads September 2007
Document17 pages
Getting Started On Natural Language Processing With Python: Crossroads September 2007
Harshit Gupta
No ratings yet
Mid-Term Project Report On Spell Checker
Document15 pages
Mid-Term Project Report On Spell Checker
hansrajpatidar
No ratings yet
2017 Book ControllingLanguageInIndustry
Document122 pages
2017 Book ControllingLanguageInIndustry
Cat Tools
No ratings yet
Corpus Linguistics For ENG 411
Document66 pages
Corpus Linguistics For ENG 411
abiodunesther147
No ratings yet
Corpus Usage: Be Ata B. Megyesi
Document40 pages
Corpus Usage: Be Ata B. Megyesi
ardnivarjorwalaaaaaa
No ratings yet
Assignment II - NLP - D
Document4 pages
Assignment II - NLP - D
Sumit Das
No ratings yet
Mining Filipino-English Corpora From The Web: Joel P. Ilao and Rowena Cristina L. Guevara
Document5 pages
Mining Filipino-English Corpora From The Web: Joel P. Ilao and Rowena Cristina L. Guevara
Elizabeth Castro
No ratings yet
Practical Introduction. Ottawa: University of Ottawa Press
Document4 pages
Practical Introduction. Ottawa: University of Ottawa Press
Radu Adrian Pana
No ratings yet
Allama Iqbal Open University, Islamabad (Department of English Language and Applied Linguistics) Warning
Document3 pages
Allama Iqbal Open University, Islamabad (Department of English Language and Applied Linguistics) Warning
blindermusic69
No ratings yet
Poster - Novel Approach For POS Tagging in Pashto
Document6 pages
Poster - Novel Approach For POS Tagging in Pashto
Adil Shahid
No ratings yet
BA in English 4 ELT Level 5 - 2010/ 2011 LSU 3205: Assignment 03
Document8 pages
BA in English 4 ELT Level 5 - 2010/ 2011 LSU 3205: Assignment 03
Kasun B. Weragoda
No ratings yet
Corpus Lingustics
Document24 pages
Corpus Lingustics
ramlohani
No ratings yet
English Corpora
Document27 pages
English Corpora
Mg
No ratings yet
Background
Document18 pages
Background
saisuraj1510
No ratings yet
Corpus Linguistics Part 1
Document30 pages
Corpus Linguistics Part 1
Amani Adam Dawood
No ratings yet
658-Article Text-674-1-10-20190607
Document12 pages
658-Article Text-674-1-10-20190607
likufanele
No ratings yet
RS - PICAE - 2010 (The Pearson International Corpus of Academic English)
Document6 pages
RS - PICAE - 2010 (The Pearson International Corpus of Academic English)
Anonymous 5X35uhSIj
No ratings yet
Designing Monolingual Sample Corpus
Document19 pages
Designing Monolingual Sample Corpus
ramlohani
No ratings yet
English Corpora
Document27 pages
English Corpora
RuxandraIoana
No ratings yet
Practical Corpus Linguistics: An Introduction to Corpus-Based Language Analysis
From Everand
Practical Corpus Linguistics: An Introduction to Corpus-Based Language Analysis
Martin Weisser
No ratings yet
Glossário Jurídico
From Everand
Glossário Jurídico
Luanda Garibotti Victorino
Rating: 5 out of 5 stars
5/5 (1)
Corpora and Discourse Studies: Integrating Discourse and Corpora
From Everand
Corpora and Discourse Studies: Integrating Discourse and Corpora
Anthony McEnery
No ratings yet
Roget's Thesaurus
From Everand
Roget's Thesaurus
Peter Mark Roget
No ratings yet
Vox Modern Spanish and English Dictionary
From Everand
Vox Modern Spanish and English Dictionary
Vox
Rating: 4 out of 5 stars
4/5 (5)
Computers and Informatics in Developing Countries: The First Generation
From Everand
Computers and Informatics in Developing Countries: The First Generation
D.B. Arnold
No ratings yet
A Practical Handbook of Corpus Linguistics
From Everand
A Practical Handbook of Corpus Linguistics
Magali Paquot
No ratings yet
Communication Across Cultures: The Linguistics of Texts in Translation (Expanded and Revised Edition)
From Everand
Communication Across Cultures: The Linguistics of Texts in Translation (Expanded and Revised Edition)
Prof. Basil Hatim
No ratings yet