Hindi Speech To Text Conversion: Vivek Kumar Pandey JIIT, Noida (INDIA)

Uploaded by

Salai Jeyaseelan

0% found this document useful (0 votes)

19 views11 pages

Original Title

vivek

Copyright

Available Formats

PPT, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Attribution Non-Commercial (BY-NC)

Available Formats

Download as PPT, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

19 views11 pages

Hindi Speech To Text Conversion: Vivek Kumar Pandey JIIT, Noida (INDIA)

Uploaded by

Salai Jeyaseelan

Copyright:

Attribution Non-Commercial (BY-NC)

Available Formats

Download as PPT, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 11

Search inside document

Hindi Speech to Text

Conversion

Vivek Kumar Pandey

JIIT , Noida (INDIA)
Recent Developments in
Speech Recognition in
Indian
1.CDAC-NOIDA Languages
A-STAR/U-STAR Project
2.CIIL-LDCIL
3.KIIT- Mobile Text & Speech Database Collection in
Hindi and Indian Spoken English
(Contracted by Nokia Research Center, China)
POS Tagging

 Different words in a sentence can be classified into

different categories called Parts of Speech.
e.g. NN,VB,ADJ,ADV,PREP,PRO,DET etc.
 Different Types of taggers
1.Rule based
2.Stochastic
3.Hybrid
Statistical Approaches

 Histogram Analysis
 Hidden Markov Model (HMM)
 Maximum Entropy Model (ME)
 Conditional Random Field (CRF)
 Memory Based Learning (MBL)
POS Tagger : Basic Requirements

 Tag Set


Corpus
Indian Languages : Tag Sets
Available


Very few tag sets available publicly


IL Tagset -IIT Hyderabad : very coarse structure in
linguistic analysis, resulting into a very flat structure
e.g. Tag “PREP” used for POSTP also.
Corpus Generation

 Unicode Supported Factors deciding accuracy :

 Collected from some  Number of sentences in
small stories , novels or the corpus
newspaper articles  Tokens/word
Framework : Our Approach

 Statistical approache : require a huge

training set
 Pattern Matching : Rely on native speakers (Hindi in
our case)
 Database design
 Aids to improve accuracy : Huge database and
machine learning
Future Work

 Can be implemented for other Indian languages by

making changes in the database.

 Size of the Corpus and number of tokens can be

increased to improve accuracy
References

 Speech and Language Processing by Daniel Jurafsky & H. Martin


Natural Language Processing and Information Retrieval by Tanveer
Siddiqui & U.S. Tiwari
 Hindi Word Sense Disambiguation by Manish Sinha , Mahesh Kumar
Reddy .R , Pushpak Bhattacharyya , Prabhakar Pandey & Laxmi
Kashyap
 Cryptanalysis of Keystream Reuse in Stream Ciphered Digitized
Speech using HMM based ASR Techniques by L. A. Khan and M.S.
Baig

Indian Language Speech Database A Review
Document6 pages
Indian Language Speech Database A Review
VR Inda
No ratings yet
An Effective Bi-LSTM Word Embedding System For Analysis and Identification of Language in Code-Mixed Social Media Text in English and Roman Hindi
Document13 pages
An Effective Bi-LSTM Word Embedding System For Analysis and Identification of Language in Code-Mixed Social Media Text in English and Roman Hindi
Big Daddy
No ratings yet
Indian Language Speech Database A Review
Document5 pages
Indian Language Speech Database A Review
pukhraj.jain2626
No ratings yet
IndicSpeech Text-To-Speech Corpus For Indian Languages
Document6 pages
IndicSpeech Text-To-Speech Corpus For Indian Languages
VR Inda
No ratings yet
Language Identification of Kannada Hindi and Engli
Document12 pages
Language Identification of Kannada Hindi and Engli
Akshatha Nagaradh
No ratings yet
Semisupervised Data Driven Word Sense... (Pratibha Rani and Others)
Document11 pages
Semisupervised Data Driven Word Sense... (Pratibha Rani and Others)
arpit
No ratings yet
Patoary 2020
Document4 pages
Patoary 2020
Nagaraj Lutimath
No ratings yet
Part-of-Speech Tagging System For Indian Social Media Text On Twitter
Document8 pages
Part-of-Speech Tagging System For Indian Social Media Text On Twitter
RaziAhmed
No ratings yet
Transliteration Based Gazetteer Preparation For Named Entity Recognition in Hindi
Document6 pages
Transliteration Based Gazetteer Preparation For Named Entity Recognition in Hindi
arpithaswamy
No ratings yet
Designing Monolingual Sample Corpus
Document19 pages
Designing Monolingual Sample Corpus
ramlohani
No ratings yet
Hindi Text Classification
Document7 pages
Hindi Text Classification
Kushagra Bhatia
No ratings yet
Neural-Based Machine Translation System Outperforming Statistical Phrase-Based Machine Translation For Low-Resource Languages
Document7 pages
Neural-Based Machine Translation System Outperforming Statistical Phrase-Based Machine Translation For Low-Resource Languages
hira
No ratings yet
Nptel: Natural Language Processing - Video Course
Document3 pages
Nptel: Natural Language Processing - Video Course
Ashutosh Patil
No ratings yet
Acr39DF TMP
Document4 pages
Acr39DF TMP
api-3761762
100% (2)
Initial Decoding With Minimally Augmented Language Model For Improved Lattice Rescoring in Low Resource ASR
Document14 pages
Initial Decoding With Minimally Augmented Language Model For Improved Lattice Rescoring in Low Resource ASR
larrylynnmail
No ratings yet
11 VII July 2023
Document8 pages
11 VII July 2023
Saqib Ismail
No ratings yet
Aradhya-Multi-Lingual OCR
Document11 pages
Aradhya-Multi-Lingual OCR
Mahaveer k
No ratings yet
Swe1017 NLP Syllabus
Document2 pages
Swe1017 NLP Syllabus
Ramyasai Munnangi
No ratings yet
Implementation of Marathi Language Speech Databases For Large Dictionary
Document6 pages
Implementation of Marathi Language Speech Databases For Large Dictionary
IOSRjournal
No ratings yet
Lecture-1-Introduction To Natural Language Processing-2021
Document46 pages
Lecture-1-Introduction To Natural Language Processing-2021
yogeshwari bahiram
No ratings yet
Deep Learning Based TTS-STT Model With Transliteration For Indic Languages
Document9 pages
Deep Learning Based TTS-STT Model With Transliteration For Indic Languages
IJRASETPublications
No ratings yet
Corpora in Indian Languages
Document18 pages
Corpora in Indian Languages
ramlohani
No ratings yet
Developing Speech To Text Messaging System Using Android Platform
Document31 pages
Developing Speech To Text Messaging System Using Android Platform
Kyaw Myint Naing
No ratings yet
To Build Corpus of Sindhi Language: Fida Hussain Khoso
Document15 pages
To Build Corpus of Sindhi Language: Fida Hussain Khoso
anam
No ratings yet
Identification System For Different Punjabi Dialects Using Random Forest Technique
Document7 pages
Identification System For Different Punjabi Dialects Using Random Forest Technique
Ramona Ana
No ratings yet
Research On Regional Languages
Document6 pages
Research On Regional Languages
Abhishek Rana
No ratings yet
(IJCST-V8I6P13) :keshav Niranjan, Sonia Yadav
Document3 pages
(IJCST-V8I6P13) :keshav Niranjan, Sonia Yadav
EighthSenseGroup
No ratings yet
ISCA Archive: Duration Modeling of Indian Languages Hindi and Telugu
Document6 pages
ISCA Archive: Duration Modeling of Indian Languages Hindi and Telugu
Jones A
No ratings yet
1 s2.0 S0957417423023151 Main
Document17 pages
1 s2.0 S0957417423023151 Main
Baba Ali
No ratings yet
Comparison of Urdu Text To Speech Synthesis Using Unit Selection and HMM Based Techniques PDF
Document5 pages
Comparison of Urdu Text To Speech Synthesis Using Unit Selection and HMM Based Techniques PDF
Akhtar Akbar
No ratings yet
(IJCST-V11I6P2) :ms. Madhuri P. Narkhede, Dr. Harshali B Patil
Document5 pages
(IJCST-V11I6P2) :ms. Madhuri P. Narkhede, Dr. Harshali B Patil
EighthSenseGroup
No ratings yet
HTB Guidelines Ver2.5
Document77 pages
HTB Guidelines Ver2.5
AnadiKashyap
No ratings yet
Information Theoretical Complexities in Developing A Bilingual Corpus: Critical Comparison Hindi and Marathi
Document18 pages
Information Theoretical Complexities in Developing A Bilingual Corpus: Critical Comparison Hindi and Marathi
SyahiduzZaman
No ratings yet
Sanyam Modi Synopsis
Document19 pages
Sanyam Modi Synopsis
Riya Jain
No ratings yet
Electrical Engineering (2017-2021) Punjab Engineering College, Chandigarh - 160012
Document23 pages
Electrical Engineering (2017-2021) Punjab Engineering College, Chandigarh - 160012
202002025.jayeshsvm
No ratings yet
Parsing in Indian Languages PDF
Document81 pages
Parsing in Indian Languages PDF
Krishnamurthi CG
No ratings yet
Urdu Speech Recognition System For District Names of Pakistan Development, Challenges and Solutions
Document5 pages
Urdu Speech Recognition System For District Names of Pakistan Development, Challenges and Solutions
Javeria Ejaz
No ratings yet
Uday PPT
Document11 pages
Uday PPT
kirsagar akash
No ratings yet
Temp Research Paper
Document5 pages
Temp Research Paper
Prathmesh Bamane
No ratings yet
(IJCST-V11I2P2) :pooja Shirude, Mohit Chaudhari, Gaurav Baviskar, Mahesh Kanhere
Document3 pages
(IJCST-V11I2P2) :pooja Shirude, Mohit Chaudhari, Gaurav Baviskar, Mahesh Kanhere
EighthSenseGroup
No ratings yet
Significance of Neural Phonotactic Models For Large-Scale Spoken Language Identification
Document9 pages
Significance of Neural Phonotactic Models For Large-Scale Spoken Language Identification
Maged Hamouda
No ratings yet
Final Research Paper
Document5 pages
Final Research Paper
Prathmesh Bamane
100% (1)
Alr 2012
Document145 pages
Alr 2012
music2850
No ratings yet
Lec Introduction CEP
Document99 pages
Lec Introduction CEP
Krishna Yadav
No ratings yet
Research Papers
Document5 pages
Research Papers
Harshit Dhumal
No ratings yet
Continuous Density Hidden Markov Model For Hindi Speech Recognition
Document7 pages
Continuous Density Hidden Markov Model For Hindi Speech Recognition
Abdelkbir Ws
No ratings yet
A Solution For Line Segmentation Problems in Sindhi Character Recognition System
Document7 pages
A Solution For Line Segmentation Problems in Sindhi Character Recognition System
ਗੁਰਪ੍ਰੀਤ ਸਿੰਘ ਲਹਿਲ
No ratings yet
Transfermgr D 21 02696 PDF
Document30 pages
Transfermgr D 21 02696 PDF
pravin2275767
No ratings yet
Text To Pakistan Sign Language For Urdu: Department of Computer Science
Document24 pages
Text To Pakistan Sign Language For Urdu: Department of Computer Science
Laiba Sabir
No ratings yet
Bilingual Machine Translation
Document8 pages
Bilingual Machine Translation
Beulah Christalin
No ratings yet
NMT Based Similar Language Translation For Hindi - Marathi
Document4 pages
NMT Based Similar Language Translation For Hindi - Marathi
Krishna Gupta
No ratings yet
Word Based Statistical Machine Translation From English Text To Indian Sign Language
Document8 pages
Word Based Statistical Machine Translation From English Text To Indian Sign Language
zemike
No ratings yet
Handwritten Script Recognition System: J Component Project Report FALL 2020
Document41 pages
Handwritten Script Recognition System: J Component Project Report FALL 2020
Alka
No ratings yet
Script Identification of Telugu, English and Hindi Document Image
Document11 pages
Script Identification of Telugu, English and Hindi Document Image
kalyanithallapalli
No ratings yet
A Benchmark Kannada Handwritten Document Dataset and Its Segmentation
Document5 pages
A Benchmark Kannada Handwritten Document Dataset and Its Segmentation
Aayush Sharma
No ratings yet
Feature Hashing For Language and Dialect Identification
Document5 pages
Feature Hashing For Language and Dialect Identification
Sana Isam
No ratings yet
Detectsy A System For Detecting Language From The Text, Images, and Audio Files
Document8 pages
Detectsy A System For Detecting Language From The Text, Images, and Audio Files
IJRASETPublications
No ratings yet
Review On Machine Translation From English To Kannada
Document8 pages
Review On Machine Translation From English To Kannada
IJRASETPublications
No ratings yet
Language Identification: Fundamentals and Applications
From Everand
Language Identification: Fundamentals and Applications
Fouad Sabry
No ratings yet
Real-World Natural Language Processing: Practical applications with deep learning
From Everand
Real-World Natural Language Processing: Practical applications with deep learning
Masato Hagiwara
No ratings yet