Welcome to Scribd!

Project Proposal: Project Title: Speech To Text Conversion Problem Statement

Uploaded by

0% found this document useful (0 votes)

15 views2 pages

Rishi Gupta proposes a project to develop a speech-to-text conversion model using deep learning. The model will use wav2vec2 to detect speech signals and convert them to text. Additionally, a language model like KenLM or n-grams will be implemented to increase the accuracy of the text output. Experiments will test different language models to obtain the most accurate text transcription possible. The project will use an English accent dataset from CommonVoice or the Facebook/wav2vec2-base-960h dataset, with wav2vec2 and NLTK functions implemented.

Original Description:

Original Title

PROJECT PROPOSAL_SIP

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

15 views2 pages

Project Proposal: Project Title: Speech To Text Conversion Problem Statement

Uploaded by

rishi gupta

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 2

Search inside document

PROJECT PROPOSAL

RISHI GUPTA
M.TECH AI(19729)
PROJECT TITLE : SPEECH TO TEXT CONVERSION
PROBLEM STATEMENT:
In this project we will develop an Automatic speech recognition
model (ASR), which will detect speech signal given as input to
model and convert it into text.

IMPLEMENTATION DETAIL:
In this we will model deep learning based Automatic speech
Recognition model wav2vec2 for converting speech signal
into text. Using wav2vec2 we will train our ASR model which
will give output as text. For getting an accurate text from
speech we will use any language model like kenlm, N-gram
model. Implementing language model over wav2vec2 will
increase probability of getting accurate text.

EXPERIMENTS:
In this we will try to implement various language model by using
builtin function and by self implementation both to get output text
as accurate as possible.
DATASET DETAIL:
Here we are using only one accent language from many accent
language present in data set whose link is given as:
https://commonvoice.mozilla.org/en/datasets
or else we can use buitin hugging face facebook AI dataset that is:

" Facebook/wav2vec2-base-960h" .

TOOLS AND PROGRAM:

• Buitin library function for wav2vec2 that is Wav2vec2Processor
and Wav2vec2ForCTC import from transformers.
• From NLTK, we use N-gram library function.

A Smart Texting System For Android Mobile Users: Ms. Anuja Jadhav Prof. Arvind Patil
Document3 pages
A Smart Texting System For Android Mobile Users: Ms. Anuja Jadhav Prof. Arvind Patil
Arvind Harikrishnan
No ratings yet
Automatic Speech Recognition Using Deep Learning-1
Document8 pages
Automatic Speech Recognition Using Deep Learning-1
Neha Acharya
No ratings yet
Sip Project
Document7 pages
Sip Project
rishi gupta
No ratings yet
L - R - V C CPU: OW Latency EAL Time Oice Onversion On
Document8 pages
L - R - V C CPU: OW Latency EAL Time Oice Onversion On
Rama Castro
No ratings yet
Ieee
Document7 pages
Ieee
J SANDHYA
No ratings yet
Compressed - Tracemonkey Pldi 09
Document14 pages
Compressed - Tracemonkey Pldi 09
Meredyth Sthefani Poma Santos
No ratings yet
Chat GPT Is Not All You Need Paper Review
Document31 pages
Chat GPT Is Not All You Need Paper Review
Hadi
No ratings yet
PRE Synopsis
Document3 pages
PRE Synopsis
Nilu Patel
No ratings yet
Lakshmi Narain College of Technology Bhopal (M.P.) : Department of Computer Science YEAR 2007-2008
Document25 pages
Lakshmi Narain College of Technology Bhopal (M.P.) : Department of Computer Science YEAR 2007-2008
dukerex
No ratings yet
Group 09
Document3 pages
Group 09
Bùi Nguyên Hoàng
No ratings yet
Internship Project: Object Detection System With Toda
Document21 pages
Internship Project: Object Detection System With Toda
Gede Agus Andika Sani
No ratings yet
Natural Language Processing Nanodegree Syllabus: Before You Start
Document5 pages
Natural Language Processing Nanodegree Syllabus: Before You Start
ijaz
No ratings yet
Ip Adaptor
Document16 pages
Ip Adaptor
laure9239
No ratings yet
Midterm Project - Spring 2023
Document2 pages
Midterm Project - Spring 2023
Ana Ana
No ratings yet
CAption Genarator
Document1 page
CAption Genarator
tayyab abdullah
No ratings yet
Python Based Recognition of Sign
Document10 pages
Python Based Recognition of Sign
19bcs2856
No ratings yet
Text To Image Generator
Document12 pages
Text To Image Generator
solace26102004
No ratings yet
Artificial Intelligent Decoding of Rare Words in Natural Language Translation Using Lexical Level Context
Document7 pages
Artificial Intelligent Decoding of Rare Words in Natural Language Translation Using Lexical Level Context
AJAST Journal
No ratings yet
75 Online
Document14 pages
75 Online
Pratham Dubey
No ratings yet
Project Title: AI Based Voice Programming Platform: Group 20
Document11 pages
Project Title: AI Based Voice Programming Platform: Group 20
Aditya Sawant
No ratings yet
Orchestration Designer Sample Applications
Document28 pages
Orchestration Designer Sample Applications
anon_961182764
0% (1)
Automatic Speech Recognition (Attempt) : ECE 113DB Final Project, Winter 2019 Fong Chi Ho, Zijun Sun, Shao Xiong Lee
Document4 pages
Automatic Speech Recognition (Attempt) : ECE 113DB Final Project, Winter 2019 Fong Chi Ho, Zijun Sun, Shao Xiong Lee
Ken K
No ratings yet
Report in ML
Document9 pages
Report in ML
Priti Gupta
No ratings yet
Nusrat Ismoilov
Document2 pages
Nusrat Ismoilov
동네기획자
No ratings yet
BIS RaysRecog
Document16 pages
BIS RaysRecog
SaranyaRoy
No ratings yet
Welcome To The ASP - Bookmarks
Document136 pages
Welcome To The ASP - Bookmarks
api-3835536
No ratings yet
Inceptra
Document29 pages
Inceptra
Mangalanageshwari
No ratings yet
Department of Computer Science M.Sc. Computer Science - II Year 2021-22
Document5 pages
Department of Computer Science M.Sc. Computer Science - II Year 2021-22
Nikhil Pawar
No ratings yet
Chapter 1: Introduction To Programming Language and Java
Document3 pages
Chapter 1: Introduction To Programming Language and Java
JohnMark Cruz Tan
No ratings yet
Speech-To-Text Input Method For Web System Using J
Document5 pages
Speech-To-Text Input Method For Web System Using J
Leeladhar Blog
No ratings yet
BENSALAH Nouhaila, AYAD Habib, ADIB Abdellah and IBN EL FAROUK Abdelhamid+
Document2 pages
BENSALAH Nouhaila, AYAD Habib, ADIB Abdellah and IBN EL FAROUK Abdelhamid+
Ahmed Blog
No ratings yet
MLIR Tutorial
Document78 pages
MLIR Tutorial
jackbergus
No ratings yet
Message Encode Decode in Python
Document9 pages
Message Encode Decode in Python
Ranu drolia
No ratings yet
TCS Ocr
Document39 pages
TCS Ocr
Throw Away
No ratings yet
Post-Interview Evaluation Test1
Document2 pages
Post-Interview Evaluation Test1
Tendai Matoma
No ratings yet
Convention Paper: Implementing Audio Algorithms and Integrating Processor-Specific Code Using Model-Based Design
Document11 pages
Convention Paper: Implementing Audio Algorithms and Integrating Processor-Specific Code Using Model-Based Design
Francisco Mesquitta
No ratings yet
A VHDL Scalable-Encryption-Algorithm
Document79 pages
A VHDL Scalable-Encryption-Algorithm
ghionoiuc
No ratings yet
Week5 Intro To SW Technology
Document37 pages
Week5 Intro To SW Technology
Mena Safwat
No ratings yet
Going Beyond T-SNE: Exposing Whatlies in Text Embeddings
Document8 pages
Going Beyond T-SNE: Exposing Whatlies in Text Embeddings
Yuniesky Vasconcelo Mir
No ratings yet
Automated Cryptanalysis of Plaintext Xors of Waveform Encoded Speech
Document8 pages
Automated Cryptanalysis of Plaintext Xors of Waveform Encoded Speech
Eagle Khan
No ratings yet
Program To Copy A String in Reverse Order in Assembly Language Using Visual Studio PDF
Document2 pages
Program To Copy A String in Reverse Order in Assembly Language Using Visual Studio PDF
Dilawar
No ratings yet
Mastropaolo CodeSummarization
Document12 pages
Mastropaolo CodeSummarization
malaysheth34
No ratings yet
AI Role Assignment 4
Document2 pages
AI Role Assignment 4
shubham.singh2621
No ratings yet
fIRST REVIEW SAMPLE
Document12 pages
fIRST REVIEW SAMPLE
manomax2020_25196055
No ratings yet
Explaining The Intuition of Word2Vec & Implementing It in Python
Document13 pages
Explaining The Intuition of Word2Vec & Implementing It in Python
Abhishek Sanap
No ratings yet
Face Mask Detection
Document34 pages
Face Mask Detection
Amarjeet Amrat
No ratings yet
Introduction To OOP: Syllabus
Document88 pages
Introduction To OOP: Syllabus
Kalyan Majji
No ratings yet
Lab 03 CMP7202
Document7 pages
Lab 03 CMP7202
ALAO
No ratings yet
Speech To Text Conversion: by B.Sravani 09k95a0404
Document22 pages
Speech To Text Conversion: by B.Sravani 09k95a0404
Sravani Reddy
No ratings yet
Lecture Note 03 - Compiler Assembler Linker and Programming Languages
Document50 pages
Lecture Note 03 - Compiler Assembler Linker and Programming Languages
PANDHU ARDI PRASETYO
No ratings yet
Programming Languages List
Document20 pages
Programming Languages List
xo
No ratings yet
Alexa Mini Project Synopsis Abhi
Document4 pages
Alexa Mini Project Synopsis Abhi
Abhinav Srivastav
No ratings yet
Binary Translation: Static, Dynamic, Retargetable?: This Work Is Partly Supported by Sun Microsystems Laboratories
Document10 pages
Binary Translation: Static, Dynamic, Retargetable?: This Work Is Partly Supported by Sun Microsystems Laboratories
Ahmed Hamouda
No ratings yet
Optical Character Recognition Based Speech Synthesis: Project Report
Document17 pages
Optical Character Recognition Based Speech Synthesis: Project Report
isoi
0% (1)
(Week 1) Lecture 1 & 2: Dr. Naseer Ahmed Sajid Email Id: Whatsapp# 0346-5100010
Document7 pages
(Week 1) Lecture 1 & 2: Dr. Naseer Ahmed Sajid Email Id: Whatsapp# 0346-5100010
Muqaddas Zulfiqar
No ratings yet
The Rise of Cloud Developer
Document45 pages
The Rise of Cloud Developer
Anmol
No ratings yet
Text To Speech Documentation
Document61 pages
Text To Speech Documentation
San Deep
No ratings yet
Generative AI For Business With Microsoft Azure Open AI Program
Document17 pages
Generative AI For Business With Microsoft Azure Open AI Program
Sudhanshu
No ratings yet
Implementing Domain-Specific Languages with Xtext and Xtend - Second Edition
From Everand
Implementing Domain-Specific Languages with Xtext and Xtend - Second Edition
Lorenzo Bettini
Rating: 4 out of 5 stars
4/5 (1)
Modern X86 Assembly Language Programming: Covers x86 64-bit, AVX, AVX2, and AVX-512
From Everand
Modern X86 Assembly Language Programming: Covers x86 64-bit, AVX, AVX2, and AVX-512
Daniel Kusswurm
No ratings yet
Watershed Segmentation Based On Distance Transform
Document6 pages
Watershed Segmentation Based On Distance Transform
rishi gupta
No ratings yet
Kernels Hotness 010520
Document19 pages
Kernels Hotness 010520
rishi gupta
No ratings yet
Conversation Between Nurse and Patient About Appendicitis
Document2 pages
Conversation Between Nurse and Patient About Appendicitis
rishi gupta
No ratings yet
Dsa Assignment - 4: Implementation Detail: Onebin
Document4 pages
Dsa Assignment - 4: Implementation Detail: Onebin
rishi gupta
No ratings yet
New 4
Document38 pages
New 4
rishi gupta
No ratings yet
New 5
Document37 pages
New 5
rishi gupta
100% (1)
Emotion Detection From Facial Images: Rishi Gupta, Mangal Deep Singh MLSP Final Project 2022
Document7 pages
Emotion Detection From Facial Images: Rishi Gupta, Mangal Deep Singh MLSP Final Project 2022
rishi gupta
No ratings yet
CMO Assignment 2 Revision 3
Document4 pages
CMO Assignment 2 Revision 3
rishi gupta
No ratings yet
AnmolAsati Ass2
Document16 pages
AnmolAsati Ass2
rishi gupta
No ratings yet
Automatic Facial Emotion Recognition: January 2005
Document11 pages
Automatic Facial Emotion Recognition: January 2005
rishi gupta
No ratings yet
E9 261 - Speech Information Processing: Homework # 3 Due Date: May 2, 2021
Document4 pages
E9 261 - Speech Information Processing: Homework # 3 Due Date: May 2, 2021
rishi gupta
No ratings yet
Sip Project Report: Rishi Gupta M.T Echai, 19729
Document1 page
Sip Project Report: Rishi Gupta M.T Echai, 19729
rishi gupta
No ratings yet
E1213 PRNN: Assignment 1 - Basic Models: Prof. Prathosh A. P. Submission Deadline: 1st March 2022
Document3 pages
E1213 PRNN: Assignment 1 - Basic Models: Prof. Prathosh A. P. Submission Deadline: 1st March 2022
rishi gupta
No ratings yet
E9 205 - Machine Learning For Signal Processing: Practice Midterm Exam
Document4 pages
E9 205 - Machine Learning For Signal Processing: Practice Midterm Exam
rishi gupta
No ratings yet
E9 205 - Machine Learning For Signal Processing
Document3 pages
E9 205 - Machine Learning For Signal Processing
rishi gupta
No ratings yet
MLSP Project Report: 2. Result
Document1 page
MLSP Project Report: 2. Result
rishi gupta
No ratings yet
Sastry Merged Mid 1
Document700 pages
Sastry Merged Mid 1
rishi gupta
No ratings yet
MLSP Project Report: Emotion Detection From Facial Images Rishi Gupta Mangal Deep Singh
Document1 page
MLSP Project Report: Emotion Detection From Facial Images Rishi Gupta Mangal Deep Singh
rishi gupta
No ratings yet
Sip Project Report: Rishi Gupta M.T Echai, 19729
Document1 page
Sip Project Report: Rishi Gupta M.T Echai, 19729
rishi gupta
No ratings yet