Welcome to Scribd!

Sip Project Report: Rishi Gupta M.T Echai, 19729

Uploaded by

0% found this document useful (0 votes)

13 views1 page

This project report summarizes work using the Wav2vec2 deep learning model to perform speech-to-text conversion on a medical domain dataset. Wav2vec2 alone produced some inaccurate transcriptions, so the author implemented a 5-gram language model using KenLM and medical dialogue data to improve accuracy when processing test data. The results showed the language model was able to correct inaccurate words produced by Wav2vec2 alone and better decode domain-specific keywords like medical terms. Tools used included libraries for audio processing, transformers, and language modeling.

Original Description:

Original Title

SIP Project Report

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

13 views1 page

Sip Project Report: Rishi Gupta M.T Echai, 19729

Uploaded by

rishi gupta

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 1

Search inside document

SIP PROJECT REPORT

Rishi Gupta M.T echAI , 19729

I. A BSTRACT III. R ESULTS

In this project we have perform speech to text conversion When we fed our test data to wav2vec2 model then there
using deep learning model Wav2vec2.Since output of model are some word which are mismatched with original data that
wav2vec2 is not very accurate, hence we have implemented is -
Language model over wav2vec2 using KenLM for improving • Doctor I felt weakness in my body from several days.
accuracy. In this we have used medical domain dataset for • This sentence when passed through wav2vec2 without
training language model. Language model gives output as-
• Doctor i affect to be ness in my body from several days.
II. T ECHNICAL DETAILS • This model can only predict normal text but not able to
predict keyword of certain domain .
We have used deep learning model wav2vec2 which • Now, when this test data is passed through wav2vec2
convert speech into text.N-gram Language model is also with Language model then model decode this as-
implemented over wav2vec2 with KenLM.Main advantage • Doctor I felt weakness in my body from several days.
of using wav2vec2 is it takes unlabeled data in pretraining
and only few hours of labeled data is required in training. IV. T OOLS USED
• Libraries like pyctcdecode, transformers, datasets.
A. Training dataset • From transformers we import wav2vec2
For training data we have collected medical domain con- Wav2vec2Tokenizers and Wav2vec2ForCTC.
versation between doctor and patient and record that using • Librosa for reading audio file.
five of our friend which we used to finetune over pretrained
wav2vec2 model.

B. Test Data
For testing we have used recorded audio sentences from
similar set of friends who recorded test data.

C. Implementation stages
There are three stages of implementation of stages which
are as-
• We give raw input to our wav2vec2 model which will
convert raw audio into latent speech representation and
then perform quantization
• Some vectors of quantized speech are removed before it
is given to any language model called masking.Masked
input is given to Language model.
• Language model predict vectors which was masked in
previous step and gives the output text and accurately
that will determine WER

D. Language model
• We have integrated 5-gram language model over
wav2vec2.For training our language model we have
used hugging face medical dialog dataset using KenLM
model.
• This medical dialog data consist of millions of dialogue
realted to question and answering between doctor and
patient.

Python 101
Document295 pages
Python 101
Rodolfo Silva
100% (2)
PDMS Training Manual
Document165 pages
PDMS Training Manual
Mahdi Daly
No ratings yet
100 TOP C++ Programming Multiple Choice Questions and Answers C++ Programming Questions and Answers PDF
Document24 pages
100 TOP C++ Programming Multiple Choice Questions and Answers C++ Programming Questions and Answers PDF
Sumeet Bhardwaj
88% (8)
Java Class PPT1
Document147 pages
Java Class PPT1
Punith K G
100% (1)
200 LATEST JAVA 2 Marks Questions and Answers p2222222
Document1 page
200 LATEST JAVA 2 Marks Questions and Answers p2222222
Anonymous WgeOGnl
50% (4)
TCP/IP Sockets in Java: Practical Guide for Programmers
From Everand
TCP/IP Sockets in Java: Practical Guide for Programmers
Kenneth L. Calvert
Rating: 4 out of 5 stars
4/5 (5)
Appdev
Document45 pages
Appdev
bookwormMD
No ratings yet
Java Course For Beginners
Document15 pages
Java Course For Beginners
Ankur Arora
No ratings yet
Dep-30.00.60.16-Valve Analysis
Document62 pages
Dep-30.00.60.16-Valve Analysis
Stephen Maloba
100% (1)
Unitrol F
Document8 pages
Unitrol F
Leandro Osadzuk
No ratings yet
Enrollment System
Document9 pages
Enrollment System
Neil Joseph Alcala
100% (1)
Access To A Wincc V7.4 Opc Ua Server Using Excel Client
Document19 pages
Access To A Wincc V7.4 Opc Ua Server Using Excel Client
Vladimir Igorevich
100% (1)
Sip Project Report: Rishi Gupta M.T Echai, 19729
Document1 page
Sip Project Report: Rishi Gupta M.T Echai, 19729
rishi gupta
No ratings yet
Sip Project
Document7 pages
Sip Project
rishi gupta
No ratings yet
NguyenLeHuuDuy 20IT309
Document32 pages
NguyenLeHuuDuy 20IT309
Kết Đoàn Nguyễn
No ratings yet
Lab 7
Document5 pages
Lab 7
ranahassanirfan2005
No ratings yet
Natural Language Processing Nanodegree Syllabus: Before You Start
Document5 pages
Natural Language Processing Nanodegree Syllabus: Before You Start
ijaz
No ratings yet
Java Class PPT1
Document147 pages
Java Class PPT1
Manoj C
No ratings yet
Unit 1 - 1
Document62 pages
Unit 1 - 1
Vinayak kalel
No ratings yet
Lab Manual EC-313 DSP
Document67 pages
Lab Manual EC-313 DSP
Muhammad sharjeel
No ratings yet
C Sharp and Java Comparative
Document28 pages
C Sharp and Java Comparative
Sai Karthik
No ratings yet
Steps To Solve - 1
Document2 pages
Steps To Solve - 1
Aman Singh
No ratings yet
Lab 09
Document4 pages
Lab 09
ranahassanirfan2005
No ratings yet
4 02VariablePractice
Document10 pages
4 02VariablePractice
hk3066334
No ratings yet
Java Notes
Document129 pages
Java Notes
rohini pawar
No ratings yet
21ec2208 - Adc - Lab Completed List
Document61 pages
21ec2208 - Adc - Lab Completed List
Spacial
No ratings yet
Report in Governmental Budgeting
Document33 pages
Report in Governmental Budgeting
edison
No ratings yet
Pretraining Part2 17 Mar 23 PDF
Document38 pages
Pretraining Part2 17 Mar 23 PDF
arpan singh
No ratings yet
AJP Practical 21,22
Document8 pages
AJP Practical 21,22
ɪᴛs࿐ᴀᴀʏᴀɴ
No ratings yet
CNS - Lab Workbook - 21ad2201
Document156 pages
CNS - Lab Workbook - 21ad2201
Hemanth Kumar Mupparaju
No ratings yet
Bidirectional RNN and RVNN
Document15 pages
Bidirectional RNN and RVNN
Lakshmi Narayanan Ranganatha
No ratings yet
EE 469 Advanced Topics in Power Electronics
Document7 pages
EE 469 Advanced Topics in Power Electronics
Khalil Alluhaybi
No ratings yet
Unit 1
Document118 pages
Unit 1
Mavis Norm
No ratings yet
OOPJ2 - Module 1 - Introduction To Object Oriented Programming
Document76 pages
OOPJ2 - Module 1 - Introduction To Object Oriented Programming
Gemechu Taye
No ratings yet
Basic Features
Document19 pages
Basic Features
umang
No ratings yet
Robot Framework Introduction: Test Automation
Document29 pages
Robot Framework Introduction: Test Automation
aa ss
No ratings yet
DVB t2 Thesis
Document5 pages
DVB t2 Thesis
Emily Smith
100% (2)
Java Unit I
Document211 pages
Java Unit I
J. Karthick Myilvahanan CSBS
No ratings yet
Documen PDF
Document33 pages
Documen PDF
Rahiminshaha
No ratings yet
A Proposal of Test Code Generation Tool For Java Programming Learning Assistant System
Document6 pages
A Proposal of Test Code Generation Tool For Java Programming Learning Assistant System
didier.diazmena
No ratings yet
Essential ZigBee For Engineers
Document2 pages
Essential ZigBee For Engineers
Jacob
No ratings yet
LLM For QnA Proposal
Document12 pages
LLM For QnA Proposal
Akhil Kumar
No ratings yet
Semester: 4: A Project On Online MCQ Exam
Document9 pages
Semester: 4: A Project On Online MCQ Exam
sagar wagle
No ratings yet
Programming Paradigms and Introduction To Java
Document33 pages
Programming Paradigms and Introduction To Java
AK FREEZE
No ratings yet
Software & Installation
Document1 page
Software & Installation
GauravSwami
No ratings yet
PowerPoint Presentation
Document12 pages
PowerPoint Presentation
Rohit Singh
No ratings yet
Doc2vec Explain
Document5 pages
Doc2vec Explain
Pushkar Mishra
No ratings yet
EGU2020 9966 Presentation
Document23 pages
EGU2020 9966 Presentation
marwan
No ratings yet
TCPIP Foundation For Engineers
Document2 pages
TCPIP Foundation For Engineers
Jacob
No ratings yet
IoT Project Presentation
Document22 pages
IoT Project Presentation
gulita gaming
No ratings yet
Chapter 1
Document17 pages
Chapter 1
14SYCMIIIShruti Dawange
No ratings yet
Java Imp Question With Answers
Document14 pages
Java Imp Question With Answers
keerthi47745
No ratings yet
Automatic Speech Recognition Using Deep Learning-1
Document8 pages
Automatic Speech Recognition Using Deep Learning-1
Neha Acharya
No ratings yet
Lecture-2 3
Document25 pages
Lecture-2 3
Pratham Sood
No ratings yet
Definitive VoIP For Engineers
Document2 pages
Definitive VoIP For Engineers
Jacob
No ratings yet
Csc103 PF Lab Manual Sp22 v3.1
Document133 pages
Csc103 PF Lab Manual Sp22 v3.1
fa22-bse-051
No ratings yet
L01 - Introduction
Document51 pages
L01 - Introduction
Bigu Marius Alin
No ratings yet
Basics of Java Programming
Document63 pages
Basics of Java Programming
vinay_manoli
No ratings yet
Mohamed Hussein Jama 1001852494 Lab3 PDF
Document9 pages
Mohamed Hussein Jama 1001852494 Lab3 PDF
Mahamed Hussein
No ratings yet
Applying Wav2vec2 For Speech Recognition On Bengali Common Voices Dataset
Document5 pages
Applying Wav2vec2 For Speech Recognition On Bengali Common Voices Dataset
Latifur Rahman Zihad
No ratings yet
Unit 6
Document41 pages
Unit 6
Poorna
No ratings yet
Total IPTV For Engineers
Document2 pages
Total IPTV For Engineers
Jacob
No ratings yet
C J J T: Ompiling AVA Ust in IME
Document8 pages
C J J T: Ompiling AVA Ust in IME
Ranjit Kumar
No ratings yet
SFRA6 US Web
Document2 pages
SFRA6 US Web
IVE IVE
No ratings yet
Jawaharlal Nehru Engineering College VLSI DESIGN
Document38 pages
Jawaharlal Nehru Engineering College VLSI DESIGN
jitendra kumar singh
No ratings yet
Unit I Introducation and Overview Java
Document34 pages
Unit I Introducation and Overview Java
shantanujoshi445
No ratings yet
Flow Chart:: Input Audio Preprocessing
Document14 pages
Flow Chart:: Input Audio Preprocessing
Dhanashree Thorat
No ratings yet
BEEC4814 Introduction
Document46 pages
BEEC4814 Introduction
Pugaaneswari Velautham
No ratings yet
Kernels Hotness 010520
Document19 pages
Kernels Hotness 010520
rishi gupta
No ratings yet
New 5
Document37 pages
New 5
rishi gupta
100% (1)
Watershed Segmentation Based On Distance Transform
Document6 pages
Watershed Segmentation Based On Distance Transform
rishi gupta
No ratings yet
Conversation Between Nurse and Patient About Appendicitis
Document2 pages
Conversation Between Nurse and Patient About Appendicitis
rishi gupta
No ratings yet
New 4
Document38 pages
New 4
rishi gupta
No ratings yet
Dsa Assignment - 4: Implementation Detail: Onebin
Document4 pages
Dsa Assignment - 4: Implementation Detail: Onebin
rishi gupta
No ratings yet
CMO Assignment 2 Revision 3
Document4 pages
CMO Assignment 2 Revision 3
rishi gupta
No ratings yet
E9 205 - Machine Learning For Signal Processing
Document3 pages
E9 205 - Machine Learning For Signal Processing
rishi gupta
No ratings yet
AnmolAsati Ass2
Document16 pages
AnmolAsati Ass2
rishi gupta
No ratings yet
Automatic Facial Emotion Recognition: January 2005
Document11 pages
Automatic Facial Emotion Recognition: January 2005
rishi gupta
No ratings yet
E9 261 - Speech Information Processing: Homework # 3 Due Date: May 2, 2021
Document4 pages
E9 261 - Speech Information Processing: Homework # 3 Due Date: May 2, 2021
rishi gupta
No ratings yet
E9 205 - Machine Learning For Signal Processing: Practice Midterm Exam
Document4 pages
E9 205 - Machine Learning For Signal Processing: Practice Midterm Exam
rishi gupta
No ratings yet
Emotion Detection From Facial Images: Rishi Gupta, Mangal Deep Singh MLSP Final Project 2022
Document7 pages
Emotion Detection From Facial Images: Rishi Gupta, Mangal Deep Singh MLSP Final Project 2022
rishi gupta
No ratings yet
MLSP Project Report: Emotion Detection From Facial Images Rishi Gupta Mangal Deep Singh
Document1 page
MLSP Project Report: Emotion Detection From Facial Images Rishi Gupta Mangal Deep Singh
rishi gupta
No ratings yet
MLSP Project Report: 2. Result
Document1 page
MLSP Project Report: 2. Result
rishi gupta
No ratings yet
E1213 PRNN: Assignment 1 - Basic Models: Prof. Prathosh A. P. Submission Deadline: 1st March 2022
Document3 pages
E1213 PRNN: Assignment 1 - Basic Models: Prof. Prathosh A. P. Submission Deadline: 1st March 2022
rishi gupta
No ratings yet
Project Proposal: Project Title: Speech To Text Conversion Problem Statement
Document2 pages
Project Proposal: Project Title: Speech To Text Conversion Problem Statement
rishi gupta
No ratings yet
Sastry Merged Mid 1
Document700 pages
Sastry Merged Mid 1
rishi gupta
No ratings yet
Inventory Proposal
Document6 pages
Inventory Proposal
Kenneth Luangco
No ratings yet
Scfrdat 3
Document10 pages
Scfrdat 3
hotsync101
No ratings yet
Internet of Things
Document9 pages
Internet of Things
Kwon Nie
No ratings yet
List of Algorithms
Document30 pages
List of Algorithms
Devender Sharma
No ratings yet
Introduction To The Design of Analogs by Allen and Hollberg
Document14 pages
Introduction To The Design of Analogs by Allen and Hollberg
Kiran Kirru
No ratings yet
HFT Fpga
Document6 pages
HFT Fpga
Nitin yadav
No ratings yet
Experiment No. 2 Web Page Using HTML5 Title: Objective
Document34 pages
Experiment No. 2 Web Page Using HTML5 Title: Objective
Pallavi Patil
No ratings yet
INFORAD Manual k1
Document3 pages
INFORAD Manual k1
pete284
No ratings yet
Fit1047 Exam Revision
Document27 pages
Fit1047 Exam Revision
twist mcgee
No ratings yet
944 Warehouse Stock Transfer Receipt Advice
Document21 pages
944 Warehouse Stock Transfer Receipt Advice
amitava_bapi
No ratings yet
Chapter 2 Questions
Document7 pages
Chapter 2 Questions
Mariam Heikal
No ratings yet
(E-Book PDF) Realtime Operating Systems For Embedded Systems
Document212 pages
(E-Book PDF) Realtime Operating Systems For Embedded Systems
pinasis
100% (1)
02 Slide Pengenalan Dasar Mapinfo
Document24 pages
02 Slide Pengenalan Dasar Mapinfo
Rizky 'manda' Amalia
No ratings yet
Operating Systems: BITS Pilani
Document28 pages
Operating Systems: BITS Pilani
divyarai12345
No ratings yet
Asignaci On: Universidad Nacional de San Antonio Abad Del Cusco
Document9 pages
Asignaci On: Universidad Nacional de San Antonio Abad Del Cusco
Thomas Adriano Chacon Alvarez
No ratings yet
Analyze Source Gas
Document2 pages
Analyze Source Gas
Vikram Kumar
No ratings yet
Fundamentals of Data Warehousing: Ms. Liza Mae P. Nismal
Document15 pages
Fundamentals of Data Warehousing: Ms. Liza Mae P. Nismal
Noel Josef
No ratings yet
Evermotion Archmodels 101 PDF
Document2 pages
Evermotion Archmodels 101 PDF
Jason
No ratings yet
2-Door Controller: The Installer's Choice
Document36 pages
2-Door Controller: The Installer's Choice
René Pazmiño
No ratings yet
Modified Gram-Schmidt Orthogonalization in Matlab - Elliott C. Back
Document5 pages
Modified Gram-Schmidt Orthogonalization in Matlab - Elliott C. Back
Fernando Batista
No ratings yet
Ficha Técnica COMPRIMA PDF
Document8 pages
Ficha Técnica COMPRIMA PDF
Yonathan Arestigue
No ratings yet
ADC Port CCS Compiler
Document5 pages
ADC Port CCS Compiler
batistjr
No ratings yet