You are on page 1of 21

Union Vietnamese Transcription Guidelines 2020

Projects

Exported on  03/16/2020


Projects  –  Union Vietnamese Transcription Guidelines 2020

Table of Contents
1 Giới thiệu................................................................................................................... 4
2 Yêu cầu ...................................................................................................................... 5
3 Thông tin chung ........................................................................................................ 6
4 Writing Cách phiên âm.............................................................................................. 8
5 Span Tags (highlighting)  ........................................................................................ 13
6 Event Tags ............................................................................................................... 15
7 Khác ......................................................................................................................... 21

 –  2
Projects  –  Union Vietnamese Transcription Guidelines 2020

• Giới thiệu(see page 4)


• Yêu cầu(see page 5)
• Thông tin chung(see page 6)
• Người nói chính(see page 6)
• Item là gì?(see page 6)
• Batch là gì?(see page 6)
• Tag là gì?(see page 7)
• Writing Cách phiên âm(see page 8)
• Speech (tiếng nói)(see page 8)
• Chính tả(see page 8)
• Các từ lóng không theo quy chuẩn(see page 9)
• Chữ hoa(see page 9)
• Dấu câu(see page 9)
• Dấu gạch ngang(see page 9)
• Số(see page 10)
• Viết tắt và ký hiệu(see page 10)
• Từ đệm(see page 10)
• Initialisms(see page 11)
• Acronyms(see page 11)
• Đánh vần(see page 11)
• Sai phát âm(see page 12)
• Sai ngữ pháp(see page 12)
• Span Tags (highlighting) (see page 13)
• Event Tags(see page 15)
• Khác(see page 21)

 –  3
Projects  –  Union Vietnamese Transcription Guidelines 2020

1 Giới thiệu
Mục tiêu: Mục tiêu của dự án này là phiên âm audio để giúp phát triển dịch vụ nhận diện giọng nói bằng
tiếng Việt.
Trong dự án này, bạn sẽ nghe một cuộc trò chuyện trên điện thoại từ phía một người. Nội dung của các cuộc điện
thoại sẽ là về dịch vụ tư vấn khách hàng. Nhiệm vụ của bạn là phiên âm những gì bạn nghe thấy, sử dụng những
tag (thẻ) đặc biệt cho tiếng động. Công việc này được hoàn thành trên một trang online tên là Ampersand. Bản
hướng dẫn dùng Ampersand được cung cấp riêng bằng tiếng Anh.

 Vui lòng đọc kỹ hướng dẫn và thường xuyên xem lại khi bạn bắt đầu công việc. Có nhiều quy tắc phải
nhớ, nhưng bạn sẽ thấy dễ dàng hơn khi bạn đã làm thực hiện xong một vài audio. Nếu có điều gì không
rõ ràng, vui lòng liên hệ supervisor. Chúc may mắn. 

Giới thiệu –  4
Projects  –  Union Vietnamese Transcription Guidelines 2020

2 Yêu cầu
Vui lòng dùng tai nghe và lắng nghe audio trong một không gian tĩnh lặng để có thể nhận biết các âm thanh trong
audio.
Nếu bạn cần nghỉ ngơi, đóng tab và log in khi bắt đầu lại. Đừng chỉ đóng laptop bởi nó gây ra sai lệch về thời gian
còn lại cho một task.

Yêu cầu –  5
Projects  –  Union Vietnamese Transcription Guidelines 2020

3 Thông tin chung


Hãy điều chỉnh âm lượng để có thể nghe thấy tiếng người nói chính một cách thoải mái
nhất. Hầu hết các cuộc điện thoại chỉ có 1 người nói, nhưng bạn có thể nghe tiếng những
Người nói người nói khác trong phòng, hay tiếng người nói khác trong điện thoại.
chính

Audio bạn nghe là cuộc điện thoại đã được cắt nhỏ ra để có thể dễ phiên âm hơn. Từng
mẩu đối thoại này được gọi là một "item".
Item là gì?

Toàn bộ cuộc trò chuyện sẽ xuất hiện cùng nhau, và nó được gọi là "batch". Một số
"batch" thì ngắn hơn các "batch" khác.
Batch là gì?

Thông tin chung –  6


Projects  –  Union Vietnamese Transcription Guidelines 2020

Tag được dùng để chỉ ra những âm thanh trong cuộc trò chuyện mà không phải lời nói, VD

Tag là gì? một tiếng còi xe sẽ được phiên âm bằng cách chèn tag   ở thời điểm

nó xuất hiện. VD: và anh ta nói

Tags được chèn bằng cách click vào các nút dưới text box khi bạn phiên âm:

Tag sẽ được chèn vào ô phiên âm:

Thông tin chung –  7


Projects  –  Union Vietnamese Transcription Guidelines 2020

4 Writing Cách phiên âm


Toàn bộ tiếng nói có thể hiểu được cần được phiên âm. Hầu hết tiếng nói sẽ đến từ người nói
chính, nhưng nếu bạn nghe thấy tiếng nói của người khác, bạn cũng nên phiên âm tiếng nói đó.
Speec
h Nếu tiếng nói có thể nghe thấy nhưng không rõ ràng (do tiếng ồn khác, các tiếng nói chèn lên
nhau, hoặc tín hiệu đường truyền kém), tiếng nói này không cần phải phiên âm. Trong trường
(tiếng hợp này, hãy sử dụng tag (xem phần Tags ở hướng dẫn).
nói)

Sử dụng chính tả Việt Nam tiêu chuẩn. Nếu bạn không chắc chắn, hãy tra từ điển. Hãy viết tiếng
Việt có dấu.
Chính
tả
Correct Incorrect

ghét ghétt

chuyên chuiên

nhà nà

Vui lòng phiên âm các từ tiếng Anh phổ biến và tên thương hiệu theo tiếng Anh tiêu chuẩn. VD.
iphone, facebook, bye bye, okay. Không dùng từ tiếng Việt như "ai phôn" hay "bái bai". 

Writing Cách phiên âm –  8


Projects  –  Union Vietnamese Transcription Guidelines 2020

Trong văn nói bình thường, người nói đôi khi dùng từ lóng. Đôi khi những từ hoặc cụm từ này
rất gần với từ chuẩn. 
Các từ
lóng Nếu từ lóng đó chỉ có 1 âm khác biệt với từ chuẩn (từ được tìm thấy trong từ điển), hãy dùng từ
chuẩn. Nếu từ lóng đó khác với từ chuẩn nhiều hơn 1 âm và từ đó được sử dụng thông dụng,
không hãy dùng từ lóng đó.
theo Ví dụ: chỉ khác một âm tiết
quy
• dùm ==> TRANSCRIPTION: giùm
chuẩn
Ví dụ: khác nhiều hơn một âm tiết

• hem ==> TRANSCRIPTION: hem 

Vui lòng chỉ sử dụng chữ thường, kể cả khi từ đó là danh từ riêng và thường được viết hoa. 

Chữ
hoa A Phú Hãn==> TRANSCRIPTION: a phú hãn 

Batôlômêô ==> TRANSCRIPTION:  batôlômêô 

Viêt Nam ==> TRANSCRIPTION: viêt nam 

YouTube  ==> TRANSCRIPTION: youtube

Vui lòng không dùng dấu chấm câu (. , ? ! v.v) trong đoạn phiên âm. Dấu nháy đơn (') trong những
từ cần dùng dấu này (trong tiếng Việt rất hiếm, hoặc gần như là không có từ nào cần dấu nháy
Dấu đơn).
câu
Correct transcription: anh ấy sẽ đến vào ngày mai vâng tôi nói với anh ấy

Incorrect transcription: Anh ấy sẽ đến vào ngày mai. Vâng, tôi nói với anh ấy.

Vui lòng không dùng dấu gạch ngang, kể cả khi một từ thường được viết với dấu gạch đơn. Hãy
cố gắng phán đoán xem bạn nên tách một từ ra thành hai âm tiết hay viết gộp thành một. Với các
Dấu từ tiếng nước ngoài, hầu hết bạn sẽ gộp chúng thành một từ. Với ngày tháng và số điện thoại,
gạch hãy xem phần Numbers dưới đây.

ngang
Lê-nin ==> TRANSCRIPTION:  lênin 

đề-pô  ==> TRANSCRIPTION:  đềpô

Writing Cách phiên âm –  9


Projects  –  Union Vietnamese Transcription Guidelines 2020

Vui lòng không dùng chữ số. Tất cả các số cần viết dưới dạng chữ (cách người nói phát âm số),
kể cả khi các số đó là một phần của tên, công ty hay sản phẩm.
Số
iPhone 6S ==> TRANSCRIPTION: iphone sáu s 

bây giờ là 19:00 ==> TRANSCRIPTION: bây giờ là mười chín giờ

2-7-2019 ==> TRANSCRIPTION: hai tháng bảy hai không mười chín

052-2498682 ==> TRANSCRIPTION: không năm hai hai bốn chín tám sáu tám hai

$56 ==> TRANSCRIPTION: năm mươi sáu đô la

Đôi khi để viết nhanh hơn, chúng ta hay dùng dạng rút gọn (viết tắt). Vui lòng không làm thế với
audio này, trừ khi người nói phát âm dạng rút gọn. Các từ cần viết rõ ra để thấy cách người nói
Viết thực sự phát âm từ.
tắt và
ký Dr ==> TRANSCRIPTION: doctor
hiệu Rs.  ==> TRANSCRIPTION: rupees

$ ==> TRANSCRIPTION: đô la

Các từ đệm được tạo ra khi người nói nghĩ về điều cần nói tiếp theo, hoặc để diễn tả những
cảm xúc nhất định. Vui lòng chỉ sử dụng những cách viết dưới đây, và đừng quên tag những từ
Từ đó (xem phần Tags dưới đây).
đệm
Meaning Acceptable Spelling

Đồng ý / suy nghĩ hừm, ừm, ơ, a

Không đồng ý hả, à, ờ, ừ, ớ

Ngạc nhiên wow, ồ, á, oh

Cần sự khẳng định è, ừm, e hèm

Ghê tởm eo, ôi


Nếu bạn thấy một từ đệm cần được thêm vào bảng, hãy nói với supervisor.

Writing Cách phiên âm –  10


Projects  –  Union Vietnamese Transcription Guidelines 2020

Từ viết tắt từ chữ đầu (Initialisms) là những từ được phát âm thành một chuỗi các chữ cái, VD.
TP. HCM. 
Initiali
sms Vui lòng viết những từ đó thành các chữ cái thường, có dấu cách giữa các chữ.

THPT ==> TRANSCRIPTION: t h p t

ĐNÁ ==> TRANSCRIPTION: đ n á

7:00 am ==> TRANSCRIPTION: seven a m

 Nếu tên sản phẩm bao gồm một chữ với một từ, hãy viết thành một từ và không dùng
dấu cách:
iPhone ==> TRANSCRIPTION: iphone
Gmail ==> TRANSCRIPTION: gmail

Tuy nhiên, nếu một chữ gắn với một số, hãy viết chúng tách nhau:
A4 paper ==> TRANSCRIPTION: a four paper
iPhone 6S ==> TRANSCRIPTION: iphone six s

Acronyms là những từ được viết từ những chữ cái đầu tiên, nhưng phát âm như một từ bình
thường, VD. NASA.
Acrony
ms Vui lòng viết những từ này với chữ thường và không dùng dấu cách.

SIĐA  ==> TRANSCRIPTION: siđa

VOA ==> TRANSCRIPTION: voa

Nếu người nói đánh vần một từ, hãy viết các chữ cái theo dạng chữ thường và dùng dấu cách
giữa chúng.
Đánh
vần
Speaker says: bờ a nờ gờ lờ a

TRANSCRIPTION: b a n g l a

Vui lòng không viết ra cách phát âm của từng chữ - "TRANSCRIPTION: bờ a nờ gờ lờ a" trong
trường hợp này là sai.

Writing Cách phiên âm –  11


Projects  –  Union Vietnamese Transcription Guidelines 2020

Trong văn nói thông thường, mọi người đôi khi nói sai một từ.

Sai Nếu bạn hiểu người nói định nói gì, hãy dùng cách viết đúng của từ. Vui lòng không phiên âm
phát cách nói sai.

âm
Speaker says: ngày ma nói chuyện lại

You understand the speaker meant: ngày mai nói chuyện lại

TRANSCRIPTION: ngày mai nói chuyện lại

Nếu bạn không hiểu người nói định nói gì, hãy thay thế từ đó với tag Unclear (xem phần Tags
dưới đây).

Nếu người nói không hoàn thành một từ, hãy coi nó như một từ không hoàn thiện chứ không
phải nói sai. Hãy viết phần bạn nghe được của từ và dùng tag Incomplete (xem phần Tags dưới
đây).

Đôi khi người nói dùng đúng từ, nhưng không đúng ngữ pháp.

Sai Vui lòng phiên âm những gì người nói thực sự nói ngay cả khi ngữ pháp không chính xác. Đừng
ngữ sửa ngữ pháp của người nói.

pháp
Speaker says: anh ấy có hai trâu bò

TRANSCRIPTION: anh ấy có hai trâu bò

Incorrect transcription: anh ấy có hai con bò

Từ khiếm Tất cả những từ khiếm nhã cũng cần được phiên âm. Nếu bạn cảm thấy không thoải mái phiên
nhã âm một từ, dùng unclear tag (xem phần Tags phía dưới) thay vì phiên âm từ đó.

Writing Cách phiên âm –  12


Projects  –  Union Vietnamese Transcription Guidelines 2020

5 Span Tags (highlighting) 


Có 2 loại tags: span tags (colored) and event tags (gray). Hãy xem ảnh phía dưới.
Event tags được chèn vào giữa các từ, span tags được dùng để nhấn mạnh (highlight) từ. 

 Để undo highlighting tags, chọn từ được highlighted và click vào untag. Sẽ không có thay đổi gì cho đến
khi bạn tiếp tục phiên âm, sau đó từ đó sẽ chuyển về màu trắng.

Span Tag Cách dùng

Interjections • Các từ đệm rất phổ biến ở văn nói, nhưng ít hơn ở văn viết (VD. trong
báo chí)
• Phiên âm tất cả các từ đệm bạn nghe được.
• Hãy chỉ sử dụng các từ đệm có trong bảng. Nếu bạn nghĩ một từ nên
được cho thêm, hãy hỏi supervisor trước.
• Dùng tag highlighting để highlight các từ đệm được phiên âm.

Example

Bạn nghe người nói nói "wow"

TRANSCRIPTION: wow

Danh sách các từ đệm

Nghĩa Cách viết hợp lệ

Đồng ý / suy nghĩ hừm, ừm, ơ, a

Không đồng ý hả, à, ờ, ừ, ớ

Ngạc nhiên wow, ồ, á, oh

Cần sự khẳng định è, ừm, e hèm

Ghê tởm eo, ôi

Span Tags (highlighting)  –  13


Projects  –  Union Vietnamese Transcription Guidelines 2020

Span Tag Cách dùng

Incomplete Đôi khi trong văn nói, người nói sẽ không hoàn thành một từ. Họ có thể bị
ngắt lời, hoặc mất tập trung. Trong những trường hợp đó, hãy cố viết lại
những gì bạn nghe thấy và highlight nó bằng incomplete tag.

Speaker says: thư vi- viện đã đóng cửa

TRANSCRIPTION: thư vi viện đã đóng cửa

Span Tags (highlighting)  –  14


Projects  –  Union Vietnamese Transcription Guidelines 2020

6 Event Tags
Event Tag Sh Cách dùng
ort
cut

u Nếu có tiếng nói mà bạn không hiểu (VD. người nói lèm bèm, hoặc có tiếng nói khác
chồng lên, hoặc chất lượng âm thanh kém, hoặc người nói dùng tiếng nước ngoài),
hãy dùng tag này cho những từ đó

Speaker says: "hóa đơn điện thoại của tôi quá cao" nhưng bạn không hiểu
những từ ở giữa

TRANSCRIPTION: hóa đơn  tôi quá cao

 Tiếng nói chồng lên nhau (overlaps) rất hiếm nhưng đôi lúc vẫn xảy ra.
Nếu bạn vẫn có thể hiểu các tiếng nói đó, hãy phiên âm chúng. Nếu có một
loạt người nói chồng lên nhau ở cùng âm lượng, dùng Unclear tag thay
cho những từ đó.

 Những từ mượn, VD. "spam", "cocktail", "modem" nếu phổ biến và được


nhận ra bởi phần lớn mọi người, không dùng tag  .
Tuy nhiên, nếu người nói nói một câu trong tiếng Khmer, câu đó nên được

đánh dấu tag  .

Event Tags –  15
Projects  –  Union Vietnamese Transcription Guidelines 2020

Event Tag Sh Cách dùng


ort
cut

t Audio bạn nghe là những một cuộc đối thoại được máy tính cắt thành những đoạn
nhỏ. Thường thì audio sẽ được cắt ở đoạn nghỉ, nhưng đôi khi đoạn cắt sẽ rơi vào
một từ trong trường hợp máy tính cắt không chính xác.

Dùng tag truncation khi có một từ bị cắt ở đầu hoặc cuối audio do máy. Tag
truncation chỉ được sử dụng ở đầu hoặc cuối một audio (một utterance).

Ví dụ, trong một batch bạn có thể nghe những audio sau:

Audio 1: tôi đang gọi về cu-

Audio 2: -ốn sách

Khi đoạn ngắt này xảy ra, nó gọi là truncation.

Hãy cố gắng viết từ bị cắt rõ nhất có thể và tag nó với Incomplete (xem phần Span
Tags), và dùng tag truncation bên cạnh để chỉ ra đoạn bị cắt:

TRANSCRIPTION 1: tôi đang gọi về cu

TRANSCRIPTION 2:

ốn sách

Nếu bạn không hiểu từ bị cắt, hãy dùng tag unclear bên cạnh truncation:

TRANSCRIPTION 1: tôi đang gọi về

TRANSCRIPTION 2: sách

Thứ tự của incomplete hoặc unclear tag bên cạnh truncation tag rất quan trọng -
nếu từ bị cắt bắt đầu audio, tag truncation được dùng trước, sau đó là incomplete
hoặc unclear tag. Nếu từ bị cắt nằm cuối đoạn audio, truncation tag sẽ được dùng
ở cuối, với incomplete hoặc unclear tag ngay đằng trước.

Event Tags –  16
Projects  –  Union Vietnamese Transcription Guidelines 2020

Event Tag Sh Cách dùng


ort
cut
Hãy luôn nhớ tag truncation sẽ luôn theo kèm với tag incomplete hoặc tag
unclear.

p Vui lòng dùng tag này khi có một đoạn đáng kể trong audio (kéo dài hơn 0.3 giây)
chỉ có im lặng hoặc tiếng ồn nhỏ phía sau (low-level background noise). Bạn có thể
nhìn vào đoạn sóng âm để xác định thời lượng. 0.1 giây của đoạn audio tương
ứng với 1 đoạn nguyên vẹn, vậy nên nếu đoạn không có âm thanh kéo dài hơn 3
đoạn nguyên vẹn, hãy chèn tag pause.

Điều này có thể xảy ra ở đầu, giữa hoặc cuối audio.

TRANSCRIPTION: vâng vâng cô ấy


đã nói với tôi

Nếu có một đoạn nghỉ giữa các từ nhưng bạn nghe thấy tiếng động to (VD. tiếng
đoàn tàu chạy qua), hãy dùng tag noise vì nó phù hợp hơn.

Nếu không có tiếng nói hoặc tiếng ồn rõ ràng trong audio, chỉ cần sử dụng pause
tag.

TRANSCRIPTION:

l Dùng tag này khi bạn nghe tiếng cười. Nếu tiếng cười trùng với tiếng nói, dùng tag
này ở thời điểm tiếng cười bắt đầu.

Người nói cười rúc rích khi nói: tôi đã ăn toàn bộ

TRANSCRIPTION: tôi đã ăn toàn bộ

Event Tags –  17
Projects  –  Union Vietnamese Transcription Guidelines 2020

Event Tag Sh Cách dùng


ort
cut

v Hãy dùng tag này cho bất cứ âm thanh nào phát ra từ miệng hoặc mũi (ho, hắt xì,
ngáp, thở mạnh, v.v)

Nếu các âm thanh trên trùng với tiếng nói, chèn tag ở thời điểm âm thanh bắt đầu.

h Tag này dùng cho tiếng còi mọi loại xe (xe máy, ô tô, xe tải, tàu, v.v)

Nếu các âm thanh trên trùng với tiếng nói, chèn tag ở thời điểm âm thanh bắt đầu.

g Tag này dùng cho tiếng động đột ngột, ví dụ tiếng sập cửa.

Nếu tiếng động được lặp lại gần nhau, vui lòng chỉ dùng tag này một lần.

Speaker says this while someone is banging loudly on the window: anh ấy sẽ
đến muộn

Correct Transcription: anh ấy sẽ đến muộn

Incorrect Transcription: anh ấy sẽ

đến muộn

Event Tags –  18
Projects  –  Union Vietnamese Transcription Guidelines 2020

Event Tag Sh Cách dùng


ort
cut

b Tag này dùng cho những tiếng động khác (background noise), VD. tiếng gió, tiếng
giao thông, nấu ăn, TV, tiếng chuông điện thoại, music v.v 

Khi có tiếng động nền (background noise) xuất hiện cùng tiếng nói chính, vui lòng
chỉ dùng tag này nếu tiếng động nền lấn át tiếng nói chính vì âm lượng quá to, hoặc
hoặc tiếng động nền được nghe thấy rõ khi có khoảng nghỉ trong tiếng nói chính.
Tiếng động nền với âm lượng nhỏ xuyên suốt không cần được tag. 

Nếu các âm thanh này kéo dài liên tục qua nhiều từ, hãy dùng một lần khi tiếng
động bắt đầu. Bạn không cần dùng nó giữa từng từ trong cả audio.

Người nói nói khi bên ngoài trời đổ mưa: có ba con chó

Correct Transcription:  có ba con chó

Incorrect Transcription:  có ba

con chó

Event Tags –  19
Projects  –  Union Vietnamese Transcription Guidelines 2020

Event Tag Sh Cách dùng


ort
cut

e Đôi khi bạn nghe tiếng tạch (crackling) hoặc tiếng tĩnh (static) trên điện thoại. Hãy
dùng tag này cho các âm thanh như vậy.

Nếu các âm thanh này kéo dài liên tục qua nhiều từ, hãy dùng một lần khi tiếng
động bắt đầu. Bạn không cần dùng nó giữa từng từ trong cả audio.

Âm thanh tĩnh kéo dài từ nửa audio trở đi: tôi sẽ đi bộ đến cửa hàng

Correct Transcription: tôi sẽ đi bộ đến cửa hàng

Incorrect Transcription: tôi sẽ đi bộ

đến cửa hàng

Please click the link below to listen to the crackling sound for your reference starting
from 0:12 seconds:

Video Link1

1 https://www.youtube.com/watch?v=ZAAeops5jj0

Event Tags –  20
Projects  –  Union Vietnamese Transcription Guidelines 2020

7 Khác
Một số trường hợp khi không có tiếng nói trong audio:
• Không có tiếng nói nhưng có rõ tiếng còi xe với các tiếng động nền âm lượng nhỏ: chỉ cần chèn tag Horn
• Không có tiếng nói nhưng có tiếng động nền âm lượng rất nhỏ: chỉ chèn tag Pause
• Không có tiếng nói nhưng có tiếng động nền âm lượng rất to (VD. tiếng từ TV, tiếng chuông điện thoại):
chỉ chèn tag Background
• Không có tiếng nói nhưng có rất nhiều tiếng động rõ ràng (VD. còi xe, tiếng ho): chỉ chèn tag Horn và tag
Vocal Noise.

Khác –  21

You might also like