You are on page 1of 18

SỬ DỤNG CÁC CÔNG CỤ

ĐƯỢC TẠO LẬP TỪ CÁC KHO


NGỮ LIỆU TRONG VIỆC DẠY
VÀ HỌC TIẾNG ANH
NGƯỜI TRÌNH BÀY : Võ Tú Phương
1. Mở đầu
• Từ khi “ngôn ngữ học ngữ liệu” (corpus linguistics) và “kho ngữ liệu”
(corpus) xuất hiện (từ năm 1980 đến nay) và ứng dụng vào trong việc dạy
và học ngoại ngữ nói chung và tiếng Anh nói riêng đã có những kết quả
đáng kể.
• Sự xuất hiện ngày càng nhiều của kho ngữ liệu tiếng Anh và các công cụ
đã giúp việc dạy và học ngoại ngữ thay đổi đáng kể:
• Chẳng hạn việc học từ vựng và ngữ pháp đã không còn lệ thuộc vào từ
điển và các giáo trình.
• Thay vào đó là những ví dụ và các câu được tập hợp từ các kho ngữ liệu
với các ngữ cảnh thực tế đã giúp người học và người dạy thay đổi quan
niệm về dạy và học ngoại ngữ.
1. Định nghĩa kho ngữ liệu (Corpus)

◦Leech (1992:116) đã đưa ra một định nghĩa về kho


ngữ liệu như sau: “các kho ngữ liệu điện tử là tập
hợp các văn bản một cách có tổ chức: chúng thường
được xây dựng với các mục đích cụ thể định trước,
và thường được xây dựng để đại diện cho một ngôn
ngữ hay thể loại văn bản” (dẫn theo Azadeh Esteki
(2010)).
2. Các kho ngữ liệu tiếng Anh trên thế giới
• Kho ngữ liệu nổi tiếng là British National Corpus (BNC), chứa hơn một
trăm triệu từ tiếng Anh của người Anh
• Kho ngữ liệu American Corpus, bao gồm tổng cộng hơn 14,5 triệu từ, trong
đó 3,2 triệu là dữ liệu nói.
• Kho ngữ liệu Michigan Corpus of English Spoken English, (tổng cộng 1,8
triệu từ).
• Kho ngữ liệu Corpus of Contemporary American English (COCA (20 triệu
từ mỗi năm 1990-2017)
• Kho ngữ liệu British Academic Written English corpus (BAWE)
• Kho ngữ liệu Về lịch sử tiếng Anh của người Mỹ Corpus of Historical
American English (COHA),
3. Các phân loại của kho ngữ liệu
Dựa vào mục đích, cách xây dựng kho ngữ liệu, người ta chia kho
ngữ liệu thành các loại sau:
•thứ nhất là kho ngữ liệu thô (raw corpus): đây là kho ngữ liệu đơn
giản chỉ là tập hợp các dữ liệu mà không có xử lý gì thêm.
•Thứ hai là kho ngữ liệu được gắn nhãn (tagged corpus): các dữ liệu
trong kho ngữ liệu loại này đã được xử lý như phân tích từ, phân tích
cú pháp, gắn nhãn từ loại, …
•Thứ ba là kho ngữ liệu song song (Parallel Corpus). Kiểu kho ngữ
liệu này được sử dụng nhiều trong ứng dụng dịch máy.
Ngoài ra, cũng có thể chia kho ngữ liệu theo cấu tạo của nó. Theo cách
này có 4 loại như sau:
•Một là, kho ngữ liệu biệt lập: ở loại này dữ liệu lấy vào một cách ngẫu
nhiên, biệt lập và không phân biệt với nhau.
•Hai là, kho ngữ liệu theo danh mục: ở loại này dựa vào các danh mục để
chia dữ liệu trong kho ngữ liệu thành các nhóm.
•Ba là, kho ngữ liệu trùng lặp: ở loại này các dữ liệu trong kho ngữ liệu
có thể ở nhiều nhóm cùng lúc.
•Bốn là, kho ngữ liệu theo thời gian: ở loại này các dữ liệu sắp xếp theo
thời gian thu thập và thời gian xuất hiện.
4. Sử dụng các công cụ được tạo lập từ kho ngữ
liệu trong việc dạy và học tiếng Anh

4.1. Công cụ newsinlevels.com


Công cụ newsinlevels.com giúp hỗ trợ 4 kỹ năng
nghe- nói- đọc- viết
Hình 1: Giao diện công cụ newsinlevels.com
Ví dụ cùng chủ đề “Math Stops a Marriage” thì có 3 cấp độ
như sau: Cấp độ 1 (level 1)
Cấp độ 2 (level 2)
Cấp độ 3 (level 3)
2. Công cụ Wordandphrase.info của Mark Davies được xây
dựng dựa trên dữ liệu từ Corpus of Contemporary American
English (COCA)
Ví dụ bài viết của sinh viên sau đây được chèn vào trong
công cụ wordandphrase.info
Hình 4: Bảng phân tích bài viết của sinh viên từ công cụ
Wordandphrase.info
Hình 4: Bảng phân tích bài viết của sinh
viên từ công cụ Wordandphrase.info
◦ Theo như phân tích của công cụ thì bài viết này có 227 từ
◦ Trong đó có 11% cố từ trong số 500 từ vựng thường sử
dụng nhất, 1% số từ trong số 501-3000 từ thường sử dụng.
◦ Khi người học nhấp chọn 1 từ được highlight ví dụ như từ
“reduce” thì bên dưới sẽ có bảng phân tích từ này về từ loại,
cách dùng, các ngữ cảnh có từ đó.
Hình 5:
Bảng ghi
các từ đồng
nghĩa và
trái nghĩa
với từ
Reduce
Hình 7: bảng này ghi định nghĩa của từ reduce
và các từ đi cùng nó để tạo thành các thành ngữ
KẾT LUẬN
• Bài viết này bước đầu đã nêu lên việc ứng dụng của kho ngữ liệu tiếng
Anh trong việc dạy và học ngoại từ vựng tiếng Anh. Bên cạnh đó việc
hướng dẫn của giảng viên chỉ là bước đầu cho việc tự học của người
học với kho ngữ liệu sau này.
• Trên đây chỉ là một số vấn đề được nêu ra, ngoài ra còn rất nhiều khía
cạnh khác mà tác giả rất quan tâm như là: sử dụng kho ngữ liệu trong
dạy các kỹ năng đọc hiểu, kỹ năng viết, dạy ngữ pháp cùng những hạn
chế và những thách thức khi sử dụng kho ngữ liệu trong dạy và học
ngoại ngữ và làm thế nào để khắc phục những hạn chế này, ….
• Tôi hi vọng sẽ trả lời các câu hỏi trên trong những nghiên cứu kế tiếp.
TÀI LIỆU THAM KHẢO
• Baker M. (1995), Corpora in translation studies: And overview and some suggestions for future research. Target, 7, 223-243.
• Biber, D. (2006), University language: a corpus-based study of spoken and written registers.
• Đinh Điền, Hồ Xuân Vinh (2016), Ứng dụng Kho Ngữ liệu trong việc day tiếng Việt cho người nước ngoài, hội thảo quốc tế Giảng dạy, Nghiên cứu
Việt Nam học và tiếng Việt, 1/2016, Bình Châu, Bà Rịa – Vũng Tàu, tr. 172-180.
• Elaine Vaughan & Anne O'Keeffe, (2015), Corpus Analysis, https://doi.org/10.1002/9781118611463.wbielsi168
• Hunston, S. (2002), Corpora in applied linguistics. Cambridge, England; New York: Cambridge University Press.
• Leech, G. N. (1997), Teaching and language corpora: A convergence. In A. Wichmann, S. Fligelstone, T. McEnery, & G. Knowles (Eds.),
Teaching and language corpora (pp.1–23). London, UK: Longman.
• Leech, G. (1992), Corpora and theories of linguistic performance. In J. Startvik (Ed.), Directions in corpus linguistics (pp. 105-122). Berlin:
Mouton de Gruyter.
• Liu, D. (2010b), Is it a chief, main, major, primary, or principal concern: A corpus--based behavioral profile study of the near-synonyms.
International Journal of Corpus Linguistics, 15, 56-87.
• Liu, D. (2013), Using corpora to teach difficult-to-distinguish English words. English Teaching, 68(3), 27-50.
• McEnery, T., Xiao, R., & Tono, Y. (2006), Corpus-Based Language Studies. London and New York: Routledge.
• Reppen, R. (2010), Using corpora in the language classroom. New York: Cambridge University Press.
• Schmitt, N. (2008), Review article: Instructed second language vocabulary learning. Language Teaching Research, 12(3), 329-363. doi:
10.1177/1362168808089921
• Sinclair, J. M. (1991), Corpus, concordance, collocation. Oxford: Oxford University Press.
• Võ Tú Phương, (2019), Sử dụng Kho ngữ liệu trong việc dạy và học từ vựng tiếng Anh, TC Ngôn ngữ và Đời sống, Số 8(288)-2019, trang 64-71.

You might also like