NGỮ LIỆU TRONG VIỆC DẠY VÀ HỌC TIẾNG ANH NGƯỜI TRÌNH BÀY : Võ Tú Phương 1. Mở đầu • Từ khi “ngôn ngữ học ngữ liệu” (corpus linguistics) và “kho ngữ liệu” (corpus) xuất hiện (từ năm 1980 đến nay) và ứng dụng vào trong việc dạy và học ngoại ngữ nói chung và tiếng Anh nói riêng đã có những kết quả đáng kể. • Sự xuất hiện ngày càng nhiều của kho ngữ liệu tiếng Anh và các công cụ đã giúp việc dạy và học ngoại ngữ thay đổi đáng kể: • Chẳng hạn việc học từ vựng và ngữ pháp đã không còn lệ thuộc vào từ điển và các giáo trình. • Thay vào đó là những ví dụ và các câu được tập hợp từ các kho ngữ liệu với các ngữ cảnh thực tế đã giúp người học và người dạy thay đổi quan niệm về dạy và học ngoại ngữ. 1. Định nghĩa kho ngữ liệu (Corpus)
◦Leech (1992:116) đã đưa ra một định nghĩa về kho
ngữ liệu như sau: “các kho ngữ liệu điện tử là tập hợp các văn bản một cách có tổ chức: chúng thường được xây dựng với các mục đích cụ thể định trước, và thường được xây dựng để đại diện cho một ngôn ngữ hay thể loại văn bản” (dẫn theo Azadeh Esteki (2010)). 2. Các kho ngữ liệu tiếng Anh trên thế giới • Kho ngữ liệu nổi tiếng là British National Corpus (BNC), chứa hơn một trăm triệu từ tiếng Anh của người Anh • Kho ngữ liệu American Corpus, bao gồm tổng cộng hơn 14,5 triệu từ, trong đó 3,2 triệu là dữ liệu nói. • Kho ngữ liệu Michigan Corpus of English Spoken English, (tổng cộng 1,8 triệu từ). • Kho ngữ liệu Corpus of Contemporary American English (COCA (20 triệu từ mỗi năm 1990-2017) • Kho ngữ liệu British Academic Written English corpus (BAWE) • Kho ngữ liệu Về lịch sử tiếng Anh của người Mỹ Corpus of Historical American English (COHA), 3. Các phân loại của kho ngữ liệu Dựa vào mục đích, cách xây dựng kho ngữ liệu, người ta chia kho ngữ liệu thành các loại sau: •thứ nhất là kho ngữ liệu thô (raw corpus): đây là kho ngữ liệu đơn giản chỉ là tập hợp các dữ liệu mà không có xử lý gì thêm. •Thứ hai là kho ngữ liệu được gắn nhãn (tagged corpus): các dữ liệu trong kho ngữ liệu loại này đã được xử lý như phân tích từ, phân tích cú pháp, gắn nhãn từ loại, … •Thứ ba là kho ngữ liệu song song (Parallel Corpus). Kiểu kho ngữ liệu này được sử dụng nhiều trong ứng dụng dịch máy. Ngoài ra, cũng có thể chia kho ngữ liệu theo cấu tạo của nó. Theo cách này có 4 loại như sau: •Một là, kho ngữ liệu biệt lập: ở loại này dữ liệu lấy vào một cách ngẫu nhiên, biệt lập và không phân biệt với nhau. •Hai là, kho ngữ liệu theo danh mục: ở loại này dựa vào các danh mục để chia dữ liệu trong kho ngữ liệu thành các nhóm. •Ba là, kho ngữ liệu trùng lặp: ở loại này các dữ liệu trong kho ngữ liệu có thể ở nhiều nhóm cùng lúc. •Bốn là, kho ngữ liệu theo thời gian: ở loại này các dữ liệu sắp xếp theo thời gian thu thập và thời gian xuất hiện. 4. Sử dụng các công cụ được tạo lập từ kho ngữ liệu trong việc dạy và học tiếng Anh
4.1. Công cụ newsinlevels.com
Công cụ newsinlevels.com giúp hỗ trợ 4 kỹ năng nghe- nói- đọc- viết Hình 1: Giao diện công cụ newsinlevels.com Ví dụ cùng chủ đề “Math Stops a Marriage” thì có 3 cấp độ như sau: Cấp độ 1 (level 1) Cấp độ 2 (level 2) Cấp độ 3 (level 3) 2. Công cụ Wordandphrase.info của Mark Davies được xây dựng dựa trên dữ liệu từ Corpus of Contemporary American English (COCA) Ví dụ bài viết của sinh viên sau đây được chèn vào trong công cụ wordandphrase.info Hình 4: Bảng phân tích bài viết của sinh viên từ công cụ Wordandphrase.info Hình 4: Bảng phân tích bài viết của sinh viên từ công cụ Wordandphrase.info ◦ Theo như phân tích của công cụ thì bài viết này có 227 từ ◦ Trong đó có 11% cố từ trong số 500 từ vựng thường sử dụng nhất, 1% số từ trong số 501-3000 từ thường sử dụng. ◦ Khi người học nhấp chọn 1 từ được highlight ví dụ như từ “reduce” thì bên dưới sẽ có bảng phân tích từ này về từ loại, cách dùng, các ngữ cảnh có từ đó. Hình 5: Bảng ghi các từ đồng nghĩa và trái nghĩa với từ Reduce Hình 7: bảng này ghi định nghĩa của từ reduce và các từ đi cùng nó để tạo thành các thành ngữ KẾT LUẬN • Bài viết này bước đầu đã nêu lên việc ứng dụng của kho ngữ liệu tiếng Anh trong việc dạy và học ngoại từ vựng tiếng Anh. Bên cạnh đó việc hướng dẫn của giảng viên chỉ là bước đầu cho việc tự học của người học với kho ngữ liệu sau này. • Trên đây chỉ là một số vấn đề được nêu ra, ngoài ra còn rất nhiều khía cạnh khác mà tác giả rất quan tâm như là: sử dụng kho ngữ liệu trong dạy các kỹ năng đọc hiểu, kỹ năng viết, dạy ngữ pháp cùng những hạn chế và những thách thức khi sử dụng kho ngữ liệu trong dạy và học ngoại ngữ và làm thế nào để khắc phục những hạn chế này, …. • Tôi hi vọng sẽ trả lời các câu hỏi trên trong những nghiên cứu kế tiếp. TÀI LIỆU THAM KHẢO • Baker M. (1995), Corpora in translation studies: And overview and some suggestions for future research. Target, 7, 223-243. • Biber, D. (2006), University language: a corpus-based study of spoken and written registers. • Đinh Điền, Hồ Xuân Vinh (2016), Ứng dụng Kho Ngữ liệu trong việc day tiếng Việt cho người nước ngoài, hội thảo quốc tế Giảng dạy, Nghiên cứu Việt Nam học và tiếng Việt, 1/2016, Bình Châu, Bà Rịa – Vũng Tàu, tr. 172-180. • Elaine Vaughan & Anne O'Keeffe, (2015), Corpus Analysis, https://doi.org/10.1002/9781118611463.wbielsi168 • Hunston, S. (2002), Corpora in applied linguistics. Cambridge, England; New York: Cambridge University Press. • Leech, G. N. (1997), Teaching and language corpora: A convergence. In A. Wichmann, S. Fligelstone, T. McEnery, & G. Knowles (Eds.), Teaching and language corpora (pp.1–23). London, UK: Longman. • Leech, G. (1992), Corpora and theories of linguistic performance. In J. Startvik (Ed.), Directions in corpus linguistics (pp. 105-122). Berlin: Mouton de Gruyter. • Liu, D. (2010b), Is it a chief, main, major, primary, or principal concern: A corpus--based behavioral profile study of the near-synonyms. International Journal of Corpus Linguistics, 15, 56-87. • Liu, D. (2013), Using corpora to teach difficult-to-distinguish English words. English Teaching, 68(3), 27-50. • McEnery, T., Xiao, R., & Tono, Y. (2006), Corpus-Based Language Studies. London and New York: Routledge. • Reppen, R. (2010), Using corpora in the language classroom. New York: Cambridge University Press. • Schmitt, N. (2008), Review article: Instructed second language vocabulary learning. Language Teaching Research, 12(3), 329-363. doi: 10.1177/1362168808089921 • Sinclair, J. M. (1991), Corpus, concordance, collocation. Oxford: Oxford University Press. • Võ Tú Phương, (2019), Sử dụng Kho ngữ liệu trong việc dạy và học từ vựng tiếng Anh, TC Ngôn ngữ và Đời sống, Số 8(288)-2019, trang 64-71.