Co-So-Di-Truyen-Chon-Giong-Cay-Trong - Nhom-3 - Bai-Tap-Lon-Qtl - (Cuuduongthancong - Com)

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN, ĐHQG-HCM
KHOA SINH HỌC – CÔNG NGHỆ SINH HỌC

MÔN HỌC:
CƠ SỞ DI TRUYỀN CHỌN GIỐNG CÂY TRỒNG
BÀI TẬP LỚN

QTL
Nhóm thực hiện:

Trần Văn Đến 18150086
Phạm Khánh Hội 18150140
Huỳnh Thiện Phải 18180266
Nguyễn Thị Hiền 18150128
Ngày 03 tháng 7 năm 2021

BT. R/QTL Trần Văn Đến, Phạm Khánh Hội, Huỳnh Thiện Phải, Nguyễn Thị Hiền 3/7/2021
MỤC LỤC
DANH MỤC HÌNH ẢNH...............................................................................................................................4
I. XÂY DỰNG BẢN ĐỒ DI TRUYỀN ..........................................................................................................7
BƯỚC 1: XỬ LÝ DỮ LIỆU TRƯỚC KHI XÂY DỰNG CÁC NHÓM LIÊN KẾT ..................................................8
#1.1. NHẬP DỮ LIỆU VÀ TÓM TẮT BỘ DỮ LIỆU PHÂN TÍCH .......................................................................8
#1.2. LOẠI BỎ CÁ THỂ VÀ CHỈ THỊ BỊ THIẾU DỮ LIỆU .................................................................................8
#1.3. NHẬN BIẾT CÁC CÁ THỂ VÀ MARKER BỊ LẶP LẠI .............................................................................10
#1.4. KIỂM TRA KHẢ NĂNG TỶ LỆ PHÂN LY VÀ MỨC ĐỘ LIÊN KẾT GIỮA CÁC CẶP CHỈ THỊ .....................13
BƯỚC 2: XÂY DỰNG CÁC NHÓM LIÊN KẾT VÀ THỨ TỰ CÁC MARKER TRONG NHÓM LIÊN KẾT ..........16
#2.1. XÂY DỰNG CÁC NHÓM LIÊN KẾT BƯỚC ĐẦU..................................................................................16
#2.2. XÂY DỰNG LẠI CÁC NHÓM LIÊN KẾT SAU KHI GIẢI QUYẾT CÁC MARKER BỊ CHUYỂN ĐỔI ALLENE 22
#2.3. SẮP XẾP THỨ TỰ CÁC MARKER TRONG TỪNG NHÓM LIÊN KẾT (NST) ...........................................23
#2.3.1. Chromosome số 5.........................................................................................................................23
#2.3.2. Chromosome số 2.........................................................................................................................25
#2.3.3. Chromosome số 4.........................................................................................................................26
#2.3.4. Chromosome số 3.........................................................................................................................27
#2.3.5. Chromosome số 1 ........................................................................................................................27
#2.4. NHÌN NHẬN TỔNG THỂ CÁC THỨ TỰ SẮP XẾP TRÊN 5 CHROMOSOME .........................................28
BƯỚC 3: KIỂM TRA CÁC NGHI VẤN BẢN ĐỒ LIÊN KẾT BAN ĐẦU...........................................................30
#3.1. LOẠI BỎ MARKER NGHI VẤN VÀ ĐÁNH GIÁ LẠI CHIỀU DÀI NST .....................................................30
#3.2. KIỂM TRA SỐ LƯỢNG TRAO ĐỔI CHÉO QUAN SÁT Ở MỖI CÁ THỂ .................................................31
#3.3. KIỂM TRA MARKER CÓ XẢY RA TRAO ĐỔI CHÉO ĐÔI ......................................................................33
#3.4. KIỂM TRA Ý NGHĨA TỶ LỆ PHÂN LY KIỂU GENE ................................................................................34
BƯỚC 4: XÂY DỰNG BẢN ĐỒ LIÊN KẾT CUỐI CÙNG...............................................................................36
II. XÁC ĐỊNH QTL LIÊN KẾT TÍNH TRẠNG SỐ 23 .....................................................................................37
BƯỚC 1. NHẬP BẢN ĐỒ LIÊN KẾT ĐÃ ĐƯỢC XÂY DỰNG, KIỂM TRA LẠI CÁC THÔNG SỐ ....................38
BƯỚC 2. XÁC ĐỊNH QTL LIÊN KẾT VỚI TÍNH TRẠNG SỐ 23 ....................................................................38
#2.1. XÁC ĐỊNH QTL LIÊN KẾT VỚI TÍNH TRẠNG SỐ 23 BẰNG PHƯƠNG PHÁP “em” ..............................38
2
#2.2. XÁC ĐỊNH GIÁ TRỊ LOD SCORE NGƯỠNG ........................................................................................40
#2.3. TÌM KIẾM CÁC QTL CÓ GIÁ TRỊ LOD SCORE VƯỢT NGƯỠNG .........................................................41
#2.4. TÌM KIẾM QTL KHÁC LIÊN KẾT VỚI TÍNH TRẠNG 23 ........................................................................43
#2.5. XÁC ĐỊNH LẠI VỊ TRÍ CÁC QTL TRÊN CHROMOSOME ......................................................................47
BƯỚC 3: XÁC ĐỊNH KHOẢNG TIN CẬY VÀ MỨC ĐỘ ẢNH HƯỞNG CỦA CÁC QTL ĐƯỢC XÁC ĐỊNH LÊN
TÍNH TRẠNG SỐ 23...................................................................................................................................48
#3.1. XÁC ĐINH KHOẢNG TIN CẬY CỦA CÁC QTL LIÊN KẾT VỚI TÍNH TRẠNG 23 .....................................48
#3.2. XÁC ĐINH MỨC ĐỘ ẢNH HƯỞNG CỦA CÁC QTL LIÊN KẾT VỚI TÍNH TRẠNG 23 ............................48
3
DANH MỤC HÌNH ẢNH
Hình 1.1. Nhập dữ liệu và tóm tắt bộ dữ liệu phân tích ............................................................................. 8
Hình 1.2. Ghi nhận, loại bỏ các cá thể/chỉ thị bị thiếu dữ liệu và nhìn nhận lại bộ dữ liệu sau khi đã
loại bỏ .. ....................................................................................................................................................... 8
Hình 1.3. Mô hình dữ liệu bị thiếu trong bộ dữ liệu mapthis. .................................................................... 9
Hình 1.4. Biểu đồ số lượng marker cho từng cá nhân (bên trái) và số lượng cá thể ghi nhận được của
mỗi marker (bên phải). ............................................................................................................................. 10
Hình 1.5. Kiểm tra cá thể và marker bị trùng lặp, loại bỏ cá thể trùng lặp............................................... 11
Hình 1.6. Biểu đồ tỷ lệ kiểu gene của các cặp cá thể. ............................................................................... 11
Hình 1.7. Tìm kiếm và xóa chỉ thị không tuân theo tỷ lệ phân ly. ............................................................. 13
Hình 1.8a. Kiểm tra tỷ lệ phân ly và mức độ liên kết của các cặp chỉ thị.................................................. 14
Hình 1.8b. Biểu đồ mức độ phân tán của các tỷ lệ phân bố kiểu gene ở F2. ........................................... 14
Hình 1.9. Biểu đồ giá trị LOD với các tần số tái tổ hợp ước tính. ............................................................ 16
Hình 1.10. Xây dựng các nhóm liên kết và kiểm tra allene chuyển đổi. ................................................... 17
Hình 1.11. Biểu đồ tần số tái tổ hợp và giá trị LOD ước tính của 11 nhóm liên kết ban đầu. .................. 18
Hình 1.12. Biểu đồ tần số tái tổ hợp ước tính (biểu đồ trên) và giá trị LOD score (biểu đồ dưới) của
marker C3M13 với các marker khác trên các nhóm liên kết. .................................................................. 19
Hình 1.13. Xác định marker bị chuyển đổi allene của nhóm liên kết 4 và 5; chuyển đổi allene các
marker trong nhóm liên kết 5, 7-11; kiểm tra lại biểu đồ tần số tái tổ hợp và giá trị LOD score. ............ 19
Hình 1.14. Biểu đồ tần số tái tổ hợp và giá trị LOD score ước tính các marker của 11 nhóm liên kết sau
khi đã chuyển đổi allene............................................................................................................................ 20
Hình 1.15. Biểu đồ giá trị LOD score và tần số tái tổ hợp cho tất cả các marker sau khi chuyển đổi
allene ... ..................................................................................................................................................... 21
Hình 1.16. Xây dựng lại các nhóm liên kết và vẽ lại biểu đồ tần số tái tổ hợp, giá trị LOD score sau khi
xây dựng lại các nhóm liên kết. ................................................................................................................. 22
Hình 1.17. Biểu đồ tần số tái tổ hợp và giá trị LOD score ước tính của các marker sau khi xây dựng lại
các 5 nhóm liên kết. .................................................................................................................................. 22
Hình 1.18. Sắp xếp thứ tự các marker trong chromosome số 5. .............................................................. 23
Hình 1.19. Sắp xếp thứ tự các marker trong chromosome số 2 ............................................................... 25
Hình 1.20. Tương qua số lượng trao đổi chéo với giá trị LOD score của các marker trên chromosome
số 2. ..... ..................................................................................................................................................... 26
4
Hình 1.24. Nhìn nhận thổng thể 5 chromosome ...................................................................................... 28
Hình 1.25. Bản đồ di truyền bước đầu...................................................................................................... 29
Hình 1.26. Biểu đồ tần số tái tổ hợp và giá trị LOD score ước tính sau khi đã sắp xếp thứ tự các
marker phân tử trên từng chromosome. .................................................................................................. 29
Hình 1.27. Loại bỏ marker nghi vấn và đánh giá lại chiều dài NST. .......................................................... 30
Hình 1.28. Kết quả giá trị LOD và chiều dài NST sao khi loại bỏ 1 điểm đánh dấu. .................................. 31
Hình 1.29. Kiểm tra số lượng trao đổi chéo và thứ tự chromosome số 5. ............................................... 32
Hình 1.30. Số lượng trao đổi chéo ở các cá thể trong bản đồ di truyền. ................................................. 33
Hình 1.31. Kiểm tra lại thông số trên bản đồ di truyền. ........................................................................... 33
Hình 1.32. Các cá thể với marker tương ứng có khả năng xảy ra trao đổi chéo đôi. ............................... 33
Hình 1.33. Vẽ biểu đồ các kiểu gene các cá thể có trao đổi chéo đôi trên chromosome số 1. ................ 34
Hình 1.34. Kiểu gene các cá thể trên chromosome số 1 với giá trị LOD score cao (>6) được đánh dấu
(màu đỏ). ................................................................................................................................................... 34
Hình 1.35. Vẽ biểu đồ kiểm tra ý nghĩa tỷ lệ phân ly kiểu gene................................................................ 34
Hình 1.36. Biểu đồ giá trị -log10 P-value (bảng trên và tỷ lệ phân ly kiểu gene (bảng dưới) của các
marker trong bản đồ di truyền. ................................................................................................................. 36
Hình 1.37. Bản đồ di truyền dữ liệu mapthis. ........................................................................................... 37
Hình 2.1. Kết quả khi nhập và tóm tắt dữ liệu cần phân tích ................................................................... 38
Hình 2.2. Xác định QTL liên kết với tính trạng số 23 bằng phương pháp “em”........................................ 39
Hình 2.3. Biểu đồ thể hiện giá trị LOD score của các markers. ................................................................. 39
Hình 2.4. Kết quả khi chạy câu lệnh scanone() ......................................................................................... 40
Hình 2.5. Hai giá trị ngưỡng tương ứng với p-value=0.05 và p-value=0.1 ............................................... 40
Hình 2.6: Kết quả truy xuất các QTL có giá trị LOD score vượt ngưỡng ................................................... 40
Hình 2.7. Biểu đồ các QTL có giá trị LOD score vượt giá trị ngưỡng......................................................... 41
Hình 2.8. Tương tác giữa Q1*Q2 .............................................................................................................. 42
Hình 2.9. Tương tác giữa Q1*Q3 .............................................................................................................. 42
5
Hình 2.10. Tương tác giữa Q2*Q3 ............................................................................................................ 43
Hình 2.11. Đánh dấu lại 3 QTL đã tìm được ở bước trên. ........................................................................ 43
Hình 2.12. Kết quả tìm kiếm xác định 1 QTL trên Chr20 có LOD score = 14.5 .......................................... 44
Hình 2.13. Kết quả tìm kiếm xác định 1 QTL trên Chr20 có LOD score = 2.1 ............................................ 44
Hình 2.14. Khảo sát sự tương tác gene giữa Q1*Q4 ................................................................................ 45
Hình 2.17. Khảo sát tác động độc lập của Q1 +Q2 +Q3 +Q4 lên tính trạng số 23 .................................... 46
Hình 2.18. Kết quả truy xuất vị trí mới của QTL trên Chr9........................................................................ 47
Hình 2.19. Kết quả truy xuất vị trí mới của QTL trên Chr14...................................................................... 47
Hình 2.20. Kết quả truy xuất vị trí mới của QTL trên Chr20...................................................................... 47
Hình 2.21. Xác định khoảng tin cậy của QTL trên Chr14........................................................................... 48
Hình 2.22. Xác định khoảng tin cậy của QTL trên Chr9 ............................................................................. 48
Hình 2.23. Xác định khoảng tin cậy của QTL trên Chr20 ........................................................................... 48
Hình 2.24. Biểu đồ mức ảnh hưởng của QTL trên Chr9 lên tính trạng. .................................................... 49
Hình 2.25. Biểu đồ mức ảnh hưởng của QTL trên Chr9 lên tính trạng. .................................................... 49
Hình 2.26. Biểu đồ mức ảnh hưởng của QTL trên Chr20 lên tính trạng. .................................................. 49
6
I. XÂY DỰNG BẢN ĐỒ DI TRUYỀN
Phân tích QTL thứ nhất là: xây dựng bản đồ liên kết của các marker phân tử dựa trên bảng số liệu đã
được cung cấp ngày 24/5/2021. Các kết quả của các câu lệnh được nhóm thực hiện ghi chú và giải thích
rõ trong bài báo cáo.
HƯỚNG THỰC HIỆN:
Bước 1: Xử lý dữ liệu trước khi xây dựng các nhóm liên kết
- Tóm tắt bộ dữ liệu phân tích
- Loại bỏ cá thể và chỉ thị bị thiếu dữ liệu
- Loại bỏ cá thể và chỉ thị trùng lặp (loại bỏ 1 cá thể/chỉ thị và giữ lại cá thể/chỉ thị còn lại)
- Kiểm tra khả năng tỷ lệ phân kiểu gene ở F2 và mức độ liên kết giữa các cặp chỉ thị
Bước 2: Xây dựng các nhóm liên kết và thứ tự các marker
- Xây dựng các nhóm liên kết
- Kiểm tra từng cặp chỉ thị liên kết và nhận biết các allene bị chuyển đổi
- Sắp xếp thứ tự các chỉ thị trong từng nhóm liên kết
- Xác định thứ tự các chỉ thị ý nghĩa nhất
Bước 3: Kiểm tra các nghi vấn bản đồ liên kết ban đầu
- Kiểm tra khoảng cách lớn trên các chromosome
- Xem xét số lượng trao đổi chéo quan sát ở mỗi cá thể
- Kiểm tra marker có xảy ra trao đổi chéo đôi
- Kiểm tra ý nghĩa của tỷ lệ phân ly kiểu gene
Bước 4: Xây dựng bản đồ liên kết cuối cùng
7
BƯỚC 1: XỬ LÝ DỮ LIỆU TRƯỚC KHI XÂY DỰNG CÁC NHÓM LIÊN KẾT
#1.1. NHẬP DỮ LIỆU VÀ TÓM TẮT BỘ DỮ LIỆU PHÂN TÍCH
Hình 1.1. Nhập dữ liệu và tóm tắt bộ dữ liệu phân tích
Bước đầu tiên để thao tác trên R là tải gói dữ liệu R/qtl về thông qua câu lệnh library(qtl), sau đó sử dụng
câu lệnh data để tải dữ liệu cần tương tác với R/qtl. Mở bảng tóm tắt của tệp dữ liệu nhằm để có 1 cái
nhìn tổng quan về bộ dữ liệu bằng câu lệnh summary(mapthis) như trong Hình 1.1.
Trong Hình 1.1 cho biết bộ dữ liệu phân tích có 300 cá thể, với 100 marker phân tử, có 1 kiểu hình, 1
chromosome giả định, phần trăm kiểu gene phân tích được là 95,4% so với 100% kiểu gene. Trong đó, dữ
liệu phân tích được các kiểu gene AA, AB, BB và không có kiểu gene “not AA” và “not BB”.
#1.2. LOẠI BỎ CÁ THỂ VÀ CHỈ THỊ BỊ THIẾU DỮ LIỆU
Hình 1.2. Ghi nhận, loại bỏ các cá thể/chỉ thị bị thiếu dữ liệu và nhìn nhận lại bộ dữ
liệu sau khi đã loại bỏ.
8
Các số liệu bị thiếu có thể ảnh hưởng đến quá trình xây dựng bản đồ liên kết, vì thế chúng ta cần xem xét
và loại bỏ các dữ liệu bị thiếu. Sử dụng hàm plotMissing() để kiểm tra những dữ liệu bị thiếu trong bộ dữ
liệu (Hình 1.2).
Hình 1.3. Mô hình dữ liệu bị thiếu trong bộ dữ liệu mapthis.
Kết quả Hình 1.3 cho thấy có khá nhiều dữ liệu bị thiếu (các đường gạch ngang), trong đó các đường thẳng
dọc là các cá thể bị thiếu hầu hết các marker và các đường nằm ngang là các marker được ghi nhận trên
rất ít cá thể. Trục tung là số thứ tự các cá thể và trục hoành là số thứ tự các marker. Mục đích của việc xây
dựng biểu đồ dữ liệu bị thiếu cho chúng ta cái nhìn tổng quan về những marker và cá thể có thể sai sót
hoặc nhầm lẫn trong ghi chép dẫn đến rất ít dữ liệu được ghi nhận trong bản thu thập dữ liệu. Biểu đồ
giúp xác định được bước đầu có một số marker và cá thể thiếu dữ liệu quan sát được cần loại bỏ trước khi
tiến hành bước tiếp theo. Vì thế, chúng ta sẽ thực hiện loại bỏ các dữ liệu bị thiếu. Trước tiên, chúng ta sẽ
xác định số lượng cá thể và marker bị thiếu dữ liệu bằng câu lệnh ntyped() như Hình 1.2. Trong đó, par()
cho phép điều chỉnh các thông số vẽ biểu đồ. Và mfrow=c(1,2) cho phép điều chỉnh tách khung biểu diễn
biểu đồ thành 1 hàng 2 dòng (tương ứng với 2 biểu đồ), las=1 để điều chỉnh hướng các nhãn đánh dấu và
văn bản thêm vào biểu đồ luôn nằm ngang (=1). Tiếp theo sử dụng hàm plot() để vẽ biểu đồ tán xạ biểu
thị mức độ phân tán và mối liên hệ của dữ liệu. Hàm ntyped(mapthis) xác định số lượng chỉ thị cho mỗi
cá thể và cá thể trên mỗi chỉ thị. Các giá trị tiếp theo là ylab biểu thị trục hoành và main biểu thị tên biểu
đồ (Hình 1.4).
Kết quả thu được như Hình 1.4, hình bên trái cho thấy có 6 cá thể bị thiếu gần như tất cả các marker được
ghi nhận và hình bên phải, có 4 marker được ghi nhận rất ít trên hầu hết các cá thể. Dữ liệu bị thiếu như
trên có thể xuất phát từ sai sót do quá trình ghi chép nhầm lẫn kiểu gene hoặc do vấn đề khác. Các sai sót
này có thể gây nên khó khăn trong việc xây dựng nên bản đồ di truyền. Vì vậy, chúng ta cần loại bỏ các dữ
liệu bị thiếu này. Với biểu đồ bên trái Hình 1.4, chúng ta có thể thấy 6 cá thể bị thiếu dữ liệu có số lượng
marker ít hơn 50 marker. Tương tự đối với biểu đồ bên phải, 6 marker bị thiếu dữ liệu có số lượng cá thể
ghi nhận được ít hơn 200 cá thể. Để loại bỏ dữ liệu bị thiếu, chúng ta sẽ dụng câu lệnh subset() (Hình 1.2).
9
Tiếp theo là sử dụng hàm drop.markers() để đánh dấu lại tệp dữ liệu của các marker có số chỉ thị đã bị xóa
tại câu lệnh todrop<-…. Sau đó kiểm tra lại kết quả dữ liệu kiểu gene đã loại bỏ bằng câu lệnh
summary(mapthis) (Hình 1.2). Từ kết quả câu lệnh Summary trả lại lúc này, kết quả thu được đã được loại
bỏ 6 cá thể nên còn lại 294 cá thế, và đồng thời loại bỏ 4 marker nên còn lại 96 marker.
Hình 1.4. Biểu đồ số lượng marker cho từng cá nhân (bên trái) và số lượng cá thể ghi nhận được của
mỗi marker (bên phải). (Biểu đồ bên trái: Trục tung là số lượng maker, trục hoành là số thứ tự cá thể.
Biểu đồ bên phải: Trục tung là số lượng cá thể, trục hoành là số thứ tự marker. Mỗi chấm đại diện cho số
lượng marker/cá thể cho một cá thể/marker).
#1.3. NHẬN BIẾT CÁC CÁ THỂ VÀ MARKER BỊ LẶP LẠI
Tiếp theo, chúng ta thực hiện kiểm tra sự trùng lặp của các cá thể hoặc marker vì có thể trong quá trình
ghi chép có sự sai sót giữ các kiểu gene tương tự nhau hoặc các kiểu gene có chung nguồn gốc với nhau bị
ghi nhận khác nhau. Bước đầu tiên, sử dụng câu lệnh comparegeno() để so sánh dữ liệu kiểu gene của các
cá thể còn lại (294 cá thể). Kết quả câu lệnh là một ma trận sẽ được dùng để tạo biểu đồ histogram bằng
lệnh hist(). Thể hiện trên biểu đồ histogram, lệnh lower.tri() yêu cầu truy xuất dữ liệu từ mapthis và trả về
một ma trận với chọn lọc phần hình tam giác phía dưới và phía trên của ma trận. Lệnh seq() giúp tạo một
vector từ 0 đến 1 và chia thành 101 đơn vị. Trục tung đồ thị thể hiện “No. matching genotypes”. Lệnh
rug() là một cách khác để hiển thị mật độ của số liệu trên biểu đồ histogram. Phần đuôi bên phải của bản
đồ được dùng để xác định các chỉ thị có kết quả kiểu gene giống nhau cao. (Hình 1.5 và 1.6)
Hình 1.6 thể hiện mức tương đồng kiểu gene, 2 NST chị em thường có mức độ tương đồng với nhau khoảng
40%. Nhưng cũng có một số cặp NST chị em có mức độ giống nhau lên tới 90% (cách vạch ngoài cùng bên
phải). Trên thực tế, việc xảy ra mức độ giống nhau cao (như trên 90%) của các cặp NST chị em là rất khó
xảy ra (mặc dù vẫn có thể ghi nhận được do có chung nguồn gốc phân ly,…). Ở đây, cách tốt nhất để đảm
bảo không ảnh hưởng đến xây dựng bản đồ liên kết, chúng ta sẽ loại bỏ chúng. Đầu tiên, chúng ta có thể
kiểm tra các cá thể có NST tương đồng cao trên bằng câu lệnh which(). Trong đó, các marker phân tử được
lọc có giá trị tương đồng >0.9. Câu lệnh tiếp theo để sắp xếp thứ tự các kết quả nhận được theo thứ tự từ
10
nhỏ đến lớn (chỉ số tương đồng tăng dần). Kết quả thu được trên là tọa độ (hàng và cột) của 3 cá thể có tỷ
lệ tương đồng cao bất thường. Sau đó chúng ta sẽ sử dụng câu lệnh pull.geno() để truy xuất dữ liệu kiểu
gene từ một phép lai của các cá thể trên. (Hình 1.5).
Hình 1.5. Kiểm tra cá thể và marker bị trùng lặp, loại bỏ cá thể trùng lặp.
Hình 1.6. Biểu đồ tỷ lệ kiểu gene của các cặp cá thể.
11
Lệnh which() cho chúng ta 3 nhóm cá thể có mức độ kiểu gene tương đồng trên 90%. Tuy nhiên chúng ta
vẫn chưa thể kết luận được chắc chắn cá thể nào trùng lặp với cá thể nào tại thời điểm này. Vì thế, để kiểm
tra các cá thể trùng lặp, cách tốt nhất lúc này là tạo các phép lai ngẫu nhiên giữa chúng để quan sát tỷ lệ
kiểu gene ghi nhận được. Các phép lai của chúng được thiết lập như Hình 1.5, trong đó chúng ta có thể
nhận thấy sự tương đồng khá lớn giữa các cá thể thông qua tỷ lệ kiểu gene.
Các cá thể trùng lặp dữ liệu như trên đã quan sát được hầu như không hỗ trợ gì trong phân tích bản đồ di
truyền và có thể gây sai lầm khi sắp xếp thứ tự các marker, vì vậy chúng ta sẽ loại bỏ chúng mà không cần
xem xét tiếp các yếu tố liên quan khác ở đây (thực tế có thể xem xét thêm về chúng). Đồng thời, để hạn
chế làm mất quá nhiều dữ liệu ghi nhận được không đáng có, đối với các cá thể bị trùng lặp, chúng ta sẽ
chỉ loại bỏ 1 cá thể và giữa lại 1 cá thể giống nó. Trước tiên, sử dụng câu lệnh for() để xác định tỷ lệ bỏ qua
sai sót của quyết định đó, ở đây sẽ bỏ 1 sai sót trong quyết định i, tiếp theo nrow() cho phép trả về hàng
và cột có trong wh với các điều kiện theo sau trong dấu {}. Hàm !is.na() dùng để đặt các phần tử thành NA
(Not Available). Câu lệnh g[wh[i,1],] và các câu lệnh tượng tự, sử dụng g() trả về 1 ma trận của cổng G với
ma trận đó được xem là ma trận 1 trong câu lệnh. Sau đó, lệnh g[wh[i,2],] cũng trả về ma trận 2 trong câu
lệnh. Tiếp theo sử dụng dấu không bằng (!=) để chỉ định chọn lọc các ma trận không đương ứng (khác
nhau). Câu lệnh được gán trong tozero là chuỗi các chọn lọc các ma trận được gọi là 1 và 2 với điều kiện
nó không giống nhau. Sau đó, tạo tệp data[wh[i,1],tozero] trùng với tệp data ảo trong mapthis, tệp này
để chỉ định ra các dữ liệu khác biệt của cá nhân 1 trong bộ dữ liệu, các dữ liệu khác biệt này sau đó lại
được đưa vào 1 tệp ngẫu nhiên khác là geno[[1]] đặt bên trong của mapthis và được gán là NA (Không
dùng được). Bỏ qua cá nhân của từng mỗi cặp bằng cách sử dụng hàm subset() để loại bỏ cá thể của ma
trận 2 ra khỏi dữ liệu mapthis. (Hình 1.5)
Tiếp theo, ngoài vấn đề cá thể bị lặp dữ liệu cần phải xem xét, chúng ta cũng cần xem xét đến mối nghi
ngờ đến từ các maker ghi nhận. Vấn đề chỉ thị bị lặp trong bảng số liệu tương đối phổ biến với các trường
hợp bộ số liệu lớn. Khác với việc lặp lại của các cá thể có thể dẫn đến kết quả phân tích không chính xác,
việc lặp lại của các chỉ thị không dẫn đến thay đổi kết quả cuối cùng nhưng sẽ làm chậm lại quá trình phân
tích. Chúng ta thấy rằng các marker trùng lặp nhau tán xạ về cùng 1 vị trí, điều này có thể làm phức tạp
hóa bộ dữ liệu mà không hề có ý nghĩa trong phân tích. Vì vậy, cần loại bỏ bớt các marker trùng lặp để làm
mỏng bộ dữ liệu hơn. Lệnh findDupMarkers dùng để tìm kiếm các chỉ thị cho ra kết quả kiểu gene giống
nhau và lệnh drop.markers dùng để loại bỏ các chỉ thị này. Ở đây, FALSE cho phép tìm kiếm các trường
hợp trong đó các kiểu gen quan sát được ở một marker khớp với các kiểu gen ở marker khác và trong đó
marker đầu tiên bị thiếu kiểu gen bất cứ khi nào kiểu gen cho marker thứ hai bị thiếu. Và kết quả trả lại là
không có marker gần giống nhau ở kiểu gene mà câu lệnh xem xét. (Hình 1.5)
Tuy nhiên, với kết quả tìm kiếm chỉ thị trùng lặp hoàn toàn là “NULL” vẫn chưa thể loại bỏ mối nghi ngời
về các chỉ thị gần giống nhau. Vì thế, chúng ta sẽ tiếp tục tìm kiếm chỉ thị tương đồng có mức sai số P-value
trong khoảng ý nghĩa và tỷ lệ kiểu gene gần với tỷ lệ phân ly 1:2:1. Câu lệnh geno.table và cách tính hệ số
hiệu chỉnh Bonferroni (mức sai số tổng thể là 0.05) cho phép thực hiện điều đó. Các chỉ thị có tỷ lệ phân ly
chỉ có một kiểu gene sẽ bị loại bỏ bởi câu lệnh drop.markers() (Hình 1.7).
12
Hình 1.7. Tìm kiếm và xóa chỉ thị không tuân theo tỷ lệ phân ly.
Các chỉ thị trên Hình 1.7 điều có sự khác biệt đáng kể về tỷ lệ kiểu gene và giá trị p-value thành phần.
Marker C4M2 có tỷ lệ gần nhất với tỷ lệ kỳ vọng 1:2:1. Năm marker còn lại có một kiểu gene chiếm tỷ lệ
rất cao và các kiểu gene khác chiểm tỷ lệ rất thấp, điều này có thể do những nguyên nhân mà chúng ta
không thể kiểm soát được. Vì thế, để đơn giản hóa, chúng ta cần bỏ qua những marker như C1M4, C2M9,
C1M21, C2M15 và C2M27. Sử dụng hàm todrop() để xóa các hàng trong bộ dữ liệu gt ở trên với điều kiện
P-value <1e-10 nhằm mục đích để xóa bỏ 5 chỉ thị từ kết quả phân tích dòng trên. Tiếp theo là đặt tên lại
dữ liệu sau khi xóa bỏ chỉ thị bất thường bằng cách loại bỏ dữ liệu đã được xóa trên câu lệnh todrop khỏi
bộ dữ liệu mapthis.
Tại thời điểm này, chúng ta có thể chạy lại lệnh summary() để kiểm tra lại bộ dữ liệu. Trong bài này, hình
ảnh câu lệnh không được chèn vào, nhưng dễ dàng thấy được có 291 cá thể còn lại và 91 marker. Trong
đó, với 9 cá thể đã được loại bỏ (6 cá thể thiếu dữ liệu, 3 cá thể trùng lặp), 9 marker được loại bỏ (4 marker
thiếu dữ liệu, 5 marker không tuân theo tỷ lệ phân ly).
#1.4. KIỂM TRA KHẢ NĂNG TỶ LỆ PHÂN LY VÀ MỨC ĐỘ LIÊN KẾT GIỮA CÁC CẶP CHỈ THỊ
Sau khi chúng ta loại bỏ được các dữ liệu không mong muốn và tiếp theo dự đoán xem tần số kiểu gene
của dữ liệu còn lại có thỏa được kỳ vọng tỷ lệ phân ly 1:2:1 hay không. Sử dụng câu lệnh pull.geno() để rút
ra dữ liệu về kiểu gene trong bộ data mapthis. Sau đó, tiếp tục tạo một hàm gọi là a bằng câu lệnh
function(a), hàm này được xác định bằng gồm 3 bậc (1, 2 và 3). Sử dụng câu lệnh apply() để đưa toàn bộ
kiểu gene của g vào trong biểu đồ, số 1 chỉ định các tính toán với các hàng (tức so sánh giữa các kiểu gene
với nhau) và tiếp theo là tạo bảng với hàm a. Câu lệnh tiếp theo xác định tạo bảng tần số bằng lệnh freq
và hình thành khung dữ liệu bằng hàm colSums(). Câu lệnh mfrow=c(1,3) được sử dụng để chia màn hình
thành 3 cột khác nhau, và las=1 xác định chỉ có 1 dòng (tức 3 biểu đồ). Biểu đồ được vẽ theo thứ tự i từ
biểu đồ 1 đến biểu đồ 3. Sử dụng câu lệnh plot() để vẽ biểu đồ. (Hình 1.8a)
13
Hình 1.8a. Kiểm tra tỷ lệ phân ly và mức độ liên kết của các cặp chỉ thị.
Hình 1.8b. Biểu đồ mức độ phân tán của các tỷ lệ phân bố kiểu gene ở F2.
14
Thông thường, chúng ta sẽ kiểm tra tỷ lệ phân ly kiểu gene ở đời F2, và mong muốn kỳ vọng ban đầu đối
với bộ dữ liệu này phân ly theo tỷ lệ 1:2:1 nên chúng ta cần xem xét tổng thể về tỷ lệ phân ly kiểu gene của
các cá thể trên bộ dữ liệu. Việc thu được tỷ lệ phân ly không phải là 1:2:1, hay nói cách khác nếu thực hiện
một phép kiểm tra Chi-square ở đây thì kết quả không có ý nghĩa thống kê là điều bình thường trong thực
tế. Sự khác biệt so với tỷ lệ phân ly kỳ vọng 1:2:1 có thể do yếu tố tự nhiên hoặc sai sót kiểu gene ghi nhận
(ví dụ như sai lầm khi ghi nhận AA thành BB hoặc AB) hoặc có thể do nhiều nguyên nhân khác. Các sai sót
làm tỷ lệ phân ly không giống như kỳ vọng 1:2:1 có thể giải quyết bằng cách sau: (1) xem xét lại toàn bộ dữ
liệu ghi nhận hoặc (2) bỏ qua chúng và tiếp tục thực hiện xây dựng bản đồ liên kết, sau đó chúng ta sẽ
quay trở lại đặt ra nghi vấn và giải quyết từng nguyên nhân nhỏ của chúng. Ở bài này, chúng ta sẽ ghi nhận
mối nghi ngờ về tỷ lệ phân ly kiểu gene khác biệt và tiếp tục làm các bước tiếp theo, sau khi xây dựng các
nhóm liên kết chúng ta sẽ xem xét lại ý nghĩa thống kê của chúng. Dựa vào 3 biểu đồ Hình 1.8b, có thể
thấy ở kiểu gene AA có các tần số phân bố từ trên 0% đến trên 60%, tương tự ở kiểu gene AB các tần số
phân bố từ 10% đến 90%. Nhìn chung các tần số kiểu gene từ đồ thị không kết luận được gì ngoài khẳng
định thêm về số liệu dự kiến ban đầu 1:2:1 có khả năng kỳ vọng như dự đoán, tuy nhiên chúng không có ý
nghĩa thống kê.
Tiếp theo, bước cuối cùng trong quá trình kiểm tra số liệu kiểu gene trước khi tiến hành xây dựng các
nhóm liên kết là kiểm tra khả năng liên kết của các marker. Hàm est.rf() được sử dụng để ước tính phân
số tái tổ hợp giữa mỗi cặp trong bộ dữ liệu mapthis và tính giá trị LOD score cho dữ liệu ở rf=0.5. Giá trị
LOD là logarithm của giá trị P-value, là giá trị tương đối biểu thị khả năng tin cậy sự liên kết khi xét các tần
số tái tổ hợp xoay quanh giá trị 0.5. Giá trị LOD thông thường giảm dần khi dần về rf=0.5 (rf, tần số tái tổ
hợp). Với rf<0.5 thì các cặp marker cùng nằm trên nhóm liên kết, ngược lại nếu rf>0.5 thì các cặp marker
nằm trên các nhóm liên kết khác nhau (có thể xem là phân ly độc lặp). Tuy nhiên, chúng ta sẽ nhìn thấy có
một số cặp marker có rf>0.5 nhưng lại có giá trị LOD khá lớn, điều này đặc ra nghi vấn về khả năng chúng
cùng trên một nhóm liên kết nhưng lại bị nhầm lẫn. Những nhầm lẫn như vậy là một trong những nguyên
nhân dẫn đến khác biệt tỷ lệ phân ly 1:2:1 như trên. Chúng ta có thể giải quyết vấn đề này bằng cách thay
đổi vai trò bố và mẹ của thế hệ ban đầu của chúng trong dữ liệu phân tích (ví dụ như chuyển A thành B).
Trong phần này, sau khi chạy lệnh est.rf(), chúng ta sẽ nhìn thấy dòng cảnh báo “Alleles potentially
switched at markers” cho biết các marker có khả năng bị chuyển đổi. Các marker này được rút ra là do
trong quá trình chương trình qtl ước tính các tần số tái tổ hợp, các marker trên có tần số tái tổ hợp lớn
hơn 0.5. Để biết thêm thông tin các marker chuyển đổi, chúng ta sử dụng câu lệnh checkAlleles() cung cấp
nhiều thông tin hơn về các allele có thể không tốt (câu lệnh này chỉ sử dụng được với quần thể F2). Trong
câu lệnh checkAlleles() sử dụng ngưỡng giá trị LOD lớn nhất (diff.in.max.LOD), giá trị thể hiện sự khác biệt
lớn nhất các giá trị LOD trong bộ dữ liệu trường hợp phân số tái tổ hợp ước tính là > 0.5 và giá trị LOD tối
đa cho các trường hợp phân số tái tổ hợp ước tính là <0.5. (Hình 1.8b)
Câu lệnh checkAlleles() cho thấy có gần ½ số maker đang sử dụng bị chuyển đổi được ghi nhận. Tuy nhiên,
chúng ta chưa có quá nhiều thông tin về chúng ngoài dấu hiệu có thể khẳng định chúng là những marker
tìm năng mà chúng ta phải chuyển đổi allene để giảm tần số tái tổ hợp. Để có thể nhìn thấy rõ hơn toàn
bộ tần số tái tổ hợp (rf) và LOD score của dữ liệu, chúng ta sẽ xuất giá trị rf và LOD ra bằng câu lệnh pull.rf().
15
Thông số “what=LOD” cho biết lấy ra một ma trận các giá trị LOD score. Sau đó tiếp tục sử dụng hàm plot()
để vẽ đồ thị nhằm cho ra cái nhìn trực quan. (Hình 1.9)
Hình 1.9. Biểu đồ giá trị LOD với các tần số tái tổ hợp ước tính.
(Trục tung: giá trị LOD score. Trục hoành: giá trị tần số tái tổ hợp)
Kết quả từ Hình 1.9. cho thấy, có nhiều cặp giá trị LOD lớn và rf>0.5 rất nhiều. Nếu đúng như dự đoán, các
điểm chấm đen từ giá trị rf=[0.5-1] có khả năng là tương ứng với những marker được kiểm tra ở câu lệnh
trên. Biểu đồ Hình 1.9 cho chúng ta thấy được sự tương quan giữa giá trị LOD score và rf, trong đó xuất
hiện những điểm có giá trị LOD lớn và rf≥0.5 rất nhiều. Từ đó, vấn đề đặt ra cần nhìn nhận là 1 nhóm liên
kết lúc đầu không còn chính xác (vì có quá nhiều marker cần chuyển đổi allene), vì thế bước tiếp theo cần
thực hiện là xây dựng nên các nhóm liên kết khác biệt để chứa các marker có LOD scrose cao và rf>0.5 về
cùng nhóm với nhau. Sau đó cần xác định được bản đồ di truyền thõa các điểm có rf>0.5 phải nằm trên
các nhóm liên kết khác biệt và các cặp điểm chuyển phải được trên các nhóm liên kết tương ứng với rf<0.5.
BƯỚC 2: XÂY DỰNG CÁC NHÓM LIÊN KẾT VÀ THỨ TỰ CÁC MARKER TRONG NHÓM LIÊN KẾT
#2.1. XÂY DỰNG CÁC NHÓM LIÊN KẾT BƯỚC ĐẦU
Sử dụng câu lệnh formLinkageGroups() để suy ra các nhóm liên kết. Trong câu lệnh này, sử dụng giá trị
max.rf tại 0.35 và min.lod tại 6 (giá trị 6 đôi khi do kinh nghiệm người thực hiện). Có thể diễn giải chạy câu
lệnh này như sau: 2 chỉ thị sẽ được đưa vào cùng 1 nhóm liên kết nếu max.rf và min.lod thõa điều kiện
trong câu lệnh, các chỉ thị được liên kết thông qua thuộc tính bắc cầu, tức là nếu a-b nằm trên cùng 1 nhóm
liên kết và b-c cùng nằm cùng 1 nhóm liên kết thì a-b-c sẽ cùng nằm trên 1 nhóm liên kết. Mục đích của
thiết lập giá trị min.lod là xác định điều kiện chênh lệch giữa các điểm đánh dấu có giá trị LOD score lệch
nhau, từ đó có thể xây dựng các marker về cùng nhóm liên kết trên mức ngưỡng LOD score nhất định, tuy
nhiên cũng không thể đặt min.lod quá lớn, điều này gây mất nhiều thời gian cho quá tính xử lý và cũng dễ
tạo nên lỗ hỏng để nhiều marker không cùng nằm trên nhóm liên kết có khả năng sai sót trong thống kê
16
lại được nằm trên nhóm liên kết. Mục tiêu của việc xây dựng các nhóm liên kết là đưa các chỉ thị có liên
kết với nhau vào một nhóm và các chỉ thị không có liên kết với nhau vào các nhóm khác nhau. (Hình 1.10)
Hình 1.10. Xây dựng các nhóm liên kết và kiểm tra allene chuyển đổi.
Kết quả từ câu lệnh formLinkageGroups() trả lại là bảng có 2 dòng: dòng trên là số nhóm liên kết được
đánh số từ 1 đến 11 và dòng dưới là số lượng marker tương ứng với các nhóm liên kết ở dòng trên. Ở đây,
chúng ta có thể thay đổi tiếp tục giá trị max.rf và min.lod để có số nhóm liên kết phù hợp với số
chromosome dự định xây dựng bản đồ. Trong bài này, do đã biết trước có 5 chromosome, điều này có thể
thấy với 11 nhóm liên kết thích hợp cho xây dựng bản đồ ở các bước tiếp sau vì đây chỉ mới là kết quả
bước đầu nên sự khác biệt vẫn trong khoảng chấp nhận được. Từ 11 nhóm liên kết ban đầu, chúng ta có
thể dự đoán khả năng xảy ra chuyển đổi allene giữa các nhóm liên kết nên đã dẫn đến một nhóm liên kết
bị nhầm lẫn thành hai, ba nhóm liên kết. Vì thế, để kiểm tra khả năng có xảy ra chuyển đổi allene hay không
và nhóm liên kết nào có sự nhầm lẫn allene cần chuyển đổi trở về, kết quả từ biểu đổ tương quan giá trị
LOD score và tần số tái tổ hợp giữa phép lai các cặp marker cho phép nhận biết điều đó.
Tiếp theo, chúng ta sắp xếp lại các nhóm liên kết bằng câu lệnh formLinkageGroups() với
reorgMarkers=TRUE, với TRUE: đầu ra sẽ là các đối tượng chéo gống như đầu vào với các nhóm liên kết
có quan hệ gần nhau. Câu lệnh plotRF() cho phép vẽ một mạng lưới hiện thị các tần số tái tổ hợp rf và giá
trị LOD tương ứng trên các liên kết được chỉ ra ở trên, “alternate.chrid=TRUE” cho phép xen kẽ các lưới
trắng trong ảnh cho biểu đồ dễ nhìn hơn. (Hình 1.11) Mục tiêu của biểu đồ này là cho phép dự đoán được
nhóm liên kết nào đã xảy ra chuyển đổi.
Kết quả Hình 1.11. cho thấy số lượng các chỉ thị được sắp xếp trong các liên kết tương ứng với bảng kết
quả câu lệnh formLinkageGroups(), trong đó nhóm liên kết 1 có số lượng chỉ thị lớn nhất vì thế kích thước
sẽ to hơn các nhóm liên kết khác và giảm dần từ 1 đến 11. Các pixel màu tím biểu thị giá trị rf>0.5 nên bỏ
qua trong quan sát. Chúng ta chỉ quan tâm những ô vuông xuất hiện màu vàng và xanh. Sự phân bố màu
sắc trong mỗi nhóm tương đối ngẫu nhiên vì chúng ta chưa sắp xếp thứ tự của các chỉ thị trong mỗi nhóm
liên kết. Các pixel màu vàng biểu hiện các chỉ thị liên kết với nhau, ví dụ như trong nhóm liên kết 1 có các
màu vàng tại ô tương ứng với nhóm liên kết 1. Vì vậy, chúng ta có thể nhận thấy các pixel vàng xuất hiện
tại nhóm liên kết 1 và nhóm liên kết 9, 10 và 11 nên giả thuyết rằng chúng cùng nhóm với nhau. Tương tự,
2 cùng nhóm với 8, 4 cùng nhóm liên kết với 5 và 6 cùng nhóm với 7. Biểu dồ Hình 1.11 cho chúng ta bước
đầu giả thuyết được các nhóm liên kết cùng nhóm với nhau. Tuy nhiên, hình tam giác nửa bên dưới của
17
toàn biểu đồ tại các ô cùng nhóm liên kết với nhau thì có màu vàng và xanh, còn hình tam giác nửa bên
trên của toàn biểu đồ tại các ô cùng nhóm liên kết với nhau lại có màu tím (nghĩa là giá trị LOD score lớn
và tần số tái tổ hợp >0.5). Vấn đề này có thể xuất phát từ nhầm lẫn allene bố và mẹ của kiểu gene ở phép
lai, chúng ta cần kiểm tra và giải quyết vấn đề này.
Hình 1.11. Biểu đồ tần số tái tổ hợp và giá trị LOD ước tính của 11 nhóm liên kết ban đầu.
Để kiểm tra khả năng xảy ra chuyển đổi allene, chúng ta cần phân tích tất cả các cặp marker ngẫu nhiên
cho toàn bộ dữ liệu. Chúng ta sẽ lấy một marker từ nhóm liên kết 4 và phân tích tần số tái tổ hợp và LOD
score của chỉ thị này với tất cả các chỉ thị còn lại. Chúng ta có thể làm rõ hơn về marker đó bằng hàm
pull.rf(). Biểu đồ plot() chỉ định sử dụng dữ liệu từ chr=4 trên mapthis với marker [3], màu sử dụng trong
đồ thị là “gray70”, trục tung đặt giá trị từ 0 đến 1. Câu lệnh abline() được sử dụng để vẽ đường thẳng nằm
ngang không liền mạch đi qua giá trị 0.5 với kiểu đồ họa lty=2. (Hình 1.10)
Từ kết quả biểu đồ Hình 1.12, có thể nhận thấy marker C3M13 có liên kết chặt với các marker khác trong
nhóm 4 và 5 nhưng lại có tần số tái tổ hợp với các marker trong nhóm liên kết 4 là <0.5 và tần số tái tổ hợp
với các marker trong nhóm liên kết 5 là >0.5. Ở biểu đồ tần số tái tổ hợp (trên), tần số tái tổ hợp của marker
C3M13 với các chỉ thị của các nhóm liên kết khác gần với giá trị 0.5. Tuy nhiên, tại nhóm liên kết 4 thì
rf<0.5, điều này có thể giải thích do chúng cùng nằm trên 1 nhóm liên kết, ngược lại, tại nhóm liên kết 5
thì rf>0.5, điều này đặt ra nghi vấn về khả năng bị chuyển đổi allene giữa các marker ở nhóm liên kết 4
hoặc nhóm liên kết 5. Biểu đồ giá trị LOD score (dưới) cũng cho thấy điều tương tự. Ở thời điểm này, chúng
ta có thể nhận biết giữa nhóm liên kết 4 và 5 có xảy ra chuyển đổi allene ở các marker của một trong hai
nhóm, tuy nhiên chưa thể kết luận được nhóm liên kết 4 hay 5 xảy ra chuyển đổi allene.
18
Hình 1.12. Biểu đồ tần số tái tổ hợp ước tính (biểu đồ trên) và giá trị LOD score (biểu đồ dưới) của
marker C3M13 với các marker khác trên các nhóm liên kết. Trục tung là giá trị tần số tái tổ hợp/LOD
score. Trục hoành là số thứ tự nhóm liên kết, mỗi vạch nhỏ tương ứng với 1 marker.
Tiếp theo, chúng ta sẽ kiểm tra xem khả năng xảy ra chuyển đổi allene là ở nhóm liên kết 4 hay 5. Sử dụng
câu lệnh geno.crosstab() để kiểm tra kiểu gene của phép lai C3M13 với 1 số marker khác. (Hình 1.13)
Hình 1.13. Xác định marker bị chuyển đổi allene của nhóm liên kết 4 và 5; chuyển đổi allene các
marker trong nhóm liên kết 5, 7-11; kiểm tra lại biểu đồ tần số tái tổ hợp và giá trị LOD score.
Dựa vào kết quả kiểu gene của C3M13 với 2 marker C3M11 và C3M16. Đối với phép lai giữa C3M11 và
C3M13, kết quả kỳ vọng của chúng ta là tần số tái tổ hợp của chúng sẽ <0.5 vì chúng cùng nhóm liên kết
số 4. Kết quả câu lệnh geno.crosstab() trả lại nằm trong khoảng chấp nhận được. Đối với phép lai giữa
C3M13 và C3M16, chúng ta lại nhìn thấy điều khác biệt với phép lai C3M11 và C3M13. Nếu C3M13 chấp
nhận không phải marker bị chuyển đổi allene, thì có thể C3M16 là marker bị chuyển đổi allene thì hợp lý
19
hơn. Và kết quả phép lai C3M16 và C3M13 rất rõ ràng có thể nhận định C3M16 là marker chuyển đổi allene
mục tiêu.
Trong phần này, trên lý thuyết chúng ta cần xem xét lượng lớn các phép lai giữa các marker trong nhóm
liên kết 4 và 5 trước khi đưa ra kết luận nhóm liên kết nào (4 hoặc 5) chuyển đổi allene thích hợp. Và với
4 cặp nhóm liên kết như đã đề cặp ở trên, mỗi cặp đều thực hiện các bước tương tự nhau. Các bước kiểm
tra chuyển đổi allene cặp nhóm liên kết 1 và 9-11, 2 và 8, 6 và 7 không được trình bày ở đây. Kết quả nhận
định được rằng: trong nhóm 1 và 9-11 sẽ chuyển đổi allene nhóm 9-11, trong nhóm 2 và 8 sẽ chuyển đổi
allene nhóm 8, trong nhóm 6 và 7 sẽ chuyển đổi allene nhóm 7, trong nhóm 4 và 5 sẽ chuyển đổi allene
nhóm.
Do bảng số liệu tương đối đơn giản và có thể xác định là các allele cần được chuyển đối với tất cả các chỉ
thị thuộc nhóm 5 và 7- 11 bằng cách sử dụng câu lệnh switchAlleles(). Câu lệnh markernames() cho phép
truy xuất dạng cột các chromosome trong dữ liệu mapthis. Sau khi chuyển đổi allene, chúng ta cần xem
xét lại các giá trị tần số tái tổ hợp rf và giá trị LOD score, vì thế cần chạy lại lệnh est.rf() như lúc ước tính
tần số tái tổ hợp rf và giá trị LOD ban đầu.(Hình 1.13)
Hình 1.14. Biểu đồ tần số tái tổ hợp và giá trị LOD score ước tính các marker của 11
nhóm liên kết sau khi đã chuyển đổi allene.
20
Hình 1.15. Biểu đồ giá trị LOD score và tần số tái tổ hợp cho tất cả các marker sau khi
chuyển đổi allene.
Hình 1.14 cho thấy sau khi đã chuyển đổi allene, giá trị LOD score giữa các cặp marker không có sự thay
đổi (các màu xanh không có dấu hiệu giảm), trong khi đó tần số tái tổ hợp đã nhỏ lại tại các vị trí giao nhau
giữa các nhóm liên kết nghi ngờ cùng nhóm với nhau (ví dụ, vị trí giao giữa nhóm liên kết 1 và nhóm liên
kết 9-11 đã xuất hiện thêm màu xanh và vàng). Trên biểu đồ, chúng ta đã thấy rõ hơn về mối liên kết giữa
các nhóm liên kết và khẳng định thêm giả thuyết có 5 nhóm liên kết tồn tại thay vì 1 nhóm liên kết như lúc
ban đầu và 5 nhóm này đang nằm rời rạc với nhau thành 11 nhóm liên kết. Các tông màu xanh và vàng còn
xáo trộn cho thấy thứ tự sắp xếp của chúng còn chưa chính xác. Mục tiêu của Hình 1.14 là cho chúng ta sự
nhìn nhận thay đổi của 11 nhóm liên kết trước và sau khi chuyển đổi allene. Từ kết quả hình trên, chúng
ta không còn mối nghi ngờ về các cặp nhóm liên kết có tần số tái tổ hợp >0.5. Tuy nhiên, về sự thay đổi giá
trị LOD score vẫn chưa thể nhận biết được qua biểu đồ Hình 1.14, vì vậy chúng ta cần xem xét biểu đồ tán
xạ của giá trị LOD score và tần số tái tổ hợp sau khi chuyển đổi allene. Hình 1.15 cho thấy mối tương quan
giữa LOD score và tần số tái tổ hợp sau khi đã chuyển đổi allene. Trên Hình 1.15 và Hình 1.14, chúng ta
càng nhận thấy rõ hơn về sự thay đổi của LOD score và rf sau khi chuyển đổi allene, cụ thể như giá trị LOD
score không có giảm và tần số tái tổ hợp đã giảm làm cho những chấm nửa bên phải Hình 1.9 đã chuyển
qua nửa bên trái như Hình 1.15. Trên Hình 1.15 vẫn còn số chấm đen có giá trị LOD score nhỏ và rf>0.5,
điều này là phù hợp với thực tế vì hầu như rất khó xảy ra trường hợp tất cả các cặp marker luôn có tần số
tái tổ hợp <0.5 hoặc về mặt thống kê, các điểm có có tần số tái tổ hợp >0.5 và có giá trị LOD score max là
1.38 không có ý nghĩa thống kê.
Đến bước này, chúng ta nhận thấy việc xây dựng 11 nhóm liên kết như trên Hình 1.10 là không còn chính
xác, cùng với nguy cơ các marker bị chuyển đổi allene đã được giải quyết (mặc dù chưa thể xác định chính
xác đã được giải quyết hết các marker bị chuyển đổi allene hay không). Bước tiếp theo, chúng ta cần xây
dựng lại các nhóm liên kết.
21
#2.2. XÂY DỰNG LẠI CÁC NHÓM LIÊN KẾT SAU KHI GIẢI QUYẾT CÁC MARKER BỊ CHUYỂN ĐỔI ALLENE
Để xây dựng lại các nhóm liên kết, chúng ta sử dụng câu lệnh formLinkageGroups() như trên. Ở đây, chúng
ta sẽ kỳ vọng thu được 5 nhóm liên kết tương ứng với 5 chromosome của bản đồ di truyền. Câu lệnh
formLinkageGroups() cho phép điều chỉnh thông số: tần số tái tổ hợp lớn nhất (max.rf) và giá trị LOD score
nhỏ nhất (min.lod) để có thể thay đổi số lượng nhóm liên kết. Kết quả thu được từ câu lệnh ở dữ liệu này
là 5 nhóm liên kết, đúng như mong muốn nên chúng ta sẽ tiếp tục thực hiện. Lưu ý rằng, giá trị max.rf=0.35
và min.lod=6 đôi khi do kinh nghiệm người thực hiện, nếu thay đổi min.lod cao hơn thì có thể làm thời
gian chạy câu lệnh lâu hơn và sai lầm một số marker có tần số tái tổ hợp gần với 0.5. (Hình 1.16)
Hình 1.16. Xây dựng lại các nhóm liên kết và vẽ lại biểu đồ tần số tái tổ hợp, giá
trị LOD score sau khi xây dựng lại các nhóm liên kết.
Chúng ta nhận thấy, việc xây dựng lại các nhóm liên kết hầu như rất phù hợp với giả thuyết các cặp nhóm
liên kết như bước trên. Nếu nhóm liên kết 4 và 5 của 11 nhóm liên kết trên lần lượt có 9 và 6 marker, thì
lúc này chúng ta đã có nhóm liên kết 3 có 15 marker (9+6). Tương tự, các nhóm liên kết khác cũng có thể
được sắp xếp lại đúng như vậy. Tuy nhiên, với 5 nhóm liên kết vừa được xây dựng, chúng ta vẫn không thể
chắc chắn được chúng độc lập với nhau hoặc có hai nhóm liên kết có liên kết với nhau hay không. Vì vậy,
chúng ta cần xem xét lại mối tương quan giữa LOD score và tần số tái tổ hợp qua biểu đồ vẽ bằng câu lệnh
plotRF().
Hình 1.17. Biểu đồ tần số tái tổ hợp và giá trị LOD score ước tính của các
marker sau khi xây dựng lại các 5 nhóm liên kết.
22
Với biểu đồ như Hình 1.17, chúng ta thu được 5 nhóm liên kết rõ ràng và không có cặp nhóm liên kết nào
liên kết với nhau. Với 5 nhóm liên kết trên khá phù hợp với dự tính ban đầu là 5 chromosome cần xây dựng
bản đồ di truyền. Mục tiêu của Hình 1.17 đã chỉ ra rõ không còn mối nghi ngờ nào (ít nhất là đến thời điểm
này là không có) đến xây dựng các nhóm liên kết. Các điểm màu xanh và vàng trên các ô đường chéo còn
xáo trộn cho thấy thứ tự các marker chưa được sắp xếp phù hợp theo khoảng cách của chúng. Bước tiếp
theo chúng ta cần sắp xếp thứ tự của các marker trong từng nhóm liên kết.
#2.3. SẮP XẾP THỨ TỰ CÁC MARKER TRONG TỪNG NHÓM LIÊN KẾT (NST)
Bước này, chúng ta có thể lựa chọn nhóm liên kết nào trước để sắp xếp thứ tự các marker của nhóm đó
đều được. Nhìn chung việc sắp xếp thứ tự các maker trong từng nhóm liên kết theo thứ tự từ nhóm liên
kết 1 đến 5 hay từ 5 đến 1 sẽ không ảnh hưởng đến kết quả cuối cùng. Trong phần này, chúng ta sẽ xem
xét sắp xếp thứ tự marker ở chromosome số 5 và số 2 với các diễn giải cụ thể, các chromosome còn lại sẽ
được thực hiện với ý nghĩa tương tự.
#2.3.1. Chromosome số 5
Hình 1.18. Sắp xếp thứ tự các marker trong chromosome số 5.
23
Câu lệnh orderMarkers() cho phép sắp xếp các thứ tự marker phân tử trên nhóm liên kết. Câu lệnh
pull.map() cho hiển thị thứ tự sắp xếp tất cả các marker trên chromosome số 5. Câu lệnh orderMarkers()
hoạt động như sau: các marker trên chromosome sẽ được chọn ngẫu nhiên một marker, với marker được
chọn, phần mềm sẽ sắp xếp thứ tự các marker phân tử bằng cách so sánh chiều dài NST từ marker được
chọn đến marker i nào đó, với chiều dài marker được chọn mặc định là 0cM. Mỗi lần chạy lệnh
orderMarkers() sẽ cho ra một thứ tự sắp xếp các chỉ thị khác nhau, và tương ứng là chiều dài chromosome
sẽ khác nhau. Trên lý thuyết, chúng ta sẽ ưu tiên lựa chọn cách sắp xếp có chiều dài chromosome ngắn
nhất có thể (theo kinh nghiệm và nhiều lần lặp lại câu lệnh). (Hình 1.18)
Như kết quả trên Hình 1.18, hầu như các chỉ thị đã được sắp xếp phù hợp với vị trí thích hợp (biểu thị giá
trị tần số tái tổ hợp có quy luật tăng dần). Tuy nhiên, ở đây chúng ta có thể nhận thấy bị thiếu đi chỉ thị
C5M2, có khả năng chỉ thị này đã bị loại bỏ do thiếu thông tin ở bước trên, nhưng để kiểm tra chính xác
điều này là điều không cần thiết. Chúng ta chưa thế chắc chắn về thứ tự của các marker trên chromosome
5 là chính xác. Để có thể kiểm tra tất cả các thứ tự đánh dấu khác nhau có thể có, câu lệnh ripple() cho
phép xem xét các thứ tự đánh dấu khác nhau cho một nhiễm sắc thể nhất định, so sánh tất cả các chuyển
đổi có thể có với một cửa sổ trượt của các marker. Kết quả kỳ vọng đạt được đối với số lượng thứ tự là
càng ít càng tốt. Kết quả câu lệnh ripple() cho thấy có 13680 thứ tự có thể diễn ra. So với 9 chỉ thị ở
chromosome số 5, kết quả lý thuyết phải là 9!/2 = 181 440 thứ tự. Số lượng thứ tự đạt được có phần nhỏ
hơn lý thuyết, có thể do một số marker liên kết chặt với nhau. Kết quả câu lệnh summary(rip5) cho ra các
thứ tự sắp xếp có số lượng trao đổi chéo ít nhất. Ta thấy khi thay đổi vị trí maker 8 và 9 thì sẽ có một trao
đổi chéo, ngược lại thay đổi vị trí 5 và 6 sẽ có 2 trao đổi chéo. Câu lệnh này giải thích rõ hơn cho câu lệnh
ripple() ở trên về cách thức hoạt động và gợi ý cho chúng ta về khả năng thứ tự phù hợp nhất.
Tiếp theo, ta thấy câu lệnh ripple() với ở trên không thể cho ra kết quả mong muốn. Chúng ta có thể xem
xét khả năng xảy ra các thứ tự khác bằng phương pháp “likelihood”. Câu lệnh ripple() với
method="likelihood" hữu ích để xuất ra giá trị LOD score khi có trao đổi chéo. Trong method="likelihood",
hai cột cuối cùng là giá trị LOD score so sánh từng thứ tự với thứ tự ban đầu và chiều dài nhiễm sắc thể
ước tính thứ tự đã cho. Giá trị LOD score cho thấy rằng lệnh thay thế có nhiều hỗ trợ hơn so với lệnh ban
đầu. (error.prob=0.005, tỷ lệ kiểu gene giả định được sử dụng/ tỷ lệ lý thuyết, nghĩa là sai số quan sát so
với lý thuyết). Trong câu lệnh sử dụng “window=4” để giảm các cửa sổ được mở cùng lúc, từ dó rút ngắn
thời gian chạy. Kết quả câu lệnh ripple() với phương pháp “likelihood” cho thấy khi thay đổi vị trí chỉ thị 8
và 9 sẽ có giá trị LOD score tăng 0,1 và chiều dài NST giảm 0,3cM (38,5-38,2), kết quả này có thể chấp nhận
được, nghĩa là thứ tự marker ở dòng hai thích hợp hơn ban đầu. Tuy nhiên, chúng ta càng mong muốn
hơn nửa khi chiều dài NST càng ngắn càng tốt, vì vậy có thể kiểm tra xem với các sai số khác nhau, chiều
dài NST sẽ thay đổi như thế nào.
Kết quả tiếp theo từ câu lệnh compareorder() cho phép kiểm tra sai số và chiều dài NST tương ứng. Với
kết quả kiểm tra ba sai số: 0; 0,001; 0,01 và kết quả chiều dài NST với 0,005, chúng ta có thể nhận thấy khi
sai số càng nhỏ thì chiều dài NST càng lớn. Tuy nhiên, chúng ta không thể sử dụng sai số quá lớn vì sẽ ảnh
hưởng đến kết quả phân tích những marker rất gần nhau. Tạm thời, chúng ta sẽ sử dụng sai số 0,005 để
phân tích cho cả 5 chromosome và sẽ điều chỉnh nếu kết quả với các sai số khác có sự khác biệt. Tiếp theo,
như kết quả từ câu lệnh ripple() với phương pháp “likelihood” chúng ta đã có được thứ tự sắp xếp các
24
marker thích hợp (đến thời điểm hiện tại), vì thế chúng ta sẽ chuyển đổi thứ tự marker 8 và 9 theo thứ tự
đó và ghi nhớ chúng. Câu lệnh switch.order() cho phép đổi trình tự giữa chỉ thị 8 và 9 trên vị trí ban đầu.
Kết quả câu lệnh pull.map() cuối cùng cho biết thứ tự marker và chiều dài tương ứng trên chromsome số
5 đến thời điểm này.
Như chromosome số 5, chúng ta vẫn thực hiện các bước sắp xếp thứ tự marker trên chromosome số 2
tương tự: lựa chọn thứ tự sắp xếp ban đầu; lựa chọn thứ tự sắp xếp dựa vào số lượng trao đổi chéo; lựa
chọn thứ tự sắp xếp dựa vào giá trị LOD score và chiều dài NST; chọn thứ tự phù hợp. Các bước được tiến
hành như Hình 1.19.
Hình 1.19. Sắp xếp thứ tự các marker trong chromosome số 2

Dựa trên kết quả phân tích Hình 1.19, chúng ta có thể thấy chuyển đổi thứ tự marker 3 và 4 làm số lượng
trao đổi chéo tăng thêm 6 (từ 942 lên 948), con số này có thể là quá lớn để kết luận thứ tự sau khi chuyển
đổi là thích hợp hay không. Câu lệnh ripple() với phương pháp “likelihood” đã làm giảm số thứ tự xem xét
từ 78480 ở câu lệnh rip2, câu lệnh rip2lik, thì giá trị này chỉ còn 384. Kết quả phương pháp “likelihood”
cho ra khi chuyển đổi vị trí marker 3 và 4 sẽ làm giá trị LOD score giảm (-2.4) và chiều dài NST giảm 0,1cM.
Kết quả trên thật sự không thể đưa ra kết luận lựa chọn thứ tự marker 3 và 4 như thế nào là thích hợp
nhất. Để giải quyết vấn đề này, chúng ta sẽ xem xét trên biểu đồ tương quan giữa giá trị LOD score và số
lượng trao đổi chéo của chromosome số 2. Sử dụng hàm apply() để xuất số lượng trao đổi chéo, giá trị
LOD score và vẽ biểu đồ bằng câu lệnh plot(). Dựa vào biểu đồ Hình 1.20, mỗi chấm đại diện cho một thứ
tự sắp xếp các marker của chromosome số 2 khác nhau, với 384 thứ tự sắp xếp, chúng ta có biểu đồ như
trên. Giá trị LOD score có xu hướng giảm dần khi số lượng trao đổi chéo tăng dần. Điều này đặt ra mối lo
ngại, nếu chúng ta chấp nhận vị trí marker 3 và 4 sau khi chuyển đổi thứ tự, lúc này số lượng trao đổi chéo
25
cũng tăng theo, dẫn đến các marker liên kết càng kém bền vững và việc cố gắng rút ngắn chiều dài NST sẽ
không còn ý nghĩa. Vì vậy, cách tốt nhất tại chromosome số 2 là chúng ta sẽ giữ lại thứ tự sắp xếp các
marker ban đầu.
Hình 1.20. Tương qua số lượng trao đổi chéo với giá trị LOD score của
các marker trên chromosome số 2.
26
Ý nghĩa câu lệnh và các bước thực hiện tương tự trên chromosome số 5 và 2, kết quả chuyển đổi thứ tự
marker 9 và 10 không có ý nghĩa nên chúng ta sẽ giữa lại thứ tự sắp xếp các marker ban đầu trên
chromosome số 4.

chromosome số 3.
chromosome số 1.
27
#2.4. NHÌN NHẬN TỔNG THỂ CÁC THỨ TỰ SẮP XẾP TRÊN 5 CHROMOSOME
Hình 1.24. Nhìn nhận thổng thể 5 chromosome

Tiếp theo, chúng ta sẽ nhìn nhận tổng thể lại các giá trị trên 5 chromosome trước khi sang bước lập bản
đồ di truyền. Kết quả câu lệnh summaryMap() xuất ra các thông tin cơ bản của dữ liệu xây dựng đến thời
điểm hiện tại. Trong đó, cho biết số lượng marker trong từng chromosome, chiều dài NST, chiều dài ngắn
nhất và lớn nhất giữa các marker trong từng chromosome, dòng cuối cùng là tổng của 5 chromosome. Ở
đây, chúng ta chú ý đến giá trị chiều dài tổng thể của 5 chromosome là 655,2cM và chiều dài lớn nhất giữa
2 marker phân tử. Đối với chiều dài lớn nhất giữa 2 marker trên 5 chromosome, chiều dài trung bình của
các các chromosome là 20-25cM (chromosome số 2, 3, 4 và 5), chromosome số 1 lại có chiều dài lớn nhất
là 45,6cM. Khoảng cách khá lớn (gần 50cM) của chromosome số 1 là mối lo ngại cần phải được kiểm tra.
Tóm lại, dựa vào các thông số Hình 1.24, chúng ta lưu ý đến các vấn đề: (1) Rút ngắn chiều dài từng NST;
(2) Kiểm tra khoảng cách giữa hai marker phân tử trên từng chromosome. Tuy nhiên, trước tiên chúng ta
sẽ xem xét về khoảng cách giữa các marker trên từng NST; tương quan giá trị LOD score và tần số tái tổ
hợp. Câu lệnh plotMap() cho phép vẽ bản đồ di truyền.
28
Hình 1.25. Bản đồ di truyền bước đầu.
Hình 1.26. Biểu đồ tần số tái tổ hợp và giá trị LOD score ước tính sau khi
đã sắp xếp thứ tự các marker phân tử trên từng chromosome.
Mục tiêu Hình 1.25 cho chúng ta có cái nhìn tổng quan hơn thứ tự các marker trên từng chromosome mà
câu lệnh summaryMap() chưa thể hiện được. Trong Hình 1.25, chúng ta có thể nhận thấy một số khoảng
cách giữa hai marker phân tử khá lớn, điển hình như khoảng cách giữa marker C1M26 và C1M27. Chúng
ta thấy tại chromosome số 1 có chiều dài hơn 250cM. Các khoảng cách lớn như vậy thường là mối nghi
ngờ và sẽ tìm hiểu tiếp theo. Những khoảng cách lớn như trên có thể xuất phát từ nhầm lẫn trong thiết
29
lập bản đồ, vì vậy chúng ta cần kiểm tra lại. Tiếp theo, chúng ta sẽ xem xét biểu đồ tương quan tần số tái
tổ hợp và giá trị LOD score các chromosome qua câu lệnh plotRF(), là những gì chúng ta mong muốn khi
lập bản đồ liên kết: những chỉ thị nằm gần nhau thì liên kết chặt với nhau thể hiện bằng màu vàng và các
chỉ thị nằm xa nhau thì không có sự liên kết, thể hiện bằng màu tối (Hình 1.26). Mục tiêu của biểu đồ Hình
1.26 cho chúng ta thấy những gì mong muốn, các chấm màu xanh và vàng đã không còn bị xáo trộn, ngược
lại được sắp xếp một cách tương đối có thể chấp nhận được, đường chéo là vị trí liên kết chặt nhất nên có
màu vàng sáng nhất. Nếu chú ý kỹ, trên Hình 1.26 tại chromosome số 5, có vạch màu xanh khá rõ nét, tại
chromosome số 1 cũng có những vệt màu xanh như vậy gần với khu vực màu vàng, những vệt/vạch màu
xanh này phù hợp với khoảng cách lớn trên chromosome tương ứng như Hình 1.25. Vì vậy, một lần nửa
Hình 1.25 và 1.26 cảnh báo chúng ta thực hiện những bước tiếp theo kiểm tra những khoảng cách lớn giữa
hai marker phân tử trên cùng chromosome.
BƯỚC 3: KIỂM TRA CÁC NGHI VẤN BẢN ĐỒ LIÊN KẾT BAN ĐẦU.
#3.1. LOẠI BỎ MARKER NGHI VẤN VÀ ĐÁNH GIÁ LẠI CHIỀU DÀI NST
Các marker tạo nên khoảng trống lớn trên từng chromosome có thể do ngẫu nhiên hoặc có sai sót. Nếu
một chỉ thị có xác suất xác định kiểu gene cao hơn những chỉ thị khác, vị trí của chỉ thị này trong bản đồ di
truyền có xu hướng nằm gần với một trong hai đầu của chromosome hoặc nằm đúng vị trí nhưng có các
khoảng trống lớn xung quanh chỉ thị đó. Chúng ta sẽ xem xét chiều dài từng chromosome thay đổi và giá
trị LOD score nếu giả sử loại bỏ một marker trên từng chromosome bằng câu lệnh droponemarker() cho
phép thực hiện điều này và với mức sai số error.prob=0.005. (Hình 1.27) nhược điểm?
Hình 1.27. Loại bỏ marker nghi vấn và đánh giá lại chiều dài NST.
30
Từ kết quả Hình 1.28, kết quả cho thấy không có sự gia tăng và thậm chí là giảm giá trị LOD score. Về sự
thay đổi của chiều dài chromosome, việc loại bỏ một số chỉ thị có thể dẫn đến giảm đáng kể chiều dài của
chromosome. Tuy nhiên đây là do việc loại bỏ các chỉ thị đầu tận cùng của chromosome ví dụ như trường
hợp chromosome 4 và 5. Đối với các chỉ thị phía trong có thể dẫn đến sự thay đổi lớn, ví dụ như một chỉ
thị nằm phía trong mỗi chromosome số 1 đến 3. Các chỉ thị này sẽ được loại bỏ và đánh giá lại bản đồ di
truyền. Chiều dài NST ngắn đi, trong đó đặc biệt ở NST số 2 và 3 ngắn đi khoảng 10cM, NST số 1 ngắn đi
gần 20cM. Mục tiêu của Hình 1.28 cho chúng ta nhìn thấy tổng quan về sự thay đổi chiều dài và giá trị LOD
score sau khi loại bỏ một chỉ thị trên từng chromosome, tuy nhiên Hình 2.28 không cho chúng ta biết rõ
chỉ thị nào được loại bỏ, vì vậy chúng ta cần xuất ra các marker tác động lớn đến chiều dài NST bằng câu
lệnh summary(). (Hình 1.27) Nhược điểm câu lệnh droponemarker() là chỉ có thể cho người thực hiện một
kết quả (marker) trên từng chromosome. Kết quả trả về có 5 cột, với các thông tin bao gồm: tên marker
phân tử, thứ tự chromosome, vị trí marker trên chromosome, thay đổi giá trị LOD score, chiều dài NST
giảm đi. Trong đó khi đối chiếu vị trí các marker với Hình 1.25, có 3 marker trên chromosome số 1, 2 và 3
nằm ở vị trí bên trong chromosome cần được loại bỏ, còn 2 marker trên chromosome số 4 và 5 do nằm ở
ngoài cùng NST nên có thể bỏ qua. Các marker C4M1 và C5M9 là không cần loại bỏ, chúng ta sẽ chỉ loại bỏ
3 marker C1M27, C2M8 và C3M8 trên 3 NST 1, 2 và 3. Sử dụng câu lệnh drop.markers() để loại bỏ 3 marker
trên. Kết quả sau khi loại bỏ 3 marker trên cho thấy, chiều dài 3 NST 1, 2 và 3 đã giảm đáng kể. Chiều dài
tổng thể đã giảm từ 655.2cM xuống còn 523.7cM. (Hình 1.27)
Hình 1.28. Kết quả giá trị LOD và chiều dài NST sao khi loại bỏ 1 điểm đánh dấu.
#3.2. KIỂM TRA SỐ LƯỢNG TRAO ĐỔI CHÉO QUAN SÁT Ở MỖI CÁ THỂ
Sau khi loại bỏ các marker làm chiều dài NST lớn bất thường, mối nghi ngờ tiếp theo cần xem xét đến từ
số lượng trao đổi chéo trên mỗi cá thể. Thông thường, mỗi cá thể sẽ có số lượng trao đổi chéo ở mức nhất
định. Số lượng trao đổi chéo ở mỗi cá thể thường nhỏ hơn số lượng đối đa trên lý thuyết tính toán và
31
thường phụ thuộc vào các nhóm liên kết. Nếu các nhóm liên kết càng nằm gần nhau (khoảng cách nhỏ) thì
khả năng xảy ra trao đổi chéo càng ít. Tuy nhiên, nếu có một cá thể nào không cùng thuộc đặc điểm phân
loại với các cá thể ghi nhận hoặc yếu tố đột biến lớn, hoặc từ nhiều nguyên nhân khác có thể dẫn đến xuất
hiện những cá thể có số lượng trao đổi chéo cao bất thường. Những cá thể như vậy nên được loại bỏ khỏi
bộ dữ liệu vì thứ tự marker ghi nhận trên cá thể đó có thể không cùng đặc điểm với thứ tự marker của các
cá thể trong bộ dữ liệu. Sử dụng câu lệnh countXO() để đếm số lượng trao đổi chéo của các cá thể. (Hình
1.29)
Hình 1.30 cho thấy, số trao đổi chéo trong hình chỉ ra hai cá thể có vấn đề. Hai cá thể này có 73 và 86 trao
đổi chéo, trong khi các cá thể khác chỉ có 3-20 trao đổi chéo. Các cá thể này cần được loại bỏ bằng câu
lệnh subset(). Sau khi loại bỏ hai cá thể này, cần kiểm tra lại xem thứ tự của các chỉ thị có cần thay đổi gì
không.
Hình 1.29. Kiểm tra số lượng trao đổi chéo và thứ tự chromosome số 5.
Sau khi loại bỏ 2 cá thể có số lượng trao đổi chéo cao bất thường, chúng ta cần chạy lại câu lệnh các bước
sắp xếp thứ tự marker trong từng chromosome. Đối với chromosome số 5 kết quả chạy lại như Hình 1.29.
Giá trị LOD score tăng sau khi đổi thứ tự chỉ thị 8 và 9 lại làm chiều dài chromosome ngắn đi 0,7cM, vì thế
chúng ta có sẽ chuyển đổi thứ tự chỉ thị 8 và 9 trên chromosome số 5. Và ngẫu nhiên, chúng ta lại trở về
thứ tự ban đầu chưa chuyển đổi. Điều này có thể giải thích thêm lý do tại sao chúng ta nên loại bỏ các cá
thể có số lượng trao đổi chéo cao bất thường, và cụ thể trên chromosome số 5, các cá thể đó làm nhầm
lẫn thứ tự chỉ thị 8 và 9. Chúng ta sẽ chạy lại câu lệnh tương tự chromosome số 5 cho 4 chromosome còn
lại. Kết quả thu được không có sự thay đổi so với thứ tự marker đã chuyển đổi ở bước trên (câu lệnh không
được trình bày ở đây). Tiếp theo, chúng ta sẽ kiểm tra lại chiều dài NST sau khi đã sắp xếp lại thứ tự các
marker. Kết quả Hình 1.31, chiều dài tổng thể của các NST đã giảm đáng kể, từ 523cM xuống còn 509,6cM
sau khi đã loại bỏ 2 cá thể trên.
32
Hình 1.30. Số lượng trao đổi chéo ở các cá thể trong bản đồ di truyền.
Hình 1.31. Kiểm tra lại thông số trên bản đồ di truyền.
#3.3. KIỂM TRA MARKER CÓ XẢY RA TRAO ĐỔI CHÉO ĐÔI
Hình 1.32. Các cá thể với marker tương ứng có khả năng xảy ra trao đổi chéo đôi.
Ta thấy không thể loại trừ trường hợp các cá thể có tần số trao đổi chéo cao bất thường có thể nhận biết
được thông qua giá trị LOD score tăng bất thường. Giá trị LOD score so sánh khả năng một kiểu gen bị lỗi
33
so với không có lỗi. Sử dụng câu lệnh calc.errolod() để xác định các cá thể với marker chuyển tương ứng.
Sau đó chúng ta liệt kê các kiểu gene có giá trị LOD lớn bằng câu lệnh top.errorlod(), sử dụng ngưỡng LOD
là 6 (cutoff=6). (Hình 1.32) Kết quả liệt kê cho thấy có 12 kiểu gene có giá trị LOD cao hơn 6 được ghi nhận.
Theo lý thuyết, chúng ta cần xem xét tất các kiểu gene trên và chúng nằm trên 4 chromosome 1,2,4,5. Tuy
nhiên, chúng ta có thể thấy phần lớn chúng nằm trên chromosome số 1, và vì vậy chúng ta sẽ xem xét trên
NST số 1 trước tiên. (Hình 1.33)
Hình 1.33. Vẽ biểu đồ các kiểu gene các cá thể có trao đổi chéo đôi trên chromosome số 1.
Hình 1.34. Kiểu gene các cá thể trên chromosome số 1 với giá trị LOD score
cao (>6) được đánh dấu (màu đỏ).
Trên Hình 1.34 có 8 kiểu gene có giá trị LOD score>6 được ghi nhận luôn được đánh dấu theo cặp có trao
đổi marker với nhau, chẵng hạn id36 và id87,… Có thể thấy chúng là các kiểu gene có sự trao đổi chéo đôi.
Ta thấy, 12 kiểu gene có trao đổi chéo đôi ở trên có thể được loại bỏ khỏi bộ số liệu, nghĩa là chúng ta sẽ
xóa nó đi. Nhưng thực tế có thế thấy, với mức sai số chúng ta chấp nhận là 0.005 nghĩa là 5/1000 thì điều
này không cần thiết với bộ số liệu khoảng 25000 kiểu gene.
#3.4. KIỂM TRA Ý NGHĨA TỶ LỆ PHÂN LY KIỂU GENE
Hình 1.35. Vẽ biểu đồ kiểm tra ý nghĩa tỷ lệ phân ly kiểu gene.
34
Sau khi xây dựng xong bản đồ liên kết và giải quyết các nghi vấn trong bài, chúng ta cần thực hiện bước
cuối cùng là kiểm tra lại ý nghĩa thống kê của bản đồ di truyền so với giá trị p-value tổng thể (ở đây sử dụng
p-value là 0,05). Mục tiêu của bước này là đảm bảo khả năng tin cậy của từng chromosome và vị trí marker
sắp xếp trên đó. Sử dụng lại câu lệnh geno.table() để tạo một bảng phân bố kiểu gene và chúng ta sẽ vẽ
biểu đồ sai số P-value và biểu đồ tỷ lệ phân ly của các kiểu gene. (Hình 1.35)
Hình 1.36 cho thấy kết quả kiểm tra việc các chỉ thị có tuân theo tỷ lệ phân ly 1:2:1 hay không. Hình dưới
là tần số của các kiểu gene quan sát được của mỗi marker. Với màu đen, xanh và đỏ tương ứng với kiểu
gene AA, AB và BB. Hình trên là các giá trị P-value của các marker với tổng thể từng chromosome. Ở NST
số 4 tỷ lệ phân ly của 2 kiểu gene đồng hợp không tuân theo tỷ lệ 1:2:1 (đường màu đỏ và đen không nằm
trên vạch đứt nét), với số lượng kiểu gene AA nhiều hơn kiểu gene BB. Chúng ta có thể đối chiếu lên biểu
đồ trên, tại giá trị P-value của chromosome số 4 có đỉnh cao gần bằng 3.5. Chúng ta nhớ lại về tổng số
marker phân tử lúc này còn lại là 88 marker. Để kiểm tra xem kết quả sai lệch tỷ lệ 1:2:1 của chromosome
số 4 là có ý nghĩa hay không, có thể sử dụng phương pháp Hiệu chỉnh Bonferroni bằng cách sử dụng bất
đẳng thức Bonferroni. Ở đây, kết quả αriêng lẻ = α/m=0,05/88 (với giả sử chúng ta kỳ vọng mức sai số tổng
thể ở đây là 0,05), tương ứng -log(0,05/88)=3,25. Vì vậy, một marker có đỉnh giá trị -log10 (P-value) >3,25
nên sẽ có ý nghĩa thống kê. Tóm lại, với một marker không tuân theo tỷ lệ phân ly có ý nghĩa thống kê,
chúng ta cũng không thể kết luận chắc chắn bản đồ có ý nghĩa thống kê với sai số 0.05 hay không. Trong
thực tế, chúng ta có thể xem xét lại marker đó. Tuy nhiên, chúng ta sẽ tạm chấp nhận bản đồ di truyền có
ý nghĩa thống kê với tỷ lệ phân ly 1:2:1, p-value=0,05.
Hình 1.36. Biểu đồ giá trị -log10 P-value (bảng trên) và tỷ lệ phân ly kiểu gene
(bảng dưới) của các marker trong bản đồ di truyền.
35
BƯỚC 4: XÂY DỰNG BẢN ĐỒ LIÊN KẾT CUỐI CÙNG.
Sau khi đã xử lý xong bộ dữ liệu và giải quyết những vấn đề lo ngại, bước cuối cùng là chúng ta sẽ bản đồ
di truyền bằng câu lệnh plotMap().
Tóm lại: Bản đồ di truyền được xây dựng có 5 chromosome, với chiều dài chromsome số 1 dài nhất
181,4cM. Có 88 marker được thể hiện trên bản đồ, sai số giữa các vị trí marker phân tử là 0,005, sai số với
tỷ lệ phân ly kiểu gene ở đời F2 là 0,05. Bản đồ có thể được sử dụng để phân tích tính trạng liên kết QTL
và nhiều nghiên cứu tiếp theo.
Hình 1.37. Bản đồ di truyền dữ liệu mapthis.

sai số phải xét sai số nào có kiểu gene phù hợp nhất.
36
II. XÁC ĐỊNH QTL LIÊN KẾT TÍNH TRẠNG SỐ 23
Dựa vào bảng số liệu được cung cấp ngày 31/05/2021 (file TLBrach.csv), xác định vị trí locus của tính
trạng mục tiêu-tính trạng 23 trên bản đồ liên kết đã được xây dựng trước.
Hướng giải quyết:
Sử dụng phần mềm RStudio, tìm kiếm các QTL liên kết với tính trạng mục tiêu (tính trạng số 23) từ bản đồ
di truyền đã được xây dựng sẵn. Từ đó suy ra được các vị trí locus của tính trạng 23.
Kết quả sau khi chạy các câu lệnh tìm kiếm QTL liên kết với tính trạng 23 được truy xuất thành các bảng
kết quả (bên dưới). Quá trình thao tác gồm có ba bước chính:
Bước 1. Nhập bản đồ liên kết đã được xây dựng, kiểm tra lại các thông số.
Bước 2. Xác định QTL liên kết với trính trạng mục tiêu- tính trạng 23.
- Xác định QTL liên kết với tính trạng số 23 bằng phương pháp “em”
- Xác định giá trị LOD score ngưỡng
- Tìm kiếm các QTL có giá trị LOD score vượt ngưỡng
- Tìm kiếm QTL khác liên kết với tính trạng 23
- Xác định lại vị trí các QTL trên chromosome
Bước 3. Xác định độ tin cậy và mức độ ảnh hưởng của QTL lên tính trạng mục tiêu.
- Xác đinh khoảng tin cậy của các QTL liên kết với tính trạng 23
- Xác đinh mức độ ảnh hưởng của các QTL liên kết với tính trạng 23
37
BƯỚC 1. NHẬP BẢN ĐỒ LIÊN KẾT ĐÃ ĐƯỢC XÂY DỰNG, KIỂM TRA LẠI CÁC THÔNG SỐ
tạo ra bộ số liệu ảo -> số liệu ảo chèn vào dữ liệu giúp câu lệnh
phía sau ít bị sai sót lỗi hơn, không làm thay đổi khoảng cách giữa
2 qtl bất kỳ
tự thụ
16 là số lần mô phỏng
step: chỉ mô phỏng tại vị trí có marker, có thể nâng lên
tỷ lệ ko có ý nghĩa thống kê, do quần thể tự thụ được xác

định do lai giữa đậu canh tác và đậu hoang, dẫn đến BB
thường chết sớm hoặc lai sớm dẫn đến thiếu số liệu
Hình 2.1. Kết quả khi nhập và tóm tắt dữ liệu cần phân tích
Bước đầu tiên khi thực hiện tìm kiếm QTL cần phải nhập cơ sở dữ liệu vào phần mềm. Tiếp đến cần tóm
tắt lại thông tin dữ liệu, điều này giúp người phân tích có cái nhìn tổng quan hơn. Một số thông tin được
tóm tắt bao gồm số lượng cá thể (individuals), kiểu hình (phynotypes), Chromosome, chỉ thị phân tử
(markers). Sau đó xác định kiểu gene dựa trên bộ số liệu kiểu gene nhận được với xác suất sai số là 0.01
bằng câu lệnh <-calc.genobrob(). Kết quả phân tích dữ liệu có thể tóm tắt như sau: bộ dữ liệu thu được
có 162 cá thể, 4374 marker trên 23 chromosome, 24 kiểu hình, 100% kiểu gene được phân tích. (Hình 2.1)
BƯỚC 2. XÁC ĐỊNH QTL LIÊN KẾT VỚI TÍNH TRẠNG SỐ 23
#2.1. XÁC ĐỊNH QTL LIÊN KẾT VỚI TÍNH TRẠNG SỐ 23 BẰNG PHƯƠNG PHÁP “em”
Trước khi tiến hành xác định các QTL liên kết với tính trạng mục tiêu, chúng ta cần chạy mô phỏng kiểu
gene của các cá thể dựa trên kết quả phân tích kiểu gene của các chỉ thị. Để thực hiện bước này cần sử
dụng câu lệnh sim.geno() (Hình 2.2). Việc chạy mô phỏng sẽ không làm thay đổi khoảng cách của các chỉ
thị phân tử, không ảnh hưởng đến kết quả phân tích số liệu. Ngoài ra, việc thao tác này sẽ giúp các lệnh sẽ
lỡ bị lỗi hơn vì thế đây là bước cần phải thực hiện trước khi sử dụng các câu lệnh tìm kiếm QTL liên kết với
tính trạng mong muốn. Có nhiều phương pháp khác nhau để xác định QTL nào liên kết với tính trạng mục
tiêu khi sử dụng câu lệnh scanone(). Trong bài tập này chúng ta sẽ sử dụng phương pháp “em” để tiến
hành tìm kiếm các QTL liên quan (Hình 2.2). Hình 2.3 cho thấy giá trị LOD score của các marker trên các
chromosome trong bản đồ di truyền.
38
câu lệnh màu đỏ là gì?
chỉ xuất 1 qtl/1chromosome

nên phải chạy đi chạy lại để có thể 2-3 qtl/1chr
Hình 2.2. Xác định QTL liên kết với tính trạng số 23 bằng phương pháp “em”
Hình 2.3. Biểu đồ thể hiện giá trị LOD score của các markers.
39
tạo ra 1000 bộ số liệu ảo, xáo trộn kiểu hình,

nhưng ko làm thay đổi kiểu gene
phân tích giá trị LOD tương ứng.
khi tạo ra nhiều bộ số liệu ảo thì kết quả

càng đáng tin cậy (Lod ngưỡng càng tốt).
xác định n.pern dựa trên xs sai số và giá trị
Hình 2.4. Kết quả khi chạy câu lệnh scanone() p-value
#2.2. XÁC ĐỊNH GIÁ TRỊ LOD SCORE NGƯỠNG
Sau khi nhập câu lệnh tìm kiếm QTL bằng phương pháp “em”, kết quả thu được sẽ là các giá trị LOD score
của các marker phân tử. Vì vậy cần xác định giá trị LOD score ngưỡng để tiến hành so sánh với các giá trị
LOD score của các marker. Điều này sẽ giúp sàng lọc các giá trị LOD score không phù hợp hay đúng hơn là
loại bỏ các QTL không liên kết với tính trạng mục tiêu. Trong trường hợp này, giá trị ngưỡng (LOD
thresholds) được sử dụng để đánh giá một chỉ thị có liên kết với tính trạng mục tiêu hay không.
Việc xác định giá trị ngưỡng được thực hiện bằng cách tạo 1000 bộ số liệu ảo và sau đó các số liệu kiểu
hình sẽ được xáo trộn một cách ngẫu nhiên trong khi kiểu gene thì không thay đổi. Câu lệnh Scanone() sẽ
tiến hành phân tích thống kê 1000 bộ số liệu (Hình 2.4) và xác định giá ngưỡng/LOD ứng với giá trị p-value
bằng 0.05 và 0.1 (Hình 2.5).
giá trị ngưỡng thay đổi với p-value
LOD càng nhỏ thì nhiều qtl vượt ngưỡng nên độ tin cậy sẽ ko cao
Tuy nhiên, độ tin cậy càng cao --> LOD càng lớn--> nhiều qtl liên kết với tính trạng có
thể bị loại bỏ
Hình 2.5. Hai giá trị ngưỡng tương ứng với p-value=0.05 và p-value=0.1
Ở bước xác định giá trị ngưỡng có thể lưu ý đến hai thông số; số lượng xáo trộn kiểu hình n.perms = (giá
trị 1000 được thực hiện trong bài) và giá trị LOD score ứng với p-value=0.1. Số lượng đảo càng lớn thì giá
trị ngưỡng thu được càng tốt và chính xác nhưng nhược điểm sẽ tốn nhiều thời gian để chạy câu lệnh. Về
mặt ý nghĩa thống kê, giá trị p-value càng thấp thì giá trị ngưỡng càng đáng tin cậy, nhưng giữa p-value và
giá trị LOD score có mối quan hệ tỷ lệ nghịch. Vì vậy khi giá trị p-value quá thấp sẽ cho kết quả LOD score
cao, điều này có thể bỏ sót một số giá trị LOD score của QTL dưới ngưỡng mà chúng có thể liên kết với tính
trạng mục tiêu. Như vậy, việc lựa chọn giá trị p-value phù hợp vừa đảm bảo tương đối độ tin cậy và giá trị
ngưỡng. Điều này giúp tránh bỏ xót các QTL liên kết với tính trạng mục tiêu mà chúng có giá trị LOD score
thấp hơn giá trị ngưỡng. Ngoài ra để làm tăng độ tin cậy khi xuất các giá trị vượt ngưỡng với p-value không
quá nhỏ, chúng ta có thể xác định độ tin cậy của mỗi QTL vượt ngưỡng.
step =1 và n.draws tăng lên giúp nó tìm kiếm chính

xác hơn
Hình 2.6: Kết quả truy xuất các QTL có giá trị LOD score vượt ngưỡng
40
Hình 2.7. Biểu đồ các QTL có giá trị LOD score vượt giá trị ngưỡng
#2.3. TÌM KIẾM CÁC QTL CÓ GIÁ TRỊ LOD SCORE VƯỢT NGƯỠNG
Từ biểu đồ (Hình 2.7), có ba chromosome (Chr) chứa các QTL vượt giá trị ngưỡng lần lượt trên Chr9, Chr14,
Chr20. Vì giá trị ngưỡng không phải là giá trị chính xác tuyệt đối mà nó chỉ là một giá trị tương đối. Như
vậy, chúng ta rút ra hai suy luận sau: (1). Chr9 chỉ có duy nhất 1 đỉnh vượt ngưỡng, trong khi đó Chr14 và
Chr20 có nhiều đỉnh (thể hiện QTL). Điều này chứng tỏ rất có khả năng QTL cùng liên kết với tính trạng
mong muốn vẫn còn nằm ở Chr14 và Chr20; (2). Bởi giá chỉ ngưỡng chỉ mang tính tương đối vì vậy có thể
có khả năng một số QTL có giá trị LOD score thấp hơn giá trị ngưỡng mà chúng liên kết với tính trạng mục
tiêu chưa được liệt kê (phụ thuộc giá trị p-value). Do đó cần tiến hành tìm kiếm thêm nhiều lần.
Sau khi xuất giá trị vượt ngưỡng, chúng ta giả sử rằng 3 QTL (Hình 2.6) liên kết với tính trạng mục tiêu.
Bước tiếp theo là cần phải xác định thêm có QTL nào còn liên kết với tính trạng mục tiêu nữa không. Nhưng
trước khi tìm các QTL khác cần tiến hành xét sự tương tác gene của 3 QTL này. Việc xác định tương tác
gene giữa các QTL được tiến hành bởi câu lệnh fitqtl() (Hình 2.8, 2.9, 2.10).
Từ các kết quả phân tích tương tác gene giữa các QTL trên Hình 2.8, 2.9 và 2.10, các giá trị p-value đều lớn
hơn 0.05. Điều này có nghĩa sự tương tác gene giữa các QTL này không có ý nghĩa, hay nói cách khác chúng
tác động độc lập lên tính trạng.
41
Hình 2.8. Tương tác giữa Q1*Q2
42
#2.4. TÌM KIẾM QTL KHÁC LIÊN KẾT VỚI TÍNH TRẠNG 23
Tiếp theo, xác định các QTL khác có thể liên kết với tính trạng bằng câu lệnh addqtl(). Để tiến hành bước
này, cần phải đánh dấu lại 3 QTL vừa tìm được một cách riêng lẽ bởi câu lệnh makeqtl() (Hình 2.11). Bởi
việc đánh dấu các QTL có giá trị LOD score lớn sẽ tác động rất lớn đến đến các QTL khác và dẫn đến trả kết
quả không chính xác khi tiến hành tìm kiếm QTL bằng câu lệnh addqtl(). Kết quả thu được (Hình 2.12, 2.13)
cho thấy có 2 QTL khác nằm trên Chr20 ở vị trí 70.3cM và 114cM. Với QTL nằm trên Chr20 vị trí 70.3cM có
LOD score = 14.5 lớn hơn nhiều so với giá trị ngưỡng nên dễ dàng chấp nhận (Hình 2.12). Với QTL nằm
trên Chr20 vị trí 114cM có LOD score = 2.1 nhỏ hơn nhiều so với giá trị ngưỡng nên sẽ loại bỏ (Hình 2.13).
Như vậy, chúng ta đã xác định được 4 QTL liên kết với tính trạng.
Bước tiếp theo cần là xác định sự tương tác gene giữa QTL vừa tìm được với 3 QTL trước đó. Thao tác
được thực hiện bởi câu lệnh fitqtl(). Kết quả, phép lai giữa các QTL có giá trị p-value lớn hơn 0.05 khi kiểm
định, vì vậy cả 4 QTL này tác động độc lập đến tính trạng mục tiêu hay nói cách khác là không có sự tương
tác gene ở đây (Hình 2.14, 2.15, 2.16).
đánh dấu 3 qtl tìm được
Hình 2.11. Đánh dấu lại 3 QTL đã tìm được ở bước trên.
khi dùng tìm kiếm qtl, khai báo qtl ảnh hưởng đến kq tìm kiếm, ảnh hưởng đến giá trị LOD của các qtl còn lại
43
Hình 2.12. Kết quả tìm kiếm xác định 1 QTL trên Chr20 có LOD score = 14.5
câu lệnh này?

ko còn giá trị LOD nào trên giá trị ngưỡng
Hình 2.13. Kết quả tìm kiếm xác định 1 QTL trên Chr20 có LOD score = 2.1
44
Hình 2.14. Khảo sát sự tương tác gene giữa Q1*Q4
45
Tiếp tục, xác định sự tác động độc lập của cả 4 QTL lên tính trạng số 23 bằng câu lệnh fitqtl(). Kết quả thu
được (Hình 2.17) cho thấy sự tác động này có ý nghĩa với giá trị p-value = 0.024 <0.05.
giá trị LOD qtl ảnh hưởng lệnh: nhỏ ảnh hưởng ít nên có độ tinh cậy cao.
nên dùng giá trị LOD nhỏ của QTL9
Hình 2.17. Khảo sát tác động độc lập của Q1 +Q2 +Q3 +Q4 lên tính trạng số 23
nếu các qtl tương tác với nhau thì làm sao? -> xác định mức độ ảnh hưởng chung,...
nếu các qtl không độc lập với nhau thì sao? -> có khả năng liên kết với nhau, cần xac định thêm...
46
#2.5. XÁC ĐỊNH LẠI VỊ TRÍ CÁC QTL TRÊN CHROMOSOME
Sau khi đã xét sự tương tác giữa các QTL liên kết với tính trạng số 23, chúng ta tiến hành xác định lại vị trí
của 4 QTL trên 3 Chromosome để có thể xác định khoảng tin cậy (vị trí locus) cho bước tiếp theo. Bước
này được tiến hành bởi câu lệnh refineqtl(). Hình 2.18, 2.19, 2.20 cho thấy kết quả khi chạy lệnh refineqtl()
cho 3 QTL (QTL 20@70.3 có khoảng tin cậy trùng với QTL 20@53.0 nên chỉ xét 1 QTL) lần lược trên cả 3
chromosome.
câu này là sao?
Hình 2.18. Kết quả truy xuất vị trí mới của QTL trên Chr9
sao cái này nó ra 2 iteration vậy?
47
BƯỚC 3: XÁC ĐỊNH KHOẢNG TIN CẬY VÀ MỨC ĐỘ ẢNH HƯỞNG CỦA CÁC QTL ĐƯỢC XÁC ĐỊNH LÊN TÍNH
TRẠNG SỐ 23
#3.1. XÁC ĐINH KHOẢNG TIN CẬY CỦA CÁC QTL LIÊN KẾT VỚI TÍNH TRẠNG 23
Sau khi xác định được các QTL liên kết với tính trạng mục tiêu, tiếp tục tiến hành xác định khoảng tin cậy
của các QTL (vùng chứa locus). Để tiến hành bước này có thể sử dụng câu lệnh lodint(). Trong phần này,
chúng ta sử dụng câu lệnh lodint(). Kết quả thu được cho thấy:
+ Một locus của gene nằm trong phạm vi khoảng từ 61.000 đến 130.481cM trên Chr14. (Hình 2.21)
+ Một locus của gene nằm từ vị trí 44.000cM trở ra (xa tâm động) trên Chr9. (Hình 2.22)
+ Một locus của gene nằm trong phạm vi khoảng 51.000 đến 72.563cM trên Chr20. (Hình 2.23)
Hình 2.21. Xác định khoảng tin cậy của QTL trên Chr14
#3.2. XÁC ĐINH MỨC ĐỘ ẢNH HƯỞNG CỦA CÁC QTL LIÊN KẾT VỚI TÍNH TRẠNG 23
Xác định mức độ ảnh hưởng của các QTL lên tính trạng bằng lệnh effectplot(). Kết quả được xuất ra như
Hình 2.24, 2.25, 2.26. Dựa trên kết quả phân tích, chúng ta thấy rằng mức độ tác động đến tính trạng số
23 ở bố lớn hơn mẹ.
Tóm lại: Tính trạng 23 được xác định có 3 vị trí locus trên ba Chromosome 9, 14 và 20, liên kết với 4 QTL.
Có thể xây dựng và phát triển các quần thể chỉ khác biệt ở mỗi QTL liên kết với tính trạng số 23. Xác định
mức độ ảnh hưởng của các QTL lên tính trạng số 23 có thể được sử dụng cho những nghiên cứu tiếp theo.
48
tác động ít, chỉ xem là qtl liên kết với tính
trạng thôi
tác động nhiều, xây dựng 1 quần thể có qtl
liên kết với tính trạng luôn, có thể phát triển
các chỉ thị phân tử liên kết với qtl đó.
Hình 2.24. Biểu đồ mức ảnh hưởng của QTL trên Chr9 lên tính trạng.
49

Co-So-Di-Truyen-Chon-Giong-Cay-Trong - Nhom-3 - Bai-Tap-Lon-Qtl - (Cuuduongthancong - Com)

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Co-So-Di-Truyen-Chon-Giong-Cay-Trong - Nhom-3 - Bai-Tap-Lon-Qtl - (Cuuduongthancong - Com)

Uploaded by

Copyright:

Available Formats

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN, ĐHQG-HCM

KHOA SINH HỌC – CÔNG NGHỆ SINH HỌC

CƠ SỞ DI TRUYỀN CHỌN GIỐNG CÂY TRỒNG

BÀI TẬP LỚN

Nhóm thực hiện:

Ngày 03 tháng 7 năm 2021

#1.1. NHẬP DỮ LIỆU VÀ TÓM TẮT BỘ DỮ LIỆU PHÂN TÍCH .......................................................................8

#1.2. LOẠI BỎ CÁ THỂ VÀ CHỈ THỊ BỊ THIẾU DỮ LIỆU .................................................................................8

#1.3. NHẬN BIẾT CÁC CÁ THỂ VÀ MARKER BỊ LẶP LẠI .............................................................................10

#2.1. XÂY DỰNG CÁC NHÓM LIÊN KẾT BƯỚC ĐẦU..................................................................................16

#2.3.1. Chromosome số 5.........................................................................................................................23

#2.3.2. Chromosome số 2.........................................................................................................................25

#2.3.3. Chromosome số 4.........................................................................................................................26

#2.3.4. Chromosome số 3.........................................................................................................................27

#2.3.5. Chromosome số 1 ........................................................................................................................27

#3.4. KIỂM TRA Ý NGHĨA TỶ LỆ PHÂN LY KIỂU GENE ................................................................................34

BƯỚC 4: XÂY DỰNG BẢN ĐỒ LIÊN KẾT CUỐI CÙNG...............................................................................36

II. XÁC ĐỊNH QTL LIÊN KẾT TÍNH TRẠNG SỐ 23 .....................................................................................37

Hình 1.3. Mô hình dữ liệu bị thiếu trong bộ dữ liệu mapthis. .................................................................... 9

Hình 1.24. Nhìn nhận thổng thể 5 chromosome ...................................................................................... 28

Hình 1.25. Bản đồ di truyền bước đầu...................................................................................................... 29

Hình 1.35. Vẽ biểu đồ kiểm tra ý nghĩa tỷ lệ phân ly kiểu gene................................................................ 34

Hình 1.37. Bản đồ di truyền dữ liệu mapthis. ........................................................................................... 37

Hình 2.8. Tương tác giữa Q1*Q2 .............................................................................................................. 42

Hình 2.9. Tương tác giữa Q1*Q3 .............................................................................................................. 42

HƯỚNG THỰC HIỆN:

Bước 4: Xây dựng bản đồ liên kết cuối cùng

#1.1. NHẬP DỮ LIỆU VÀ TÓM TẮT BỘ DỮ LIỆU PHÂN TÍCH

Hình 1.1. Nhập dữ liệu và tóm tắt bộ dữ liệu phân tích

#1.2. LOẠI BỎ CÁ THỂ VÀ CHỈ THỊ BỊ THIẾU DỮ LIỆU

Hình 1.3. Mô hình dữ liệu bị thiếu trong bộ dữ liệu mapthis.

#1.3. NHẬN BIẾT CÁC CÁ THỂ VÀ MARKER BỊ LẶP LẠI

Hình 1.6. Biểu đồ tỷ lệ kiểu gene của các cặp cá thể.

#2.1. XÂY DỰNG CÁC NHÓM LIÊN KẾT BƯỚC ĐẦU

Hình 1.18. Sắp xếp thứ tự các marker trong chromosome số 5.

Hình 1.19. Sắp xếp thứ tự các marker trong chromosome số 2

Hình 1.21. Sắp xếp thứ tự các marker trong chromosome số 4

Hình 1.22. Sắp xếp thứ tự các marker trong chromosome số 3

Hình 1.23. Sắp xếp thứ tự các marker trong chromosome số 1

Hình 1.24. Nhìn nhận thổng thể 5 chromosome

Hình 1.25. Bản đồ di truyền bước đầu.

Hình 1.31. Kiểm tra lại thông số trên bản đồ di truyền.

#3.3. KIỂM TRA MARKER CÓ XẢY RA TRAO ĐỔI CHÉO ĐÔI

#3.4. KIỂM TRA Ý NGHĨA TỶ LỆ PHÂN LY KIỂU GENE

Hình 1.35. Vẽ biểu đồ kiểm tra ý nghĩa tỷ lệ phân ly kiểu gene.

Hình 1.37. Bản đồ di truyền dữ liệu mapthis.

Hướng giải quyết:

tỷ lệ ko có ý nghĩa thống kê, do quần thể tự thụ được xác

BƯỚC 2. XÁC ĐỊNH QTL LIÊN KẾT VỚI TÍNH TRẠNG SỐ 23

câu lệnh màu đỏ là gì?

chỉ xuất 1 qtl/1chromosome

tạo ra 1000 bộ số liệu ảo, xáo trộn kiểu hình,

khi tạo ra nhiều bộ số liệu ảo thì kết quả

#2.2. XÁC ĐỊNH GIÁ TRỊ LOD SCORE NGƯỠNG

giá trị ngưỡng thay đổi với p-value

step =1 và n.draws tăng lên giúp nó tìm kiếm chính

Hình 2.8. Tương tác giữa Q1*Q2

Hình 2.9. Tương tác giữa Q1*Q3

Hình 2.10. Tương tác giữa Q2*Q3

đánh dấu 3 qtl tìm được

câu lệnh này?

Hình 2.14. Khảo sát sự tương tác gene giữa Q1*Q4

Hình 2.15. Khảo sát sự tương tác gene giữa Q2*Q4