Professional Documents
Culture Documents
7-Database Integration Nhom4.en - VI
7-Database Integration Nhom4.en - VI
com
Giới thiệu
Thiết kế cơ sở dữ liệu phân tán và song song
Kiểm soát dữ liệu phân tán
Xử lý truy vấn phân tán
Xử lý giao dịch phân tán
Sao chép dữ liệu
Tích hợp cơ sở dữ liệu – Hệ thống đa cơ sở dữ liệu
Hệ thống cơ sở dữ liệu song song
Quản lý dữ liệu ngang
hàng Xử lý dữ liệu lớn
NoSQL, NewSQL và Polystores
Quản lý dữ liệu web
© 2020, MT Özsu & P. Valduriez TS.
2
Phan Thị Hà
Đề cương
ETL
công cụ
GCS (còn gọi là lược đồ trung gian) được xác định trước
❑ Ánh xạ các LCS vào lược đồ này
❑ Như trong kho dữ liệu
GCS được định nghĩa là sự tích hợp của các bộ phận của LCS
❑ Tạo GCS và ánh xạ LCS tới GCS này
❑ Định nghĩa GCS được coi là tồn tại và mỗi LCS được coi là một định
nghĩa chế độ xem đối với nó
toàn cầu-as-view
❑ GCS được định nghĩa là một tập hợp các chế độ xem đối với LCS
ánh xạ lược đồ
❑ Cách ánh xạ dữ liệu từ cơ sở dữ liệu cục bộ sang GCS
Quan trọng: đôi khi GCS được xác định trước và việc đối sánh
lược đồ và ánh xạ lược đồ được thực hiện đối với GCS đích này
〈SC1.element-1 ≈ SC2.element-2,P,S〉
❑ Phần tử-1 trong lược đồ SC1 tương tự như phần tử-2 trong lược đồ SC2
nếu vị từPgiữ với một giá trị tương tự củaS
cấp lược đồ
❑ Xử lý tên của các phần tử lược đồ
❑ Xử lý các trường hợp như từ đồng nghĩa, từ đồng âm, siêu từ, kiểu dữ liệu giống
nhau
cấp độ sơ thẩm
❑ Tập trung vào các kỹ thuật truy xuất thông tin (ví dụ: tần suất từ, thuật ngữ
chính)
❑ “Suy ra” những điểm tương đồng từ những
Sử dụng một tập hợp các quy tắc ngôn ngữ (thuật ngữ)
Các quy tắc cơ bản có thể được tạo thủ công hoặc có thể được phát hiện từ các nguồn
bên ngoài (ví dụ: Mạng từ)
Thuộc tínhPvà giá trị tương đồngS
❑ thủ công⇒được chỉ định,
❑ đã phát hiện⇒có thể được tính toán hoặc chỉ định bởi một chuyên gia sau khi
khám phá
ví dụ
❑ 〈tên viết hoa ≈ tên viết thường,ĐÚNG VẬY, 1.0〉
❑ 〈tên viết hoa ≈ tên viết hoa,ĐÚNG VẬY, 1.0〉
❑ 〈tên viết hoa ≈ tên viết thường,ĐÚNG VẬY, 1.0〉
❑ 〈DB1.ASG ≈ DB2.WORKS_IN,ĐÚNG VẬY, 0,8〉
❑ Số lần sửa đổi ký tự (thêm, xóa, chèn) cần được thực hiện để chuyển
chuỗi này sang chuỗi kia
mã soundex
❑ Sự giống nhau về ngữ âm giữa các tên dựa trên mã soundex của chúng
Cũng xem xét các loại dữ liệu
❑ Độ tương tự kiểu dữ liệu có thể gợi ý mối quan hệ mạnh mẽ hơn độ tương
tự được tính toán bằng các phương pháp này hoặc để phân biệt giữa
nhiều chuỗi có cùng giá trị
bip spo
ili pon
thắp sáng tiện ích
❑ đặc biệt
❑ Xóa các ký tự “o”, “n”, “s”, “i”, “b”, “i”, “l”, “i”, “t”, “y”
❑ Thêm các ký tự “o”, “n”, “s”, “i”, “b”, “i”, “l”, “i”, “t”, “y”
❑ Mỗi người so khớp tập trung vào một khu vực (tên, v.v.)
Tích hợp có thể đơn giản (lấy giá trị trung bình của các giá trị
tương tự) hoặc phức tạp hơn (xem tác phẩm của Fagin)
từng bước
nhị phân thuần túy
❑
❑ Ánh xạ lược đồ
❑
Được cho
❑ Nguồn LCS: = {}
❑ Một GCS mục tiêu: = { }
❑ Một tập hợp các giá trị tương ứng được phát hiện trong giai đoạn
khớp lược đồ: = { }
Tạo một tập hợp các truy vấn mà khi được thực hiện sẽ tạo ra
các phiên bản dữ liệu GCS từ dữ liệu nguồn.
Chúng tôi đang tìm kiếm, cho mỗi , một truy vấn được xác định trên một
(có thể đúng) tập hợp con của các quan hệ trong sao cho,
khi được thực thi, sẽ tạo ra dữ liệu cho từ quan hệ nguồn
Ý tưởng chung:
Mỗi có thể được ánh xạ tới một truy vấn rằng khi
thực hiện, sẽ tạo ramột sốcủa dữ liệu của.
Sự kết hợp của các truy vấn này mang lại (= )
❑
❑ Viết lại truy vấn
❑
Hệ quản trị cơ sở dữ liệu Hệ quản trị cơ sở dữ liệu Hệ quản trị cơ sở dữ liệu Hệ quản trị cơ sở dữ liệu
❑ Hiệu suất thời gian chạy khác nhau và hành vi không thể đoán trước
Làm cho việc thực hiện truy vấn trở nên khó khăn
Tự chủ thiết kế
❑ Khả năng hạn chế tính khả dụng và độ chính xác của thông tin cần
thiết để tối ưu hóa truy vấn
❑ Làm thế nào để có được thông tin chi phí?
thư từ
phân bổ và
khả năng
Cục bộ/DBMS
ánh xạ
và mỗi quan hệ toàn cục là một khung nhìn đối với các quan hệ cục bộ
❑ cục bộ dưới dạng xem: lược đồ toàn cục được xác định độc lập với cơ sở
dữ liệu cục bộ và mỗi quan hệ cục bộ là một khung nhìn đối với các quan hệ toàn
cục
Viết lại truy vấn được thực hiện tốt nhất với Datalog, một ngôn ngữ dựa
trên logic
❑ Sức mạnh biểu cảm hơn phép tính quan hệ
❑ Phiên bản nội tuyến của phép tính miền quan hệ
Truy vấn liên kết (SPJ): một quy tắc của biểu mẫu
❑ Hỏi(t):-r1(t1), … RN(tN)
❑ Hỏi(t) : phần đầu của truy vấn biểu thị quan hệ kết quả
❑ r1(t1), … RN(tN): mục tiêu con trong nội dung truy vấn
❑ r1, … RN: tên vị từ tương ứng với tên quan hệ
❑ t1, … TN: tham chiếu đến các bộ có biến và hằng
❑ Các biến tương ứng với các thuộc tính (như trong phép tính miền)
❑ “-”có nghĩa là biến không tên
Truy vấn rời rạc =Ntruy vấn liên hợp với cùng một
vị từ đầu
Hỏi(E#,TITLE,P#) :- EMP(E#,ENAME,"Programmer",CITY),
CÔNG TRÌNH(E#,P#,RESP,DUR).
Hỏi(E#,TITLE,P#) :- EMP(E#,ENAME,TITLE,CITY),
CÔNG TRÌNH(E#,P#,RESP,24).
❑ Và không có sự rời rạc: cùng một bộ có thể tồn tại trong các cơ sở dữ liệu cục bộ khác
nhau
Mang lại câu trả lời trùng lặp
Thường không thể tìm thấy cách viết lại tương đương
❑ Tốt nhất là tìm mộttruy vấn chứa tối đatrong đó tạo ra một tập
hợp con tối đa của câu trả lời
ví dụ: EMP3 chỉ có thể trả về một tập hợp con của nhân viên
❑ MiniCon
Truy vấn được viết lại là sự kết hợp của các truy vấn liên kết
Bước 1: chúng tôi có được 2 nhóm (một cho mỗi mục tiêu con củaHỏi)
b1 = {EMP1(E#,ENAME,TITLE′,THÀNH PHỐ),
EMP2(E#,ENAME,TITLE′,CITY)} =
b2 {WORKS1(E#,P#,DUR′)}
(các biến nguyên tố (TITLE' và DUR') không hữu ích)
❑
❑ Vấn đề tối ưu hóa
Thực hiện một truy vấn được thể hiện trên các mối quan hệ cục
bộ và tạo ra một QEP phân tán để được thực thi bởi các trình
bao bọc và trình hòa giải
Ba vấn đề chính
❑ Mô hình chi phí không đồng nhất
Để tạo ra một mô hình chi phí toàn cầu từ DBMS thành phần
❑ Tối ưu hóa truy vấn không đồng nhất
Để đối phó với các khả năng tính toán truy vấn khác nhau
❑ Xử lý truy vấn thích ứng
Để đối phó với các biến thể mạnh trong môi trường thực thi
Mục tiêu: xác định chi phí thực hiện các truy vấn con
tại DBMS thành phần
Ba cách tiếp cận
❑ Hộp đen: xử lý từng thành phần DBMS như một hộp đen và xác định chi phí
bằng cách chạy các truy vấn kiểm tra
❑ Tùy chỉnh: tùy chỉnh mô hình chi phí ban đầu
❑ Động: theo dõi hành vi thời gian chạy của DBMS thành
phần và tự động thu thập thông tin chi phí
Chạy các truy vấn thăm dò trên DBMS thành phần để tính
toán các hệ số chi phí
❑ Đếm số lượng bộ dữ liệu, đo lường chi phí, v.v.
❑ Trường hợp đặc biệt: truy vấn mẫu cho mỗi loại truy vấn quan trọng Sử
dụng phân loại để xác định các lớp
Các vấn đề
❑ Mô hình chi phí khởi tạo (bằng cách thăm dò hoặc lấy mẫu) có thể thay
đổi theo thời gian
❑ Hàm chi phí hợp lý có thể không nắm bắt được các chi tiết quan trọng của thành
phần DBMS
Dựa vào trình bao bọc (tức là nhà phát triển) để cung cấp thông
tin chi phí cho người hòa giải
Hai giải pháp
❑ Trình bao bọc cung cấp logic để tính toán ước tính chi phí
Access_cost = đặt lại + (thẻ-1)*nâng cao
❑ reset = thời gian bắt đầu truy vấn và nhận bộ dữ liệu đầu tiên
❑ trước = thời gian để lấy bộ tiếp theo (trước)
❑ thẻ = cardinality kết quả
❑ Mô hình chi phí phân cấp
Mỗi nút liên kết một mẫu truy vấn với một hàm chi phí
Nhà phát triển trình bao bọc có thể cung cấp thông tin chi phí ở các mức độ chi tiết
khác nhau, tùy thuộc vào kiến thức về DBMS thành phần
Giải quyết các khả năng không đồng nhất của DBMS thành phần
❑ Một DBMS có thể hỗ trợ các truy vấn SQL phức tạp trong khi một DBMS khác chỉ
chọn đơn giản trên một thuộc tính cố định
Hai cách tiếp cận, tùy thuộc vào cấp độ giao diện M/W
❑ dựa trên truy vấn
Tất cả các trình bao bọc đều hỗ trợ cùng một giao diện dựa trên truy vấn (ví dụ:
ODBC hoặc SQL/MED) để chúng xuất hiện đồng nhất với trình hòa giải
Các khả năng không được cung cấp bởi DBMS phải được hỗ trợ bởi các
hàm bao
❑ dựa trên nhà điều hành
Khả năng xuất trình bao bọc dưới dạng thành phần của toán tử
Khả năng cụ thể có sẵn cho hòa giải viên
Linh hoạt hơn trong việc xác định cấp độ của giao diện M/W
Giải pháp: chuyển đổi cây nối tuyến tính trái thành cây rậm rạp
sao cho
❑ Tổng chi phí ban đầu của QEP được duy trì
❑ Thời gian đáp ứng được cải thiện
thuật toán
❑ Cải thiện lặp lại cây tuyến tính trái ban đầu bằng cách di chuyển xuống các
cây con trong khi thời gian phản hồi được cải thiện
LỰA CHỌNENAME,PNAME,DUR
TỪ EMPASG
Ở ĐÂUTHÀNH PHỐ = "Paris" VÀ DUR>24
Được thực hiện bởi các hàm bao sử dụng DBMS thành phần
❑ Chuyển đổi giữa giao diện chung của trung gian hòa giải và giao diện
phụ thuộc DBMS
Dịch truy vấn từ trình bao bọc sang DBMS
Dịch định dạng kết quả từ DBMS sang trình bao bọc
❑ Trình bao bọc có lược đồ cục bộ được xuất sang bộ trung gian
(trong giao diện chung) và ánh xạ tới lược đồ DBMS
❑ Giao diện chung có thể dựa trên truy vấn (ví dụ: ODBC hoặc SQL/
MED) hoặc dựa trên người vận hành
Ngoài ra, các hàm bao có thể triển khai các toán tử không
được hỗ trợ bởi DBMS thành phần, ví dụ như tham gia
❑ Trình bao bọc hòa giải hiệu quả com. Tác động đến các chức năng chi phí
Xem xét EMP (ENO, ENAME, CITY) được lưu trữ trong tệp văn bản Unix
trong componentDB
❑ Mỗi bộ EMP là một dòng trong tệp, với các thuộc tính được phân tách bằng dấu “:”
Trình bao bọc chủ yếu được sử dụng cho các truy vấn chỉ đọc
❑ Làm cho việc dịch truy vấn và xây dựng trình bao bọc trở nên dễ dàng
❑ Các nhà cung cấp DBMS cung cấp các hàm bao tiêu chuẩn
ODBC, JDBC, ADO, v.v.
Cập nhật làm cho việc xây dựng trình bao bọc trở nên khó khăn hơn
❑ Vấn đề: tính không đồng nhất của các ràng buộc toàn vẹn
Tiềm ẩn trong một số DB kế thừa
❑ Giải pháp: đảo ngược kỹ thuật của DB kế thừa để xác định các ràng
buộc ngầm định và dịch mã xác thực trong trình bao bọc
bảo trì bao bì
❑ ánh xạ lược đồ có thể trở nên không hợp lệ do các thay đổi trong
lược đồ DB thành phần
Sử dụng phát hiện và hiệu chỉnh, sử dụng các kỹ thuật bảo
trì ánh xạ