ETL Testing or Data Warehouse Testing Tutorial (Phần I)
Trước khi chúng ta muốn tìm hiểu về ETL Kiểm thì chúng ta phải hiểu rõ được một số thuật ngữ: I. BI là gì? Business Intelligence là quá trình thu thập dữ liệu thô hoặc dữ liệu kinh doanh và biến nó thành thông tin hữu ích và có ý nghĩa hơn. Các dữ liệu thô là các hồ sơ của các giao dịch hàng ...
Trước khi chúng ta muốn tìm hiểu về ETL Kiểm thì chúng ta phải hiểu rõ được một số thuật ngữ: I. BI là gì? Business Intelligence là quá trình thu thập dữ liệu thô hoặc dữ liệu kinh doanh và biến nó thành thông tin hữu ích và có ý nghĩa hơn. Các dữ liệu thô là các hồ sơ của các giao dịch hàng ngày của một tổ chức như tương tác với khách hàng, quản lý tài chính và quản lý nhân viên,....vv. Những dữ liệu này sẽ được sử dụng cho “Báo cáo, phân tích, khai thác dữ liệu, chất lượng dữ liệu và Giải thích, phân tích tiên đoán”. Data Warehouse là gì? Một kho dữ liệu là một cơ sở dữ liệu được thiết kế cho truy vấn và phân tích hơn là cho xử lý giao dịch. Các kho dữ liệu được xây dựng bằng cách tích hợp dữ liệu từ nhiều nguồn.Nó cho phép công ty hoặc tổ chức hợp nhất dữ liệu từ nhiều nguồn và tách khối lượng công việc phân tích từ khối lượng công việc giao dịch. Dữ liệu được chuyển thành thông tin chất lượng cao để đáp ứng tất cả các yêu cầu báo cáo doanh nghiệp cho tất cả các cấp của người dùng. II. ETL là gì? ETL là viết tắt của Extract-Transform-Load và nó là quá trình làm thế nào dữ liệu được tải từ hệ thống nguồn vào kho dữ liệu.. Dữ liệu được trích xuất từ cơ sở dữ liệu OLTP, được chuyển đổi để phù hợp với lược đồ kho dữ liệu và được nạp vào cơ sở dữ liệu kho dữ liệu. Nhiều kho dữ liệu cũng kết hợp dữ liệu từ các hệ thống không phải là OLTP như các tệp văn bản, các hệ thống kế thừa và bảng tính.
=> Hãy xem làm thế nào nó hoạt động Ví dụ, có một cửa hàng bán lẻ trong đó có các bộ phận khác nhau như bán hàng, tiếp thị, hậu cần vv. Mỗi người trong số họ đang xử lý thông tin khách hàng một cách độc lập, và cách họ lưu trữ dữ liệu là khá khác nhau. Bộ phận bán hàng đã lưu trữ nó theo tên của khách hàng, trong khi bộ phận tiếp thị theo id khách hàng. Bây giờ nếu họ muốn kiểm tra lịch sử của khách hàng và muốn biết những sản phẩm khác nhau mà họ mua do các chiến dịch tiếp thị khác nhau; Nó sẽ rất tẻ nhạt.
- Các giải pháp là sử dụng một Datawarehouse để lưu trữ thông tin từ các nguồn khác nhau trong một cấu trúc thống nhất sử dụng ETL. ETL có thể biến đổi các bộ dữ liệu không giống nhau thành một cấu trúc thống nhất.Sau đó sử dụng các công cụ BI để thu thập các thông tin chi tiết và báo cáo có ý nghĩa từ dữ liệu này Sơ đồ dưới đây cho bạn biết MAP ROAD của quá trình ETL
-
Extract Trích xuất dữ liệu có liên quan
-
Transform Chuyển đổi dữ liệu sang định dạng DW (Data Warehouse) Khóa xây dựng - Khóa chính là một hoặc nhiều thuộc tính dữ liệu nhận dạng duy nhất một thực thể. Các loại khóa chính là chìa khóa chính, phím xen kẽ, khoá nước ngoài, phím ghép, phím đại diện. Kho dữ liệu sở hữu các phím này và không bao giờ cho phép bất kỳ thực thể khác gán cho chúng. Rửa sạch dữ liệu: Sau khi dữ liệu được chiết xuất, nó sẽ di chuyển vào giai đoạn tiếp theo, làm sạch và phù hợp của dữ liệu. Việc làm sạch sẽ làm mất dữ liệu cũng như xác định và sửa lỗi. Việc tuân thủ có nghĩa là giải quyết mâu thuẫn giữa những dữ liệu đó không tương thích để chúng có thể được sử dụng trong kho dữ liệu doanh nghiệp. Ngoài ra, hệ thống này tạo ra siêu dữ liệu được sử dụng để chẩn đoán các vấn đề hệ thống nguồn và nâng cao chất lượng dữ liệu.
-
Load Tải dữ liệu vào DW (Data Warehouse) Build aggregates - Tạo tổng hợp là tổng hợp và lưu trữ dữ liệu có sẵn trong bảng sự kiện để cải thiện hiệu suất của các truy vấn của người dùng cuối. III. ETL Thử nghiệm là gì? Thử nghiệm ETL được thực hiện để đảm bảo rằng dữ liệu đã được tải từ nguồn đến đích sau khi chuyển đổi doanh nghiệp là chính xác. Nó cũng bao gồm việc xác minh dữ liệu ở các giai đoạn giữa đang được sử dụng giữa nguồn và đích. ETL là viết tắt của Extract-Transform-Load. IV. Kiểm tra quy trình ETL Tương tự như các Quy trình Thử nghiệm khác, ETL cũng trải qua các giai đoạn khác nhau. Các giai đoạn khác nhau của quá trình thử nghiệm ETL như sau: Thử nghiệm ETL được thực hiện trong năm giai đoạn
- Xác định nguồn dữ liệu và yêu cầu
- Thu thập dữ liệu
- Thực hiện logic kinh doanh và mô hình hóa chiều
- Xây dựng và lưu trữ dữ liệu
- Xây dựng báo cáo VI. Các loại kiểm tra ETL
Các loại kiểm tra | Quá trình thử nghiệm |
---|---|
Production Validation Testing | “Table balancing” or “production reconciliation” loại thử nghiệm ETL này được thực hiện trên dữ liệu khi nó được chuyển sang các hệ thống sản xuất. Để hỗ trợ quyết định kinh doanh của bạn, dữ liệu trong hệ thống sản xuất của bạn phải ở đúng thứ tự. Tùy chọn Xác nhận Dữ liệu Informatica cung cấp khả năng tự động kiểm tra ETL và khả năng quản lý để đảm bảo rằng các hệ thống sản xuất không bị ảnh hưởng bởi dữ liệu. |
Source to Target Testing (Validation Testing) | Loại thử nghiệm như vậy được thực hiện để xác nhận liệu các giá trị dữ liệu được chuyển đổi có phải là các giá trị dữ liệu mong muốn hay không. |
Application Upgrades | Loại thử nghiệm ETL như vậy có thể được tạo tự động, tiết kiệm thời gian thử nghiệm phát triển đáng kể. Loại kiểm tra này kiểm tra liệu dữ liệu được trích xuất từ một ứng dụng cũ hoặc kho lưu trữ chính xác giống với dữ liệu trong một kho lưu trữ hay ứng dụng mới. |
Metadata Testing | Thử nghiệm siêu dữ liệu bao gồm kiểm tra kiểm tra kiểu dữ liệu, kiểm tra độ dài dữ liệu và kiểm tra chỉ mục / ràng buộc. |
Data Completeness Testing | Để xác minh rằng tất cả dữ liệu mong muốn được nạp vào đích từ nguồn, thì việc hoàn thành dữ liệu đã hoàn tất. Một số thử nghiệm có thể chạy được so sánh và xác nhận tính, tổng hợp và dữ liệu thực tế giữa nguồn và đích cho các cột có sự chuyển đổi đơn giản hoặc không chuyển đổi. |
Data Accuracy Testing | Thử nghiệm này được thực hiện để đảm bảo rằng dữ liệu được nạp chính xác và chuyển đổi như mong đợi. |
Data Transformation Testing | Thử nghiệm chuyển đổi dữ liệu được thực hiện như trong nhiều trường hợp nó không thể đạt được bằng cách viết một truy vấn SQL nguồn và so sánh sản lượng với mục tiêu. Nhiều truy vấn SQL có thể cần phải được chạy cho mỗi hàng để xác minh các quy tắc chuyển đổi. |
Data Quality Testing | Kiểm tra chất lượng dữ liệu bao gồm các phép thử cú pháp và tham khảo. Để tránh bất kỳ lỗi nào do ngày hoặc số thứ tự trong quá trình kinh doanh Chất lượng kiểm tra dữ liệu được thực hiện. Kiểm tra cú pháp: Nó sẽ báo cáo dữ liệu bẩn, dựa trên các ký tự không hợp lệ, mẫu ký tự, lệnh trường hợp không đúng hoặc thấp hơn. Các bài kiểm tra tham khảo: Nó sẽ kiểm tra dữ liệu theo mô hình dữ liệu. Ví dụ: Kiểm tra chất lượng dữ liệu ID khách hàng bao gồm kiểm tra số, kiểm tra ngày, kiểm tra chính xác, kiểm tra dữ liệu, kiểm tra không hợp lệ vv |
Incremental ETL testing | Thử nghiệm này được thực hiện để kiểm tra tính toàn vẹn dữ liệu của dữ liệu cũ và dữ liệu mới với việc bổ sung dữ liệu mới. Thử nghiệm gia tăng xác minh rằng chèn và cập nhật đang được xử lý như mong đợi trong quá trình ETL gia tăng. |
GUI/Navigation Testing | Thử nghiệm này được thực hiện để kiểm tra các điều hướng hoặc các khía cạnh GUI của báo cáo kết thúc giao diện. |