Blog
8 phút đọc

Hiểu Về Kiến Trúc Data Warehouse/Business Intelligence Của Kimball

Để hiểu hệ thống DW/BI bạn nên hiểu chiến lược của từng phần để tránh nhầm vai trò và chức năng của chúng. Có 4 phần cần xem trong DW/BI: Hệ thống nguồn vận hành, Hệ thống ETL, Khu vực trình bày dữ liệu và Các ứng dụng Business Intelligence.

1. Hệ thống nguồn vận hành (Source Transaction)

Hệ thống nguồn vận hành hoạt động nhằm nắm bắt các giao dịch của doanh nghiệp. Ưu tiên của hệ thống là hiệu suất xử lý và tính khả dụng. Truy vấn hoạt động của hệ thống là các truy vấn hẹp. Một phần của luồng giao dịch thông thường sẽ hạn chế trong hệ thống vận hành. Sẽ an toàn hơn khi hệ thống nguồn không được truy vấn rộng rãi và ngẫu nhiên như DW/BI . Hệ thống nguồn duy trì ít dữ liệu lịch sử. Kho dữ liệu tốt sẽ giảm phần lớn trách nhiệm của hệ thống nguồn.

2. Trích xuất, chuyển đổi và tải

Hệ thống trích xuất, chuyển đổi và tải bao gồm: vùng làm việc, cấu trúc dữ liệu được khởi tạo và tập hợp các quy trình. Hệ thống ETL là mọi thứ nằm giữa hệ thống nguồn vận hành và khu vực trình bày.

Bước 1: Trích xuất dữ liệu

Trích xuất là bước đầu tiên trong quá trình lấy dữ liệu trong kho dữ liệu. Có thể hiểu trích xuất là đọc-hiểu dữ liệu và đưa dữ liệu vào hệ thống ETL để xử lý. Tại thời điểm này, dữ liệu thuộc về kho dữ liệu.

Bước 2: Xử lý dữ liệu

Sau khi dữ liệu được trích xuất vào hệ thống thì có nhiều vấn đề cần phải được xử lí. Chẳng hạn như làm sạch dữ liệu, kết hợp dữ liệu nhiều nguồn và loại bỏ dữ liệu trùng lặp. Hệ thống ETL bổ sung giá trị dữ liệu với các tác vụ thay đổi và củng cố hệ thống. Ngoài ra, các hoạt động được cấu trúc để tạo siêu dữ liệu chẩn đoán. Sau cùng là tái cấu trúc quy trình kinh doanh để cải thiện chất lượng.

Bước 3: Cấu trúc và tải dữ liệu

Cấu trúc và tải dữ liệu vào đúng mô hình theo chiều dữ liệu là bước cuối cùng. Bàn giao các dimension table và fact table trong bước phân tích nên những hệ thống con rất quan trọng. Nhiều hệ thống con dùng để xử lý bảng thứ nguyên như gán khóa, tra cứu mã,… Các fact table mất thời gian tải, nhưng việc chuẩn bị cho khu vực trình bày thường đơn giản. Khi bảng thứ nguyên và fact table trong mô hình chiều dữ liệu được cập nhật và đảm bảo chất lượng thì cộng đồng doanh nghiệp sẽ được thông báo rằng dữ liệu mới được xuất bản.

Các hệ thống ETL thường gồm các hoạt động đơn giản là sắp xếp và xử lý tuần tự. Trường hợp hệ thống ETL không dựa trên công nghệ quan hệ mà dựa trên hệ thống các tệp phẳng. Để tuân thủ các quy tắc kinh doanh đã xác định thì không cần thực hiện bước cuối cùng.

3. Khu vực trình bày hỗ trợ Business Intelligence

Khu vực trình bày là nơi sắp xếp, cung cấp và lưu trữ dữ liệu để truy vấn bởi người dùng. Hệ thống ETL là khu vực bị giới hạn, nên khu vực trình bày đang được các doanh nghiệp quan tâm.

Có một số ý kiến khá gay gắt về khu vực trình bày, lưu trữ và dữ liệu trình bày. Truy cập vào các lược đồ thứ nguyên, lược đồ sao quan hệ (Relationship/synastry chart) hoặc khối OLAP. Trong ngành công nghiệp này, đã phát triển đến mức chúng ta không tranh cãi về cách tiếp cận nữa. Công nghệ này đã kết luận mô hình hóa chiều là kỹ thuật khả thi nhất để cung cấp dữ liệu cho người dùng DW/BI.

Ngoài ra, khu vực trình bày là nơi chứa dữ liệu nguyên tử một cách chi tiết chi tiết. Dữ liệu nguyên tử được yêu cầu để đáp ứng các truy vấn đặc biệt không thể đoán trước của người dùng. Mặc dù, khu vực trình bày có thể chứa dữ liệu tổng hợp để nâng cao hiệu suất, sẽ không đủ khi chúng ta chỉ cung cấp dữ liệu tổng hợp mà không có dữ liệu chi tiết. Dữ liệu chi tiết bắt buộc có sẵn trong khu vực trình bày, để người dùng có thể đặt câu hỏi chính xác nhất có thể. Các yêu cầu của người dùng không thể đoán trước và sẽ thay đổi liên tục, bạn phải cung cấp quyền truy cập vào các chi tiết nhỏ nhất để họ có thể giải quyết các câu hỏi tại thời điểm đó.

4. Business Intelligence Application

Thành phần chính cuối cùng của kiến trúc Kimball DW/BI là ứng dụng Business Intelligence (BI Application). Thuật ngữ BI cung cấp cho người dùng doanh nghiệp tận dụng khu vực trình bày ra quyết định phân tích. Tất cả các ứng dụng BI đều truy vấn dữ liệu trong khu vực trình bày. Truy vấn toàn bộ mục đích của việc sử dụng dữ liệu để giải quyết và đưa ra quyết định.

Ứng dụng BI có thể đơn giản như là một công cụ truy vấn ad-hoc hoặc phức tạp như một ứng dụng mô hình khai thác dữ liệu phức tạp. Các công cụ truy vấn ad-hoc, chỉ có thể hiểu và sử dụng hiệu quả bởi một tỷ lệ phần trăm nhỏ người dùng doanh nghiệp. Hầu hết người dùng doanh nghiệp sẽ có khả năng truy cập dữ liệu thông qua các biểu mẫu và ứng dụng dựa trên tham số được dựng sẵn và không yêu cầu người dùng trực tiếp xây dựng truy vấn. Một số ứng dụng tinh vi hơn, ví dụ như công cụ lập mô hình hoặc dự báo, có thể tải kết quả trở lại hệ thống nguồn vận hành, hệ thống ETL hoặc khu vực trình bày.

(Hệ thống vận hành Data Warehouse/Business Intelligence Của Kimball)

Mastering Data Analytics tự hào là đơn vị đào tạo Kỹ năng Phân tích Dữ liệu Kinh doanh hàng đầu Việt Nam. Các Khóa học Phân tích Dữ liệu Kinh doanh được khai giảng định kì hàng tháng. Với hai hình thức học: Online và Offline tạo điều kiện cho học viên linh hoạt sắp xếp thời gian. Truy cập Khóa học Business Intelligence để biết lịch khai giảng gần nhất. Mọi thắc mắc về khóa học bạn có thể inbox Fanpage Mastering Data Analytics hoặc liên hệ 0961 48 66 48 để được giải đáp miễn phí.