Nâng trình phân tích dữ liệu kinh doanh bằng những khóa học của MDA
Kỹ Thuật Giảm Dữ Liệu Cho Mô Hình Nhập (Import Model)
Kỹ thuật giúp giảm bớt dữ liệu tải vào mô hình Nhập. Mô hình Nhập thường lưu trữ dữ liệu nén và tối ưu hóa bởi VertiPaq. Khi dữ liệu nguồn tải vào bộ nhớ, có thể nén đến 10 lần. Nén dữ liệu nguồn 10 GB thành khoảng 1 GB sẽ tối ưu hơn cho mô hình. Lưu trữ trên đĩa có thể giảm thêm 20%. Hãy cố gắng giảm thiểu dữ liệu tải vào các mô hình lớn. Hoặc mô hình sẽ trở nên lớn hơn theo thời gian.
Như vậy, các lý do mà nhà phân tích cần phải giảm dữ liệu cho mô hình nhập bao gồm:
- Kích thước mô hình lớn hơn có thể không được hỗ trợ. Dung lượng chia sẻ có thể lưu trữ các mô hình có kích thước lên tới 1 GB. Trong khi dung lượng Cao cấp cũng chỉ có thể lưu trữ các mô hình kích thước lên tới 13 GB.
- Kích thước mô hình nhỏ hơn làm giảm sự tốn kém về tài nguyên dung lượng, đặc biệt là bộ nhớ. Nó cho phép nhiều mô hình được tải đồng thời trong thời gian dài hơn. Do đó, nó dẫn đến tỷ lệ trục xuất thấp hơn.
- Các mô hình nhỏ hơn đạt được khả năng làm mới dữ liệu nhanh hơn, dẫn đến báo cáo độ trễ thấp hơn, thông lượng làm mới tập dữ liệu cao hơn và ít áp lực hơn đối với tài nguyên dung lượng và hệ thống nguồn.
- Số lượng hàng trong bảng nhỏ hơn sẽ giúp đánh giá tính toán nhanh hơn, điều này có thể mang lại hiệu suất truy vấn tổng thể tốt hơn.
Những kỹ thuật để giảm dữ liệu bao gồm:
- Xóa các cột không cần thiết
- Xóa các hàng không cần thiết
- Nhóm theo và tóm tắt
- Tối ưu hóa các loại dữ liệu cột
- Tùy chọn cho các cột tùy chỉnh
- Tắt tải truy vấn Power Query
- Tắt ngày/giờ tự động
- Chuyển sang chế độ hỗn hợp
1. Xóa các cột không cần thiết cho mô hình nhập
Các cột trong bảng mô hình có hai nhiệm vụ chính:
- Báo cáo, để đạt được các thiết kế báo cáo phù hợp với bộ lọc, nhóm và tóm tắt dữ liệu mô hình
- Cấu trúc mô hình , bằng cách hỗ trợ các mối quan hệ mô hình, tính toán mô hình, vai trò bảo mật và thậm chí cả định dạng màu dữ liệu
Các cột không phục vụ các mục đích này nên được xóa bớt đi. Loại bỏ các cột được gọi là lọc theo chiều dọc .
Chúng ta nên thiết kế các mô hình với số cột chính xác phù hợp dựa trên các yêu cầu báo cáo đã biết. Việc làm này có thể tốn thời gian, nhưng hãy nhớ rằng việc thêm các cột sau sẽ dễ dàng hơn là xóa chúng sau này. Việc xóa các cột có thể làm hỏng báo cáo hoặc cấu trúc mô hình.
2. Xóa các hàng không cần thiết cho mô hình nhập
Các bảng mô hình nên được tải với càng ít hàng càng tốt. Để làm được điều này, ta có thể tải các tập hợp hàng đã lọc theo thực thể (entity) hoặc theo thời gian (time) trong mô hình. Loại bỏ các hàng được gọi là lọc ngang .
Lọc theo thực thể liên quan đến việc tải một tập hợp con dữ liệu nguồn vào mô hình. Ví dụ: chỉ tải dữ liệu bán hàng cho một khu vực thay vì tất cả. Thiết kế nhỏ hơn và loại bỏ nhu cầu xác định bảo mật cấp hàng. Yêu cầu cấp quyền tập dữ liệu trong Power BI và tạo báo cáo “trùng lặp” kết nối. Sử dụng tham số Power Query và Power BI Template files để đơn giản hóa quản lý và xuất bản.
Hạn chế lượng dữ liệu lịch sử tải vào bảng dữ liệu bằng bộ lọc Power Query theo thời gian. Có thể tham số hóa và sử dụng khoảng thời gian tương đối. Thay đổi bộ lọc thời gian không làm hỏng báo cáo, chỉ thay đổi số lượng dữ liệu lịch sử trong báo cáo.
3. Nhóm theo và tóm tắt cho mô hình nhập
Có lẽ đây là kỹ thuật hiệu quả nhất để giảm kích thước mô hình. Kỹ thuật này có thể được sử dụng để nâng cao chất lượng của các bảng kiểu dữ kiện. Tuy nhiên, có một sự đánh đổi khác biệt, dẫn đến mất chi tiết.
Ví dụ: bảng dữ kiện bán hàng nguồn lưu trữ một hàng trên mỗi dòng đơn hàng. Tóm tắt dữ liệu bán hàng bằng cách nhóm theo ngày, khách hàng và sản phẩm. Nhóm theo tháng cũng có thể giảm kích thước mô hình đáng kể hơn. Tuy nhiên, báo cáo cấp độ ngày hoặc đặt hàng cá nhân không khả thi. Tóm tắt dữ liệu luôn tùy thuộc vào sự đánh đổi.
4. Tối ưu hóa các loại dữ liệu cột
Công cụ lưu trữ VertiPaq sử dụng các cấu trúc dữ liệu khác nhau cho từng cột. Để tối ưu dữ liệu số, các cấu trúc này mã hóa giá trị. Văn bản và dữ liệu không số sử dụng mã hóa hash. Công cụ lưu trữ gán mã số cho mỗi giá trị văn bản duy nhất trong cột. Để truy vấn, cần tra cứu hash trong cấu trúc dữ liệu.
Trong một số trường hợp, có thể chuyển đổi dữ liệu văn bản thành giá trị số. Ví dụ: số đơn hàng có tiền tố văn bản có thể chuyển thành số nguyên bằng cách xóa tiền tố. Dành cho bảng lớn, có thể giảm kích thước dữ liệu, đặc biệt là khi cột có giá trị cardinality cao hoặc duy nhất.
Xem thêm: Tạo Bảng Thời Gian Trong Power BI Desktop
5. Tùy chọn cho các cột tùy chỉnh
VertiPaq lưu trữ các cột tính toán theo mô hình (DAX) như các cột nguồn Power Query. Tuy nhiên, cấu trúc dữ liệu lưu trữ khác và nén kém hơn. Các cột tính toán trong Power Query (M) hiệu quả hơn so với các cột tính toán trong bảng dưới dạng cột.
Khuyến khích nên tạo các cột tùy chỉnh trong Power Query. Khi nguồn là cơ sở dữ liệu, bạn có thể đạt được hiệu quả tải cao hơn theo hai cách. Phép tính có thể được xác định trong câu lệnh SQL (sử dụng ngôn ngữ truy vấn gốc của nhà cung cấp) hoặc có thể được cụ thể hóa thành một cột trong nguồn dữ liệu.
Trong một số trường hợp, cột tính theo mô hình có thể tốt hơn. Ví dụ, đánh giá biện pháp hay cần hàm DAX để lập mô hình cụ thể.
6. Tắt tải truy vấn Power Query
Các truy vấn Power Query nhằm mục đích hỗ trợ tích hợp dữ liệu với các truy vấn khác sẽ không được tải vào mô hình. Để tránh tải truy vấn vào mô hình, hãy cẩn thận để đảm bảo rằng bạn tắt tải truy vấn trong những trường hợp này.
7. Tắt ngày/giờ tự động
Power BI Desktop bao gồm một tùy chọn có tên Ngày/giờ tự động. Khi được bật, nó sẽ tạo một bảng ngày/giờ tự động ẩn cho các cột ngày để hỗ trợ tác giả báo cáo khi định cấu hình các bộ lọc, nhóm và hành động truy sâu cho các khoảng thời gian trên lịch. Các bảng ẩn trên thực tế là các bảng đã được tính toán sẽ làm tăng kích thước của mô hình.
8. Chuyển sang chế độ hỗn hợp
Trong Power BI Desktop, thiết kế chế độ Hỗn hợp (Mixed mode) tạo ra mô hình Tổng hợp (Composite model). Về cơ bản, nó cho phép bạn xác định chế độ lưu trữ cho mỗi bảng. Do đó, mỗi bảng có thể được đặt thuộc tính Storage Mode là Import hoặc DirectQuery (Dual là một tùy chọn khác).
Để giảm kích thước mô hình, hãy thiết lập Chế độ lưu trữ (Storage Mode) cho bảng dữ liệu lớn thành DirectQuery. Kỹ thuật này tốt khi kết hợp với Nhóm theo và tóm tắt.
Ví dụ: sử dụng dữ liệu bán hàng tóm tắt để tạo báo cáo “tóm tắt” hiệu suất cao. Trên trang chi tiết, hiển thị doanh số bán hàng chi tiết qua bộ lọc cụ thể và tất cả đơn đặt hàng bán hàng. Trong ví dụ này, trang truy sâu sẽ có hình ảnh trực quan dựa trên bảng DirectQuery để truy xuất dữ liệu đơn đặt hàng.
Trên đây là những thông tin cần thiết để biết kỹ thuật giảm dữ liệu cho mô hình nhập trong Power BI Desktop. Để tìm hiểu thêm về Power BI Desktop, các bạn có thể tham khảo series Power BI Desktop tại Mastering Data Analytics. Cảm ơn các bạn đã đọc bài!
Xem thông tin khai giảng Khóa học Business Intelligence sớm nhất tại Mastering Data Analytics. Với mọi thắc mắc xin liên hệ hotline 0961 48 66 48 hoặc inbox Fanpage Mastering Data Analytics để đăng ký nhanh nhất nhé!