Nâng trình phân tích dữ liệu kinh doanh bằng những khóa học của MDA
So Sánh Các Kiểu Kết Nối Dữ Liệu
Có nhiều cách để kết nối dữ liệu với nhau trong Power BI Desktop như: Import, DirectQuery và Live connections.
Thông thường, cách sử dụng phổ biến nhất là Import – bạn sẽ nhúng dữ liệu vào Power BI. Tuy nhiên, trong một số trường hợp bạn cần phải kết nối trực tiếp với nguồn dữ liệu ban đầu để sử dụng, đây được gọi là DirectQuery.
Bài viết này sẽ so sánh sự khác nhau giữa Import và Direct Query cùng với một số kiến nghị về thời điểm sử dụng từng loại sao cho phù hợp.
1. Tổng quan về kiểu kết nối dữ liệu theo chế độ Import
Sử dụng chế độ Import của kết nối, Power BI sẽ lưu vào bộ nhớ đệm dữ liệu mà bạn đã liên kết tới, cung cấp ảnh chụp nhanh dữ liệu của bạn tại một thời điểm cụ thể. Tất cả các tương tác và bộ lọc dữ liệu của bạn sẽ được áp dụng cho nguồn bộ đệm đã nén này thay vì nguồn dữ liệu gốc.
Chế độ Import hỗ trợ nhiều nguồn dữ liệu như Excel, CSV, Social media, URL web, dữ liệu CRM, v.v. như được hiển thị bên dưới.
Xem thêm: Kỹ Thuật Giảm Dữ Liệu Cho Mô Hình Nhập (Import Model)
2. Tổng quan về kiểu kết nối dữ liệu theo Chế độ DirectQuery
Khi bạn kết nối nguồn dữ liệu bằng kỹ thuật DirectQuery, bảng thông tin của bạn sẽ truy vấn nguồn dữ liệu ngay lập tức trong thời gian chạy. Mỗi bộ lọc và tương tác với báo cáo sẽ dẫn đến một loạt truy vấn mới. Vì không có dữ liệu nào được nhập vào Power BI nên người dùng luôn có thể truy vấn dữ liệu đã tồn tại trong nguồn dữ liệu.
Mỗi yêu cầu/lệnh của bạn đều sẽ tác động trực tiếp đến nguồn dữ liệu (thường là cơ sở dữ liệu SQL) và kéo dữ liệu từ đó vào Power BI.
Trực tiếp DirectQuery hỗ trợ một số nguồn dữ liệu như máy chủ SQL, khối dữ liệu Azure, Amazon Redshift, v.v. như minh họa trong hình bên dưới.
Một số lợi ích khi sử dụng chế độ DirectQuery:
- Data Scheduling: Dữ liệu được truy vấn từ nguồn dữ liệu, đảm bảo rằng bạn nhận được thông tin cập nhật nhất. Cứ sau 15 phút, báo cáo được làm mới.
- Các tệp có dung lượng nhỏ hơn: Các tệp Power BI Desktop nhỏ hơn nhiều và dễ làm việc hơn vì bạn không lưu trữ dữ liệu của mình vào bộ nhớ cache khi sử dụng Truy vấn trực tiếp (lưu nhanh hơn, xuất bản, v.v.)
- Giải quyết được vấn đề không gian lưu trữ bị hạn chế
- Bạn không phải lưu trữ dữ liệu nén đó trên Power BI Service nếu bạn không có bộ đệm, do đó bạn không cần nhiều dung lượng lưu trữ trên Service.
- DirectQuery cho phép bạn tạo trực quan hóa từ các bộ dữ liệu rất lớn, điều mà nếu không sẽ không thể thực hiện được với tổng hợp trước.
- Những thay đổi trong dữ liệu cơ bản có thể yêu cầu làm mới dữ liệu. Sự cần thiết phải hiển thị dữ liệu hiện tại trong một số báo cáo có thể yêu cầu chuyển dữ liệu lớn, khiến việc nhập lại dữ liệu là không thể. Mặt khác, báo cáo DirectQuery luôn sử dụng dữ liệu hiện tại.
- DirectQuery được miễn giới hạn tập dữ liệu 1 GB.
3. Truy vấn DirectQuery có nhanh hơn Chế độ Import trong Power BI không?
Import là tùy chọn tốt nhất nếu dữ liệu của bạn dưới 1 GB và không cập nhật liên tục. Bởi vì tất cả dữ liệu đến từ Power BI Desktop Cache. Vì vậy, trong trường hợp như vậy, chế độ Import sẽ nhanh hơn chế độ DirectQuery khi kích thước tệp dữ liệu dưới 1 GB.
4. Cách thay đổi Chế độ Import thành Chế độ truy vấn DirectQuery trong Power BI
Thực hiện chuyển sang DirectQuery từ chế độ Import theo các bước sau:
- Bấm vào Chỉnh sửa truy vấn để mở Power Query Editor.
- Kiểm tra kỹ xem truy vấn hàng đầu đã được chọn chưa.
- Nhấp vào truy vấn dưới cùng trong khi giữ phím Shift; điều này sẽ chọn tất cả các câu hỏi.
- Nhấn Ctrl + C trên bàn phím của bạn.
- Mở trình soạn thảo văn bản bạn chọn (như Notepad).
- Giữ phím Ctrl và nhấn phím V.
Xem thêm: Sử Dụng Chức Năng DirectQuery For Power BI Datasets And Analysis Services – Phần 1
5. Cách thay đổi Chế độ truy vấn DirectQuery thành Chế độ Import trong Power BI
- Tạo một tệp csv trước.
- Chọn tệp csv từ menu Get Data.
- Chọn Load từ trình đơn thả xuống.
- Một thông báo rằng tất cả các truy vấn phải được chuyển sang chế độ Importsẽ được hiển thị.
- Chọn Switch.
- Cập nhật mô hình.
6. Khi nào nên sử dụng DirectQuery?
Khi “thời gian thực” hoặc “gần thời gian thực
Nếu bạn yêu cầu dữ liệu “thời gian thực” hoặc “gần thời gian thực”, nên xem xét chế độ DirectQuery. Vì chế độ Nhập lưu ảnh chụp nhanh dữ liệu của bạn nên nó phải được làm mới thường xuyên để có được thông tin cập nhật nhất. Chế độ nhập gần như không thể sử dụng nếu bạn cần dữ liệu với độ trễ tối đa là 1 phút.
Khi kích thước dữ liệu quá lớn đến mức bạn không thể vừa với kích thước tệp .pbix tối đa, thì bạn nên sử dụng DirectQuery. Dữ liệu nằm trong nguồn với DirectQuery và các tổng hợp/tính toán của bạn được thực hiện tốt trước khi các kết quả đã sửa đổi được trả về báo cáo của bạn.
Dưới đây là bảng tổng hợp về các yếu tố so sánh giữa Import và DirectQuery:
Import Mode | Direct Query or Live Connection | |
Tần suất Refresh | Công việc không đồng bộ được lập trình hàng giờ hoặc hàng ngày | Thời gian thực |
Hiệu suất | Vì mô hình dữ liệu đã được lưu trong bộ nhớ đệm nên không có độ trễ hiển thị. | Bởi vì các truy vấn được xử lý trong thời gian thực, nó phụ thuộc vào tốc độ liên kết mạng và nguồn dữ liệu.Mô hình Dữ liệu chỉ lưu trữ siêu dữ liệu và cấu trúc lược đồ |
Lưu trữ dữ liệu trong Power BI | Dữ liệu được lưu trữ trong Dịch vụ Power BI vì đây là chế độ được lưu trong bộ nhớ cache (đám mây) | Dịch vụ đám mây Power BI sẽ không lưu trữ bất kỳ dữ liệu nào. Dữ liệu được lưu giữ tại chỗ. |
Kích thước tập dữ liệu (Tối đa) | Mỗi kiểu máy, có giới hạn cố định là 1 GB (nén dữ liệu theo cột). | Không có giới hạn về lượng dữ liệu có thể được lưu trữ trong cơ sở dữ liệu tại chỗ. |
Bảo mật | Trên bộ dữ liệu PBI, người dùng có thể xây dựng bảo mật cấp hàng (chỉ nhập) | Sử dụng biểu thức DAX, tái sử dụng bảo mật cấp hàng tại chỗ cho Analysis Services Tabular. |
Target Audience | Bộ dữ liệu có kích thước vừa và nhỏ | Bộ dữ liệu lớn (Lớn hơn 1 GB)Theo mô hình |
Hỗ trợ nguồn dữ liệu | Tất cả các Nguồn dữ liệu và Chuyển đổi đều được hỗ trợ.Nhiều nguồn dữ liệu được hỗ trợ. | Nguồn dữ liệu Truy vấn trực tiếp Power BI: Chỉ hỗ trợ một nguồn dữ liệu.Chỉ hỗ trợ Lọc theo một hướng Lọc theo cả hai hướng không được hỗ trợ. |
Kích thước tối đa | 1 GB sau khi nén ở cấp độ cột | Mỗi tập dữ liệu, có thể truy xuất tối đa một triệu hàng. |
Xem thông tin khai giảng Khóa học Business Intelligence mới nhất tại Mastering Data Analytics. Liên hệ 0961 48 48 66 hoặc inbox Fanpage Mastering Data Analytics để đăng ký nhanh nhất nhé!