Kiến thức
12 phút đọc

Giới Thiệu Dataflow Và Cách Sử Dụng Luồng Dữ Liệu

Dataflow trong Power BI service là gì? Cách tạo dataflow trên Power BI service hiệu quả? Datahub là gì? Chắc hẳn các bạn mới làm quen với Power BI service sẽ thường hay thắc mắc về những vấn đề trên. Nhắm bắt được điều đó, MDA sẽ chia sẻ tất tần tật về dataflow hay còn gọi là luồng dữ liệu và datahub trong bài viết này.

1. Giới thiệu dataflow và datahub

Datahub là gì? Datahub giúp bạn tìm, khám phá và sử dụng các mục dữ liệu trong tổ chức của bạn. Ví dụ như dữ liệu, datamart và các báo cáo liên quan. Nó cung cấp thông tin liên quan.

Còn Dataflown hay gọi là luồng dữ liệu là tập hợp các bảng được tạo và quản lý trong không gian làm việc trong Power BI Service. Nó giống như một bảng trong cơ sở dữ liệu. Bạn có thể thêm và chỉnh sửa các bảng trong Dataflow của mình. Bên cạnh đó, bạn cũng có thể quản lý lịch trình làm mới dữ liệu thông qua không gian làm việc.

2. Cách truy cập vào Data hub (Trung tâm dữ liệu)

Để truy cập vào trung tâm dữ liệu, chúng ta cần làm theo các bước sau:

Đầu tiên, trong ngăn điều hướng bên trái Power BI, hãy chọn Data Hub.

data hub

Datahub cho bạn một lựa chọn các mục dữ liệu được đề xuất và danh sách tất cả các dữ liệu trong tổ chức mà bạn có quyền truy cập.

Data discovery using the data hub – Power BI | Microsoft Learn

3. Cách tạo Dataflow

Để tạo Dataflow trên Power BI Service, bạn cần làm như sau:

Đầu tiên, bạn cần chọn không gian làm việc từ khung Nav ở bên trái. Vì Dataflows không có sẵn trong My workspace trên Power BI Service.

Bạn cũng có thể tạo một không gian làm việc mới để tạo.

start creating your dataflow

3.1. Tạo Dataflow bằng define new table

Khi nhấp chuột vào Define new tables, nó cho phép bạn xác định một bảng mới và kết nối với nguồn dữ liệu mới.

new table

Khi bạn chọn nguồn dữ liệu, bạn phải cung cấp các cài đặt kết nối. Các cài đặt kết nối đó bao gồm cả tài khoản sẽ sử dụng khi kết nối với nguồn dữ liệu.

dataflow

Sau khi kết nối, bạn có thể chọn dữ liệu nào sẽ sử dụng cho bảng của bạn. Khi bạn chọn dữ liệu và nguồn, Power BI kết nối lại với nguồn dữ liệu và làm mới dữ liệu. Tần suất sẽ tùy thuộc vào phần cài đặt trong quá trình thiết lập.

dataflow

Khi bạn chọn dữ liệu để sử dụng bạn có thể sử dụng trình soạn thảo Dataflow để chuyển đổi dữ liệu đó thành định dạng cần thiết.

Xem thêm: So Sánh Power BI Desktop Và Power BI Service

3.2. Tạo Dataflow bằng các bảng liên kết

Tạo một Dataflow bằng các bảng được liên kết cho phép bạn tham chiếu một bảng hiện có. Và bảng đó đã được xác định trong một Dataflow khác (theo kiểu chỉ đọc).

Khi nào nên tạo Dataflow bằng bảng liên kết?

Khi bạn muốn sử dụng lại một bảng trên nhiều tập dữ liệu, chẳng hạn như bảng ngày hoặc bảng tra cứu. Bạn nên tạo một bảng một lần và sau đó tham chiếu đến nó khi sử dụng những dữ liệu khác.

Khi bạn muốn tránh tạo bảng nhiều lần để làm mới cho nguồn dữ liệu, bạn nên sử dụng các bảng được liên kết. Điều này giúp lưu trữ dữ liệu và hoạt động như một bộ đệm. Và mọi người dùng tiếp theo sẽ tận dụng bảng đó, giảm tải việc load nguồn dữ liệu cơ bản.

Khi bạn cần thực hiện hợp nhất giữa hai bảng.

Cách tạo Dataflow bằng bảng liên kết

Khi bạn có một Dataflow với danh sách các bảng, bạn có thể thực hiện các tính toán trên các bảng đó. Trong Dataflow trong Power BI Service, chọn Edit tables và nhấp chuột phải vào bảng bạn muốn sử dụng.

Sau đó, trong menu, chọn Reference.

Để bảng đủ điều kiện làm bảng được tính toán, phải kiểm tra lựa chọn Enable load như trong hình sau.

dataflow

Bằng cách chọn Enable load, bạn tạo một bảng mới mà nguồn của nó là bảng đã được tham chiếu. Biểu tượng thay đổi và hiển thị ra một biểu tượng được tính toán, như hình sau.

dataflow

Bất kỳ thao tác chuyển đổi nào mà bạn thực hiện trên bảng tạm thời mới được tạo sẽ được thực hiện với dữ liệu lưu trữ trong bộ lưu trữ Dataflow của Power BI. Nghĩa là truy vấn sẽ không được thực thi đối với dữ liệu bên ngoài được nhập vào.

3.3. Tạo Dataflow bằng việc sử dụng Common Data Mode folder

Tạo một Dataflow từ thư mục CDM cho phép bạn tham chiếu một bảng đã được viết bởi một ứng dụng khác trong CDM.

Bạn được yêu cầu cung cấp đường dẫn để hoàn chỉnh định dạng CDM được lưu trữ trong ADLS Gen 2.

dataflow

Muốn tạo dữ liệu từ các thư mục CDM, bạn cần phải có:

Tài khoản ADLS Gen 2 phải có các quyền thích hợp để PBI truy cập vào tệp.

Tài khoản ADLS Gen 2 phải được truy cập bởi người dùng đang tạo Dataflow.

URL phải là đường dẫn tệp trực tiếp đến tệp JSON và sử dụng điểm cuối ADLS Gen 2 là blob.Core không được hỗ trợ.

3.4. Tạo Dataflow bằng cách sử import/export

Tạo Dataflow bằng import/export cho phép bạn nhập nó từ một tệp. Điều này giúp bạn thuận tiện hơn khi muốn lưu bản sao Dataflow hoặc di chuyển.

Để xuất Dataflow, chọn Dataflow bạn đã tạo và chọn More ở mục menu (Ellipsis) để mở rộng các tùy chọn. Sau đó chọn Export.json.

dataflow

Để nhập một Dataflow, chọn hộp nhập và tải lên tệp. Power BI tạo dữ liệu và cho phép bạn lưu nó để thực hiện thêm một số thay đổi.

4. Cấu hình Dataflow

Với Dataflows, bạn có thể thống nhất dữ liệu từ nhiều nguồn. Bất cứ khi nào bạn tạo Dataflow, bạn được hỏi có làm mới dữ liệu cho Dataflow.

Làm mới một Dataflow được yêu cầu trước khi nó được sử dụng trong trên Power BI Desktop. Hoặc nó được tham chiếu dưới dạng bảng được liên kết hoặc tính toán.

Để cấu hình mới Dataflow chọn More menu (Ellipsis) và chọn Settings.

dataflow

Các lựa chọn trong Settings sẽ cung cấp nhiều cho bạn nhiều lựa chọn như hình:

dataflow

4.1. Take ownership

Nếu không phải là chủ sở hữu của Dataflow, nhiều cài đặt trong số này sẽ không thực hiện được. Để có quyền sở hữu Dataflow, chọn Take over để kiểm soát. Bạn phải cung cấp thông tin đăng nhập để đảm bảo bạn có quyền truy cập cần thiết.

4.2. Gateway Connection

Bạn có thể chọn liệu Dataflow có sử dụng cổng hay không và chọn cổng nào để sử dụng. 

4.3. Data Source Credentials

Trong phần này bạn chọn thông tin đăng nhập đang được sử dụng và có thể thay đổi cách bạn xác thực với nguồn dữ liệu.

4.4. Sensitivity Label

Ở đây bạn có thể xác định độ nhạy của dữ liệu trong Dataflow. Để tìm hiểu thêm về các nhãn độ nhạy, hãy xem cách áp dụng các nhãn độ nhạy trong Power BI.

4.5. Scheduled Refresh

Ở đây bạn có thể xác định thời gian trong ngày làm mới Dataflow được chọn. Một Dataflow có thể được làm mới song song với dữ liệu có trong nó.

4.6. Enhanced Compute Engine settings

Ở đây bạn có thể xác định xem liệu dữ liệu có được lưu trữ bên trong động cơ tính toán hay không.

4.7. Endorsements

Bạn có thể xác định xem Dataflow có được cấp chứng nhận hay không.

5. Làm mới một Dataflow

Dataflows hoạt động như các khối xây dựng chồng lên nhau. Giả sử bạn có một Dataflow có tên là Raw Data và một bảng được gọi là Transformed Data. Khi lịch trình làm mới kích hoạt dữ liệu thô Dataflow, nó sẽ kích hoạt Dataflow tham chiếu nó sau khi hoàn thành.

Chức năng này tạo ra hiệu ứng chuỗi trong việc làm mới dữ liệu nhằm giúp bạn không phải làm mới Dataflow theo cách thủ công.

Lưu ý khi làm mới bảng được liên kết

Một bảng liên kết sẽ được kích hoạt làm mới khi nó tồn tại trong cùng một không gian làm việc.

Một bảng liên kết sẽ bị khóa và không chỉnh sửa được nếu bảng nguồn đang làm mới hoặc làm mới bị hủy bỏ. Nếu bất kỳ Dataflows nào trong chuỗi tham chiếu không làm mới, tất cả các Dataflows khác sẽ quay trở lại dữ liệu cũ.

Chỉ các bảng được tham chiếu mới được làm mới khi kích hoạt khi nguồn dữ liệu kết thúc việc làm mới. Để lên lịch tất cả các bảng, bạn cũng nên đặt một lịch trình làm mới trên bảng được liên kết.

Bên cạnh đó, tránh thiết lập một lịch trình làm mới trên Dataflows đã được liên kết để tránh việc làm mới bị dư thừa.

6. Hủy làm mới Dataflows

Cancel Refresh sẽ hỗ trợ hủy làm mới Dataflow với các bộ dữ liệu. Nếu quá trình làm mới tốn nhiều thời gian, bạn có thể chọn các Dataflow (các hình elip bên cạnh Dataflow) và sau đó chọn Cancel refresh.

Trên đây là những chia sẻ về dataflow hay còn gọi là luồng dữ liệu cũng như datahub. Hy vọng qua bài viết này, các bạn đã biết cách tạo dataflow và hiểu datahub là gì. Nếu muốn tìm hiểu thêm về Power BI thì hãy tìm đọc series Power BI của MDA tại website nhé.

Truy cập ngay Mastering Data Analytics để đọc thêm nhiều vài viết thú vị về Power BI nhé! Với mọi thắc mắc bạn có thể liên hệ hotline 0961 48 66 48 để được tư vấn miễn phí. Hoặc bạn có thể inbox fanpage Mastering Data Analytics tham khảo lịch khai giảng sớm nhất!