Blog & Event
6 phút đọc

Sự Khác Biệt Giữa Dataset, Dataflow Và Datamart

Microsoft Power BI là một công cụ trực quan hóa dữ liệu giúp biến dữ liệu thành cơ hội. Chúng ta luôn muốn dữ liệu sẵn sàng để phân tích, để đưa vào hình ảnh, báo cáo và trang tổng quan, nhờ đó, có thể nhanh chóng biến khối lượng dữ liệu của mình thành thông tin chi tiết hữu ích. Datamart, Dataflow và Dataset đều là các thành phần Power BI xử lý dữ liệu. Hãy cùng tìm hiểu sự khác biệt giữa ba khái niệm này, khi nào để một người có thể sử dụng mỗi thành phần, cách chúng hoạt động cùng nhau bên cạnh các thành phần khác của Power BI.

1. Dataset:

Power BI datasets (hay còn được gọi là Tập dữ liệu) được coi là nguồn dữ liệu mà chúng ta đã sử dụng để báo cáo và trực quan hóa. Datasets là đối tượng mà chứa kết nối với nguồn dữ liệu, bảng dữ liệu, mối quan hệ giữa các bảng, phép tính DAX và chính dữ liệu. Power BI Dataset cũng cho phép chúng ta thiết lập kết nối với báo cáo đã xuất bản và tạo báo cáo của riêng bạn dựa trên tập dữ liệu đã xuất bản. Tất cả các bảng và cột có thể được xem trong tab dữ liệu của Power BI Desktop và toàn bộ tập dữ liệu được hiển thị trong Power BI Service trong ‘My Workspace’. Vì vậy, bất cứ thứ gì liên quan đến dữ liệu đều là một phần của tập dữ liệu.

2. Dataflow:

Dataflow là thành phần chuyển đổi dữ liệu của Power BI, độc lập với bất kỳ tạo phẩm Power BI nào khác. Đó là một quy trình truy vấn nguồn chạy trên đám mây và lưu trữ dữ liệu trong bộ lưu trữ Azure Data Lake hoặc Dataverse. Dataflow được điều hành bởi công cụ Power Query và Power Query Editor Online. Nếu bạn liên tục sử dụng lại cùng một bảng trong nhiều tệp, thì dataflow rất được khuyến khích trong các tình huống như vậy, điều đó có nghĩa là dataflow sẽ cung cấp cho bạn thành phần ETL (Trích xuất-Chuyển đổi-Tải) có thể sử dụng lại.

3. Datamart:

Datamart bao gồm ba thành phần cơ bản Dataflow, Cơ sở dữ liệu Azure SQL (dưới dạng kho dữ liệu) và Dataset. Datamart đi kèm với rất nhiều lợi ích, chẳng hạn như phân tích cơ sở dữ liệu quan hệ có thể được thực hiện dễ dàng bởi người dùng tự phục vụ, điều đó có nghĩa là không cần quản trị cơ sở dữ liệu. Datamart cung cấp khả năng nhập, chuẩn bị và khám phá dữ liệu từ đầu đến cuối bằng SQL, bao gồm cả trải nghiệm không có mã.

4. Vậy nên sử dụng cái nào?

Khi các giai đoạn triển khai bao gồm nhận dữ liệu từ nguồn, thực hiện chuyển đổi, tải dữ liệu, viết biểu thức DAX, sau đó trực quan hóa. Power BI Datamart cho phép chúng ta xây dựng hầu hết những thứ đó trong một cấu trúc kết hợp.

Khi có vẻ như việc chuyển đổi là khó khăn. Trong những trường hợp như vậy, việc chuyển đổi dữ liệu cần được tách biệt khỏi nguồn dữ liệu để đề phòng trường hợp nguồn thay đổi, giải pháp sẽ hoạt động với những thay đổi tối thiểu cần thiết. Điều này có thể được giải quyết bằng cách đưa các dataflow vào kiến trúc chuyển đổi.

Trong khi nói đến dataset, bản thân nó là một thành phần quan trọng. Nếu ai đó đang triển khai một kiến trúc trong đó quá trình chuyển đổi dữ liệu được thực hiện bằng cách sử dụng một dịch vụ khác chẳng hạn như Azure Data Factory và kho dữ liệu nằm trong Azure Synapse. Các mô hình dữ liệu như vậy có thể được xây dựng bằng Power BI Dataset với một số phép tính ở trên cùng.

Nguồn: perficent

Xem thêm bài viết khác tại đây:

Mastering Data Analytics tự hào là đơn vị đào tạo Kỹ năng Phân tích Dữ liệu Kinh doanh hàng đầu Việt Nam. Các khóa học Phân tích Dữ liệu Kinh doanh được khai giảng định kỳ hàng tháng. Khóa học được giảng dạy ở cả 2 hình thức online và offline, tạo điều kiện cho bạn sắp xếp thời gian học của mình. Truy cập Khóa học Business Intelligence để biết lịch khai giảng gần nhất. Với mọi thắc mắc về khóa học bạn có thể inbox Fanpage Mastering Data Analytics hoặc liên hệ email sales@mastering-da.com để được giải đáp miễn phí!