Nâng trình phân tích dữ liệu kinh doanh bằng những khóa học của MDA
Data Lineage – Tính Năng Bạn Nên Biết Khi Nghiên Cứu Dữ Liệu (P1)
Mục Lục
Thiết kế mô hình dữ liệu (Modelling Data) là một trong những nhiệm vụ quan trọng và được thực hiện trong Microsoft Power BI Desktop. Khi làm tốt việc này bạn sẽ có thể hiểu rõ dữ liệu của mình hơn và giúp việc xây dựng các báo cáo phía sau bằng Power BI trở nên có giá trị và dễ dàng hơn.
Một mô hình dữ liệu tốt mang lại những lợi ích sau:
- Khám phá dữ liệu nhanh hơn.
- Tổng hợp đơn giản hơn để xây dựng.
- Báo cáo chính xác hơn.
- Viết báo cáo mất ít thời gian hơn.
- Báo cáo dễ dàng hơn để duy trì trong tương lai.
Nếu chỉ dùng các quy tắc và câu lệnh để tạo nên một mô hình dữ liệu tốt là rất khó vì tất cả các loại dữ liệu đều khác nhau và cách sử dụng chúng trong từng trường hợp cũng sẽ khác nhau. Vì thế, nếu sử dụng một mô hình dữ liệu nhỏ hơn sẽ tối ưu hơn vì nó sẽ hoạt động nhanh hơn và sử dụng đơn giản hơn. Tuy nhiên, việc xác định đâu là một mô hình dữ liệu nhỏ hay lớn cũng là vấn đề rất khó vì nó mang tính chủ quan của mỗi người.
Một mô hình dữ liệu nhỏ thường gồm ít bảng và ít cột trong từng bảng mà qua đó người dùng có thể nhìn thấy. Chẳng hạn, nếu bạn nhập dữ liệu lên đến 30 bảng từ cơ sở dữ liệu của mình để tạo mô hình thì người dùng sẽ không thấy điều đó là trực quan. Thay vì vậy, bạn có thể thu gọn các bảng đó thành 5 bảng thì lúc đó mô hình dữ liệu sẽ trở nên trực quan hơn.
Ngoài ra, nếu người dùng mở một bảng lên và thấy có tận 100 cột thông tin trong bảng đó thì điều này cũng có thể gây quá tải với họ. Việc loại bỏ các cột không cần thiết sẽ giúp bạn dễ quản lý và kiểm soát tất cả các cột hơn. Tóm lại, khi thiết kế các mô hình dữ liệu thì chúng ta nên cố gắng đơn giản hóa đi các mô hình dữ liệu của mình.
1. Chế độ xem Modelling
Trước hết, để thiết kế mô hình dữ liệu chúng ta cần phải biết cách truy cập vào chế độ xem Modelling. Để truy cập chế độ xem Modeling, hãy chọn biểu tượng Model ở bên trái Power BI Desktop, như thể hiện trong hình dưới đây.
Xem thêm: Giao Diện Và Lợi Ích Khi Sử Dụng Power BI Desktop
2. Khóa chính (Primary Key) và khóa ngoại (Foreign Key)
Hình ảnh dưới đây là một ví dụ về mô hình dữ liệu. Các hình hộp chứa các bảng dữ liệu và ở trong đó mỗi mục hàng trong hộp là một cột. Các đường kết nối giữa các hộp thể hiện mối quan hệ giữa các bảng. Những mối quan hệ này có thể trở nên phức tạp trong một mô hình đơn giản như vậy. Mô hình dữ liệu có thể bị dễ trở nên vô tổ chức, tổng số bàn có thể tăng dần. Vì thế, cố gắng để giữ cho mô hình lúc nào cũng đơn giản, toàn diện, chính xác.
Các mối quan hệ được xác định giữa các bảng thông qua khóa chính và khóa ngoại. Khóa chính là những cột xác định, có từng hàng dữ liệu không trùng lặp nhau, không bị bỏ trống. Chẳng hạn, có một bảng Khách hàng (Customers table) có một chỉ mục xác định từng khách hàng duy nhất. Hàng đầu tiên sẽ có ID là 1, hàng thứ hai có ID là 2, v.v. Mỗi hàng được gán một giá trị duy nhất, có thể gọi bằng giá trị đơn giản này: khóa chính. Quá trình quan trọng khi tham chiếu các hàng trong một bảng khác, đó là chức năng các khóa ngoại. Mối quan hệ giữa các bảng hình thành khi có chung khóa chính, khóa ngoại giữa các bảng khác nhau.
Power BI cho phép xây dựng các mối quan hệ từ các bảng có nguồn dữ liệu khác nhaU, lấy một bảng từ Microsoft Excel và một bảng khác từ cơ sở dữ liệu quan hệ. Sau đó, tạo mối quan hệ giữa hai bảng đó và coi chúng là một tập dữ liệu thống nhất.
3. Lược hình đồ sao trong thiết kế mô hình dữ liệu
Khi đã tìm hiểu về mối quan hệ tạo nên lược đồ dữ liệu thì sẽ khám phá một kiểu thiết kế lược đồ cụ thể: lược đồ hình sao. Nó được tối ưu hóa để có hiệu suất cao và khả năng sử dụng.
Bạn có thể thiết kế theo lược đồ hình sao để đơn giản hóa dữ liệu của mình. Nó là một phương pháp phổ biến mà nhà phân tích dữ liệu Power BI đều áp dụng rộng rãi. Trong lược đồ hình sao, mỗi bảng trong tập dữ liệu được xác định là một bảng thứ nguyên (Dimension table) hoặc bảng sự kiện (Fact table).
Bảng sự kiện (Fact Table) chứa các giá trị dữ liệu quan sát hoặc sự kiện. Ví dụ: đơn đặt hàng, số lượng sản phẩm, giá cả, ngày và giờ giao dịch cũng như số lượng. Các bảng sự kiện có thể chứa một số giá trị lặp lại. Ví dụ: một sản phẩm có thể xuất hiện nhiều lần trong nhiều hàng cho khách hàng khác nhau vào ngày khác nhau. Những giá trị này có thể được tổng hợp để tạo hình ảnh trực quan. Chẳng hạn, hình ảnh tổng số đơn đặt hàng là tổng hợp tất cả các đơn đặt hàng.
Các bảng sự kiện thường chứa các cột có đầy số và ngày tháng. Những con số có thể là đơn vị đo lường. Chẳng hạn: số lượng bán hoặc các loại khóa, chẳng hạn như ID khách hàng (khóa chính). Các loại ngày tháng đại diện cho thời gian đang được ghi lại. Chẳng hạn như ngày đặt hàng hoặc ngày vận chuyển.
Bảng thứ nguyên chứa thông tin về dữ liệu trong bảng sự kiện. Các bảng này được kết nối với bảng sự kiện thông qua các cột chính. Bảng thứ nguyên được sử dụng để lọc và nhóm dữ liệu trong các bảng sự kiện. Ngược lại, các bảng thứ nguyên chứa các giá trị duy nhất. Hình ảnh trực quan về tổng số đơn đặt hàng theo sản phẩm, hãy nhóm dữ liệu. Trong đó, sản phẩm là dữ liệu trong bảng thứ nguyên
Bảng sự kiện thường lớn hơn nhiều so với bảng thứ nguyên. Lí do vì có nhiều sự kiện xảy ra trong bảng sự kiện như doanh số bán hàng riêng lẻ. Bảng thứ nguyên thường nhỏ hơn vì nó bị giới hạn ở số lượng mục. Những mục mà bạn có thể lọc và nhóm trên đó. Chẳng hạn, một năm bao gồm rất nhiều tháng và Hoa Kỳ bao gồm một số tiểu bang nhất định.
Xem xét thông tin này về bảng sự kiện và bảng thứ nguyên để có thể xây dựng hình ảnh trực quan này trong Power BI.
Dữ liệu thích hợp nằm trong hai bảng, Nhân viên và Bán hàng (bảng dưới). Vì bảng Sales table chứa các giá trị đơn đặt hàng, có thể được tổng hợp. Vì lí do đó nên nó được coi là một bảng sự kiện. Bảng Employee table chứa tên nhân viên cụ thể, lọc các đơn đặt hàng nên đây là bảng thứ nguyên. Cột chung giữa hai bảng, là khóa chính trong bảng Nhân viên, là EmployeeID. Vì vậy bạn có thể thiết lập mối quan hệ giữa hai bảng dựa trên cột này.
Khi tạo mối quan hệ này, có thể xây dựng hình ảnh trực quan theo yêu cầu như hình dưới. Nếu không thiết lập mối quan hệ này sẽ khó khăn trong xây dựng hình ảnh trực quan. Nó cũng khó khăn trong báo cáo sau này.
Lược đồ hình sao, mô hình dữ liệu cơ bản là nền tảng của các báo cáo có tổ chức. Càng dành nhiều thời gian để tạo các kết nối và thiết kế này, việc tạo và duy trì các báo cáo sẽ càng dễ dàng hơn.
Cre: Microsoft
Trên đây là những thông tin cần thiết để biết thiết kế mô hình dữ liệu trong Power BI Desktop. Để tìm hiểu thêm về Power BI Desktop, các bạn có thể tham khảo series Power BI Desktop tại Mastering Data Analytics. Cảm ơn các bạn đã đọc bài!
Xem thông tin khai giảng Khóa học Business Intelligence sớm nhất tại Mastering Data Analytics. Với mọi thắc mắc xin liên hệ hotline 0961 48 66 48 hoặc inbox Fanpage Mastering Data Analytics để đăng ký nhanh nhất nhé!