Nâng trình phân tích dữ liệu kinh doanh bằng những khóa học của MDA
Sử Dụng Python Trong Power Query Editor
Bạn có thể sử dụng Python. Đây là một ngôn ngữ lập trình được các nhà thống kê, nhà khoa học dữ liệu và nhà phân tích dữ liệu sử dụng rộng rãi trong Power BI Desktop Power Query Editor. Việc tích hợp Python vào Power Query Editor này cho phép bạn thực hiện làm sạch dữ liệu bằng Python. Đồng thời thực hiện định hình và phân tích dữ liệu nâng cao trong bộ dữ liệu. Nó bao gồm cả việc hoàn thành dữ liệu bị thiếu, dự đoán và phân cụm, v.v. Python là một ngôn ngữ mạnh mẽ và có thể được sử dụng trong Power Query Editor để chuẩn bị mô hình dữ liệu của bạn và tạo báo cáo.
1. Cài đặt Python trong Power Query Editor
Để sử dụng Python trong Power BI Desktop’s Power Query Editor, cần cài đặt Python trên máy cục bộ. Bạn có thể tải xuống và cài đặt Python miễn phí từ nhiều địa điểm. Bao gồm trang tải xuống Python chính thức và Anaconda.
2. Sử dụng Python trong Power Query Editor
Để hiển thị cách sử dụng Python trong Power Query Editor, hãy lấy ví dụ này từ tập dữ liệu thị trường chứng khoán, dựa trên tệp .CSV tải xuống từ đây và làm theo. Các bước cho ví dụ này như sau:
- Đầu tiên, tải dữ liệu vào Power BI Desktop . Trong ví dụ này, tải tệp EuStockMarkets_NA.csv và chọn Get data > Text/CSV từ ruy-băng Home trong Power BI Desktop .
- Chọn tệp và chọn Open và CSV được hiển thị trong hộp thoại tệp CSV.
- Sau khi dữ liệu được tải, sẽ thấy dữ liệu đó trong ngăn Fields trong Power BI Desktop.
- Mở Power Query Editor bằng cách chọn Transform data từ tab Home trong Power BI Desktop .
- Trong tab Transform, chọn Run Python Script. Trình chỉnh sửa Run Python Script xuất hiện (hiển thị trong bước tiếp theo). Lưu ý rằng hàng 15 và 20 bị thiếu dữ liệu, cũng như các hàng khác mà bạn không thể nhìn thấy trong hình ảnh sau đây. Các bước dưới đây cho thấy cách Python có thể (và sẽ) hoàn thành các hàng đó cho bạn.
- Đối với ví dụ này, hãy nhập mã tập lệnh sau:
import pandas as pd
completedData = dataset.fillna(method=’backfill’, inplace=False)
dataset[“completedValues”] = completedData[“SMI missing values”]
Khi được đưa vào hộp thoại Run Python Script, mã trông giống như sau:
- Sau khi chọn OK, Power Query Editor sẽ hiển thị cảnh báo về quyền riêng tư của dữ liệu.
- Để các tập lệnh Python hoạt động bình thường trong Power BI service, tất cả các nguồn dữ liệu cần được đặt thành public. Để biết thêm thông tin về cài đặt quyền riêng tư và ý nghĩa của chúng, hãy xem Privacy Levels.
Lưu ý một cột mới trong ngăn Fields có tên là CompleteValues . Lưu ý rằng có một vài thành phần dữ liệu bị thiếu, chẳng hạn như ở hàng 15 và 18. Hãy xem cách Python xử lý điều đó trong phần tiếp theo.
Chỉ với năm dòng tập lệnh Python, Power Query Editor đã điền vào các giá trị còn thiếu bằng một mô hình dự đoán.
3. Tạo hình ảnh từ dữ liệu tập lệnh Python
Bây giờ có thể tạo một hình ảnh trực quan để xem mã tập lệnh Python sử dụng thư viện pandas đã hoàn thành các giá trị còn thiếu như thế nào. Thể hiện trong hình ảnh sau:
Sau khi hình ảnh đó hoàn tất và bất kỳ hình ảnh trực quan nào khác mà bạn có thể muốn tạo bằng Power BI Desktop bạn có thể lưu tệp Power BI Desktop (tệp này lưu dưới dạng tệp .pbix) rồi sử dụng mô hình dữ liệu. Bao gồm các tập lệnh Python được một phần của nó, trong Power BI service.
Sau khi bạn đã tải tệp .pbix lên Power BI service cần thực hiện thêm một số bước nữa để kích hoạt tính năng làm mới dữ liệu (trong dịch vụ) và cho phép cập nhật hình ảnh trong dịch vụ. Các bước bổ sung như sau:
- Enable scheduled refresh for the dataset – để bật làm mới theo lịch cho sổ làm việc chứa tập dữ liệu của bạn bằng tập lệnh Python.
- Install the Personal Gateway – bạn cần cài đặt Personal Gateway trên máy chứa tệp và nơi cài đặt Python. Power BI service phải truy cập sổ làm việc đó và kết xuất lại mọi hình ảnh được cập nhật.
Xem thêm: Giới Thiệu Sơ Lược Về Trình Chỉnh Sửa Báo Cáo
4. Cân nhắc và hạn chế
Một số giới hạn đối với các truy vấn bao gồm tập lệnh Python được tạo trong Power Query Editor :
- Tất cả cài đặt nguồn dữ liệu Python phải được đặt thành Public. Tất cả các bước khác trong truy vấn được tạo trong Power Query Editor cũng phải ở chế độ công khai. Để truy cập cài đặt nguồn dữ liệu, trong Power BI Desktop, chọn File > Options and settings > Data source settings.
- Từ hộp thoại Data Source Settings, chọn (các) nguồn dữ liệu. Sau đó chọn Edit Permissions… và đảm bảo rằng Privacy Level được đặt thành Public.
- Để bật tính năng làm mới theo lịch cho tập dữ liệu hoặc hình ảnh Python của bạn, bạn cần bật tính năng Scheduled refresh và cài đặt Personal Gateway trên máy tính chứa sổ làm việc và bản cài đặt Python.
- Bảng lồng nhau (bảng của bảng) hiện không được hỗ trợ
Có rất nhiều thứ bạn có thể làm với Python và các truy vấn tùy chỉnh, vì vậy hãy khám phá và định hình dữ liệu của bạn theo cách bạn muốn dữ liệu đó xuất hiện.
Trên đây là những thông tin cần thiết để biết Sử Dụng Python Trong Power Query Editor. Để tìm hiểu thêm về Power BI Desktop, các bạn có thể tham khảo series Power BI Desktop tại Mastering Data Analytics. Cảm ơn các bạn đã đọc bài!
Xem thông tin khai giảng Khóa học Business Intelligence sớm nhất tại Mastering Data Analytics. Với mọi thắc mắc xin liên hệ hotline 0961 48 66 48 hoặc inbox Fanpage Mastering Data Analytics để đăng ký nhanh nhất nhé!