Nâng trình phân tích dữ liệu kinh doanh bằng những khóa học của MDA
Giới Thiệu Machine Learning Trên Power BI Service
Machine learning trên Power BI là gì? Cách sử dụng mô hình máy học trên Power BI service hiệu quả? Cách sử dụng mô hình hồi quy trên dataflow như thế nào? Nếu bạn đang tìm câu trả lời cho những câu hỏi trên thì đây là bài viết dành cho bạn. Trong bài viết này, MDA sẽ giới thiệu về mô hình máy học trên Power BI cũng như cách sử dụng nó.
1. Các chức năng có sẵn trong mô hình máy học trên Power BI
1.1. Phát hiện ngôn ngữ (Detect Language)
Chức năng giúp phát hiện ngôn ngữ đầu vào của văn bản và cho mỗi cột, trả về tên ngôn ngữ và định danh ISO. Hàm kỳ vọng giá trị dữ liệu đầu vào là dạng text và có thể nhận ra tối đa 120 ngôn ngữ.
1.2. Trích xuất các cụm từ chính
Chức năng trích xuất cụm từ chính là đánh giá các văn bản phi cấu trúc. Từ đó, trả về một danh sách các cụm từ chính cho mỗi cột. Hàm yêu cầu một cột văn bản làm đầu vào và chấp nhận đầu vào tùy chọn cho CultureInfo. Khai thác cụm từ chính hoạt động tốt nhất khi cung cấp cho nó các đoạn văn bản lớn hơn để làm việc. Điều này trái ngược với phân tích mức độ hài lòng hoạt động tốt hơn trên các khối văn bản nhỏ hơn.
1.3. Đánh giá mức độ hài lòng (Score Sentiment)
Chức năng đánh giá mức độ hài lòng cho mỗi chuỗi văn bản từ 0 (âm) đến 1 (tích cực). Chức năng này giúp phát hiện mức độ hài lòng của truyền thông xã hội, đánh giá của khách hàng và diễn đàn thảo luận.
Text Analytics sử dụng thuật toán máy học phân loại để đưa ra dự đoán từ 0 đến 1. Điểm gần với 1 cho thấy mức độ tích cực, điểm gần với 0 cho thấy mức độ tiêu cực.
Mô hình sẽ được huấn luyện trước với một tệp dữ liệu gồm các biến đầu vào. Hiện tại, tính năng này chưa hỗ trợ trên dữ liệu riêng của bạn.
Mô hình sử dụng kết hợp các kỹ thuật trong quá trình phân tích văn bản. Ví dụ như: xử lý văn bản, phân tích phần giọng nói, vị trí từ và liên kết từ.
Phân tích mức độ hài lòng được thực hiện ở tất cả các cột. Trong thực tế, xu hướng ghi điểm chính xác để cải thiện đối với 1 và 2 dòng thay vì văn bản lớn. Một cột đầu không dự đoán được với cụm từ sẽ dẫn đến điểm số 0,50 và không có xử lý thêm. Đối với các cột đầu vào tiếp tục trong pipeline, giai đoạn tiếp theo sẽ tạo ra điểm trên hoặc dưới 0,5, tùy thuộc vào mức độ đánh giá độ hài lòng của cột đầu vào.
Hiện tại, phân tích mức độ hài lòng có hỗ trợ tiếng Anh, Đức, Tây Ban Nha và Pháp.
2. Học máy tự động trong Power BI
Học máy tự động cho phép các nhà phân tích kinh doanh sử dụng máy học trực tiếp trong Power BI.
Các nhà phân tích có thể sử dụng dữ liệu để làm dữ liệu đầu vào huấn luyện mô hình. Power BI service tự động trích xuất các tính năng có liên quan nhất. Nó sẽ chọn một thuật toán thích hợp xác thực mô hình ML. Sau khi một mô hình đào tạo, Power BI sẽ tự động tạo báo cáo hiệu suất gồm các kết quả xác thực.
Mô hình sau đó có thể được sử dụng trên bất kỳ dữ liệu mới nào hoặc được cập nhật. Học máy tự động có sẵn cho Dataflows được lưu trữ trên Power BI Premium
2.1. Làm việc với AutoML
Một số mô hình trong AutoML
Dataflow cung cấp dữ liệu lớn tự chuẩn bị và AutoML được tích hợp vào Dataflows. Bạn có thể chuẩn bị dữ liệu và xây dựng các mô hình học máy ngay trong Power BI. AutoML trong Power BI cho phép các nhà phân tích dữ liệu sử dụng Dataflows để xây dựng các mô hình học máy.
AutoML hỗ trợ việc tạo các mô hình dự đoán, phân loại và hồi quy nhị phân cho Dataflows. Đây là những loại kỹ thuật học máy được giám sát. Điều này có nghĩa là chúng học được từ các kết quả đã biết của các quan sát trong quá khứ để dự đoán kết quả của các quan sát khác.
Dữ liệu đầu vào của một mô hình AutoML là một tập hợp các hàng đã được dán nhãn với các kết quả đã biết. AutoML trong Power BI tích hợp ML tự động từ Azure Machine Learning để tạo các mô hình ML. Tuy nhiên, bạn không cần đăng ký Azure để sử dụng AutoML trong Power BI. Quá trình đào tạo và lưu các mô hình ML được quản lý hoàn toàn bởi Power BI Service.
Giới thiệu cách AutoML hoạt động
Sau khi một mô hình ML được huấn luyện, AutoML tự động tạo báo cáo Power BI giải thích hiệu suất của mô hình.
AutoML nhấn mạnh khả năng giải thích của mô hình bằng cách làm nổi bật những yếu tố chính ảnh hưởng đến các dự đoán. Báo cáo sẽ bao gồm các số liệu chính cho mô hình. Các trang khác của báo cáo sẽ cho thấy bản tóm tắt thống kê của mô hình và các chi tiết khác.
Sau đó, bạn có thể áp dụng mô hình ML của mình vào dữ liệu của mình để đánh giá. Khi Dataflow được làm mới, dữ liệu sẽ được cập nhật với các dự đoán mới từ mô hình ML.
Xem thêm: So Sánh Power BI Desktop Và Power BI Service
2.2. Tạo mô hình machine learning trên Power BI service
Chuẩn bị dữ liệu cấu hình dữ liệu đầu vào của mô hình máy học trên Power BI service
Để tạo mô hình học máy trong Power BI, trước tiên phải tạo một bộ dữ liệu có kết quả thực tế trong quá khứ.
Các yêu cầu này được mô tả trong các phần dưới đây, dựa trên các loại mô hình tương ứng.
- Chọn bảng với dữ liệu trong quá khứ và cột kết quả muốn dự đoán để xác định thuộc tính và gán nhãn.
- Chọn loại mô hình machine learning trên Power BI
Khi chỉ định cột cần dự đoán, AutoML sẽ phân tích dữ liệu đã được dán nhãn để đề xuất loại mô hình ML. Mô hình đó sẽ cho ra hiệu suất cao nhất. Bạn cũng có thể chọn một loại mô hình khác bằng cách nhấp vào “Select a different model”.
3. Chọn các dữ liệu đầu vào mà bạn muốn mô hình sử dụng để dự đoán tự động. Nếu cột nào đó tương quan thấp hoặc cao với cột đầu ra, nó không nên được sử dụng. Vì chúng có thể làm ảnh hưởng đến hiệu suất của mô hình. Các cột như vậy sẽ được gắn cờ là “suspiciously high correlation with output column”.
4. Đặt tên cho mô hình và lưu cấu hình
Bạn có thể đặt tên cho mô hình và lưu. Sau đó, bạn có thể bắt đầu đào tạo mô hình ML. Bạn có thể chọn giảm thời gian đào tạo để xem kết quả nhanh. Bạn cũng có thể tăng thời gian dành để có được mô hình tốt nhất.
2.3. Áp dụng các mô hình máy học trên Power BI service
Mô hình dự đoán nhị phân
Để áp dụng mô hình dự đoán nhị phân, phải chỉ định bảng và dữ liệu muốn áp dụng mô hình vào. Các tham số khác bao gồm: tên cột đầu ra và ngưỡng xác suất để phân loại kết quả dự đoán.
Khi một mô hình dự đoán nhị phân được áp dụng, nó sẽ thêm bốn cột mới vào bảng đầu ra. Đó là những cột: Outcome, PredictionScore, PredictionExplanation, và ExplanationIndex.
Dự đoán là một kết quả tỷ lệ phần trăm, xác định khả năng của mô hình có thể dự đoán đúng được. Các dòng có xác suất vượt quá ngưỡng threshold được cho là đạt mục tiêu đầu ra và gán nhãn True. Các dòng có dự đoán thấp hơn ngưỡng threshold sẽ được dán nhãn là False. Cột PredictionExplanation chứa giải thích những ảnh hưởng của biến đầu vào đối với dự đoán.
Mô hình hồi phân loại
Để áp dụng mô hình ML phân loại, bạn cũng thao tác tương tự như mô hình nhị phân. Khi một mô hình phân loại được áp dụng, nó sẽ thêm năm cột mới vào bảng đầu ra: ClassificationScore, ClassificationResult, ClassificationExplanation, ClassProbabilities, và ExplanationIndex.
Cột ClassProbabilities chứa kết quả mức độ chính xác của hàng trong mỗi lớp.
ClassificationScore là tỷ lệ phần trăm xác suất của khả năng một hàng sẽ đạt được các tiêu chí cho một lớp nhất định.
Cột ClassificationResult có chứa lớp dự đoán có khả năng nhất xảy ra nhất.
Cột ClassificationResult sẽ giải thích với ảnh hưởng của biến đầu vào có trên ClassificationScore.
Mô hình hồi quy
Để áp dụng mô hình ML hồi quy, chỉ định bảng với dữ liệu đầu vào và tên cột đầu ra.
Khi một mô hình hồi quy được áp dụng, nó sẽ thêm ba cột đầu ra mới. Đó là những cột: RegressionResult, RegressionExplanation và ExplanationIndex.
Cột RepressionResult chứa giá trị dự đoán cho hàng dựa trên các cột đầu vào.
Cột RepressionExplanation chứa giải thích sự ảnh hưởng của biến đầu vào vào có trên RepressionResult.
Premium features of dataflows – Power BI | Microsoft Learn
MDA đã chia sẻ một số cách sử dụng machine learning trên Power BI service trong bài viết này. Hy vọng thông qua bài viết này, anh/chị có thể hiểu hơn về mô hình máy học trên Power BI service cũng như mô hình hồi quy sử dụng như thế nào. Hãy đón chờ những bài viết tiếp theo của MDA nhé!
Truy cập ngay Mastering Data Analytics để đọc thêm nhiều vài viết thú vị về Power BI nhé! Với mọi thắc mắc bạn có thể liên hệ hotline 0961 48 66 48 để được tư vấn miễn phí. Hoặc bạn có thể inbox fanpage Mastering Data Analytics tham khảo lịch khai giảng sớm nhất!