Kiến thức
9 phút đọc

[6] Top “hiểu lầm”​ thường nghe về công nghệ phân tích dữ liệu Visual-based Analytics Platforms

Trong mảng Business Intelligence, các công nghệ Visual-based Analytics Platforms như Power BI, Tableau, Qlik … đang dẫn đầu. Tuy nhiên, đối với những người mới, chưa sử dụng nhiều những công nghệ này sẽ có 1 số hiểu lầm. Nên trong bài viết hôm nay, sẽ đưa ra 1 số giải thích và dẫn chứng, để bạn hiểu rõ hơn về nhóm công nghệ này, để cân nhắc lựa chọn công nghệ phân tích dữ liệu phù hợp nhé! Mình sẽ lựa chọn công nghệ Power BI, dẫn đầu toàn thế giới mảng Business Intelligence để làm dẫn chứng đại diện nhé, đa phần các công nghệ Visual-Based Analytics dẫn đầu như Tableau, Qlik… phần lớn cũng đều làm được các tính năng này.

Công nghệ phân tích dữ liệu: Power BI chỉ dùng để làm Data Vizualization (trực quan hóa dữ liệu)?

1. Đẩy dữ liệu đầu vào (Get Data)

Power BI hiện có +250 connection inputs. Bạn có thể đẩy dữ liệu từ các hệ thống cơ sở dữ liệu tại doanh nghiệp vào Power BI.

2. Xử lý & làm sạch dữ liệu (Data Preparation)

Hầu hết các chức năng để “transformation data” sẽ được tích hợp thành nút bấm trên màn hình.

Ví dụ thay vì bạn coding trong SQL (traditional coding) để merge/union/append (các thao tác xử lý bảng dữ liệu), bạn có thể bấm những chức năng này.

Ngoài những tính năng cơ bản Data Preparation tích hợp trên Power BI, bạn có thể làm trên Dataflow của Power BI, khá xịn và dễ quản lý

Dataflow (Data Preparation) with Power BI

3. Kết nối các bảng dữ liệu (Data Modeling)

Bạn có thể xử lý các kĩ thuật Modeling trên Power Pivot (Excel) hoặc Data Model (Power BI) như bên dưới (hình ví dụ bên dưới xử lý modeling cho 1 sample DTW – Data Warehouse)


Data Modeling with Power BI

Vậy qua 3 dẫn chứng trên, những công nghệ Visual-based Analytics Platforms hoàn toàn có thể xử lý từ Raw Data – Data Preparation – Data Modeling – Data Vizualization/ Storytelling, chứ không phải mỗi dùng để kéo chart như bạn hay nghĩ.

Power BI có thể thực hiện đầy đủ các chức năng phân tích (Source: Microsoft)

Công nghệ phân tích dữ liệu: Power BI không xử lý được dữ liệu lớn?

Dữ liệu lớn được đề cập ở đây là hàng tỷ, hàng tỷ records… còn nếu hàng triệu records thì làm

Ý tui dữ liệu lớn là: hàng tỷ, hàng nghìn tỷ records… còn nếu hàng triệu record thì cứ làm bình thường thôi: import/ direct query/ live connection khi làm việc với các kho lưu trữ dữ liệu (tại bài biết này, mình dẫn chứng để bạn hiểu concepts thôi, còn chi tiết chuyên môn kĩ mình sẽ viết trong những bài sau).

Cơ chế lưu trữ và đẩy dữ liệu

1. Lý do cơ bản Power BI không xử lý được dữ liệu lớn

Nếu bạn mới làm hàng triệu records mà máy chậm load không được thì có nhiều lý do. Trong đó có 2 lý do cơ bản:

  • Kiểm tra cấu hình máy, nếu RAM yếu thì các phần mềm sẽ bị chậm, Power BI không ngoại trừ. Theo mô tả của Microsoft, RAM 8GB là “minimum” để chạy tốt phần mềm Power BI.
  • Kiểm tra tối ưu flow làm data analytics, nếu còn mắc nhiều lỗi cơ bản sẽ ảnh hưởng đến tốc độ xử lý.
    • Microsoft đã xác nhận BI platforms của họ: “no-limit input data”
    • Tuy nhiên, với những trường hợp xử lý dữ liệu QUÁ lớn, bạn có thể cân nhắc một số giải pháp

2. Giải pháp khắc phục

2.1. Power BI Premium

By using a Premium capacity, Power BI will handle trillions of rows (hàng nghìn tỉ record :O) and petabytes of data. Link từ Microsoft (i) Petabyte-scale Analytics with Power BI, (ii) Aggregations for petabyte-scale BI available in the Power BI service

2.2. External Tools

Đối với Power BI Desktop có thể cân nhắc sử dụng External Tools để quản lý dữ liệu lớn, phức tạp. Bạn có thể lên: https://www.sqlbi.com/ để học cách các Expert Global xử lý dữ liệu lớn trên Power BI nhé.

External Tools trong Power BI
External Tools trong Model Documentation

2.3. Kết hợp pro-code trong Power BI

Power BI có tích hợp những ngôn ngữ lập trình trong tool để xử lý những tác vụ phức tạp.

 Ngôn ngữ lập trình được tích hợp trong Power BI

Công nghệ phân tích dữ liệu: Power BI chỉ không viết được Business Measures linh động? 

Power BI chỉ kéo ra những thông tin có sẵn trên chart/table thôi?

1. Bạn có thể tự kéo Quick Measures để tạo ra những Measure phổ biến cho doanh nghiệp

Quick Measures trong Power BI

Các công thức tính toán phổ biến trong doanh nghiệp đã được tích hợp thành tính năng. Khi cùng không cần phải code, chỉ cần bấm thôi. Vào 22/10, Power BI đã preview chức năng mới – Ứng dụng ngôn ngữ tự nhiên (Natural Language, NL) để tạo trong Business Measures linh động, nhanh, hiệu quả và tối ưu hơn.

NL in DAX

2. Bạn có thể viết Coding DAX để tạo ra các công thức tính toán linh động

Code DAX Power BI

Trong khóa học chính, bên mình có tặng miễn phí khóa học Coding DAX – Bulding Business Measures cho học viên, sau khi học xong những kiến thức chính trong chương trình Business Intelligence Program, anh/chị nào muốn nâng cao khả năng coding có thể học thêm. Khóa DAX bao gồm:

  1. Slide giáo trình chính MDA tự biên soạn, tham khảo từ tài liệu training official của Microsoft
  2. Series video record hướng dẫn coding chi tiết bằng tiếng Việt. Anh/chị học viên đã học feedback video DAX cực dễ hiểu, được thiết kế từ cơ bản đến nâng cao rất hệ thống.
  3. Data mẫu để thực hành
  4. Mindmap nội dung chính khóa học

DAX mindmap

Vâng, trên đó là 3 hiểu lầm hay thường gặp về những công nghệ phân tích dữ liệu Visual-based Analytics Platforms, hi vọng qua bài viết này bạn sẽ có cái nhìn khác và hiểu rõ hơn xu hướng trên thế giới: Tại sao Sự phát triển công nghệ phân tích dữ liệu lại đi từ Coding-based Platforms đến Visual-based Platforms và Augmented Analytics Platforms.

Chia sẻ kinh nghiệm

Bản thân mình đã đi sử dụng cả Coding-based Platforms và Visual-based Platforms. Ngoài ra mình cũng được trải nghiệm một số chức năng trong Augmented Analytics Platforms. Mình không “thần tượng” bất kì công nghệ nào. Mình chỉ biết lựa chọn công nghệ phù hợp với nhu cầu công việc của mình thôi. Ngoài ra cần phải thường xuyên theo dõi xu hướng phân tích dữ liệu trên thế giới để cập nhật và học hỏi không ngừng.

Đó là lý do tại sao, đối với doanh nghiệp nhỏ, bạn hoàn toàn có thể phân tích bằng Excel (Power Query & Power Pivot). Hoặc đối với doanh nghiệp có cơ sở dữ liệu lớn có nhu cầu làm Data Preparation trên SQL Database trước khi đẩy vào Power BI: thì có thể code SQL (bên mình cũng miễn phí khóa SQL for Business Intelligence cho học viên, để anh/chị nào muốn code SQL nếu không muốn dùng Power BI, tùy ạ). 🙂

SQL mindmap

Các khóa học Business Intelligence tại Mastering Data Analytics sẽ được khai giảng định kỳ hàng tháng. Mỗi lớp học thu hút +100 anh/chị học viên – là trung tâm đào tạo Phân tích dữ liệu kinh doanh duy nhất tại Việt Nam thu hút được đông đảo học viên mỗi lớp như vậy. MDA đã mở 34 khóa học Business Intelligence trên thị trường. Ngoài ra còn là đối tác đào tạo phân tích dữ liệu cho các doanh nghiệp lớn tại Việt Nam.