Kiến thức
14 phút đọc

[5] Học/làm phân tích dữ liệu với công nghệ nào thì “đúng trend”​?

Tiếp theo bài viết số [4] về chủ đề Những công nghệ phân tích dữ liệu (data analytics) dẫn đầu trên thế giớithì hôm nay mình sẽ chia sẻ tiếp về các chủ đề: Phân biệt các nhóm công nghệ phân tích dữ liệu

Phân biệt các nhóm công nghệ phân tích dữ liệu

1. Phân theo mức độ coding khi thực hiện

Nhóm công nghệ phân tích dữ liệu bao gồm: no-code (free code), low-code, pro-code (traditional coding), combined (kết hợp cả no-code và pro-code), automation (tự động).

1.1. No-code (free-code)

Data Analyst chỉ dùng thao tác kéo thả (drag and drop) để thực hiện phân tích dữ liệu, không cần phải coding (định nghĩa tiếng Anh: no-code analytics platform with a user-friendly, drag-and-drop interface.)

1.2. Low-code

Data Analyst dùng thao tác kéo thả (drag and drop) để thực hiện phân tích dữ liệu, có thể coding 1 ít để linh hoạt theo nhu cầu khác (định nghĩa tiếng Anh: Low-code development is a new approach to app creation that empowers developers to create powerful software applications, with a minimum of hand coding.)

“The concepts of low-code and no-code are similar, which is why they are often referred to together.” (Low-Code vs No-Code: which one is better?)

Những công nghệ trong nhóm no-code, low-code, thường gọi chung là Visual-based platforms (thực hiện phân tích dữ liệu bằng cách kéo thả hình ảnh chức năng).

1.3. Pro-code (high code, traditional coding)

Data Analyst không thao tác kéo thả (drag and drop) để thực hiện phân tích dữ liệu, hầu như coding toàn bộ để thực hiện thao tác phân tích như truyền thống (định nghĩa tiếng Anh: Pro code goes by plenty of other names. High code and traditional code are two of the other common ways it’s referred to, but in the end it all means the same thing – coding out your analytics in the traditional manner.)

Những công nghệ trong nhóm no-code thường gọi chung là Coding-based platforms (thực hiện phân tích dữ liệu bằng cách code truyền thống).

1.4. Combined (kết hợp cả low-code và pro-code)

Data Analyst dùng thao tác kéo thả (drag and drop) để thực hiện kĩ thuật phân tích phổ biến, có thể coding chuyên sâu cho những nhu cầu phức tạp.

1.5. Automation (ví dụ Auto ML)

Tự làm mọi thứ một cách tự động, khác với no-code/low code: phải tự làm bằng tay nhưng làm với chức năng đã tích hợp chứ không code tay (định nghĩa tiếng Anh: “Automated Machine Learning is an entirely different business from low code tools for data science. Automated Machine Learning applications are confined to training machine learning models, in a fully automated way. Low code tools for data science, on the opposite, cover a plethora of different data science operations, from data transformations to machine learning algorithms, exposing many of the hyper-parameters involved in the definition of the model or of the transformation.”)

Những công nghệ tự động như Auto ML sẽ được gọi là Augmented analytics platforms.

Phân loại một số công nghệ phân tích phổ biến
Giao diện màn hình công nghệ traditional code (ví dụ màn hình SQL)

Giao diện màn hình công nghệ low-code, tất cả thao tác đã được tích hợp thành nút bấm để kép thả (icons to drag and drop) (ví dụ màn hình Alteryx)

Giao diện công nghệ low-code đã tích hợp chức năng thành nút bấm, nhưng vẫn tích hợp thêm pro-code trong công nghệ để tăng khả năng linh hoạt nên có thể gọi những công nghệ này là combined cũng được (ví dụ code M trong Power BI)

Những ngôn ngữ coding được tích hợp trong Power BI (combined code tool)

Giao diện công nghệ Auto ML (tự động làm mọi thứ) (ví dụ Alteryx tích hợp chức năng Auto-ML) (Automation)

Hy vọng qua những ví dụ, giúp bạn phân biệt được các công nghệ phân tích theo mức độ coding. Giờ tiếp theo, chúng ta sẽ đi đến phân loại khác: phân theo mã nguồn: open-source (mã nguồn mở), closed-source (mã nguồn đóng).

2. Phân theo mã nguồn

Nếu phân loại theo mã nguồn bao gồm: open-source (mã nguồn mở), closed-source (mã nguồn đóng).

2.1. Mã nguồn mở (Open Source)

được hiểu đơn giản là các phần mềm mà code của chúng được công khai để mọi người đều có thể tải xuống để sử dụng, chỉnh sửa và tùy biến. Sau đó có thể đóng góp thêm vào nội dung của mã nguồn nhằm cung cấp những lợi ích và tính năng vượt trội hơn cho cộng đồng. Thông thường mã nguồn mở sẽ là miễn phí. 

2.2. Mã nguồn đóng (Closed-source)

Đây là phần mềm mà mã nguồn không được công bố. Muốn sử dụng mã nguồn đóng chỉ có một cách duy nhất là mua lại bản quyền sử dụng từ các nhà phân phối chính thức. Các hình thức tự do sao chép và sử dụng phần mềm nguồn đóng bị xem như là không hợp pháp. Còn đối với hầu hết mã nguồn đóng thường là những bạn phải trả phí. Chi phí có thể thay đổi tùy thuộc vào độ phức tạp của phần mềm.

Từ hai định nghĩa cơ bản nêu trên và hình trong bài viết trước của series này giúp bạn đưa ra được nhận định. Hy vọng bạn phân biệt được tại sao bảng xếp hạng Data Analytics Landscape để R/Python vào Open Source. Dưới đây là hình minh họa Open Source của bài viết trước.

Công nghệ phân tích dữ liệu mã nguồn mở (Open-source)

3. Phân theo mức độ chủ động khi thực hiện

Nhìn vào hình mô tả ở trên, Self-Service được hiểu đơn giản người Phân tích dữ liệu hoàn toàn có thể tự lấy dữ liệu, tự làm sạch dữ liệu, tự kết nối dữ liệu, tự phân tích … tự phục vụ phân tích dữ liệu của mình một cách chủ động; trong khi đó cách làm truyền thống (traditional) thì họ phải phụ thuộc/ chờ đợi người khác. Ví dụ muốn lấy dữ liệu phải nhờ phòng ban IT xuất gửi qua … Các công nghệ phân tích dữ liệu Self-Service hướng đẫn sự chủ động hơn khi thực hiện hiện phân tích.

Tương lai công nghệ phân tích dữ liệu thuộc về nhóm công nghệ phân tích dữ liệu nào?

Xu hướng công nghệ phân tích dữ liệu tương lai chắc chắn sẽ là công nghệ nào?

1. Thân thiện cho người dùng

(đó là lí do vì sao các công nghệ Visual-based (no-code/low-code) hay self-service … được doanh nghiệp rất ưu chuộng và tốc độ tăng trưởng rất mạnh (hình 9); việc coding phức tạp sẽ hạn chế khả năng tiếp cận của doanh nghiệp). Các doanh nghiệp không thể tận dụng lợi thế của khoa học dữ liệu nếu họ không hiểu. Hơn nữa, không phải doanh nghiệp nào cũng có thể thuê một nhóm các nhà khoa học dữ liệu với mức lương cao ngất ngưởng.

2. An toàn bảo mật dữ liệu cao

Chúng ta hay nghe đối với doanh nghiệp, dữ liệu chính là vàng đen. Thử tưởng tượng nếu đối thủ có tập dữ liệu khách hàng trong hệ thống CRM của doanh nghiệp bạn? OMG … đó cũng là 1 lý do mà các doanh nghiệp cân nhắc sử dụng những công nghệ phân tích dữ liệu được công ty hàng đầu thế giới thiết kế tăng cường bảo mật dữ liệu và chịu trách nhiệm khi có vấn đề xảy ra, hơn là công nghệ open-source miễn phí.

3. Tốc độ phân tích nhanh & hiệu quả

Trong phân tích dữ liệu có 1 câu nói rất nổi tiếng “Right time, Right information”, việc coding truyền thống mất nhiều thời gian và rời rạc, giảm hiệu quả khi phân tích các dữ liệu nên đó là lý do Visual-based platforms, Augmented Analytics phát triển mạnh mẽ như hiện nay (hình 12 bên dưới).

Các công nghệ phân tích dữ liệu phải cải tiến để dễ dùng và rút ngắn quy trình phân tích. Nên tập trung vào kể chuyện với dữ liệu chứ không mãi xử lý data được. Nếu làm thủ công sẽ bị rời rạc (isolate) không end – to – end thì rất khó để có “right information” đúng “right time”. Với chủ đề này sẽ có bài viết giải thích kỹ hơn về các khái niệm vừa nêu.

Còn 1 số yếu tố nữa, nhưng trên mình nêu ra 3 yếu tố quan trọng nhất định hướng sự phát triển công nghệ trong ngành này. Và tất nhiên không có công nghệ nào hoàn hảo, mỗi công nghệ đều có ưu nhược điểm nhất định, mình sẽ giải thích chi tiết hơn trong những bài viết sau nhé và mình cũng sẽ gợi ý cách doanh nghiệp lựa chọn công nghệ phân tích dữ liệu phù hợp nữa.

Vậy công nghệ phân tích dữ liệu Low-Code sẽ là tương lai của ngành Phân tích dữ liệu?

Wix biến mọi người thành nhà xây dựng trang webCanva biến mọi người thành nhà thiết kế. Bây giờ, đã đến lúc biến mọi người trở thành nhà khoa học dữ liệu“. Nguyên văn tiếng anh, trích dẫn từ bài viết trên Toward Data Science: “Towards No Code Analytics: Making Everyone A Data Scientist

Wix made everyone a site-builder, Canva made everyone a designer. Now, it’s time to make everyone a data scientist.”

Tự nhiên nghĩ đến đây, tự nhiên mình nhớ lại chiến dịch mới nhất của Alteryx: Analytics for All (cũng ý tưởng, mọi người đều có thể phân tích data với những công nghệ No-code/ Low-code)đầu năm mình có tính apply Visa đi Mỹ để dự Inspire 2022 của Alteryx (sự kiện toàn cầu, tổ chức tại Mỹ), nhưng đông quá do mới hết dịch nên trễ lịch, hi vọng sẽ được tham dự Inspire Global trong thời gian đến.

https://youtu.be/pi1IwokMP2s
Analytics for All, Alteryx Inspire 2022
10 lý do tại sao doanh nghiệp cần những công nghệ phân tích dữ liệu low-code (10 reasons why enterprises need low-code platform)

Vậy công nghệ phân tích dữ liệu Low-Code sẽ là tương lai của ngành Phân tích dữ liệu? Đúng, nhưng chưa phải cuối cùng. Hiện tại, phần lớn công nghệ Low-code/ Visual-based platforms đang phát triển mạnh mẽ. Tuy nhiên, Augmented Analytics Platforms mới là đỉnh của chóp trong tương lai.

Tương lai ngành phân tích dữ liệu sẽ thuộc về Augmented Analytics Platforms

Augmented Analytics Platforms: Tích hợp ML và AI để tự động hóa quy trình phân tích, không kéo thả (drag-drop) và tất nhiên: không coding bằng tay (hand coding)

Tương lai ngành Analytics thuộc về Augmented Analytics Platforms

Chi tiết hơn về xu hướng này, đọc thêm tại:

  • AI in Analytics: Powering the Future of Data Analytics (Dataconomy)
  • Get Ready for the Next Wave of Disruption in Data and Predictive Analytics (MSS Business Transformation)

Một số ví dụ khác về Augmented Analytics trên Power BI: chức năng Quick Insights. Chức năng này đẩy data vào sẽ ra Insight, mọi quá trình phân tích sẽ được làm tự động.

Hiện tại trên thế giới, chưa có công nghệ phân tích nào trong ngành data được gọi là Augmented Analytics Platforms hay Data Storytelling Tool – đẩy data vào ra Story (hình 14), mới chỉ dừng lại Visual-based/ Low-code thôi, các tính năng AutoML, Quick Insights… mới được tích hợp trong từng chức năng riêng lẻ trong tool thôi.


Sự phát triển Data tools

Các khóa học Business Intelligence tại Mastering Data Analytics sẽ được khai giảng định kỳ hàng tháng. Mỗi lớp học thu hút +100 anh/chị học viên – là trung tâm đào tạo Phân tích dữ liệu kinh doanh duy nhất tại Việt Nam thu hút được đông đảo học viên mỗi lớp như vậy. MDA đã mở 34 khóa học Public trên thị trường và là đối tác đào tạo phân tích dữ liệu cho các doanh nghiệp lớn tại Việt Nam. Tham khảo thông tin KHÓA HỌC “BUSINESS INTELLIGENCE” – ONLINE/OFFLINE tại Mastering Data Analytics.