Kiến thức
5 phút đọc

[15] Làm Thế Nào Để Tránh Bị Lừa Khi Đọc Hiểu Dữ Liệu – Fake Analytics

Fake Analytics – cụm từ mà mình đã nhớ đến khi đang lướt các bài viết. Gần đây mình có đọc qua bài viết này của Maz và thấy ý tưởng này rất hay. Bài viết của Maz nói lên hiện trạng khi đọc hiểu dữ liệu mà nhiều người đang mắc phải.

Source: Slide dạy về Business Statistics trong Business Intelligence Program (Reference mình để cuối series)

Bản thân mình cũng từng dùng ví dụ này để dạy về Mean, Median, Mode… trong phần Business Statistics – chương trình Phân tích dữ liệu kinh doanh bên mình từ 3 năm trước. Mình nghĩ ai dạy về Statistics chắc cũng từng dùng ví dụ này.

Giải thích thêm về ví dụ Fake Analytics

Mình chỉ giải thích thêm cho rõ 1 số ý, là cách tính này đúng là lấy mean (ý nghĩa đúng là: lương tất cả nhân sự bao gồm giám đốc, TGĐ… chia bình quân ra). Nhưng cách họ tính không phải lấy lương 120; 125; 128; … cộng lương từng người rồi chia cho số tổng số lương. Mà họ sẽ lấy tổng chi phí lương/tổng số nhân viên (vì những người bên ngoài doanh nghiệp như nhà báo chỉ tiếp cận được dữ liệu External – ví dụ trên Báo cáo tài chính thôi). Nếu họ đã có lương từng nhân viên 120; 125; 128; … (dữ liệu Internal, thì họ có thể dùng Median để thể hiện đúng độ tập trung của dữ liệu “Central of Data” rồi).

Vấn đề liên quan đến Fake Analytics

Nên nếu suy nghĩ kĩ thì thật ra họ cũng không lừa đảo, khai khống, sai lệch… gì cả. Vì họ đã nói:

(1) Thứ 1: đó là lương bình quân (mean) chứ không phải trung vị (median). Nếu hiểu sai thì do người đọc không phân biệt được Mean vs Median khác nhau như thế nào thôi

(2) Thứ 2: họ cũng ko có “data internal” dữ liệu lương từng người trong doanh nghiệp. Thường bộ phận HR Analytics mới có, để tính median nên họ đã dùng mean thôi.

Nên bài học rút ra là gì?

Khi đọc hiểu dữ liệu phải hiểu “Bối cảnh – Context” của dữ liệu, để hiểu đúng về dữ liệu.

Vậy làm thế nào tránh bị đọc hiểu sai dữ liệu – Fake analytics?

Nói về “Fake Analytics” – bị lừa khi giao tiếp về kết quả phân tích dữ liệu, thì thường rơi vào 3 hạn mục:

1. Về statitics

Bị đọc hiểu sai do bạn thiếu kiến thức về toán, thống kê. Để cải thiện được hiện trạng này bạn có thể tham khảo nhiều quyển sách. How to Lie with Statistics – bí kiếp gối đầu để bạn giải quyết vấn đề này. Bạn có thể tham khảo thông tin sách tại Amazon

2. Về Data Vizualization

Bị đọc hiểu sai do bạn thiếu kiến thức về trực quan hóa dữ liệu. Họ có thể thay đổi loại chart, legend, màu sắc, axis, …. để lừa mình; mình gợi ý bạn tìm đọc sách How Charts Lie: Getting Smarter about Visual Information.

3. Về Storytelling Bias

Trong khi kể chuyện với dữ liệu, người kể chuyện có thể dùng kĩ thuật Bias in Data Storytelling để dẫn dắt câu chuyện theo hướng họ muốn, mà không phải theo hướng dữ liệu thực tế thể hiện (hiểu Context cũng trong trong tips này). Sách đọc thêm về Storytelling with Data.

Nói chung, đây là lỗi thường gặp khi phân tích, đọc hiểu dữ liệu; nên trong chương trình học, bên mình dạy rất kĩ về phần này: ngoài tips trong sách còn rất nhiều tips thực tế trong suốt những năm đi làm mà mình đã trải qua.

Hy vọng bài viết này là những kiến thức hữu ích cho bạn đang gặp phải fake analytics. Những bài viết tiếp theo với các kiến thức đa dạng của ngành data analytics sẽ được cập nhật liên tục tại website Mastering Data Analytics!

Tham khảo thông tin KHÓA HỌC “PHÂN TÍCH DỮ LIỆU KINH DOANH” – ONLINE/OFFLINE tại https://bit.ly/BI_MDA

Mastering Data Analytics là đơn vị dẫn đầu mảng Đào tạo kĩ năng Phân tích dữ liệu kinh doanh tại Việt Nam. Các khóa học Phân tích dữ liệu kinh doanh tại Mastering Data Analytics sẽ được khai giảng định kỳ hàng tháng, mỗi lớp học thu hút +100 anh/chị học viên – là trung tâm đào tạo Phân tích dữ liệu kinh doanh duy nhất tại Việt Nam thu hút được đông đảo học viên mỗi lớp như vậy, đã mở 34 khóa học Public trên thị trường và là đối tác đào tạo phân tích dữ liệu cho các doanh nghiệp lớn tại Việt Nam.