Blog & Event
7 phút đọc

Cách Đọc Biểu Đồ Histogram

Biểu đồ Histogram là một dạng biểu đồ thống kê được sử dụng để biểu diễn phân phối của dữ liệu số hoặc dữ liệu liên tục thành các khoảng dữ liệu (bins) và thể hiện tần suất hoặc số lượng của các quan sát trong mỗi khoảng. Đây là dạng biểu đồ thường gặp trong quá trình phân tích dữ liệu. Vậy, bạn đã biết làm thế nào để đọc biểu đồ Histogram đúng cách chưa?

Sau đây, MDA sẽ hướng dẫn cách để đọc được một biểu đồ Histogram là như thế nào nhé!

Bước 1: Đánh giá các đặc điểm chính của biểu đồ (Độ rộng, đỉnh)

Ví dụ: Trong biểu đồ thời gian chờ đợi của khách hàng, đỉnh của biểu đồ trên là 6 phút và đây là giá trị lặp lại nhiều nhất. Độ rộng của tập dữ liệu trên giao động trong khoảng từ 2-12.

Từ các khám phá dữ liệu như trên, đôi khi chúng ta sẽ biết được rằng thời gian chờ đợi của khách hàng vượt quá thời gian dự kiến và các nhà phân tích cần đưa ra cái giải pháp để làm giảm thiểu thời gian chờ đợi của khách hàng.

Bước 2: Tìm các chỉ số của dữ liệu không bình thường

  • Độ lệch

Từ biểu đồ Histogram sẽ giúp các nhà phân tích nhận ra tập dữ liệu đó có phân phối chuẩn hay không. Ví dụ sau đây cho thấy rằng dữ liệu đang bị lệch phải và lệch trái.

Nếu bạn biết rằng dữ liệu của bạn không tự nhiên bị lệch, hãy điều tra các nguyên nhân có thể. Nếu bạn muốn phân tích dữ liệu nghiêm trọng bị lệch, hãy đọc chủ đề xem xét dữ liệu cho phép phân tích để đảm bảo rằng bạn có thể sử dụng dữ liệu không chuẩn.

  • Ngoại lai

Thường, các giá trị ngoại lai dễ nhận biết nhất trên biểu đồ boxplot. Tuy nhiên, trên histogram bạn cũng có thể nhận biết các giá trị ngoại lai thông qua các cột cô lập ở hai đầu xác định các giá trị ngoại lai.

  • Multi-modal data

Dạng multimodal sẽ có nhiều hơn 1 đỉnh và thường xuất hiện khi dữ liệu được thu thập từ điều kiện khác nhau ví dụ như nhiệt độ

Ví dụ, các biểu đồ này là đồ thị của cùng một tập dữ liệu. Biểu đồ histogram đơn giản có hai đỉnh, nhưng không rõ ràng đỉnh đó nghĩa là gì. Biểu đồ histogram với nhóm cho thấy rằng hai đỉnh tương ứng với hai nhóm.

Nếu bạn có thông tin bổ sung cho phép phân loại các quan sát vào các nhóm, bạn có thể tạo một biến nhóm với thông tin này. Sau đó, bạn có thể tạo đồ thị với nhóm để xác định liệu biến nhóm có giải thích cho các đỉnh trong dữ liệu hay không.

Bước 3: Đánh giá độ phù hợp (fit) của phân phối

Nếu biểu đồ của bạn có một đường phân phối phù hợp (fit), hãy đánh giá chiều cao của các thanh theo hình dạng của dòng. Nếu các thanh theo đường phân phối được fit chặt chẽ, thì dữ liệu phù hợp với phân phối tốt.

Good fit

Để đo chính xác hơn về sự phù hợp phân phối, hãy sử dụng biểu đồ xác suất để kiểm tra sự phù hợp cho ý nghĩa thống kê.

Poor fit

Bước 4: Đánh giá và so sánh các nhóm

Nếu biểu đồ histogram có các nhóm thì chúng ta cần đánh giá và so sánh trung tâm và độ chênh lệch của các nhóm.

  • Trung tâm

Tìm kiếm sự khác biệt giữa các trung tâm của các nhóm. Ví dụ, các biểu đồ này cho thấy thời gian hoàn thành cho ba phiên bản của ứng dụng thẻ tín dụng. Trung tâm cho mỗi phiên bản của ứng dụng thẻ tín dụng ở một vị trí khác nhau. Sự khác biệt trong các vị trí chỉ ra rằng thời gian hoàn thành trung bình là khác nhau.

Overlaid histogram

Paneled histogram

Để xác định xem sự khác biệt về mean có ý nghĩa thống kê hay không, hãy thực hiện một trong các kiểm định sau đây:

  1. Sử dụng kiểm định t test cho hai nhóm
  2. Sử dụng ANOVA một chiều nếu bạn có ba nhóm trở lên
  • Spreads (Sự phân tán)

Nhìn sự phân tán của các nhóm để đánh giá. Ví dụ, các biểu đồ này cho thấy trọng lượng của các lọ được lấp đầy bởi ba máy. Mặc dù biểu đồ có gần như cùng một trung tâm, một số biểu đồ rộng hơn và lan rộng hơn. Sự phân tán rộng hơn cho thấy những máy đó lấp đầy lọ ít nhất quán.

Overlaid histogram

Paneled histogram

Để quyết định sự khác nhau giữa độ phân tán (variance) có ý nghĩa thống kê hay không, chúng ta thường kiểm định 2 loại sau:

  1. Kiểm định variances nếu bạn có 2 nhóm
  2. Kiểm định cho equal variances nếu bạn có 3 nhóm hoặc hơn

Nguồn: minitab

Xem thêm bài viết khác tại đây:

Mastering Data Analytics tự hào là đơn vị đào tạo Kỹ năng Phân tích Dữ liệu Kinh doanh hàng đầu Việt Nam. Các khóa học Phân tích Dữ liệu Kinh doanh được khai giảng định kỳ hàng tháng. Khóa học được giảng dạy ở cả 2 hình thức online và offline, tạo điều kiện cho bạn sắp xếp thời gian học của mình. Truy cập Khóa học Business Intelligence để biết lịch khai giảng gần nhất. Với mọi thắc mắc về khóa học bạn có thể inbox Fanpage Mastering Data Analytics hoặc liên hệ email sales@mastering-da.com để được giải đáp miễn phí!