Blog
4 phút đọc

Làm sạch dữ liệu – Data Cleaning là gì?

Làm sạch dữ liệu là một trong những bước quan trọng trong phân tích dữ liệu. Dữ liệu của bạn càng sạch thì càng dễ dàng thực hiện phân tích. Trong bài viết này, Mastering Data Analytics sẽ đưa ra những lời giải thích chi tiết nhằm giúp các bạn hiểu hơn về “Làm sạch dữ liệu – Data Cleaning là gì?

Làm sạch dữ liệu – Data Cleaning là gì?

Làm sạch dữ liệu, còn được gọi là làm sạch hoặc lọc dữ liệu. Gồm các thao tác như xác định và sửa lỗi từ tập dữ liệu thô. Các thao tác có thể là loại bỏ dữ liệu trùng lặp và những dữ liệu không liên quan. Mục đích của data cleaning (làm sạch dữ liệu) là làm cho dữ liệu trở nên chính xác. Từ đó có thể tạo ra những hình ảnh trực quan, mô hình hóa dữ liệu và giúp đưa ra những quyết định kinh doanh đáng tin cậy.

Tại sao Làm sạch dữ liệu – Data Cleaning lại quan trọng?

Kết quả phân tích chỉ tốt khi dữ liệu được phân tích đủ tốt và đáng tin cậy. Theo www.alteryx.com, trung bình các tổ chức cho biết gần 30% dữ liệu của họ là không chính xác. Dữ liệu bẩn này khiến các công ty mất 12% tổng doanh thu của họ. Và họ đang mất nhiều thứ hơn là chỉ tiền.

Theo MonkeyLearn, 57% các nhà khoa học dữ liệu coi việc dọn dẹp và sắp xếp dữ liệu là phần ít thú vị nhất trong công việc của họ. Đây cũng là nhiệm vụ khoa học dữ liệu tốn nhiều thời gian nhất.

Quá trình làm sạch dữ liệu cần nhất quán, có cấu trúc và chính xác để giúp đưa ra các quyết định sáng suốt.

Quy trình của Làm sạch dữ liệu – Data Cleaning

Có nhiều cách khác nhau để làm sạch dữ liệu. Quy trình làm sạch dữ liệu được tóm gọn trong 3 bước chính như sau:

  1. BƯỚC 1: FIND THE DIRT: Bắt đầu làm sạch dữ liệu bằng cách xác định dữ liệu bị sai ở đâu?
  2. BƯỚC 2: SCRUB THE DIRT: Tùy thuộc vào loại dữ liệu bẩn bạn đang gặp phải, bạn sẽ cần kỹ thuật làm sạch khác nhau. Đây là bước chuyên sâu nhất.
  3. BƯỚC 3: RINSE AND REPEAT: Sau khi làm sạch dữ liệu, bạn cần lặp lại bước 1 và bước 2.

Cuối cùng, các bạn có thể tham khảo tài liệu sau để hiểu thêm về quy trình chi tiết làm sạch dữ liệu Data Cleaning

 

 

Khóa học Business Intelligence tại Mastering Data Analytics:

  • Điểm khác biệt của khóa học:
    • Hệ thống hóa Quy Trình Phân Tích Dữ Liệu bài bản và chuyên nghiệp từ “Raw data” đến “Data Stories”
    • Tập trung vào Kỹ Thuật Phân Tích Dữ Liệu (Taxonomy) chứ không chỉ tập trung vào tools
    • Nắm vững kỹ thuật Khai Thác và Đào Sâu INSIGHTS theo chuẩn B.U.S (Big – Useful – Surprising)
    • Phát triển kỹ năng Kể Chuyện với Dữ Liệu – một trong những kỹ năng khó nhất hiện nay!
  • Hình thức học đa dạng:
    • Online hoặc offline.
    • Với hình thức học online, học viên vẫn được tương tác trực tiếp với giảng viên qua Microsoft Teams/Google Meet
  • Học phí:
    • 13,5 triệu đồng (online) và 16 triệu đồng (offline).
    • Đã bao gồm tài liệu độc quyền cho giảng viên biên soạn, kho tài liệu được chọn lọc kỹ lưỡng và được tặng thêm các khóa training.
  • Ưu đãi 5% học phí khi đăng ký sớm, theo nhóm, và/hoặc là sinh viên cử nhân hoặc thạc sĩ hệ chính quy còn niên khóa đào tạo
  • Hỗ trợ thanh toán học phí 2 lần: 50% trước khai giảng và 50% còn lại trước khi hoàn tất 8 buổi học đầu tiên (không áp dụng ưu đãi)

  Đăng ký ngay khóa học Business Intelligence