Kiến thức
9 phút đọc

[11] Phân biệt: Database, Data Warehouse, Data Mart, Data Lake, Data Lakehouse, Data Mesh P1

Database, Data Warehouse, Data Mart, Data Lake, Data Lakehouse, Data Mesh. Đây là những khái niệm bạn sẽ gặp khi làm một Data Analyst. Các khái niệm vừa nêu sẽ là nội dung tiếp theo series Phân tích dữ liệu kinh doanh. Đây là những khái niệm phổ biến nhất liên quan về thiết kế hệ thống dữ liệu. Mình chủ yếu mạnh về phân tích, không chuyên về mấy Database Connections. Bên mình có hợp tác với một anh chuyên gia Database Management & Architect (Joseph Tan). Ngoài ra, bên mình đang hoàn thiện giáo trình chương trình “Enterprise Data Warehouse”. Hy vọng sẽ “launching” chương trình mới này sớm nhất có thể!

Database (cơ sở dữ liệu)

Cơ sở dữ liệu là nơi lưu trữ các dữ liệu liên quan được sử dụng để nắm bắt một tình huống cụ thể. Một ví dụ về cơ sở dữ liệu là cơ sở dữ liệu điểm bán hàng (POS). Cơ sở dữ liệu POS sẽ thu thập và lưu trữ tất cả dữ liệu có liên quan xung quanh các giao dịch của cửa hàng bán lẻ.

Database có nhiều loại:

Types of Database

Source: https://www.javatpoint.com/types-of-databases

Dữ liệu mới đi vào cơ sở dữ liệu được xử lý, sắp xếp, quản lý, cập nhật và sau đó được lưu trữ trong các bảng. Cơ sở dữ liệu là kho lưu trữ dành cho mục đích duy nhất của dữ liệu giao dịch thô (raw transactional data). Bởi vì cơ sở dữ liệu được gắn chặt với các giao dịch, cơ sở dữ liệu thực hiện xử lý giao dịch trực tuyến (OLTP – online transactional processing).

Data Warehouse (kho dữ liệu)

Nhìn vào hình trên, tiếp theo Databases: dữ liệu sẽ được đẩy vào ETL Tools để đẩy qua Data warehouse. Kho dữ liệu thường chỉ lưu trữ dữ liệu đã được lập mô hình / cấu trúc (thường lưu trữ dữ liệu có cấu trúc – structured data).

Data Mart (phiên bản đơn giản của Data Warehouse)

Trong khi kho dữ liệu (Data warehouse) là nơi lưu trữ đa mục đích cho các trường hợp sử dụng khác nhau, thì kho dữ liệu (mart) là một phần phụ của kho dữ liệu, được thiết kế và xây dựng đặc biệt cho một bộ phận / chức năng kinh doanh cụ thể.

1. Một số lợi ích của việc sử dụng data-mart:

Bảo mật được tách biệt: Vì data-mart chỉ chứa dữ liệu cụ thể cho bộ phận đó; bạn không thể truy cập dữ liệu ngoài ý muốn (dữ liệu tài chính, dữ liệu doanh thu).

Hiệu suất được tách biệt: Tương tự như vậy, vì mỗi data-mart chỉ được sử dụng cho một bộ phận cụ thể. Tải hiệu suất được quản lý và truyền đạt tốt trong bộ phận, do đó không ảnh hưởng đến các khối lượng công việc phân tích khác.

2. 3 Loại Data Mart

  • Kho dữ liệu phụ thuộc (Dependent Data Marts)

Kho dữ liệu phụ thuộc được xây dựng từ kho dữ liệu hiện có. Có cách tiếp cận từ trên xuống bắt đầu bằng việc lưu trữ tất cả dữ liệu kinh doanh của bạn ở một vị trí tập trung. Sau đó rút một phần dữ liệu xác định khi cần để phân tích.

  • Kho dữ liệu độc lập (Independent Data Marts)

Là một hệ thống độc lập, được tạo ra mà không cần sử dụng kho dữ liệu và tập trung vào một chức năng nghiệp vụ. Dữ liệu được giải phóng từ các nguồn dữ liệu bên trong hoặc bên ngoài, được tinh chỉnh. Sau đó được tải vào data mart và được lưu cho đến khi cần thiết hoặc phân tích nghiệp vụ.

  • Kết hợp dữ liệu Mart (Hybrid Data Marts)

Loại dữ liệu này tích hợp dữ liệu từ kho dữ liệu hiện tại và các hệ thống nguồn hoạt động bổ sung. Kết hợp tốc độ và sự tập trung vào người dùng cuối của phương pháp tiếp cận từ trên xuống. Thêm vào đó là sự hỗ trợ tích hợp cấp độ doanh nghiệp của phương pháp từ dưới lên.

Data Lake (hồ dữ liệu)

Data Lake (hồ dữ liệu) là nơi bạn kết xuất tất cả các dạng dữ liệu được tạo trong các phần khác nhau của doanh nghiệp: nguồn cấp dữ liệu có cấu trúc (structured data), nhật ký trò chuyện, email, hình ảnh (hóa đơn, biên lai, séc,…) và video. Quy trình thu thập dữ liệu không lọc ra bất kỳ thông tin nào. Ví dụ: dữ liệu liên quan đến các giao dịch bị hủy, bị trả lại và bị vô hiệu cũng sẽ được thu thập.

1. Chọn Data Lake vì 2 lý do chính

  1. Bạn cần một cách rẻ để lưu trữ các loại dữ liệu khác nhau với số lượng lớn.
  2. Bạn không có kế hoạch để làm gì với dữ liệu, nhưng bạn có ý định sử dụng nó vào một lúc nào đó. Do đó, bạn thu thập dữ liệu trước và phân tích sau.

2. Một số lợi ích của việc sử dụng data-mart

Bảo mật được tách biệt

Data-mart chỉ chứa dữ liệu cụ thể cho bộ phận đó. Vì thế cho phép bạn đặc quyền kiểm soát truy cập (dữ liệu tài chính, dữ liệu doanh thu).

Hiệu suất được tách biệt

Mỗi Data-mart chỉ được sử dụng cho một bộ phận cụ thể vì thế hiệu suất tải được quản lý. Ngoài ra, chất lượng truyền đạt trong bộ phận cũng hiệu quả hơn. Do đó, các khối lượng công việc phân tích của các bộ phận khác sẽ không bị ảnh hưởng.

Data Warehouse vs. Data Lake khác nhau như thế nào

Data Warehouse vs. Data Lake khác nhau như thế nào
So sáng Data Lake vs Data Warehouse

So sánh Data Lake vs. Data Warehouse vs. Data Mart

So sánh Data Lake vs. Data Warehouse vs. Data Mart

Nhìn vào hình trên:

  • Đối với Data Lake phù hợp với những doanh nghiệp có nhu cầu phân tích Advance (sử dụng cả dữ liệu phi cấu trúc), do lượng dữ liệu lớn nên thời gian truy vấn, phân tích dữ liệu tính bằng tuần/ tháng, chi phí cao do lượng data cần lưu trữ rất lớn, và chỉ 1 nhóm đối tượng có khả năng phân tích nâng cao sử dụng
  • Data Warehouse là kho dữ liệu tổng thể tập hợp các hệ thống dữ liệu có cấu trúc tại các phòng ban, rất phổ biến tại hầu hết doanh nghiệp, các doanh nghiệp đã có các hệ thống dữ liệu ở nhiều phòng ban, giờ tập hợp tại 1 nơi, đa phần nhiều “Business Users” có thể sử dụng dữ liệu này, đây là kho dữ liệu tổng của doanh nghiệp
  • Còn Data Mart là kho dữ liệu riêng lẻ được thiết kế riêng cho từng phòng ban.

Mastering Data Analytics và khóa học Phân tích dữ liệu

Khóa học Business Intelligence tại Mastering Data Analytics gồm có 6 chương. Nội dung của 6 chương sẽ được chia thành 20 buổi học. Giảng viên có nhiều năm kinh nghiệm làm việc, nắm giữ các vị trí như Manager/Head trong mảng Data Analytics. Ngoài ra, giảng viên có nhiều kinh nghiệm tư vấn – đào tạo cho các doanh nghiệp lớn và tập đoàn đa quốc gia như Prudential, BIDV, P&G, HSC, Merck, Grab, AEON, CocaCola, Generali, AON…

Các khóa học Business Intelligence tại Mastering Data Analytics sẽ được khai giảng định kỳ hàng tháng. Mỗi lớp học thu hút hơn 100 anh/chị học viên từ mọi ngành nghề. MDA tự hào là trung tâm đào tạo Phân tích dữ liệu kinh doanh thu hút được đông đảo học viên. Chúng tôi đã mở 34 khóa học Business Intelligence online/offline trên thị trường. Ngoài ra MDA còn là đối tác đào tạo phân tích dữ liệu cho các doanh nghiệp lớn tại Việt Nam. Liên hệ ngay hotline 0961 48 66 48 hoặc fanpage Mastering Data Analytics để nhận thông tin ưu đãi khóa học mới nhất!

Đăng ký Khóa học Business Intelligence Online/Offline.