Blog
8 phút đọc

Giới Thiệu OneLake Trong Microsoft Fabric

Tại sự kiện Microsoft Build, Microsoft đã công bố một giải pháp Data và Analytics mới có tên là Microsoft Fabric.

Đại diện Microsoft trả lời: “Fabric tập hợp các dịch vụ hiện có như Data Factory,Synapse và Power Bl thành một sản phẩm hợp nhất duy nhất cho tất cả khối lượng công việc dữ liệu và phân tích của bạn. Fabric bao gồm nhiều trải nghiệm và công cų khác nhau.”

Cùng với đó, Microsoft đã cho ra mắt nền tảng dữ liệu hợp nhất cho MS Fabric, OneLake. Hay chúng ta thường ví von nó chính là “OneDrive dành cho Dữ liệu”.

onelake-trong-ms-fabric

Data Lake SaaS hợp nhất duy nhất

OneLake cung cấp cho bạn một kho dữ liệu Saas logic thống nhất duy nhất cho toàn bộ tổ chức của bạn. Điều này dẫn đến việc loại bỏ các silo dữ liệu. OneLake được cung cấp tự động với mọi đối tượng Fabric tenant và không cần quản lý OneLake. Quản lý được xử lý bởi nền tảng. OneLake tự động triểnn khai các tính năng quản trị dữ liệu trên tất cả dữ liệu có trong lake. Các tính năng này bao gồm bảo vệ dữ liệu, chứng thhực, tích hợp danh mục, v.v. Quyền sở hữu quản lý và dữ
liệu trong OneLake được xử lý bằng cách tạo workspaces.

Workspaces cho phép các bộ phận khác nhau của tổ chức hoạt đÔng độc lập trong khi vẫn đóng góp vào cùng một kho dữ liệu. Workspaces có thể có quản trị viên riêng, quyền kiểm soát truy cập, khu vực và khả năng thanh toán riêng. Workspaces kể thừa các quy tắc do quản trị viên tenant cải đặt nền không cần triển khai lại cùng một cách quản trị hoặc dành thời gian cố gắng để các tài nguyên khác nhau trao đổi với nhau. Quản trị viên có thể kiểm soát quyền truy cập vào dữ liệu trong workspaces của họ.

Data Lake phân tán theo địa lý

Workspace có thể nằm trong các vùng khác nhau. Điều này có nghĩa là mọi dữ liệu trong các workspaces đó cũng sẽ nằm trong các vùng đó. OneLake là một đại diện ảo của nhiều tài khoản lưu trữ Azure Data Lake Gen2.

Data Mesh vượt trội

Các đơn vị khác nhau sẽ có thể hoạt động độc lập trong cùng một Data Lake mà không phải quản lý các tài nguyền lưu trữ khác nhau. Microsoft đã có thể triển khai data mesh theo mẫu phổ biển hiệu quả hơn so với trước đây và giờ đây OneLake còn tiến xa hơn nữa với việc giới thiệu khải niệm miền. Các dự án hoặc nhóm khác nhau có thể có workspaces riêng, hiện có thể được nhóm thành các miền, để đại diện cho một miền kinh doanh duy nhất (ví dụ: Sales). Miền cung cấp ranh giới quản lý giữa đối tượng tenant và workspaces, cho phép quản trị viên có quyền kiểm soát chi tiết hơn đối với nhiều workspaces.

onelake-trong-ms-fabric-1

Nền tảng cho tất cả các mục dữ liệu Fabric

Trong OneLake, tất cả dữ liệu là một phần của mục dữ liệu Fabric và nhiều mục dữ liệu Fabric được kết nối sẵn để lưu trữ dữ liệu trong OneLake bằng các định dạng tệp mở. Mục dữ liệu Fabric là gì? Nếu bạn hiện đang sử dụng Power Bl, thì bạn đã quen thuộc với một mục dữ liệu, đó là Power Bl dataset.

Fabric mang đến một số mục dữ liệu mới, mỗi mục có trải nghiệm phù hợp với các diện mạo khác nhau. Ví dụ: data warehouse chứa các giao dịch đầy đủ dành cho nhà pháttriển T-SQL và Lakehouse dành cho Data Engineers hoặc Data Scientist. Đây là một trong những phần thú vị nhất của Microsoft Fabric ở chỗ nó sẽ cho phép các nhà phát triển với các bộ kỹ năng khác nhau làm việc với cùng một dữ liệu bằng các công nghệ khác nhau.

Bất kể bạn bắt đầu với mục nào, tất cả chúng sẽ lưu trữ dữ liệu của chúng trong OneLake.

onelake-trong-ms-fabric-2

Data virtualization trên các domains và đám mây

Shortcut là một liên kết tượng trưng trỏ từ vị trí dữ liệu này sang vị trí dữ liệu khác. Giống như bạn có thể tạo lối tắt trong Windows hoặc Linux, dữ liệu sẽ xuất hiện ở vị trí lối tắt nhu 1 shortcut.

Nếu bạn có các bảng trong kho dữ liệu mà bạn muốn cung cấp cùng với các bảng hoặc tệp khác trong kho dữ liệu, bạn sẽ cần sao chép dữ liệu đó từ nguồn sang đích. Với OneLake, bạn tạo lối tắt trong lakehouse chỉ đến warehouse (hoặc các địa điểm khác). Dữ liệu sẽ xuất hiện trong lakehouse của bạn như thhề bạn đã sao chép dữ liệu đó, nhưng dữ liệu nằm ở vị tri khác và mọi thay đổi sẽ được phản ánh ngay lập tức.

Bạn cũng có thể sử dụng lối tất để hợp nhất dữ liệu trên các không gian làm việc và miền mà không thay đổi quyền sở hữu dữ liệu. Nếu bạn đã có dữ liệu nằm trong các Data Lake trong. Azure cho AWS, thì các lake này có thể tiếp tục tồn tại và được quản lý bên ngoài Fabric. Microsoft đã mở rộng các phím tắt để bao gồm lake bên ngoài OneLake và thậm chi bên ngoài Azure để bạn có thể ảo hóa các tài khoản ADSL thế hệ 2 hiện có hoặc bộ chứa Amazon S3 vào OneLake.

Bảo mật – Bất kể bạn truy cập dữ liệu như thế nào!

Dữ liệu có thể được bảo mật ở cấp độ từng mục hoặc không gian lành việc. Điều này có nghĩa là bạn có thể kiểm soát chính xác những gì người dùng có quyền truy cập. Ví dụ: bạn có thể xác địnhh bảo mật cấp đổi tượng bằng T-SQL. Các chính sách bảo mật này sẽ được áp dụng khi bất kỳ ai truy cập dữ liệu thông qua cổÔng cụ SQL. Quyền truy cập trực tiếp vào mục dữ liệu trong lake có thể bị hạn chế.

Power Bl bảo cáo rằng tận dụng chế độ DirectQuery cũng sẽ ấp dụng ccác cài đặt bảo mật này. Người dùng vẫn có thể được cấp quyền truy cập vào mục dữ liệu đầy đủ trong lake để sử dụng trực tiếp Spark hoặc các công cụ khác đối với lake. Theo truyền thống, DirectQuery có thể gây ra các vấn đề về hiệu suất, nhưnig Microsoft đã nỗ lực hết sức để làm cho dữ liệu từ OneLake hoạt động cực kỳ tốt. Đối với Power Bl trong Fabric, giờ đây đây đã có Direct Lake giúp làm việc với dữ liệu từ OneLake nhanh gần bằng chế độ Import.