Dataset là bộ sư tập data có cấu trúc (structured data). Dữ liệu này cung cấp thông tin dưới dạng văn bản, số hoặc âm thanh, video, hình ảnh. Bạn có thể sử dụng các bộ dữ liệu này để thực hiện làm sạch dữ liệu, phân tích dữ liệu, dự báo, tạo visualization,… và thêm các dự án này vào danh mục đầu tư của bạn.
Hồ sơ lịch sử bán hàng của Siêu thị về dữ liệu bán hàng trong 3 siêu thị khác nhau.
Thông tin thuộc tính:
Tìm kiếm, phát hiện thẻ tín dụng có gian lận. Bộ dữ liệu chứa các giao dịch được thực hiện bằng thẻ tín dụng vào tháng 9 năm 2013 bởi chủ thẻ châu Âu.
Bộ dữ liệu này trình bày các giao dịch xảy ra trong hai ngày, trong đó chúng tôi có 492 vụ gian lận trong tổng số 284.807 giao dịch. Bộ dữ liệu rất mất cân bằng, loại tích cực (lừa đảo) chiếm 0,172% trong tất cả các giao dịch.
Các bộ dữ liệu được cung cấp bao gồm dữ liệu người chơi cho chế độ the Career Mode từ FIFA 15 đến FIFA 22 của trò chơi điện tử. Dữ liệu cho phép so sánh nhiều khía cạnh của cùng một người chơi trong 8 phiên bản mới nhất của game này.
Dữ liệu bán hàng của 45 cửa hàng Walmart tại các khu vực khác nhau:
stores.csv: Tệp này chứa thông tin về 45 cửa hàng, cho biết loại và quy mô cửa hàng.
train.csv: Đây là dữ liệu đào tạo lịch sử, bao gồm từ 2010-02-05 đến 2012-11-01. Trong tệp này, bạn sẽ tìm thấy các trường sau:
test.csv: Tệp này giống với train.csv, tuy nhiên có thêm doanh thu hàng tuần. Bạn phải dự đoán doanh số bán hàng cho từng bộ ba cửa hàng, bộ phận và ngày trong tệp này.
features.csv: Tệp này chứa dữ liệu bổ sung liên quan đến cửa hàng, bộ phận và hoạt động khu vực cho các ngày nhất định.
Danh sách các bộ phim và chương trình truyền hình trên Netflix – được cập nhật thường xuyên
Hơn 8.400 dòng dữ liệu về công việc phân tích dữ liệu từ Hoa Kỳ, Canada và Châu Phi.
Thức ăn nhanh là một loại thực phẩm sản xuất hàng loạt được thiết kế để bán lại cho mục đích thương mại, với ưu tiên hàng đầu là tốc độ phục vụ. Đây là một thuật ngữ thương mại, giới hạn đối với thực phẩm được bán trong nhà hàng hoặc cửa hàng với các nguyên liệu đông lạnh, làm nóng trước hoặc nấu sẵn và được đóng gói để mang đi/mang đi. Thức ăn nhanh được tạo ra như một chiến lược thương mại để đáp ứng số lượng lớn người đi làm bận rộn, khách du lịch và người làm công ăn lương. Năm 2018, ngành công nghiệp thức ăn nhanh trị giá ước tính 570 tỷ USD trên toàn cầu.
Các điểm chính của bộ dữ liệu này là – chuỗi thức ăn nhanh, doanh số toàn bộ hệ thống của Hoa Kỳ (đơn vị tính: triệu – đô la), doanh số trung bình trên mỗi đơn vị (đvt: nghìn đô la), cửa hàng nhượng quyền, cửa hàng công ty, Total Change từ năm 2020
Đây là danh sách hơn 7.000 đánh giá trực tuyến cho 50 sản phẩm điện tử từ các trang web như Amazon và Best Buy được cung cấp bởi cơ sở dữ liệu sản phẩm của DataFiniti. Bộ dữ liệu bao gồm ngày review, nguồn, xếp hạng, tiêu đề, siêu dữ liệu của người đánh giá, v.v.
Dự báo doanh số của 8 tiêu đề sách ở 2.418 địa điểm khác nhau. Có hai tệp văn bản có sẵn để hỗ trợ giải quyết vấn đề: dmc2009_train.txt (tệp dữ liệu đào tạo) và dmc2009_forecast.txt (dữ liệu của 2.418 vị trí sẽ đưa ra dự đoán).
Bộ dữ liệu này chứa 18 nghìn mô tả công việc, trong đó khoảng 800 là giả. Dữ liệu bao gồm cả thông tin văn bản và thông tin tổng hợp về các công việc. Bộ dữ liệu có thể được sử dụng để tạo các mô hình phân loại để có thể tìm hiểu xem post về công việc đó có thật hay không.
Bên trên là 10 bộ Dataset miễn phí do Mastering Data Analytics tổng hợp từ nhiều nguồn khác nhau. Hy vọng, với tài liệu này sẽ giúp bạn có thể hoàn thiện các giải pháp trong dự án machine learning hay các mục đich khác. Để giải đáp câu hỏi về Khóa học Business Intelligence, vui lòng gọi đến hotline 0961 48 66 48 hoặc inbox Fanpage Mastering Data Analytics để đội ngũ MDA hỗ trợ bạn nhé! Ngoài ra, MDA còn rất nhiều tài liệu hữu ích về Phân tích Dữ liệu Kinh doanh bạn có thể tìm đọc tại chuyên mục Blog của MDA!
Mastering Data Analytics là đơn vị hàng đầu chuyên cung cấp các dịch vụ đào tạo phân tích dữ liệu kinh doanh cho các cá nhân và doanh nghiệp