Free materials
7 phút đọc

10 Bộ Dataset Miễn Phí Giúp Bạn Xây Dựng Portfolio Của Riêng Mình

Dataset là bộ sư tập data có cấu trúc (structured data). Dữ liệu này cung  cấp thông tin dưới dạng văn bản, số hoặc âm thanh, video, hình ảnh. Bạn có thể sử dụng các bộ dữ liệu này để thực hiện làm sạch dữ liệu, phân tích dữ liệu, dự báo, tạo visualization,… và thêm các dự án này vào danh mục đầu tư của bạn.

1. Supermarket Sales

Hồ sơ lịch sử bán hàng của Siêu thị về dữ liệu bán hàng trong 3 siêu thị khác nhau.

Thông tin thuộc tính:

  • ID Hóa đơn
  • Chi nhánh
  • Thành phố
  • Khách hàng
  • Giới tính


Download

2. Credit Card Fraud Detection

Tìm kiếm, phát hiện thẻ tín dụng có gian lận. Bộ dữ liệu chứa các giao dịch được thực hiện bằng thẻ tín dụng vào tháng 9 năm 2013 bởi chủ thẻ châu Âu.

Bộ dữ liệu này trình bày các giao dịch xảy ra trong hai ngày, trong đó chúng tôi có 492 vụ gian lận trong tổng số 284.807 giao dịch. Bộ dữ liệu rất mất cân bằng, loại tích cực (lừa đảo) chiếm 0,172% trong tất cả các giao dịch.


Download

3. FIFA 22 complete player dataset

Các bộ dữ liệu được cung cấp bao gồm dữ liệu người chơi cho chế độ the Career Mode từ FIFA 15 đến FIFA 22 của trò chơi điện tử. Dữ liệu cho phép so sánh nhiều khía cạnh của cùng một người chơi trong 8 phiên bản mới nhất của game này.


Download

4. Walmart Store Sales Forecasting

Dữ liệu bán hàng của 45 cửa hàng Walmart tại các khu vực khác nhau:

stores.csv: Tệp này chứa thông tin về 45 cửa hàng, cho biết loại và quy mô cửa hàng.

train.csv: Đây là dữ liệu đào tạo lịch sử, bao gồm từ 2010-02-05 đến 2012-11-01. Trong tệp này, bạn sẽ tìm thấy các trường sau:

  • Cửa hàng – số cửa hàng
  • Dept – số phòng ban
  • Ngày – tuần
  • Weekly_Sales – doanh số cho bộ phận nhất định trong cửa hàng nhất định
  • IsHoliday – liệu tuần đó có phải là tuần lễ đặc biệt hay không

test.csv: Tệp này giống với train.csv, tuy nhiên có thêm doanh thu hàng tuần. Bạn phải dự đoán doanh số bán hàng cho từng bộ ba cửa hàng, bộ phận và ngày trong tệp này.

features.csv: Tệp này chứa dữ liệu bổ sung liên quan đến cửa hàng, bộ phận và hoạt động khu vực cho các ngày nhất định.


Download

5. Netflix Movies and TV Shows

Danh sách các bộ phim và chương trình truyền hình trên Netflix – được cập nhật thường xuyên


Download

6. LinkedIn Data Analyst jobs listings

Hơn 8.400 dòng dữ liệu về công việc phân tích dữ liệu từ Hoa Kỳ, Canada và Châu Phi.

Features

  • title: Job title
  • company: Name of the company
  • description: description of the job and company
  • onsite_remote:
  • Location where the employee will be working from
  • salary: Salary for the job. May be yearly or hourly. In most cases, it is a range from min to max
  • location: Where the company with the opening role is located
  • criteria: Job requirements like experience, employment type, etc
  • posted_date: The date the job was posted
  • link: The URL to the job


Download

7. Top 50 Fast-Food Chains in USA

Thức ăn nhanh là một loại thực phẩm sản xuất hàng loạt được thiết kế để bán lại cho mục đích thương mại, với ưu tiên hàng đầu là tốc độ phục vụ. Đây là một thuật ngữ thương mại, giới hạn đối với thực phẩm được bán trong nhà hàng hoặc cửa hàng với các nguyên liệu đông lạnh, làm nóng trước hoặc nấu sẵn và được đóng gói để mang đi/mang đi. Thức ăn nhanh được tạo ra như một chiến lược thương mại để đáp ứng số lượng lớn người đi làm bận rộn, khách du lịch và người làm công ăn lương. Năm 2018, ngành công nghiệp thức ăn nhanh trị giá ước tính 570 tỷ USD trên toàn cầu.

Các điểm chính của bộ dữ liệu này là – chuỗi thức ăn nhanh, doanh số toàn bộ hệ thống của Hoa Kỳ (đơn vị tính: triệu – đô la), doanh số trung bình trên mỗi đơn vị (đvt: nghìn đô la), cửa hàng nhượng quyền, cửa hàng công ty, Total Change từ năm 2020


Download

8. Amazon and Best Buy Electronics

Đây là danh sách hơn 7.000 đánh giá trực tuyến cho 50 sản phẩm điện tử từ các trang web như Amazon và Best Buy được cung cấp bởi cơ sở dữ liệu sản phẩm của DataFiniti. Bộ dữ liệu bao gồm ngày review, nguồn, xếp hạng, tiêu đề, siêu dữ liệu của người đánh giá, v.v.


Download

9. Forecasting Book Sales

Dự báo doanh số của 8 tiêu đề sách ở 2.418 địa điểm khác nhau. Có hai tệp văn bản có sẵn để hỗ trợ giải quyết vấn đề: dmc2009_train.txt (tệp dữ liệu đào tạo) và dmc2009_forecast.txt (dữ liệu của 2.418 vị trí sẽ đưa ra dự đoán).


Download

10. Real/Fake Job Posting Prediction

Bộ dữ liệu này chứa 18 nghìn mô tả công việc, trong đó khoảng 800 là giả. Dữ liệu bao gồm cả thông tin văn bản và thông tin tổng hợp về các công việc. Bộ dữ liệu có thể được sử dụng để tạo các mô hình phân loại để có thể tìm hiểu xem post về công việc đó có thật hay không.


Download

Bên trên là 10 bộ Dataset miễn phí do Mastering Data Analytics tổng hợp từ nhiều nguồn khác nhau. Hy vọng, với tài liệu này sẽ giúp bạn có thể hoàn thiện các giải pháp trong dự án machine learning hay các mục đich khác. Để giải đáp câu hỏi về Khóa học Business Intelligence, vui lòng gọi đến hotline 0961 48 66 48 hoặc inbox Fanpage Mastering Data Analytics để đội ngũ MDA hỗ trợ bạn nhé! Ngoài ra, MDA còn rất nhiều tài liệu hữu ích về Phân tích Dữ liệu Kinh doanh bạn có thể tìm đọc tại chuyên mục Blog của MDA!