Rate this post

Tìm kiếm tập dữ liệu phù hợp trong khi nghiên cứu cho các dự án máy học hoặc khoa học dữ liệu là một nhiệm vụ khá khó khăn. Và, để xây dựng các mô hình chính xác, bạn cần một lượng dữ liệu khổng lồ. Nhưng đừng lo lắng, có rất nhiều nhà nghiên cứu, tổ chức và cá nhân đã chia sẻ công việc của họ và chúng tôi có thể sử dụng bộ dữ liệu của họ trong các dự án của mình. Trong bài viết này, chúng tôi sẽ thảo luận về hơn 70 bộ dữ liệu học máy mà bạn có thể sử dụng để xây dựng dự án khoa học dữ liệu tiếp theo của mình.

Các bài viết liên liên quan:

Bộ dữ liệu machine learning

Đây là những bộ dữ liệu mà bạn có thể sẽ sử dụng khi làm việc trên bất kỳ dự án khoa học dữ liệu hoặc máy học nào:

Bộ dữ liệu học máy cho người mới bắt đầu khoa học dữ liệu

Tập dữ liệu về khách hàng của trung tâm thương mại

Tập dữ liệu khách hàng của Trung tâm mua sắm chứa thông tin về những người đến thăm trung tâm mua sắm. Tập dữ liệu có giới tính, id khách hàng, tuổi, thu nhập hàng năm và điểm chi tiêu. Nó thu thập thông tin chi tiết từ dữ liệu và phân nhóm khách hàng dựa trên hành vi của họ.

Liên kết dữ liệu:  mall customers dataset

Ý tưởng Dự án Khoa học Dữ liệu:  Phân khúc khách hàng dựa trên độ tuổi, giới tính, sở thích. Phân khúc khách hàng là một thực tiễn quan trọng nhằm phân chia khách hàng cơ sở thành các nhóm riêng lẻ giống nhau. Nó hữu ích trong tiếp thị tùy chỉnh.

Bộ dữ liệu Iris

Tập dữ liệu mống mắt là một tập dữ liệu đơn giản và thân thiện với người mới bắt đầu, chứa thông tin về kích thước cánh hoa và đài hoa. Tập dữ liệu có 3 lớp với 50 cá thể trong mỗi lớp, do đó, nó chứa 150 hàng chỉ với 4 cột.

Liên kết dữ liệu: Iris dataset

Ý tưởng Dự án Khoa học Dữ liệu:  Thực hiện mô hình phân loại hoặc hồi quy học máy trên tập dữ liệu. Phân loại là nhiệm vụ tách các mục thành lớp tương ứng của nó.

Tập dữ liệu MNIST

Đây là một cơ sở dữ liệu của các chữ số viết tay. Nó chứa 60.000 hình ảnh đào tạo và 10.000 hình ảnh thử nghiệm. Đây là một tập dữ liệu hoàn hảo để bắt đầu triển khai phân loại hình ảnh, nơi bạn có thể phân loại một chữ số từ 0 đến 9.

Liên kết dữ liệu: MNIST dataset

Ý tưởng Dự án Khoa học Dữ liệu: Thực hiện một thuật toán phân loại học máy trên hình ảnh để nhận dạng các chữ số viết tay từ một tờ giấy.

Bộ dữ liệu nhà ở Boston

Đây là một tập dữ liệu phổ biến được sử dụng trong nhận dạng mẫu. Nó chứa thông tin về các ngôi nhà khác nhau ở Boston dựa trên tỷ lệ tội phạm, thuế, số phòng, v.v. Nó có 506 hàng và 14 biến khác nhau trong các cột. Bạn có thể sử dụng tập dữ liệu này để dự đoán giá nhà.

Liên kết dữ liệu: Boston dataset

Ý tưởng Dự án Khoa học Dữ liệu:  Dự đoán giá nhà ở của một ngôi nhà mới sử dụng hồi quy tuyến tính. Hồi quy tuyến tính được sử dụng để dự đoán các giá trị của đầu vào chưa biết khi dữ liệu có một số mối quan hệ tuyến tính giữa các biến đầu vào và đầu ra.

Tập dữ liệu phát hiện tin tức giả mạo

Đây là một tệp CSV có 7796 hàng với 4 cột. Cột đầu tiên xác định tin tức, thứ hai cho tiêu đề, thứ ba cho văn bản tin tức và thứ tư là nhãn TRUE hoặc FAKE.

Liên kết dữ liệu: Fake news detection dataset

Ý tưởng Dự án Khoa học Dữ liệu:  Xây dựng một mô hình phát hiện tin tức giả với thuật toán Bộ phân loại Tích cực Thụ động. Thuật toán Tích cực thụ động có thể phân loại các luồng dữ liệu lớn, nó có thể được thực hiện một cách nhanh chóng.

Mã nguồn: Dự án Python phát hiện tin tức giả mạo

Bộ dữ liệu chất lượng rượu

Bộ dữ liệu chứa thông tin hóa học khác nhau về rượu vang. Nó có 4898 phiên bản với 14 biến mỗi phiên bản. Tập dữ liệu tốt cho các nhiệm vụ phân loại và hồi quy. Mô hình có thể được sử dụng để dự đoán chất lượng rượu.

Liên kết dữ liệu: Wine quality dataset

Ý tưởng Dự án Khoa học Dữ liệu: Thực hiện các thuật toán học máy khác nhau như hồi quy, cây quyết định, rừng ngẫu nhiên, v.v. và phân biệt giữa các mô hình và phân tích hiệu suất của chúng.

Dữ liệu SOCR – Tập dữ liệu chiều cao và trọng lượng

Đây là một tập dữ liệu đơn giản để bắt đầu. Nó chỉ chứa chiều cao (inch) và cân nặng (pound) của 25.000 người 18 tuổi khác nhau. Bộ dữ liệu này có thể được sử dụng để xây dựng một mô hình có thể dự đoán chiều cao hoặc cân nặng của con người.

Liên kết dữ liệu: Heights & weights dataset

Ý tưởng Dự án Khoa học Dữ liệu:  Xây dựng một mô hình dự đoán để xác định chiều cao hoặc cân nặng của một người. Triển khai mô hình hồi quy tuyến tính sẽ được sử dụng để dự đoán chiều cao hoặc cân nặng.

Tập dữ liệu Parkinson

Parkinson là một chứng rối loạn hệ thần kinh ảnh hưởng đến vận động. Tập dữ liệu chứa 195 bản ghi của những người với 23 thuộc tính khác nhau chứa các phép đo y sinh. Dữ liệu được sử dụng để tách những người khỏe mạnh khỏi những người bị bệnh Parkinson.

Liên kết dữ liệu: Parkinson dataset

Ý tưởng Dự án Khoa học Dữ liệu:  Mô hình có thể được sử dụng để phân biệt người khỏe mạnh với người bị bệnh Parkinson. Thuật toán hữu ích cho mục đích này là XGboost, viết tắt của tăng độ dốc cực độ, nó dựa trên cây quyết định.

Mã nguồn: Dự án Máy học về Phát hiện Bệnh Parkinson

Tập dữ liệu Titanic

Vào ngày 15 tháng 4 năm 1912, con tàu Titanic không thể chìm và giết chết 1502 hành khách trong tổng số 2224. Bộ dữ liệu chứa thông tin như tên, tuổi, giới tính, số anh chị em trên tàu, v.v. của khoảng 891 hành khách trong bộ huấn luyện và 418 hành khách trong bộ thử nghiệm .

Liên kết dữ liệu: Titanic dataset

Ý tưởng Dự án Khoa học Dữ liệu:  Xây dựng một mô hình thú vị để dự đoán liệu một người có sống sót trên tàu Titanic hay không. Bạn có thể sử dụng hồi quy tuyến tính cho mục đích này.

Bộ dữ liệu về dịch vụ nhận hàng của Uber

Tập dữ liệu có thông tin của khoảng 4,5 triệu xe bán tải uber ở Thành phố New York từ tháng 4 năm 2014 đến tháng 9 năm 2014 và 14 triệu người khác từ tháng 1 năm 2015 đến tháng 6 năm 2015. Người dùng có thể thực hiện phân tích dữ liệu và thu thập thông tin chi tiết từ dữ liệu.

Liên kết dữ liệu: Uber pickups dataset

Ý tưởng Dự án Khoa học Dữ liệu:  Để phân tích dữ liệu về các chuyến đi của khách hàng và trực quan hóa dữ liệu để tìm ra thông tin chi tiết có thể giúp cải thiện hoạt động kinh doanh. Phân tích và trực quan hóa dữ liệu là một phần quan trọng của khoa học dữ liệu. Chúng được sử dụng để thu thập thông tin chi tiết từ dữ liệu và với trực quan hóa, bạn có thể nhận được thông tin nhanh chóng từ dữ liệu.

Bộ dữ liệu Chars74k

Bộ dữ liệu chứa hình ảnh của các ký hiệu ký tự được sử dụng bằng tiếng Anh và tiếng Kannada. Nó có 64 lớp (0-9, AZ, az), 7,7 nghìn ký tự từ hình ảnh tự nhiên, 3,4 nghìn ký tự vẽ tay và 62 nghìn phông chữ tổng hợp bằng máy tính.

Liên kết dữ liệu:  Chars 74k dataset

Ý tưởng Dự án Khoa học Dữ liệu:  Thực hiện nhận dạng ký tự trong các ngôn ngữ tự nhiên. Nhận dạng ký tự là quá trình tự động nhận dạng các ký tự từ giấy viết hoặc văn bản in.

Bộ dữ liệu phát hiện gian lận thẻ tín dụng

Tập dữ liệu chứa các giao dịch được thực hiện bằng thẻ tín dụng, chúng được dán nhãn là gian lận hoặc chính hãng. Điều này rất quan trọng đối với các công ty có hệ thống giao dịch để xây dựng mô hình phát hiện các hoạt động gian lận.

Liên kết dữ liệu: Credit card fraud detection dataset

Ý tưởng Dự án Khoa học Dữ liệu:  Triển khai các thuật toán khác nhau như cây quyết định, hồi quy logistic và mạng nơ-ron nhân tạo để xem cái nào mang lại độ chính xác cao hơn. So sánh kết quả của từng thuật toán và hiểu hành vi của các mô hình.

Tập dữ liệu Ý định Chatbot

Tập dữ liệu là một tệp JSON chứa các thẻ khác nhau như lời chào, lời tạm biệt, Hospital_search, Pharmacy_search, v.v. Mỗi thẻ chứa danh sách các mẫu mà người dùng có thể hỏi và các câu trả lời mà một chatbot có thể trả lời theo mẫu đó. Tập dữ liệu rất hữu ích để hiểu cách dữ liệu chatbot hoạt động.

Liên kết dữ liệu: Intents JSON Dataset

Ý tưởng Dự án Khoa học Dữ liệu:  Chỉnh sửa và mở rộng dữ liệu bằng quan sát của bạn để xây dựng và hiểu hoạt động của một chatbot trong các tổ chức. Một chatbot yêu cầu bạn hiểu các khái niệm xử lý ngôn ngữ Tự nhiên.

Bộ dữ liệu học máy để xử lý ngôn ngữ tự nhiên

Tập dữ liệu email Enron

Tập dữ liệu Enron này phổ biến trong xử lý ngôn ngữ tự nhiên. Nó chứa khoảng 0,5 triệu email của hơn 150 người dùng, trong đó hầu hết người dùng là quản lý cấp cao của Enron. Kích thước của dữ liệu là khoảng 432Mb.

Liên kết dữ liệu: Enron email dataset

Ý tưởng dự án học máy:  Sử dụng k-means clustering để xây dựng mô hình phát hiện các hoạt động gian lận. K-mean clustering là một thuật toán học không giám sát phổ biến. Nó phân chia các quan sát thành k số cụm bằng cách quan sát các mẫu tương tự trong dữ liệu.

Tập dữ liệu Yelp

Yelp đã cung cấp công khai tập dữ liệu của họ nhưng bạn phải điền vào biểu mẫu trước để truy cập dữ liệu. Nó chứa 1,2 triệu mẹo của 1,6 triệu người dùng, hơn 1,2 triệu thuộc tính doanh nghiệp và ảnh cho các tác vụ xử lý ngôn ngữ tự nhiên.

Liên kết dữ liệu: Yelp dataset

Ý tưởng Dự án Máy học:  Bạn có thể xây dựng một mô hình có thể phát hiện xem đánh giá của một nhà hàng là giả hay thật. Với xử lý văn bản và các tính năng bổ sung trong tập dữ liệu, bạn có thể xây dựng mô hình SVM có thể phân loại đánh giá là giả hay thật.

Tập dữ liệu Jeopardy

Nguy cơ! là một chương trình trò chơi truyền hình của Mỹ, trong đó các câu hỏi về kiến ​​thức chung được đưa ra với sự xoay chuyển. Tập dữ liệu chứa hơn 200 nghìn câu hỏi và câu trả lời trong tệp CSV hoặc JSON.

Liên kết dữ liệu: Jeopardy dataset

Ý tưởng Dự án Máy học:  Chúng tôi Xây dựng một hệ thống trả lời câu hỏi và triển khai trong một bot có thể chơi trò chơi nguy hiểm với người dùng. Bot có thể được sử dụng trên bất kỳ nền tảng nào như Telegram, discord, reddit, v.v.

Bộ dữ liệu hệ thống khuyến nghị

Đây là một cổng thông tin đến một bộ sưu tập các bộ dữ liệu phong phú đã được sử dụng trong các dự án nghiên cứu trong phòng thí nghiệm tại UCSD. Nó chứa các bộ dữ liệu khác nhau từ các trang web phổ biến như đánh giá sách Goodreads, đánh giá sản phẩm Amazon, dữ liệu pha chế, dữ liệu từ phương tiện truyền thông xã hội, v.v. được sử dụng để xây dựng hệ thống giới thiệu.

Liên kết dữ liệu: Recommender systems dataset

Ý tưởng dự án học máy:  Xây dựng hệ thống đề xuất sản phẩm giống như Amazon. Hệ thống đề xuất có thể gợi ý cho bạn các sản phẩm, phim, v.v. dựa trên sở thích của bạn và những thứ bạn thích và đã sử dụng trước đó.

UCI Spambase Dataset

Phân loại email là thư rác hoặc không phải thư rác là một nhiệm vụ rất phổ biến và hữu ích. Tập dữ liệu chứa 4601 email và 57 siêu thông tin về các email. Bạn có thể xây dựng các mô hình để lọc ra các thư rác.

Liên kết dữ liệu: UCI spambase dataset

Ý tưởng dự án học máy: Bạn có thể xây dựng một mô hình có thể xác định email của bạn là thư rác hay không phải thư rác.

Bộ dữ liệu Flickr 30k

Tập dữ liệu Flickr 30k tương tự như tập dữ liệu Flickr 8k và nó chứa nhiều hình ảnh được gắn nhãn hơn. Điều này có hơn 30.000 hình ảnh và chú thích của họ. Tập dữ liệu này được sử dụng để xây dựng các mô hình chính xác hơn tập dữ liệu Flickr 8k.

Liên kết dữ liệu: Flickr image dataset

Ý tưởng dự án học máy:  Sử dụng cùng một mô hình từ Flickr 8k và làm cho nó chính xác hơn với nhiều dữ liệu đào tạo hơn. Mô hình CNN tuyệt vời để trích xuất các tính năng từ hình ảnh và sau đó chúng tôi cung cấp các tính năng cho một mạng nơ-ron lặp lại sẽ tạo ra chú thích.

Đánh giá IMDB

Bộ dữ liệu đánh giá phim lớn bao gồm các bài đánh giá phim từ trang web IMDB với hơn 25.000 đánh giá về đào tạo và 25.000 cho bộ thử nghiệm.

Liên kết dữ liệu:  IMDB reviews dataset

Ý tưởng Dự án Máy học:  Thực hiện phân tích Cảm xúc trên dữ liệu để xem thống kê về loại phim mà người dùng thích. Phân tích cảm xúc là quá trình phân tích dữ liệu văn bản và xác định cảm xúc của người dùng, Tích cực hay Tiêu cực.

Bộ dữ liệu MS COCO

COCO của Microsoft là một cơ sở dữ liệu khổng lồ cho các tác vụ phát hiện đối tượng, phân đoạn và tạo phụ đề hình ảnh. Nó có khoảng 1,5 triệu hình ảnh được dán nhãn. Bộ dữ liệu rất tốt để xây dựng các mô hình sẵn sàng sản xuất.

Liên kết dữ liệu: MS COCO dataset

Ý tưởng dự án học máy:  Phát hiện các đối tượng từ hình ảnh và sau đó tạo chú thích cho chúng. Mạng LSTM (Bộ nhớ ngắn hạn dài) chịu trách nhiệm tạo ra các câu bằng tiếng Anh và CNN được sử dụng để trích xuất các tính năng từ hình ảnh. Để xây dựng một trình tạo phụ đề, chúng ta phải kết hợp hai mô hình này.

Bộ dữ liệu Flickr 8k

Tập dữ liệu Flickr 8k chứa 8000 hình ảnh và mỗi hình ảnh được gắn nhãn với 5 chú thích khác nhau. Tập dữ liệu được sử dụng để xây dựng trình tạo phụ đề hình ảnh.

Liên kết dữ liệu: Flickr 8k dataset

Ý tưởng dự án học máy:  Xây dựng trình tạo phụ đề hình ảnh bằng mô hình CNN-RNN. Mô hình trình tạo phụ đề hình ảnh có thể phân tích các đặc điểm của hình ảnh và tạo câu like tiếng Anh mô tả hình ảnh.

Bộ dữ liệu học máy cho thị giác máy tính và xử lý hình ảnh

Bộ dữ liệu CIFAR-10 và CIFAR-100

Đây là hai tập dữ liệu, tập dữ liệu CIFAR-10 chứa 60.000 hình ảnh nhỏ 32 * 32 pixel. Chúng được gắn nhãn từ 0-9 và mỗi chữ số đại diện cho một lớp. CIFAR-100 tương tự như tập dữ liệu CIFAR-10 nhưng sự khác biệt là nó có 100 lớp thay vì 10. Tập dữ liệu này rất tốt để thực hiện phân loại ảnh.

Liên kết dữ liệu: CIFAR dataset

Ý tưởng dự án Trí tuệ nhân tạo:  Thực hiện phân loại hình ảnh trên các đối tượng khác nhau và xây dựng mô hình. Trong phân loại hình ảnh, chúng tôi lấy hình ảnh làm đầu vào và mục đích là phân loại hình ảnh đó thuộc thể loại nào.

GTSRB (tiêu chuẩn nhận dạng biển báo giao thông của Đức)

Bộ dữ liệu GTSRB chứa khoảng 50.000 hình ảnh các biển báo giao thông thuộc 43 lớp khác nhau và chứa thông tin về hộp giới hạn của mỗi biển báo. Tập dữ liệu được sử dụng để phân loại nhiều lớp.

Liên kết dữ liệu: GTSRB dataset

Ý tưởng dự án Trí tuệ nhân tạo:  Xây dựng một mô hình bằng cách sử dụng khung học sâu để phân loại các biển báo giao thông và cũng nhận biết hộp giới hạn của biển báo. Việc phân loại biển báo giao thông cũng hữu ích trong các phương tiện tự hành để xác định các biển báo và sau đó thực hiện các hành động thích hợp.

Tập dữ liệu ImageNet

ImageNet là một cơ sở dữ liệu hình ảnh lớn được tổ chức theo hệ thống phân cấp của wordnet. Nó có hơn 100.000 cụm từ và trung bình 1000 hình ảnh cho mỗi cụm từ. Kích thước vượt quá 150 GB. Nó phù hợp để nhận dạng hình ảnh, nhận dạng khuôn mặt, phát hiện vật thể, v.v. Nó cũng tổ chức một cuộc thi đầy thử thách mang tên ILSVRC để mọi người xây dựng các mô hình ngày càng chính xác hơn.

Liên kết dữ liệu:  Imagenet Dataset

Ý tưởng dự án Trí tuệ nhân tạo:  Để thực hiện phân loại hình ảnh trên cơ sở dữ liệu khổng lồ này và nhận dạng các đối tượng. Mô hình CNN (Mạng nơron hợp hiến) là cần thiết để dự án này có được kết quả chính xác.

Bộ dữ liệu hình ảnh mô bệnh học vú

Bộ dữ liệu này chứa 2.77.524 hình ảnh có kích thước 50 × 50 được trích xuất từ ​​162 hình ảnh slide gắn kết của các mẫu bệnh phẩm ung thư vú được quét ở 40x. Có 1,98,738 xét nghiệm âm tính và 78,786 xét nghiệm dương tính với IDC.

Liên kết dữ liệu: Breast histopathology dataset

Ý tưởng Dự án Trí tuệ Nhân tạo:  Xây dựng một mô hình có thể phân loại ung thư vú. Bạn xây dựng một mô hình phân loại hình ảnh với mạng nơ-ron Convolutions.

Bộ dữ liệu cảnh quan thành phố

Đây là bộ dữ liệu mã nguồn mở cho các dự án Computer Vision. Nó chứa các chú thích cấp pixel chất lượng cao về chuỗi video được thực hiện trên 50 đường phố khác nhau của thành phố. Bộ dữ liệu rất hữu ích trong việc phân đoạn ngữ nghĩa và đào tạo mạng nơ-ron sâu để hiểu quang cảnh đô thị.

Liên kết dữ liệu: Cityscapes dataset

Ý tưởng dự án Trí tuệ nhân tạo:  Để thực hiện phân đoạn hình ảnh và phát hiện các đối tượng khác nhau từ video trên đường. Phân đoạn hình ảnh là quá trình phân vùng kỹ thuật số một hình ảnh thành nhiều danh mục khác nhau như ô tô, xe buýt, người, cây cối, đường xá, v.v.

Tập dữ liệu động học

Có ba bộ dữ liệu khác nhau cho Kinetics: Kinetics 400, Kinetics 600 và Kinetics 700. Đây là một tập dữ liệu quy mô lớn chứa liên kết URL đến khoảng 6,5 triệu triệu video chất lượng cao.

Liên kết dữ liệu: Kinetics dataset

Ý tưởng dự án Trí tuệ nhân tạo:  Xây dựng mô hình ghi nhận hành động của con người và phát hiện hành động của con người. Sự ghi nhận hành động của con người được ghi nhận bởi một loạt các quan sát.

Bộ dữ liệu tư thế con người MPII

Bộ dữ liệu về tư thế con người MPII chứa 25.000 hình ảnh với hơn 40.000 người với các khớp cơ thể được chú thích. Bộ dữ liệu tổng thể bao gồm hơn 410 hoạt động của con người. Tập dữ liệu có kích thước 12,9 GB.

Liên kết dữ liệu: MPII human pose dataset

Ý tưởng dự án trí tuệ nhân tạo:  Để phát hiện các tư thế khác nhau của con người dựa trên sự thẳng hàng của các khớp cơ thể của một người. Phát hiện tư thế con người theo dõi mọi chuyển động của cơ thể. Nó còn được gọi là bản địa hóa các khớp của con người.

Bộ dữ liệu 20BN-something-something v2

Đây là tập dữ liệu video clip chất lượng cao khổng lồ hiển thị các hành động thực hiện của con người như chọn thứ gì đó, đặt thứ gì đó xuống, mở thứ gì đó, đóng thứ gì đó, v.v.

Nó có tổng số 220.847 video.

Liên kết dữ liệu: Something-something dataset

Ý tưởng dự án trí tuệ nhân tạo:  Để thực hiện mô hình ghi nhận hành động của con người và phát hiện các hoạt động khác nhau do con người thực hiện. Các hoạt động này có thể được sử dụng để phát hiện các hoạt động khi lái xe, các hoạt động giám sát, v.v.

Tập dữ liệu đối tượng 365

Tập dữ liệu đối tượng 365 là một bộ sưu tập lớn các hình ảnh chất lượng cao với các hộp giới hạn của các đối tượng. Nó có 365 đối tượng, 600k hình ảnh và 10 triệu hộp giới hạn. Điều này rất tốt cho việc tạo mô hình phát hiện đối tượng.

Liên kết dữ liệu: Object 365 dataset

Ý tưởng dự án trí tuệ nhân tạo:  Phân loại hình ảnh được chụp từ camera và phát hiện các đối tượng hiện diện trong hình ảnh. Phát hiện đối tượng liên quan đến việc nhận ra đối tượng nào hiện diện trong ảnh cùng với tọa độ của đối tượng.

Bộ dữ liệu phác thảo ảnh

Tập dữ liệu chứa các hình ảnh được ghép nối với các bản vẽ đường viền của chúng. Nó có 1000 hình vẽ ngoài trời, mỗi hình ảnh có 5 hình vẽ đường viền thô thể hiện đường viền của hình ảnh.

Liên kết dữ liệu: Photo sketching dataset

Ý tưởng Dự án Trí tuệ Nhân tạo:  Xây dựng một mô hình có thể phát triển các bản phác thảo tự động từ các hình ảnh. Thao tác này sẽ lấy một hình ảnh làm đầu vào và tạo ra một hình ảnh phác thảo bằng kỹ thuật thị giác máy tính.

Bộ dữ liệu CQ500

Bộ dữ liệu này được công bố rộng rãi với 491 ảnh chụp CT đầu với 193.317 lát cắt. Nó chứa ý kiến ​​của ba bác sĩ X quang khác nhau trên mỗi hình ảnh. Bộ dữ liệu có thể được sử dụng để xây dựng các mô hình có thể phát hiện chảy máu, gãy xương và hiệu ứng khối lượng trên đầu.

Liên kết dữ liệu: CQ 500 dataset

Ý tưởng dự án trí tuệ nhân tạo:  Tạo mô hình cho các bệnh viện có thể tự động tạo báo cáo về gãy xương, chảy máu hoặc những thứ khác bằng cách phân tích tập dữ liệu chụp CT.

Tập dữ liệu IMDB-Wiki

Bộ dữ liệu IMDB-Wiki là một trong những bộ dữ liệu mã nguồn mở lớn nhất dành cho hình ảnh khuôn mặt có gắn nhãn giới tính và tuổi. Các hình ảnh được thu thập từ IMDB và Wikipedia. Nó có hơn 5 triệu hình ảnh được dán nhãn.

Liên kết dữ liệu: IMDB wiki dataset

Ý tưởng Dự án Trí tuệ Nhân tạo:  Tạo một mô hình sẽ phát hiện khuôn mặt và dự đoán giới tính và tuổi của họ. Bạn có thể có các danh mục trong các phạm vi khác nhau như 0-10, 10-20, 30-40, 50-60, v.v.

Bộ dữ liệu phát hiện màu

Tập dữ liệu chứa tệp CSV có 865 tên màu với các giá trị màu RGB (đỏ, lục và lam) tương ứng của chúng. Nó cũng có giá trị thập lục phân của màu.

Liên kết dữ liệu: Color Detection Dataset 

Ý tưởng dự án trí tuệ nhân tạo:  Tập dữ liệu màu có thể được sử dụng để tạo ứng dụng phát hiện màu trong đó chúng ta có thể có giao diện để chọn màu từ hình ảnh và ứng dụng sẽ hiển thị tên của màu đó.

Bộ dữ liệu máy học để học sâu

Tập dữ liệu 8M của Youtube

Tập dữ liệu youtube 8M là tập dữ liệu video có nhãn quy mô lớn có 6,1 triệu id video Youtube, 350.000 giờ video, 2,6 tỷ tính năng âm thanh / hình ảnh, 3862 lớp và nhãn 3avg cho mỗi video. Nó được sử dụng cho mục đích phân loại video.

Liên kết dữ liệu:  Youtube 8M

Ý tưởng dự án học máy: Việc  phân loại video có thể được thực hiện bằng cách sử dụng tập dữ liệu và mô hình có thể mô tả nội dung của video. Một video có một loạt đầu vào để phân loại video đó thuộc danh mục nào.

Bộ dữ liệu 8K âm thanh đô thị

Bộ dữ liệu âm thanh đô thị chứa 8732 âm thanh đô thị từ 10 lớp như máy điều hòa không khí, tiếng chó sủa, tiếng khoan, còi báo động, nhạc đường phố, v.v. Bộ dữ liệu phổ biến cho các bài toán phân loại âm thanh đô thị.

Liên kết dữ liệu: Urban Sound 8K dataset

Ý tưởng Dự án Máy học:  Chúng ta có thể xây dựng một hệ thống phân loại âm thanh để phát hiện loại âm thanh đô thị phát trong nền. Điều này sẽ giúp bạn bắt đầu với dữ liệu âm thanh và hiểu cách làm việc với dữ liệu phi cấu trúc.

Bộ dữ liệu LSUN

Khả năng hiểu cảnh quy mô lớn (LSUN) là một tập dữ liệu gồm hàng triệu hình ảnh có màu về cảnh và vật thể. Nó lớn hơn nhiều so với tập dữ liệu imagenet. Có khoảng 59 triệu hình ảnh, 10 loại cảnh khác nhau và 20 loại đối tượng khác nhau.

Liên kết dữ liệu:  LSUN dataset

Ý tưởng Dự án Máy học:  Xây dựng một mô hình để phát hiện cảnh nào trong ảnh. Ví dụ – một lớp học, cây cầu, phòng ngủ, curch_outdoor, v.v. Mục tiêu của việc hiểu cảnh là thu thập càng nhiều kiến ​​thức về một hình ảnh cảnh nhất định càng tốt. Nó bao gồm phân loại, phát hiện đối tượng, phân đoạn đối tượng.

Tập dữ liệu RAVDESS

RAVDESS là từ viết tắt của The Ryerson Audio-Visual Database of Emotional Speech and Song. Nó chứa các tập tin âm thanh của 24 diễn viên (12 nam, 12 nữ) với các cung bậc cảm xúc khác nhau như bình tĩnh, tức giận, buồn bã, hạnh phúc, sợ hãi,… Các biểu cảm có hai cường độ bình thường và mạnh mẽ. Bộ dữ liệu rất hữu ích cho việc nhận dạng cảm xúc giọng nói.

Liên kết dữ liệu: RAVDESS dataset

Ý tưởng Dự án Máy học:  Xây dựng bộ phân loại nhận dạng cảm xúc giọng nói để phát hiện cảm xúc của người nói. Các đoạn âm thanh của mọi người được phân loại thành các cảm xúc như tức giận, vui vẻ, buồn bã, v.v.

Bộ dữ liệu Librispeech

Tập dữ liệu này chứa một số lượng lớn các bài phát biểu tiếng Anh có nguồn gốc từ dự án LibriVox. Nó có 1000 giờ đọc bài phát biểu tiếng Anh với nhiều giọng khác nhau. Nó được sử dụng cho các dự án nhận dạng giọng nói.

Liên kết dữ liệu:  Librispeech dataset

Ý tưởng dự án học máy:  Xây dựng mô hình nhận dạng giọng nói để phát hiện những gì được nói và chuyển nó thành văn bản. Mục tiêu của nhận dạng giọng nói là tự động xác định những gì đang được nói trong âm thanh.

Tập dữ liệu Baidu Apolloscape

Bộ dữ liệu được thiết kế để thúc đẩy sự phát triển của công nghệ tự lái. Nó chứa các video màu có độ phân giải cao với hàng trăm nghìn khung hình và chú thích pixel của chúng, hình ảnh âm thanh nổi, đám mây điểm dày đặc, v.v. Bộ dữ liệu có 25 mục ngữ nghĩa khác nhau như ô tô, người đi bộ, vòng quay, đèn đường, v.v.

Liên kết dữ liệu:  Baidu apolloscape dataset

Ý tưởng Dự án Máy học:  Xây dựng một robot tự lái có thể xác định các đối tượng khác nhau trên đường và thực hiện hành động tương ứng. Mô hình có thể phân đoạn các đối tượng trong hình ảnh sẽ giúp ngăn ngừa va chạm và tạo đường đi của riêng chúng.

Bộ dữ liệu học máy cho Tài chính và Kinh tế

Cổng dữ liệu quandl

Quandl là một kho lưu trữ khổng lồ cho dữ liệu kinh tế và tài chính. Một số bộ dữ liệu là miễn phí trong khi cũng có một số bộ dữ liệu cần phải mua. Số lượng lớn và dữ liệu tốt làm cho nền tảng này tốt nhất để tìm tập dữ liệu cho các mô hình sẵn sàng sản xuất.

Liên kết dữ liệu:  quandl datasets

Cổng Dữ liệu Mở của Ngân hàng Thế giới

Ngân hàng Thế giới là một tổ chức phát triển toàn cầu cung cấp các khoản vay cho các nước đang phát triển. Nó chứa dữ liệu khổng lồ cho tất cả chương trình của nó và nó được cung cấp công khai cho chúng tôi. Nó có nhiều giá trị bị thiếu và bạn có thể nhận được kiến ​​thức về dữ liệu trong thế giới thực.

Liên kết dữ liệu: World bank open datasets

Cổng dữ liệu IMF

IMF là quỹ tiền tệ quốc tế công bố dữ liệu về tài chính quốc tế, tỷ lệ nợ, đầu tư, dự trữ ngoại hối và hàng hóa.

Liên kết dữ liệu: IMF datasets

Cổng dữ liệu của Hiệp hội Kinh tế Hoa Kỳ (AEA)

Hiệp hội kinh tế Hoa Kỳ có dữ liệu phong phú có sẵn trực tuyến và là một nguồn tài nguyên tuyệt vời để tìm kiếm dữ liệu kinh tế vĩ mô của Hoa Kỳ.

Liên kết dữ liệu: AEA datasets

Cổng dữ liệu Google Xu hướng

Dữ liệu xu hướng của Google có thể được sử dụng để kiểm tra và phân tích dữ liệu một cách trực quan. Bạn cũng có thể tải xuống tập dữ liệu thành tệp CSV chỉ bằng một cú nhấp chuột đơn giản. Chúng tôi có thể tìm ra xu hướng và những gì mọi người đang tìm kiếm.

Liên kết dữ liệu: Google trends datasets

Cổng dữ liệu thị trường Financial Times

Dữ liệu thị trường thời điểm tài chính là một nguồn tốt để tìm kiếm thông tin cập nhật về thị trường tài chính từ khắp nơi trên thế giới. Bạn có thể tìm thấy chỉ số giá chứng khoán, hàng hóa và ngoại hối

Liên kết dữ liệu: Financial times market datasets

Bộ dữ liệu học máy cho chính phủ công

Cổng thông tin Data.gov

Trang web này là nơi lưu trữ dữ liệu mở của chính phủ Hoa Kỳ. Bạn có thể tìm thấy dữ liệu về các lĩnh vực khác nhau như nông nghiệp, y tế, khí hậu, giáo dục, năng lượng, tài chính, khoa học và nghiên cứu, v.v. Nhiều ứng dụng phần mềm đang sử dụng trang web để thu thập dữ liệu và xây dựng các sản phẩm tiêu dùng.

Liên kết dữ liệu: Data.gov datasets

Cổng dữ liệu: Dữ liệu chính phủ mở (Ấn Độ)

Nền tảng dữ liệu mở của chính phủ cho phép chúng tôi truy cập vào dữ liệu có thể chia sẻ do chính phủ sở hữu. Đó là một phần của sáng kiến ​​Ấn Độ kỹ thuật số và được phát triển bởi ngăn xếp nguồn mở. Nó xuất bản nhiều bộ dữ liệu, công cụ, API, v.v.

Liên kết dữ liệu:  Open government datasets

Cổng dữ liệu Atlas môi trường thực phẩm

Nền tảng này chứa dữ liệu về thực phẩm của Hoa Kỳ và cách thực phẩm địa phương của Hoa Kỳ ảnh hưởng đến chế độ ăn uống của người dân. Nó chứa thông tin về nghiên cứu về lựa chọn thực phẩm và chất lượng chế độ ăn uống sẽ giúp xác định khả năng tiếp cận với các lựa chọn thực phẩm lành mạnh.

Liên kết dữ liệu: Food environment atlas datasets

Cổng dữ liệu sức khỏe

Đây là một cổng thông tin của Bộ Y tế và Dịch vụ Nhân sinh Hoa Kỳ. Nó có sẵn hơn 3000 bộ dữ liệu có giá trị. Họ cũng có một API cho chúng tôi.

Liên kết dữ liệu:  Health datasets

Cổng dữ liệu của Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh

CDC có rất nhiều bộ dữ liệu liên quan đến sức khỏe như tiểu đường, ung thư, béo phì, v.v. Có nhiều tài nguyên hơn để bạn có thể tìm thấy dữ liệu về các bệnh sức khỏe.

Liên kết dữ liệu: CDC statistics datasets

Cổng kho dữ liệu London

Điều này chứa dữ liệu về cuộc sống của người dân ở London. Ví dụ – dân số đã tăng bao nhiêu trong 5 năm hoặc số lượng khách du lịch đến thăm London. Họ có hơn 700 bộ dữ liệu để hiểu rõ hơn về thành phố London.

Liên kết dữ liệu: London datastore datasets

Cổng dữ liệu mở của Chính phủ Canada

Đây là một cổng thông tin dữ liệu liên quan đến người Canada. Bạn có thể tìm thấy các bộ dữ liệu liên quan đến các chủ đề như nông nghiệp, nghệ thuật, âm nhạc, giáo dục, chính phủ, y tế, v.v.

Liên kết dữ liệu: Canada government open datasets

Bản tóm tắt

Trong bài viết này, chúng tôi đã xem hơn 70 bộ dữ liệu học máy mà bạn có thể sử dụng để thực hành học máy hoặc khoa học dữ liệu. Việc tạo tập dữ liệu của riêng bạn rất tốn kém, vì vậy chúng tôi có thể sử dụng tập dữ liệu của người khác để hoàn thành công việc của mình. Nhưng chúng ta nên đọc kỹ các tài liệu của tập dữ liệu vì một số tập dữ liệu là miễn phí, trong khi đối với một số tập dữ liệu, bạn phải ghi công cho chủ sở hữu như họ đã nêu.

Các hướng dẫn khác:

Trả lời

Email của bạn sẽ không được hiển thị công khai.

Call now