Trong phiên cuối cùng của chúng tôi, chúng tôi đã thảo luận về Xử lý trước, phân tích và hình ảnh hóa dữ liệu trong Python ML . Bây giờ, trong hướng dẫn này, chúng ta sẽ tìm hiểu cách tách tệp CSV thành Dữ liệu đào tạo và kiểm tra trong Python Machine Learning . Hơn nữa, chúng ta sẽ tìm hiểu các điều kiện tiên quyết và quy trình để Tách tập dữ liệu thành dữ liệu Huấn luyện và tập thử nghiệm trong Python ML.
Các bài viết liên quan:
Vì vậy, hãy bắt đầu Cách đào tạo & Bộ kiểm tra trong Học máy Python.
Dữ liệu đào tạo và kiểm tra trong Học máy Python
Khi chúng tôi làm việc với tập dữ liệu, một thuật toán học máy hoạt động theo hai giai đoạn. Chúng tôi thường chia nhỏ dữ liệu khoảng 20% -80% giữa các giai đoạn thử nghiệm và đào tạo. Trong quá trình học có giám sát, chúng tôi chia tập dữ liệu thành dữ liệu đào tạo và dữ liệu thử nghiệm trong Python ML.
Một. Điều kiện tiên quyết cho dữ liệu huấn luyện và thử nghiệm
Chúng ta sẽ cần các thư viện Python sau cho hướng dẫn này – pandas và sklearn.
Chúng tôi có thể cài đặt những thứ này bằng pip-
pip install pandas pip install sklearn
Chúng tôi sử dụng gấu trúc để nhập tập dữ liệu và sklearn để thực hiện phân tách. Bạn có thể nhập các gói này dưới dạng-
import pandas as pd from sklearn.model_selection import train_test_split from sklearn.datasets import load_iris
Bạn có biết về các định dạng tệp dữ liệu Python – Cách đọc CSV, JSON, XLS
Xem thêm 11 phần mềm machine learning hàng đầu
Làm thế nào để Tách Tập huấn luyện và Thử nghiệm trong Học máy Python?
Sau đây là quy trình Tập huấn và Kiểm tra trong Python ML. Vì vậy, trước tiên hãy lấy một tập dữ liệu.
Đang tải tập dữ liệu
Hãy tải tập dữ liệu cháy rừng bằng cách sử dụng pandas.
data=pd.read_csv('forestfires.csv') data.head()
Chia tách
Hãy chia dữ liệu này thành các nhãn và tính năng. Bây giờ, đó là gì? Sử dụng các tính năng, chúng tôi dự đoán nhãn. Ý tôi là sử dụng các tính năng (dữ liệu chúng tôi sử dụng để dự đoán nhãn), chúng tôi dự đoán nhãn (dữ liệu chúng tôi muốn dự đoán).
y=data.temp x=data.drop('temp',axis=1)
Temp là một nhãn để dự đoán nhiệt độ theo y; chúng ta sử dụng hàm drop () để lấy tất cả các dữ liệu khác trong x. Sau đó, chúng tôi chia nhỏ dữ liệu.
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2) x_train.head()
x_train.shape
Bạn có biết cách làm việc với cơ sở dữ liệu quan hệ bằng Python không
x_test.head()
Dòng test_size = 0,2 gợi ý rằng dữ liệu kiểm tra phải là 20% của tập dữ liệu và phần còn lại phải là dữ liệu huấn luyện. Với kết quả đầu ra của các hàm shape (), bạn có thể thấy rằng chúng ta có 104 hàng trong dữ liệu thử nghiệm và 413 hàng trong dữ liệu huấn luyện.
Xem thêm Các ứng dụng của Machine Learning trong thực tế
Một ví dụ khác
Hãy lấy một ví dụ khác. Chúng tôi sẽ sử dụng bộ dữ liệu IRIS lần này.
iris=load_iris() x,y=iris.data,iris.target x_train,x_test,y_train,y_test=train_test_split(x,y, train_size=0.5, test_size=0.5, random_state=123) y_test y_train
Hãy khám phá Thiết lập môi trường học máy Python
Vẽ sơ đồ của Train và Test Set bằng Python
Chúng tôi phù hợp với mô hình của mình trên dữ liệu tàu để đưa ra dự đoán về nó. Hãy nhập mô hình tuyến tính từ sklearn, áp dụng hồi quy tuyến tính cho tập dữ liệu và vẽ biểu đồ kết quả.
from sklearn.linear_model import LinearRegression as lm model=lm().fit(x_train,y_train) predictions=model.predict(x_test) import matplotlib.pyplot as plt plt.scatter(y_test,predictions)
plt.xlabel('True values')
plt.ylabel('Predictions')
plt.show()
Vì vậy, đây là tất cả về Tập huấn luyện và thử nghiệm trong Học máy Python. Hy vọng bạn thích giải thích của chúng tôi.
Kết luận
Hôm nay, chúng ta đã học cách chia CSV hoặc tập dữ liệu thành hai tập con – tập huấn luyện và tập kiểm tra trong Python Machine Learning. Chúng tôi thường để tập kiểm tra là 20% của toàn bộ tập dữ liệu và 80% còn lại sẽ là tập huấn luyện. Hơn nữa, nếu bạn có thắc mắc, hãy hỏi trong hộp nhận xét.