Tập huấn luyện và kiểm tra trong Machine learning

Tập huấn luyện và kiểm tra trong Machine learning

Rate this post

Trong phiên cuối cùng của chúng tôi, chúng tôi đã thảo luận về  Xử lý trước, phân tích và hình ảnh hóa dữ liệu trong Python ML .  Bây giờ, trong hướng dẫn này, chúng ta sẽ tìm hiểu cách tách tệp CSV thành Dữ liệu đào tạo và kiểm tra trong Python Machine Learning . Hơn nữa, chúng ta sẽ tìm hiểu các điều kiện tiên quyết và quy trình để Tách tập dữ liệu thành dữ liệu Huấn luyện và tập thử nghiệm trong Python ML.

Các bài viết liên quan:

Vì vậy, hãy bắt đầu Cách đào tạo & Bộ kiểm tra trong Học máy Python.

Tập huấn luyện và kiểm tra trong Machine learning

Dữ liệu đào tạo và kiểm tra trong Học máy Python

Khi chúng tôi làm việc với tập dữ liệu, một thuật toán học máy hoạt động theo hai giai đoạn. Chúng tôi thường chia nhỏ dữ liệu khoảng 20% ​​-80% giữa các giai đoạn thử nghiệm và đào tạo. Trong quá trình học có giám sát, chúng tôi chia tập dữ liệu thành dữ liệu đào tạo và dữ liệu thử nghiệm trong Python ML.

Tập huấn luyện và kiểm tra trong Machine learning

Một. Điều kiện tiên quyết cho dữ liệu huấn luyện và thử nghiệm

Chúng ta sẽ cần các thư viện Python sau cho hướng dẫn này – pandas và sklearn.

Chúng tôi có thể cài đặt những thứ này bằng pip-

pip install pandas
pip install sklearn

Chúng tôi sử dụng gấu trúc để nhập tập dữ liệu và sklearn để thực hiện phân tách. Bạn có thể nhập các gói này dưới dạng-

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

Bạn có biết về các định dạng tệp dữ liệu Python – Cách đọc CSV, JSON, XLS 

Làm thế nào để Tách Tập huấn luyện và Thử nghiệm trong Học máy Python?

Sau đây là quy trình Tập huấn và Kiểm tra trong Python ML. Vì vậy, trước tiên hãy lấy một tập dữ liệu.

Tập huấn luyện và kiểm tra trong Machine learning

Đang tải tập dữ liệu

Hãy tải tập dữ liệu cháy rừng bằng cách sử dụng pandas.

data=pd.read_csv('forestfires.csv')
data.head()
Tập huấn luyện và kiểm tra trong Machine learning

Chia tách

Hãy chia dữ liệu này thành các nhãn và tính năng. Bây giờ, đó là gì? Sử dụng các tính năng, chúng tôi dự đoán nhãn. Ý tôi là sử dụng các tính năng (dữ liệu chúng tôi sử dụng để dự đoán nhãn), chúng tôi dự đoán nhãn (dữ liệu chúng tôi muốn dự đoán).

y=data.temp
x=data.drop('temp',axis=1)

Temp là một nhãn để dự đoán nhiệt độ theo y; chúng ta sử dụng hàm drop () để lấy tất cả các dữ liệu khác trong x. Sau đó, chúng tôi chia nhỏ dữ liệu.

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2)
x_train.head()
Tập huấn luyện và kiểm tra trong Machine learning
x_train.shape

Bạn có biết cách làm việc với cơ sở dữ liệu quan hệ bằng Python không

x_test.head()
Tập huấn luyện và kiểm tra trong Machine learning

Dòng test_size = 0,2 gợi ý rằng dữ liệu kiểm tra phải là 20% của tập dữ liệu và phần còn lại phải là dữ liệu huấn luyện. Với kết quả đầu ra của các hàm shape (), bạn có thể thấy rằng chúng ta có 104 hàng trong dữ liệu thử nghiệm và 413 hàng trong dữ liệu huấn luyện.

Một ví dụ khác

Hãy lấy một ví dụ khác. Chúng tôi sẽ sử dụng bộ dữ liệu IRIS lần này.

iris=load_iris()
x,y=iris.data,iris.target
x_train,x_test,y_train,y_test=train_test_split(x,y,
train_size=0.5,
test_size=0.5,
random_state=123)
y_test
y_train

Hãy khám phá Thiết lập môi trường học máy Python 

Vẽ sơ đồ của Train và Test Set bằng Python

Chúng tôi phù hợp với mô hình của mình trên dữ liệu tàu để đưa ra dự đoán về nó. Hãy nhập mô hình tuyến tính từ sklearn, áp dụng hồi quy tuyến tính cho tập dữ liệu và vẽ biểu đồ kết quả.

from sklearn.linear_model import LinearRegression as lm
model=lm().fit(x_train,y_train)
predictions=model.predict(x_test)
import matplotlib.pyplot as plt
plt.scatter(y_test,predictions)
plt.xlabel('True values')
plt.ylabel('Predictions')
plt.show()
Tập huấn luyện và kiểm tra trong Machine learning

Vì vậy, đây là tất cả về Tập huấn luyện và thử nghiệm trong Học máy Python. Hy vọng bạn thích giải thích của chúng tôi.

Kết luận

Hôm nay, chúng ta đã học cách chia CSV hoặc tập dữ liệu thành hai tập con – tập huấn luyện và tập kiểm tra trong Python Machine Learning. Chúng tôi thường để tập kiểm tra là 20% của toàn bộ tập dữ liệu và 80% còn lại sẽ là tập huấn luyện. Hơn nữa, nếu bạn có thắc mắc, hãy hỏi trong hộp nhận xét.

Leave a Reply