Resampling(Lấy mẫu lại) dữ liệu không cân bằng

Resampling(Lấy mẫu lại) dữ liệu không cân bằng

Rate this post

Với sự đa dạng và số lượng ngày càng tăng của việc sử dụng thẻ tín dụng, gian lận cũng đang phát triển. Đây là một thách thức rất lớn! Để phát hiện và ngăn chặn gian lận tự động, một số mô hình phát hiện gian lận có giám sát và không giám sát đã được đề xuất.

Các phương pháp không được giám sát, chẳng hạn như neural autoencoder, là mô hình phát hiện bất thường và không yêu cầu dữ liệu được gắn nhãn. Các phương pháp được giám sát, chẳng hạn như cây quyết định hoặc mô hình hồi quy logistic, yêu cầu dữ liệu được gắn nhãn, thường không có sẵn. Hãy tưởng tượng ai đó nhận ra và dán nhãn các giao dịch theo cách thủ công là “gian lận” hoặc “hợp pháp”! Một vấn đề khác là các giao dịch gian lận rất ít so với số lượng lớn các giao dịch hợp pháp. Sự mất cân bằng này của các lớp mục tiêu làm giảm hiệu suất của thuật toán cây quyết định và của các thuật toán phân loại khác.

Các bài viết liên quan:

Trong bài viết này, chúng ta sẽ làm việc với dữ liệu giao dịch được gắn nhãn, có tính mất cân bằng cao: Đối với mỗi giao dịch gian lận, chúng ta có 579 giao dịch hợp pháp. chúng ta sẽ kiểm tra xem chúng ta có thể cải thiện hiệu suất của mô hình cây quyết định hay không bằng cách lấy mẫu lại; nghĩa là, bằng cách tạo thêm dữ liệu giả tạo về các giao dịch gian lận. Trong quá trình này, chúng ta sẽ giải thích ba phương pháp lấy mẫu lại khác nhau và đánh giá tác động của chúng đối với ứng dụng phòng chống gian lận. Cuối cùng, chúng ta sẽ cung cấp một liên kết đến quy trình làm việc KNIME – một ví dụ về triển khai các phương pháp lấy mẫu lại khác nhau.

Xây dựng mô hình phân loại để phát hiện gian lận

Trong phần biểu diễn dữ liệu của mình, chúng ta sử dụng dữ liệu creditcard.csv có sẵn trên Kaggle. Dữ liệu bao gồm 284807 giao dịch thẻ tín dụng, được thực hiện bởi chủ thẻ EU vào tháng 9 năm 2013. 492 (0,2%) giao dịch thẻ tín dụng là gian lận và 284315 (99,8%) giao dịch còn lại là hợp pháp. Dữ liệu chứa một cột class mục tiêu với các giá trị có thể có gian lận / hợp pháp, thời gian và số tiền của mỗi giao dịch và 28 thành phần chính được tạo ra từ các tính năng bí mật của giao dịch.

Resampling(Lấy mẫu lại) dữ liệu không cân bằng

Quy trình làm việc trong Hình 1 cho thấy các bước để truy cập, xử lý trước, lấy mẫu lại và mô hình hóa dữ liệu giao dịch. Bên trong hộp màu vàng, chúng ta truy cập dữ liệu giao dịch, mã hóa cột mục tiêu từ 0/1 thành hợp pháp / gian lận và phân vùng dữ liệu thành các nhóm đào tạo và thử nghiệm bằng cách sử dụng lấy mẫu phân tách và phân tầng 80/20 trên cột mục tiêu. Bên trong các hộp màu cam, chúng ta xây dựng bốn phiên bản khác nhau của mô hình cây quyết định để phát hiện gian lận: mô hình cơ sở được đào tạo dựa trên dữ liệu đào tạo ban đầu cộng với ba mô hình được đào tạo về

  • SMOTE oversampled data 
  • Bootstrap oversampled data
  • Bootstrap undersampled data.

Ảnh hưởng của việc lấy mẫu lại đối với hiệu suất phát hiện gian lận

Lấy mẫu lại có hai nhược điểm, đặc biệt là khi lớp mục tiêu mất cân bằng cao như trong trường hợp của chúng ta. Thứ nhất, lấy mẫu quá mức cho lớp thiểu số có thể dẫn đến trang bị quá mức, tức là mô hình học các mẫu chỉ tồn tại trong một mẫu cụ thể đã được lấy mẫu quá mức. Thứ hai, lấy mẫu dưới lớp đa số có thể dẫn đến trang bị thiếu, tức là mô hình không nắm bắt được mô hình chung trong dữ liệu.

chúng ta so sánh hiệu suất của mô hình cơ sở và các mô hình được đào tạo trên dữ liệu được lấy mẫu lại về hai số liệu cho điểm: recall và precision (Hình 2). Các chỉ số được giải thích chi tiết trong bài đăng trên blog Từ Lập mô hình đến Chấm điểm: Ma trận Nhầm lẫn và Thống kê Lớp.

Nhớ lại là tỷ lệ các giao dịch gian lận được dự đoán chính xác. Mức thu hồi càng cao thì mô hình càng ngăn chặn được nhiều giao dịch gian lận.

Độ chính xác là tỷ lệ các giao dịch gian lận thực tế trong số các giao dịch được dự đoán là gian lận. Độ chính xác càng cao, mô hình càng ít cảnh báo sai.

Hình 2. Số liệu thống kê nhớ lại và độ chính xác thu được bằng bốn mô hình cây quyết định để phát hiện gian lận, mỗi mô hình được đào tạo trên một tập hợp đào tạo khác nhau

Resampling(Lấy mẫu lại) dữ liệu không cân bằng

Giá trị chính xác rất thấp 2% cho mô hình lấy mẫu dưới ở góc dưới cùng bên phải trong Hình 2 cho thấy sự không phù hợp: Mô hình lấy mẫu dưới không thể tìm hiểu các mẫu bên dưới các giao dịch hợp pháp. Điều này có vẻ hợp lý khi chúng ta đã loại bỏ 99,8% giao dịch hợp pháp trong giai đoạn lấy mẫu dưới! Thật vậy, với rất ít ví dụ trong lớp gian lận, tác động duy nhất của việc lấy mẫu dưới là làm hỏng sự đại diện của lớp hợp pháp.

Nếu bạn xem các hiệu suất thu được thông qua việc lấy mẫu quá mức ở hai hàng giữa, bạn có thể thấy từ giá trị chính xác của chúng rằng các mô hình này đang đưa ra nhiều cảnh báo sai hơn so với mô hình được đào tạo trên dữ liệu gốc đầy đủ, đồng thời không cải thiện công nhận mô hình cơ bản của các giao dịch gian lận. Tất cả điều này cho thấy rằng mô hình đã trang bị quá nhiều dữ liệu.

Như bạn có thể thấy, mô hình phát hiện gian lận của chúng ta quá phù hợp khi được đào tạo về dữ liệu được lấy mẫu lại.

Chứng tỏ Over- and Underfitting không phù hợp trong phát hiện gian lận

Dữ liệu giao dịch được bảo mật và do đó chúng ta chỉ có thể làm việc với các thành phần chính như là các yếu tố dự đoán của lớp mục tiêu gian lận / hợp pháp. Để hiểu rõ hơn cách mô hình được lấy mẫu lại dẫn đến trang bị thừa hoặc thiếu, hãy tưởng tượng chúng ta có một số cột sau trong dữ liệu của mình, vì chúng thường mô tả các giao dịch gian lận:

  • Địa chỉ giao hàng bằng địa chỉ thanh toán: có / không
  • Giao hàng gấp: có / không
  • Số lượng các mặt hàng khác nhau trong đơn đặt hàng
  • Số lượng đơn đặt hàng của cùng một mặt hàng
  • Số lượng thẻ tín dụng được liên kết với địa chỉ giao hàng

Vì dữ liệu đào tạo của chúng ta chỉ chứa 394 giao dịch gian lận, chẳng hạn như phần lớn trong số đó có đặc điểm là đặc biệt có nhiều đơn đặt hàng cùng một mặt hàng: một đơn hàng cho 20 lò nướng bánh mì, một giao dịch khác cho 50 điện thoại thông minh, nhưng một đơn đặt hàng khác cho 25 áo khoác mùa đông, và như thế. Trên thực tế, các giao dịch gian lận đa dạng hơn nhiều và liên tục phát triển. Ngược lại, 227451 giao dịch hợp pháp trong dữ liệu đào tạo đại diện cho rất nhiều cách sử dụng thẻ tín dụng: để ăn chuối, đặt phòng khách sạn, nướng bánh mì, bãi đậu xe ô tô, v.v.!

Trong phần sau, chúng ta giải thích cách các phương pháp lấy lại mẫu khác nhau làm lệch dữ liệu giao dịch và cách điều này dẫn đến sự suy giảm hiệu suất mô hình, như chúng ta đã thấy trước đây.

Oversampling (SMOTE)

Mô hình tương ứng có giá trị chính xác thấp (44%) và do đó nó gây ra nhiều cảnh báo sai. Tập huấn luyện chứa các giao dịch gian lận ban đầu cộng với các giao dịch gian lận được tạo tổng hợp trong không gian tính năng của các giao dịch gian lận. Ví dụ: nếu chúng ta có một giao dịch gian lận mua 20 máy nướng bánh mì, việc lấy mẫu lại SMOTE có thể tạo ra hàng nghìn giao dịch gian lận hơi khác nhau mà tất cả đều mua một máy nướng bánh mì. Cuối cùng, tất cả các giao dịch hợp pháp bao gồm một máy nướng bánh mì sẽ được dự đoán là gian lận. Loại mô hình này đang trang bị quá nhiều dữ liệu đào tạo (Hình 3).

Resampling(Lấy mẫu lại) dữ liệu không cân bằng

Oversampling (Bootstrap)

Mô hình này hoạt động kém hơn so với mô hình cơ sở cả về khả năng thu hồi và độ chính xác. Bộ đào tạo chứa hàng nghìn bản sao chính xác của các giao dịch gian lận ban đầu. Ví dụ: nếu chúng ta có một giao dịch gian lận đặt 20 máy nướng bánh mì, tất cả các giao dịch hợp pháp đặt 20 mặt hàng của cùng một sản phẩm hoặc một máy nướng bánh mì sẽ đáng ngờ, bởi vì hai tính năng này sẽ đặc trưng cho rất nhiều giao dịch gian lận trong dữ liệu được lấy mẫu. Đồng thời, mô hình sẽ không thể khái quát hóa số lượng lớn của cùng một mặt hàng là đáng ngờ, thay vào đó nhấn mạnh chính xác 20 lò nướng bánh mì là đáng ngờ. Ngoài ra, mô hình này đang trang bị quá nhiều dữ liệu đào tạo (Hình 4).

Resampling(Lấy mẫu lại) dữ liệu không cân bằng

Undersampling (Bootstrap)

Mô hình hoạt động gần như hoàn hảo về khả năng thu hồi (92%), nhưng lại kém nhất về độ chính xác (2%). Vì hơn 99% giao dịch ban đầu bị loại bỏ trong giai đoạn lấy mẫu dưới, dữ liệu đào tạo của chúng ta có thể chỉ bao gồm các giao dịch thẻ tín dụng cho đồ ăn và đặt phòng khách sạn, bãi đậu xe ô tô và nhiều giao dịch khác. Loại dữ liệu đào tạo này không đại diện cho dữ liệu thực. Do đó, hầu hết tất cả các giao dịch đều được dự đoán là gian lận; mô hình không phù hợp (Hình 5).

Resampling(Lấy mẫu lại) dữ liệu không cân bằng

Chẩn đoán vấn đề lấy mẫu lại trong phát hiện gian lận

Như ví dụ của chúng ta cho thấy, trong trường hợp này, lấy mẫu lại không thể giải quyết vấn đề có quá ít giao dịch gian lận trong tập dữ liệu. Tuy nhiên, việc lấy mẫu lại được chứng minh là dẫn đến tăng hiệu suất khi phân phối tiên nghiệm ít bị lệch hơn, ví dụ, trong phát hiện bệnh. Tại sao việc lấy lại mẫu lại không thành công, đối với tập dữ liệu giao dịch thẻ tín dụng này với quá ít giao dịch gian lận trong đó?

Gian lận được thực hiện theo nhiều hình thức khác nhau và chúng ta chỉ có một số giao dịch gian lận trong dữ liệu đào tạo của mình. Vì vậy, các mô hình gian lận chắc chắn được trình bày ít trong bộ đào tạo của chúng ta. Việc lấy mẫu lại không giải quyết được vấn đề, bởi vì nó không làm tăng sự đa dạng của các giao dịch gian lận, nó chỉ sao chép ở một số dạng các mẫu gian lận được thể hiện trong tập dữ liệu. Do đó, các mô hình được đào tạo trên dữ liệu được lấy mẫu lại chỉ có thể hoạt động tốt trong việc phát hiện một số loại gian lận, các loại được đại diện trong dữ liệu đào tạo.

Tóm lại, loại giao dịch gian lận được đại diện quá ít (chỉ 0,2% trong toàn bộ tập dữ liệu!) Để mô tả có ý nghĩa về tất cả các dạng gian lận hiện có. Ngay cả việc giới thiệu các giao dịch gian lận tổng hợp tương tự mới cũng không thể thay đổi đáng kể phạm vi của các giao dịch gian lận được đại diện.

Kết luận

Dữ liệu giao dịch được tạo ra với khối lượng lớn mỗi ngày. Để xây dựng một mô hình được giám sát nhằm phát hiện gian lận, chúng cần được dán nhãn. Tuy nhiên, trong trường hợp này, quy trình ghi nhãn rất phức tạp.

Thứ nhất, ngay cả khi chúng ta có kiến ​​thức để gắn nhãn các giao dịch gian lận một cách thích hợp, thì quá trình này sẽ rất tốn tài nguyên. Các chuyên gia khéo léo trong việc phát hiện gian lận là rất hiếm và đắt tiền và thường không dành thời gian để gắn nhãn các tập dữ liệu. Ngay cả khi có đủ nguồn lực đáng tin cậy và đầy đủ, việc ghi nhãn thủ công sẽ mất một thời gian dài trước khi có đủ lượng dữ liệu đủ lớn.

Thứ hai, chuyên môn về phát hiện gian lận rất khan hiếm, bởi vì bọn tội phạm nghĩ ra một cách sáng tạo các kế hoạch gian lận mới hơn và khó có thể theo kịp các mô hình mới được giới thiệu. Một chuyên gia có thể nhận ra tất cả các loại gian lận được biết đến trước đó và vẫn không nhận ra được các âm mưu gian lận mới, được tạo gần đây nhất.

Cuối cùng, và may mắn là nhìn chung có ít giao dịch gian lận hơn so với giao dịch hợp pháp. Ngay cả sau tất cả nỗ lực thủ công này của những người cực kỳ khéo léo, chúng ta vẫn có thể kết thúc với số lượng dữ liệu không đủ cho lớp gian lận.

Đó là tất cả những lý do tại sao việc phát hiện gian lận thường được coi là một vấn đề lớp học hiếm gặp, hơn là một vấn đề lớp học mất cân bằng.

Tuy nhiên, chúng ta có thể thử. Với tập dữ liệu này, chúng ta có thể tăng kích thước mẫu của các giao dịch gian lận một cách giả tạo bằng cách lấy mẫu lại dữ liệu đào tạo không? Không hẳn vậy. Lấy mẫu lại có thể cải thiện hiệu suất của mô hình nếu các lớp mục tiêu không cân bằng và chưa được đại diện đầy đủ. Trong trường hợp này, vấn đề thực sự là thiếu dữ liệu. Việc lấy lại mẫu sau đó dẫn đến trang bị thừa hoặc thiếu hơn là mang lại hiệu suất mô hình tốt hơn.

Bài viết này chỉ nhằm mục đích cung cấp cho bạn ý tưởng về lý do tại sao, trong một số trường hợp, lấy mẫu lại không thể hoạt động. Tất nhiên, có thể thu được kết quả tốt hơn với các phương pháp lấy mẫu lại phức tạp hơn những phương pháp chúng ta đã giới thiệu trong bài viết này, chẳng hạn như sự kết hợp giữa lấy mẫu dưới và lấy mẫu quá [6]. Kết quả tốt hơn cũng có thể đạt được với các thuật toán được giám sát khác với cây quyết định. Một số thuật toán được giám sát bằng máy học, chẳng hạn như hồi quy logistic, ít nhạy cảm hơn với sự mất cân bằng lớp so với cây quyết định, trong khi các thuật toán khác, chẳng hạn như mô hình tổng hợp, mạnh mẽ hơn để trang bị quá mức. Thậm chí có thể thu được kết quả tốt hơn với cây quyết định, ví dụ bằng cách áp dụng các kỹ thuật cắt tỉa để tránh hiệu ứng quá sung hoặc kiểm soát sự phát triển của cây.

Tuy nhiên, đôi khi chúng ta phải chấp nhận rằng dữ liệu không đủ để mô tả tầng lớp thiểu số. Trong trường hợp này, chúng ta phải tiếp tục với dữ liệu không được gắn nhãn và cố gắng cô lập các sự kiện của lớp hiếm thông qua các thuật toán không được giám sát, chẳng hạn như bộ mã tự động thần kinh, khu rừng cách ly và thuật toán phân cụm.

Quy trình lấy mẫu lại trong mô hình phát hiện gian lận được giám sát, được sử dụng trong bài viết này để chỉ ra các hạn chế của việc lấy mẫu lại, có thể được tải xuống miễn phí từ KNIME Hub.

Leave a Reply