Machine Learning? khái niệm cơ bản

Machine Learning? khái niệm cơ bản

Rate this post

Những năm gần đây, AI (Artificial Intelligence) và cụ thể hơn Machine Learning nổi lên như một bằng chứng cho cuộc cách mạng công nghiệp lần thứ tư. Trí tuệ nhân tạo đang len lỏi vào mọi lĩnh vực trong đời sống mà có thể chúng ta không nhận ra như: Xe tự hành Tesla, trợ lý ảo Siri của Apple, hệ thống gợi ý sản phẩm của Amazon, hệ thống gợi ý phim của Netfix, máy chơi cờ vây AlphaGo của Google.

Machine Learning? khái niệm cơ bản

Các bài viết liên quan:

Machine learning là một tập con của AI. Nó có khả năng tự học hỏi dựa trên dữ liệu được đưa vào và chúng ta cần phải làm sạch dữ liệu và tìm mô hình đúng đắn. Ứng dụng của học máy những năm gần đây xuất hiện ở khắp mọi nơi từ việc nhận dạng khuôn mặt, vân tay, cử chỉ, giọng nói, xử lí các mô hình ảnh y khoa,… Học máy có thể ứng dụng hầu hết các loại dữ liệu từ cấu trúc (bảng số liệu) và cả dữ liệu phi cấu trúc (hình ảnh, văn bản, tính hiệu âm thanh).

Machine learning là gì?

Machine learning cho phép hệ thống đưa ra quyết định một cách tự chủ mà không cần bất kỳ sự hỗ trợ nào từ bên ngoài.

Các quyết định này được đưa ra khi máy có thể học hỏi từ dữ liệu và hiểu các mẫu cơ bản chứa bên trong nó.

Sau đó, thông qua đối sánh mẫu và phân tích sâu hơn, chúng trả về kết quả có thể là phân loại hoặc dự đoán.

Ý tưởng của học máy là dựa trên một số thuật toán xây dựng mô hình để giải quyết vấn đề cụ thể như: phân lớp, phân loại, hồi quy,…

Xem thêm cách học machine learning

Tại sao lại sử dụng Máy học?

Thế giới ngày nay ngày càng phát triển và nhu cầu , yêu cầu của con người cũng vậy. Hơn nữa, chúng ta đang chứng kiến cuộc cách mạng công nghiệp lần thứ tư về dữ liệu .

Để có được những thông tin chi tiết có ý nghĩa từ dữ liệu này và học hỏi từ cách mà mọi người và hệ thống giao tiếp với dữ liệu , chúng ta cần các thuật toán tính toán có thể xáo trộn dữ liệu và cung cấp cho chúng ta kết quả có lợi cho chúng ta theo nhiều cách khác nhau.

Học máy đã cách mạng hóa các ngành như y học , chăm sóc sức khỏe , sản xuất , ngân hàng và một số ngành khác. Do đó, Học máy đã trở thành một phần thiết yếu của nền công nghiệp hiện đại.

Dữ liệu rất mạnh mẽ và để khai thác sức mạnh của dữ liệu này, được bổ sung bởi sự gia tăng lớn về sức mạnh tính toán, Học máy đã thêm một khía cạnh khác vào cách chúng ta nhận thức thông tin.

Học máy đang được sử dụng ở mọi nơi.

Các thiết bị điện tử bạn sử dụng, các ứng dụng là một phần trong cuộc sống hàng ngày của bạn đều được hỗ trợ bởi các thuật toán học máy mạnh mẽ .

Ví dụ về Học máy – Google có thể cung cấp cho bạn các kết quả tìm kiếm thích hợp dựa trên thói quen duyệt web.

Tương tự, Netflix có khả năng đề xuất các bộ phim hoặc chương trình mà bạn muốn xem dựa trên các thuật toán máy học thực hiện các dự đoán dựa trên lịch sử xem của bạn .

Hơn nữa, học máy đã tạo điều kiện thuận lợi cho việc tự động hóa các tác vụ dư thừa đã làm mất đi nhu cầu lao động chân tay. Tất cả điều này có thể do số lượng lớn các dữ liệu mà bạn tạo ra trên một cơ sở hàng ngày.

Học máy tạo điều kiện thuận lợi cho một số phương pháp luận để hiểu dữ liệu này và cung cấp cho bạn kết quả ổn định và chính xác .

Học máy hoạt động như thế nào?

Với sự gia tăng theo cấp số nhân trong dữ liệu, có một nhu cầu có một hệ thống có thể xử lý này tải lớn của dữ liệu .

Mô hình Machine Learning như sâu Learning cho phép phần lớn các dữ liệu được xử lý với một thế hệ chính xác của dự đoán .

Học máy đã tạo ra một cuộc cách mạng trong cách chúng ta nhận thức thông tin và những hiểu biết khác nhau mà chúng ta có thể thu được từ nó.

Machine Learning? khái niệm cơ bản

Các thuật toán học máy này sử dụng các mẫu có trong dữ liệu đào tạo để thực hiện phân loại và dự đoán trong tương lai . Bất cứ khi nào bất kỳ đầu vào mới nào được đưa vào mô hình ML , nó sẽ áp dụng các mẫu đã học của mình trên dữ liệu mới để đưa ra các dự đoán trong tương lai . Dựa trên độ chính xác cuối cùng, người ta có thể tối ưu hóa các mô hình của mình bằng cách sử dụng các cách tiếp cận tiêu chuẩn hóa khác nhau .

Bằng cách này, mô hình Học máy học cách thích ứng với các ví dụ mới và tạo ra kết quả tốt hơn . Tiếp theo trong hướng dẫn Học máy là các loại của nó.

Phân loại thuật toán trong Machine learning

Có hai cách để chúng ta phân loại các thuật toán trong máy học một là chúng ta dựa vào phương thức học và hai là chúng ta dựa vào chức năng của thuật toán.

Khi ta dựa vào phương thức học thì thuật toán học máy của chúng ta được chia lại thành bốn loại như:

  • Học tăng cường (reinforcement learning)
  • Học có giám sát (supervised learning)
  • Học không giám sát (unsupervised learning)
  • Học bán giám sát (semi-supervised learning).

Học tăng cường (reinforcement learning)

Học tăng cường (reinforcement learning) là học củng cố hay tăng cường, là lĩnh vực liên quan đến dạy cho máy (agent) thực hiện tốt một nhiệm vụ (task) bằng cách tương tác với môi trường (environment) thông qua hành động (action) và nhận được kết quả (reward).

Cách học như thế này tương tự như con người học từ môi trường xung quanh bằng cách thử sai, ví dụ khi mùa đông đến con người thường tiếp cận bếp lửa để sưởi ấm lúc đó ta cảm nhận được khi càng tiến lại gần thì càng ấm ngược lại càng xa thì sẽ ít ấm hơn, và khi chúng ta tiếp cận đến lúc chạm vào bếp lửa thì chúng ta sẽ bị bỏng. Trong ví dụ trên, reward là kết quả của việc ta thực hiện hành động (action) tiếp cận càng gần bếp lửa.

Machine Learning? khái niệm cơ bản

Trường hợp sử dụng học tăng cường

Hệ thống Trả lời Truy vấn Chủ động (AQA) của Google làm cho sử dụng học tập củng cố. Nó định dạng lại các câu hỏi mà người dùng yêu cầu.

Ví dụ: nếu bạn hỏi bot AQA câu hỏi – “Ngày sinh của Nikola Tesla là gì” thì bot sẽ định dạng lại thành các câu hỏi khác nhau như “Năm sinh của Nikola Tesla là gì”, “Tesla ra đời khi nào?” và “Sinh nhật của Tesla là khi nào”.

Quá trình định dạng lại này sử dụng mô hình trình tự theo trình tự truyền thống, nhưng Google đã tích hợp tính năng Học tập tăng cường vào hệ thống của mình để tương tác tốt hơn với hệ thống môi trường dựa trên truy vấn.

Xem thêm 11 phần mềm machine learning hàng đầu

Học có giám sát (supervised learning)

Học có giám sát (supervised learning) là thuật toán dự đoán đầu ra (outcome) của một dữ liệu (input) dựa trên các cặp dữ liệu đã có sẵn (data, label). Ví dụ thuật toán dò các khuôn mặt trong facebook, facebook sử dụng thuật toán này để chỉ ra các khuôn mặt trong một bức ảnh yêu cầu người dùng có thể gắn tag friend. Việc này ta có cặp dữ liệu có sẵn data và label tương đương với khuôn mặt và tên người đầu ra outcome là một danh tính xác thực, dữ liệu data và label càng lớn thì độ chính xác càng cao.

Học có giám sát được chia thành 2 loại chính như sau: phân loại (classification), hồi quy (regression). Bài toán phân loại (classification) là bài toán khi kết quả đầu ra outcome của các dữ liệu đầu vào input data được phân thành các nhóm.

Ví dụ: phân loại hoa, phân loại màu sắc, phân loại email spam,… Bài toán hồi quy (regression) là bài toán dựa vào các kết quả đầu vào input data và kết quả đầu ra outcome sẽ là một giá trị cụ thể, ví dụ có một căn nhà rộng x m2, có bao nhiêu phòng ngủ và cách thành phố z km thì sẽ có giá là bao nhiêu.

Machine Learning? khái niệm cơ bản

Một số thuật toán thuộc chế độ học có giám sát như sau:

  1. Linear Regression

Linear Regression có thể là một thuật toán Machine learning được giám sát trong đó đầu ra dự kiến ​​là liên tục và có độ dốc không đổi. Đó là dự đoán các giá trị trong phạm vi vô tận, (ví dụ: doanh số, giá cả) thay vì cố gắng phân loại chúng thành các danh mục (ví dụ: mèo, chó). Nó được sử dụng bất cứ khi nào chúng ta muốn dự đoán giá trị của một biến được hỗ trợ giá trị của một biến khác.

Biến mà chúng ta muốn dự đoán được đặt tên là biến (hoặc đôi khi là biến kết quả).

Trong Linear Regression, chúng tôi đo lường mối quan hệ tuyến tính giữa hai hoặc nhiều hơn hai biến. Dựa trên mối quan hệ này, chúng tôi thực hiện các dự đoán tuân theo mô hình tuyến tính này.

  1. Random forest

Random forest có thể là một thuật toán Machine learning linh hoạt, dễ sử dụng, tạo ra kết quả tuyệt vời ngay cả khi không điều chỉnh siêu tham số.

Nó cũng là một trong những thuật toán được sử dụng nhiều nhất, do tính đơn giản và đa dạng (nó thường được sử dụng cho cả nhiệm vụ phân loại và hồi quy).

Random forest là một phương pháp học tập tổng hợp để thực hiện phân loại, hồi quy cũng như các nhiệm vụ khác thông qua việc xây dựng cây quyết định và cung cấp đầu ra dưới dạng một lớp là phương thức hoặc giá trị trung bình của các cây riêng lẻ bên dưới.

  1. Gradient Boosting

Tăng cường độ dốc có thể là một kỹ thuật máy học cho các bài toán hồi quy và phân loại, tạo ra một mô hình dự đoán trong một nhóm các mô hình dự đoán yếu, điển hình là cây quyết định. Đây là một phương pháp học tập kết hợp là một tập hợp của một số cây quyết định yếu, dẫn đến một bộ phân loại mạnh mẽ.

  1. Support vector machine

SVM là bộ phân loại mạnh mẽ được sử dụng để phân loại tập dữ liệu nhị phân thành hai lớp với sự hỗ trợ của siêu máy bay.

Lợi ích của Support vector machine là Hiệu quả trong không gian chiều cao. Vẫn có hiệu quả trong trường hợp số thứ nguyên lớn hơn số lượng mẫu.

  1. Logistic regression

Logistic regression có thể là một mô hình thống kê mà ở dạng cơ bản của nó sử dụng một hàm logistic để lập mô hình một biến nhị phân, mặc dù tồn tại nhiều phần mở rộng phức tạp hơn.

Trong phân tích đa biến, Logistic regression (hoặc hồi quy logit) là ước tính các tham số của mô hình logistic (một loại hồi quy nhị phân).

Nó sử dụng đường cong S hình chuông được tạo ra với sự trợ giúp của hàm logit để phân loại dữ liệu thành các lớp tương ứng của chúng.

  1. Artificial Neural Networks

Artificial Neural Networks được mô phỏng theo bộ não con người và chúng học hỏi từ dữ liệu theo thời gian. Chúng tạo thành một phần lớn hơn nhiều của Machine learning được gọi là Học sâu.

Trường hợp sử dụng học tập có giám sát

Nhận dạng khuôn mặt là một trong những ứng dụng phổ biến nhất của Học có giám sát và cụ thể hơn – ANN.

Convolutional Neural Networks(CNN) là một loại ANN được sử dụng để nhận dạng khuôn mặt của mọi người. Các mô hình này có thể vẽ các đặc điểm từ hình ảnh thông qua các bộ lọc khác nhau. Cuối cùng, nếu có điểm tương đồng cao giữa hình ảnh đầu vào và hình ảnh trong cơ sở dữ liệu, thì kết quả trùng khớp sẽ được cung cấp.

Baidu, công ty công cụ tìm kiếm hàng đầu của Trung Quốc đã và đang đầu tư vào nhận dạng khuôn mặt. Mặc dù họ đã cài đặt hệ thống nhận dạng khuôn mặt trong hệ thống an ninh của mình, nhưng hiện họ đang mở rộng công nghệ này tới các sân bay lớn của Trung Quốc. Baidu sẽ cung cấp cho các sân bay công nghệ nhận dạng khuôn mặt giúp phi hành đoàn và nhân viên tiếp cận.

Do đó, hành khách không phải xếp hàng dài chờ làm thủ tục chuyến bay khi có thể lên máy bay chỉ cần quét khuôn mặt.

Xem thêm các bước xây dựng mô hình machine learning

Học không giám sát (unsupervised learning)

Học không giám sát (unsupervised learning) đây là bài toán mà chúng ta có dữ liệu đầu vào input data mà không biết kết quả đầu ra outcome. Chúng ta chỉ có thể dựa vào những đặc tính của cấu trúc dữ liệu đầu vào mà chúng ta sẽ có thể phân nhóm (clustering) hoặc giảm số chiều (dimension reduction) để dễ tính toán.

Bài toán học không giám sát được chia thành hai loại: Bài toán phân nhóm (clustering), bài toán kết hợp (association). Bài toán phân nhóm (clustering) là bài toán mà ta dựa vào sự liên quan về những đặc tính của dữ liệu đầu vào input data để ta có thể phân chúng thành những mối nhóm khác nhau

Ví dụ: phân nhóm khách hàng dựa trên hành vi mua hàng, giống như ta cho những đứa trẻ những mảnh giấy có màu sắc khác nhau và rồi tập hợp chúng lại theo từng màu sắc. Bài toán kết hợp (association) là bài toán khi chúng ta muốn tìm ra một quy luật chung cho những dữ liệu cho trước ví dụ những người mua mì gói thường sẽ mua thêm xúc xích, hay khi mua giày sẽ mua thêm vớ.

Trong trường hợp thuật toán học tập không được giám sát, dữ liệu không được gắn nhãn rõ ràng thành các lớp khác nhau, tức là không có nhãn. Mô hình có thể học hỏi từ dữ liệu bằng cách tìm ra các mẫu ẩn.

Các thuật toán Học không giám sát xác định dữ liệu dựa trên mật độ, cấu trúc, các phân đoạn tương tự và các đặc điểm tương tự khác của chúng. Các thuật toán học không giám sát dựa trên Học Hebbian.

Phân tích cụm là một trong những kỹ thuật được sử dụng rộng rãi nhất trong học tập có giám sát.

Các thuật toán Học không giám sát.

  1. Clustering

Clustering, còn được gọi là phân tích cụm, là một kỹ thuật nhóm các tập hợp các đối tượng tương tự trong cùng một nhóm mà khác với các đối tượng trong nhóm khác.

Một số kỹ thuật phân cụm cơ bản như sau:

  1. K-means

Mục đích của thuật toán phân cụm k-mean là phân vùng n quan sát trong dữ liệu thành k cụm sao cho mỗi quan sát thuộc cụm có giá trị trung bình gần nhất.

Đây là nguyên mẫu của cụm.

  1. DBSCAN

Đây là một phương pháp phân cụm để nhóm dữ liệu dựa trên mật độ. Nó nhóm lại với nhau các điểm được cho trong không gian và đánh dấu các điểm khác biệt trong vùng mật độ thấp.

  1. Hierarchical clustering

Trong hình thức phân cụm này, một hệ thống phân cấp của các cụm được xây dựng.

  1. Anomaly Detection

Kỹ thuật Phát hiện bất thường phát hiện các điểm khác thường trong dữ liệu không được gắn nhãn theo giả định rằng hầu hết các ví dụ dữ liệu là bình thường bằng cách quan sát các trường hợp phù hợp với phần còn lại của tập dữ liệu.

  1. Autoencoders

Mã tự động là một loại ANN được sử dụng trong Học không giám sát để học biểu diễn. Chúng được sử dụng để làm biến dạng và giảm kích thước.

  1. Deep Belief Network

Nó là một mô hình graphical model cũng là một lớp mạng nơ-ron được thiết kế cho việc học tập không giám sát. Nó khác với kiểu mạng nơ-ron được giám sát ở chỗ nó cấu trúc lại một cách có xác suất các đầu vào của mình để hoạt động như các bộ phát hiện tính năng.

  1. Principal Component Analysis

Nó là một lớp mô hình học tập không giám sát được sử dụng để giảm kích thước của dữ liệu.

Trường hợp sử dụng học tập không giám sát

Một trong những kỹ thuật học tập không giám sát phổ biến nhất là phân cụm. Sử dụng tính năng phân nhóm, các doanh nghiệp có thể nắm bắt các phân khúc khách hàng tiềm năng để bán sản phẩm của họ.

Các công ty bán hàng có thể xác định các phân khúc khách hàng có nhiều khả năng sử dụng dịch vụ của họ nhất. Các công ty có thể đánh giá các phân khúc khách hàng và sau đó quyết định bán sản phẩm của họ để tối đa hóa lợi nhuận.

Một công ty đang thực hiện phân tích tiếp thị thương hiệu bằng Máy học là một công ty khởi nghiệp có trụ sở tại Israel – Optimove. Mục tiêu của công ty này là nhập và xử lý dữ liệu khách hàng để giúp các nhà tiếp thị có thể truy cập được.

Họ tiến thêm một bước nữa bằng cách cung cấp thông tin chi tiết thông minh cho nhóm tiếp thị, cho phép họ thu được lợi nhuận tối đa từ việc tiếp thị sản phẩm của mình.

Học bán giám sát (semi-supervised learning)

Học bán giám sát (semi-supervised learning) là bài toán mà ta có tập dữ liệu X mà chúng ta chỉ xác định được một số label thôi không xác định được toàn bộ label của tập dữ liệu X. Ví dụ điển hình của nhóm này là chỉ có một phần ảnh của con người và động vật được gán nhãn những ảnh còn lại thì không biết được nhãn, chúng ta có thể sử dụng unsupervised learning để khám phá ra các cấu trúc của dữ liệu đầu vào.

Phân loại bài toán dựa trên chức năng của các thuật toán, các thuật toán hồi quy (linear regression, logistic regression, stepwise regression), thuật toán phân loại (support vector machine, kernel svm), thuật toán phân cụm (k-mean clustering, k-Medians), artificial neural network algorithms (perceptron, softmax regression).

Các thuật toán machine learning hiệu quả:

Leave a Reply