Các tổ chức đang triển khai các dự án AI cho nhiều ứng dụng trong nhiều ngành công nghiệp. Các ứng dụng này bao gồm phân tích dự đoán, hệ thống nhận dạng mẫu, hệ thống tự trị, hệ thống đàm thoại, hoạt động siêu cá nhân hóa và hệ thống hướng tới mục tiêu. Mỗi dự án này đều có điểm chung: Tất cả đều được dự đoán dựa trên sự hiểu biết về vấn đề kinh doanh và dữ liệu và thuật toán machine learning phải được áp dụng cho vấn đề, dẫn đến mô hình machine learning giải quyết nhu cầu của dự án.
Các bài viết liên quan:
Triển khai và quản lý các dự án machine learning thường tuân theo cùng một mô hình. Tuy nhiên, các phương pháp luận phát triển ứng dụng hiện có không được áp dụng vì các dự án AI được thúc đẩy bởi dữ liệu chứ không phải mã lập trình. Việc học được bắt nguồn từ dữ liệu. Phương pháp và phương pháp machine learning phù hợp bắt nguồn từ nhu cầu tập trung vào dữ liệu và dẫn đến các dự án tập trung vào hoạt động thông qua các giai đoạn khám phá, làm sạch, đào tạo, xây dựng và lặp lại dữ liệu.
7 bước để xây dựng một mô hình machine learning
Đối với nhiều tổ chức, phát triển mô hình machine learning là một hoạt động mới và có vẻ đáng sợ. Ngay cả đối với những người có kinh nghiệm về machine learning, việc xây dựng một mô hình AI đòi hỏi sự siêng năng, thử nghiệm và sáng tạo. Tuy nhiên, phương pháp luận để xây dựng các dự án lấy dữ liệu làm trung tâm đã phần nào được thiết lập. Các bước sau đây sẽ giúp định hướng cho dự án của bạn.
Xem thêm 12 phần mềm hoạt hình 2D và 3D miễn phí tốt nhất
Bước 1. Hiểu vấn đề kinh doanh (và xác định thành công)
Giai đoạn đầu tiên của bất kỳ dự án machine learning nào là phát triển sự hiểu biết về các yêu cầu kinh doanh. Bạn cần biết mình đang cố giải quyết vấn đề gì trước khi cố gắng giải quyết.
Để bắt đầu, hãy làm việc với chủ dự án và đảm bảo rằng bạn hiểu các mục tiêu và yêu cầu của dự án. Mục đích là chuyển đổi kiến thức này thành một định nghĩa vấn đề phù hợp cho dự án machine learning và đưa ra kế hoạch sơ bộ để đạt được các mục tiêu của dự án. Các câu hỏi chính cần trả lời bao gồm:
- Mục tiêu kinh doanh đòi hỏi một giải pháp nhận thức là gì?
- Phần nào của giải pháp là nhận thức và phần nào không?
- Tất cả các vấn đề kỹ thuật, kinh doanh và triển khai cần thiết đã được giải quyết chưa?
- Các tiêu chí “thành công” được xác định cho dự án là gì?
- Làm thế nào để dự án có thể được tổ chức trong các giai đoạn nước rút lặp đi lặp lại?
- Có bất kỳ yêu cầu đặc biệt nào về tính minh bạch, khả năng giải thích hoặc giảm độ lệch không?
- Những cân nhắc về đạo đức là gì?
- Các tham số có thể chấp nhận được đối với các giá trị ma trận độ chính xác, độ chính xác và sự nhầm lẫn là gì?
- Đầu vào kỳ vọng cho mô hình và đầu ra kỳ vọng là gì?
- Đặc điểm của vấn đề đang được giải quyết là gì? Đây là vấn đề phân loại, hồi quy hay phân cụm?
- “Heuristic” – cách tiếp cận nhanh chóng và hiệu quả để giải quyết vấn đề không yêu cầu máy học là gì? Mô hình cần phải tốt hơn bao nhiêu so với heuristic?
- Lợi ích của mô hình sẽ được đo lường như thế nào?
Xem thêm 11 phần mềm machine learning hàng đầu
Mặc dù có rất nhiều câu hỏi cần được trả lời trong bước đầu tiên, việc trả lời hoặc thậm chí cố gắng trả lời chúng sẽ làm tăng đáng kể cơ hội thành công của dự án tổng thể.
Đặt ra các mục tiêu cụ thể, có thể định lượng được sẽ giúp nhận ra ROI có thể đo lường từ dự án máy học thay vì chỉ đơn giản triển khai nó như một bằng chứng về khái niệm sẽ bị gạt sang một bên sau này. Các mục tiêu phải liên quan đến mục tiêu kinh doanh chứ không chỉ liên quan đến máy học. Trong khi các chỉ số đo lường cụ thể về máy học – chẳng hạn như độ chính xác, độ chính xác, thu hồi và lỗi bình phương trung bình – có thể được đưa vào chỉ số, các chỉ số hiệu suất chính (KPI) cụ thể hơn, phù hợp với doanh nghiệp sẽ tốt hơn.
Xác định hoạt động kinh doanh, dữ liệu và tính khả thi khi triển khai dự án AI của bạn
Để một dự án machine learning có thể tiến triển, bạn cần xác định tính khả thi của nỗ lực từ quan điểm kinh doanh, dữ liệu và triển khai.
Xem thêm Cách học Machine Learning hiệu quả- 7 bước học Machine learning
Bước 2. Hiểu và xác định dữ liệu
Khi bạn đã hiểu rõ về các yêu cầu kinh doanh và nhận được sự chấp thuận cho kế hoạch, bạn có thể bắt đầu xây dựng một mô hình machine learning, phải không? Sai lầm. Thiết lập trường hợp kinh doanh không có nghĩa là bạn có dữ liệu cần thiết để tạo mô hình machine learning.
Mô hình machine learning được xây dựng bằng cách học hỏi và tổng quát hóa từ dữ liệu đào tạo, sau đó áp dụng kiến thức thu được vào dữ liệu mới mà nó chưa từng thấy trước đây để đưa ra dự đoán và thực hiện mục đích của nó. Thiếu dữ liệu sẽ khiến bạn không thể xây dựng mô hình và không đủ quyền truy cập vào dữ liệu. Dữ liệu hữu ích cần phải sạch và ở trạng thái tốt.
Xác định nhu cầu dữ liệu của bạn và xác định xem dữ liệu có ở hình dạng phù hợp cho dự án machine learning hay không. Trọng tâm nên tập trung vào dữ liệu nhận dạng cụ thể
ation, thu thập ban đầu, yêu cầu, xác định chất lượng, hiểu biết sâu sắc và các khía cạnh thú vị tiềm ẩn đáng để nghiên cứu thêm. Dưới đây là một số câu hỏi chính cần xem xét:
- Nguồn dữ liệu cần thiết để đào tạo mô hình ở đâu?
- Số lượng dữ liệu cần thiết cho dự án machine learning?
- Số lượng và chất lượng dữ liệu đào tạo hiện tại là bao nhiêu?
- Dữ liệu tập kiểm tra và dữ liệu tập huấn luyện được phân tách như thế nào?
- Đối với các nhiệm vụ học tập có giám sát, có cách nào để gắn nhãn dữ liệu đó không?
- Có thể sử dụng các mô hình được đào tạo trước không?
- Dữ liệu hoạt động và đào tạo nằm ở đâu?
- Có nhu cầu đặc biệt để truy cập dữ liệu thời gian thực trên các thiết bị tối tân hoặc ở những nơi khó tiếp cận hơn không?
Trả lời những câu hỏi quan trọng này giúp bạn xử lý về số lượng và chất lượng của dữ liệu cũng như hiểu được loại dữ liệu cần thiết để làm cho mô hình hoạt động.
Ngoài ra, bạn cần biết mô hình sẽ hoạt động như thế nào trên dữ liệu thế giới thực. Ví dụ: mô hình sẽ được sử dụng ngoại tuyến, hoạt động ở chế độ hàng loạt trên dữ liệu được đưa vào và xử lý không đồng bộ hay được sử dụng trong thời gian thực, hoạt động với các yêu cầu hiệu suất cao để cung cấp kết quả tức thì? Thông tin này cũng sẽ xác định loại dữ liệu cần thiết và yêu cầu truy cập dữ liệu.
Cũng xác định xem mô hình sẽ được đào tạo một lần, lặp lại với các phiên bản của nó được triển khai định kỳ hay trong thời gian thực. Đào tạo thời gian thực đặt ra nhiều yêu cầu về dữ liệu có thể không khả thi đối với một số thiết lập.
Trong giai đoạn này của dự án AI, điều quan trọng là phải biết liệu có tồn tại bất kỳ sự khác biệt nào giữa dữ liệu thế giới thực và dữ liệu đào tạo cũng như dữ liệu thử nghiệm và dữ liệu đào tạo hay không và bạn sẽ thực hiện phương pháp tiếp cận nào để xác thực và đánh giá hiệu suất của mô hình.
Các loại nguồn dữ liệu và cấu trúc khác nhau được sử dụng trong các dự án máy học
Biểu đồ trên phác thảo các loại dữ liệu và nguồn khác nhau cần thiết cho các dự án máy học.
Xem thêm Các ứng dụng của Machine Learning trong thực tế
Bước 3. Thu thập và chuẩn bị dữ liệu
Khi bạn đã xác định được dữ liệu của mình một cách thích hợp, bạn cần định hình dữ liệu đó để nó có thể được sử dụng để đào tạo mô hình của bạn. Trọng tâm là các hoạt động tập trung vào dữ liệu cần thiết để xây dựng tập dữ liệu được sử dụng cho các hoạt động mô hình hóa. Các tác vụ chuẩn bị dữ liệu bao gồm thu thập, làm sạch, tổng hợp, nâng cấp, gắn nhãn, chuẩn hóa và chuyển đổi dữ liệu cũng như bất kỳ hoạt động nào khác đối với dữ liệu có cấu trúc, phi cấu trúc và bán cấu trúc.
Các thủ tục trong quá trình chuẩn bị, thu thập và làm sạch dữ liệu bao gồm:
- Thu thập dữ liệu từ các nguồn khác nhau.
- Chuẩn hóa các định dạng trên các nguồn dữ liệu khác nhau.
- Thay thế dữ liệu không chính xác.
- Nâng cao và tăng cường dữ liệu.
- Thêm nhiều thứ nguyên hơn với số tiền được tính toán trước và thông tin tổng hợp nếu cần.
- Nâng cao dữ liệu với dữ liệu của bên thứ ba.
- Tập hợp dữ liệu dựa trên hình ảnh “nhân” nếu chúng không đủ để đào tạo.
- Loại bỏ thông tin không liên quan và loại bỏ trùng lặp.
- Loại bỏ dữ liệu không liên quan khỏi đào tạo để cải thiện kết quả.
- Giảm thiểu tiếng ồn và loại bỏ sự mơ hồ.
- Cân nhắc việc ẩn danh dữ liệu.
- Chuẩn hóa hoặc chuẩn hóa dữ liệu để đưa nó vào các phạm vi được định dạng.
- Dữ liệu mẫu từ tập dữ liệu lớn.
- Chọn các tính năng xác định các thứ nguyên quan trọng nhất và nếu cần, giảm thứ nguyên bằng nhiều kỹ thuật.
- Chia dữ liệu thành các tập huấn luyện, kiểm tra và xác nhận.
Các công việc chuẩn bị và làm sạch dữ liệu có thể mất một lượng thời gian đáng kể. Khảo sát của các nhà phát triển máy học và nhà khoa học dữ liệu cho thấy các bước chuẩn bị và thu thập dữ liệu có thể chiếm tới 80% thời gian của một dự án máy học. Như câu nói, “rác vào, rác ra.” Vì các mô hình machine learning cần học hỏi từ dữ liệu nên lượng thời gian dành cho việc chuẩn bị và làm sạch là rất xứng đáng.
Đào tạo dữ liệu và đường dẫn suy luận cho machine learning
Biểu đồ trên là tổng quan về các đường dẫn đào tạo và suy luận được sử dụng trong việc phát triển và cập nhật các mô hình machine learning.
Bước 4. Xác định các tính năng của mô hình và đào tạo nó
Khi dữ liệu ở trạng thái có thể sử dụng được và bạn biết vấn đề mình đang cố gắng giải quyết, cuối cùng đã đến lúc chuyển sang bước bạn cần làm: Đào tạo mô hình để học hỏi từ dữ liệu chất lượng tốt mà bạn đã chuẩn bị bằng cách áp dụng một phạm vi của các kỹ thuật và thuật toán.
Xem thêm Machine Learning? khái niệm cơ bản
Giai đoạn này yêu cầu lựa chọn và ứng dụng kỹ thuật mô hình, đào tạo mô hình, thiết lập và điều chỉnh siêu tham số mô hình, xác nhận mô hình, phát triển và kiểm tra mô hình tổng hợp, lựa chọn thuật toán và tối ưu hóa mô hình. Để hoàn thành tất cả những điều đó, cần thực hiện các hành động sau:
- Chọn thuật toán phù hợp dựa trên mục tiêu học tập và yêu cầu dữ liệu.
- Định cấu hình và điều chỉnh các siêu tham số để có hiệu suất tối ưu và xác định phương pháp lặp lại để đạt được siêu tham số tốt nhất.
- Xác định các tính năng cung cấp kết quả tốt nhất.
- Xác định xem có yêu cầu khả năng giải thích hoặc khả năng diễn giải của mô hình hay không.
- Phát triển các mô hình đồng bộ để cải thiện hiệu suất.
- Kiểm tra các phiên bản mô hình khác nhau để biết hiệu suất.
- Xác định các yêu cầu đối với hoạt động và triển khai của mô hình.
- Ở đó
- Mô hình sulting sau đó có thể được đánh giá để xác định xem nó có đáp ứng các yêu cầu kinh doanh và hoạt động hay không.
Trong machine learning, thuật toán là công thức hoặc tập hợp các hướng dẫn phải tuân theo để ghi lại kinh nghiệm và cải thiện việc học theo thời gian. Tùy thuộc vào loại phương pháp tiếp cận máy học bạn đang thực hiện, các thuật toán khác nhau hoạt động tốt hơn các thuật toán khác.
Bước 5. Đánh giá hiệu suất của mô hình và thiết lập các tiêu chuẩn
Từ góc độ AI, đánh giá bao gồm đánh giá chỉ số mô hình, tính toán ma trận nhầm lẫn, KPI, số liệu hiệu suất mô hình, đo lường chất lượng mô hình và xác định cuối cùng xem liệu mô hình có thể đáp ứng các mục tiêu kinh doanh đã thiết lập hay không. Trong quá trình đánh giá mô hình, bạn nên làm như sau:
- Đánh giá các mô hình bằng cách sử dụng tập dữ liệu xác nhận.
- Xác định giá trị ma trận nhầm lẫn cho các bài toán phân loại.
- Xác định các phương pháp xác nhận chéo k-lần nếu cách tiếp cận đó được sử dụng.
- Điều chỉnh thêm siêu thông số để có hiệu suất tối ưu.
- So sánh mô hình machine learning với mô hình cơ sở hoặc mô hình heuristic.
Đánh giá mô hình có thể được coi là sự đảm bảo chất lượng của machine learning. Đánh giá đầy đủ hiệu suất của mô hình dựa trên các chỉ số và yêu cầu xác định cách thức hoạt động của mô hình trong thế giới thực.
Độ chệch và phương sai trong xây dựng mô hình machine learning
Hiểu các khái niệm về độ chệch và phương sai giúp bạn tìm ra điểm tốt để tối ưu hóa hiệu suất của các mô hình machine learning của mình.
Bước 6. Đưa mô hình vào hoạt động và đảm bảo rằng nó hoạt động tốt
Khi bạn tự tin rằng mô hình machine learning có thể hoạt động trong thế giới thực, đã đến lúc xem nó thực sự hoạt động như thế nào trong thế giới thực – còn được gọi là “vận hành” mô hình:
- Triển khai mô hình với một phương tiện để liên tục đo lường và giám sát hiệu suất của nó.
- Xây dựng đường cơ sở hoặc điểm chuẩn dựa vào đó có thể đo lường các lần lặp lại trong tương lai của mô hình.
- Liên tục lặp lại các khía cạnh khác nhau của mô hình để cải thiện hiệu suất tổng thể.
Vận hành mô hình có thể bao gồm các tình huống triển khai trong môi trường đám mây, ở biên, trong môi trường tại chỗ hoặc môi trường đóng, hoặc trong một nhóm kín, được kiểm soát. Trong số các cân nhắc về vận hành là lập phiên bản và lặp lại mô hình, triển khai mô hình, giám sát mô hình và dàn dựng mô hình trong môi trường phát triển và sản xuất. Tùy thuộc vào các yêu cầu, việc vận hành mô hình có thể bao gồm từ việc tạo báo cáo đơn giản đến việc triển khai đa điểm cuối, phức tạp hơn.
Lặp lại các mô hình để giữ cho chúng luôn chính xác
Các dự án AI thành công lặp lại các mô hình để đảm bảo các mô hình tiếp tục cung cấp các kết quả có giá trị, đáng tin cậy và mong muốn trong thế giới thực.
Bước 7. Lặp lại và điều chỉnh mô hình
Mặc dù mô hình đang hoạt động và bạn liên tục theo dõi hiệu suất của nó, nhưng bạn vẫn chưa hoàn thành. Khi nói đến việc triển khai công nghệ, người ta thường nói rằng công thức để thành công là bắt đầu từ việc nhỏ, suy nghĩ lớn và lặp đi lặp lại thường xuyên.
Luôn lặp lại quy trình và cải tiến kịp thời cho lần lặp tiếp theo. Yêu cầu kinh doanh thay đổi. Khả năng công nghệ thay đổi. Dữ liệu trong thế giới thực thay đổi theo những cách bất ngờ. Tất cả những điều đó có thể tạo ra các yêu cầu mới để triển khai mô hình trên các thiết bị đầu cuối khác nhau hoặc trong các hệ thống mới. Kết thúc có thể chỉ là một khởi đầu mới, vì vậy tốt nhất bạn nên xác định những điều sau:
- các yêu cầu tiếp theo đối với chức năng của mô hình;
- mở rộng đào tạo mô hình để bao gồm các khả năng lớn hơn;
- cải tiến về hiệu suất và độ chính xác của mô hình;
- cải tiến về hiệu suất hoạt động của mô hình;
yêu cầu hoạt động cho các triển khai khác nhau; và giải pháp cho “độ lệch mô hình” hoặc “độ lệch dữ liệu”, có thể gây ra những thay đổi về hiệu suất do những thay đổi trong dữ liệu trong thế giới thực.
Suy ngẫm về những gì đã hoạt động trong mô hình của bạn, những gì cần hoạt động và những gì đang tiến hành. Cách chắc chắn để đạt được thành công trong xây dựng mô hình machine learning là liên tục tìm kiếm các cải tiến và cách tốt hơn để đáp ứng các yêu cầu kinh doanh đang phát triển.