Rate this post

Orange là một thư viện quy trình và đối tượng cốt lõi của C ++ kết hợp rất nhiều thuật toán Data mining và học máy tiêu chuẩn và không tiêu chuẩn. Nó là một công cụ trực quan hóa dữ liệu, Data mining và máy học nguồn mở. Orange là một môi trường có thể viết kịch bản để tạo mẫu nhanh các thuật toán và mẫu thử nghiệm mới nhất. Nó là một nhóm các mô-đun dựa trên python tồn tại trong thư viện lõi. Nó triển khai một số chức năng mà thời gian thực thi không cần thiết và điều đó được thực hiện bằng Python.

Các bài viết liên quan:

Nó kết hợp nhiều tác vụ như in đẹp cây quyết định, đóng gói và tăng cường, tập hợp con thuộc tính, v.v. Orange là một tập hợp các widget đồ họa sử dụng các chiến lược từ thư viện lõi và các mô-đun Orange và mang lại một giao diện người dùng tốt. Tiện ích con hỗ trợ giao tiếp dựa trên kỹ thuật số và có thể được tập hợp lại với nhau thành một ứng dụng bằng một công cụ lập trình trực quan được gọi là canvas Orange.

Tất cả những điều này cùng nhau làm cho Orange trở thành một thuật toán dựa trên thành phần độc quyền để Data mining và học máy. Orange được đề xuất cho cả người dùng có kinh nghiệm và nhà phân tích trong Data mining và học máy, những người muốn tạo và thử nghiệm các thuật toán của riêng họ trong khi sử dụng lại nhiều mã nhất có thể và cho những người chỉ đơn giản là tham gia lĩnh vực này có thể viết nội dung python ngắn cho dữ liệu phân tích.

Mục tiêu của Orange là cung cấp một nền tảng để lựa chọn dựa trên thử nghiệm, mô hình dự đoán và hệ thống đề xuất. Nó chủ yếu được sử dụng trong tin sinh học, nghiên cứu bộ gen, y sinh và giảng dạy. Trong giáo dục, nó được sử dụng để cung cấp các phương pháp giảng dạy tốt hơn về Data mining và học máy cho sinh viên sinh học, y sinh học và tin học.

Data mining Orange:

Orange hỗ trợ miền linh hoạt cho các nhà phát triển, nhà phân tích và chuyên gia Data mining. Python, một ngôn ngữ lập trình và ngôn ngữ lập trình thế hệ mới, nơi các tập lệnh Data mining của chúng tôi có thể dễ dàng nhưng mạnh mẽ. Orange sử dụng cách tiếp cận dựa trên thành phần để tạo mẫu nhanh. Chúng tôi có thể triển khai kỹ thuật phân tích của mình chỉ đơn giản như đặt các viên gạch LEGO hoặc thậm chí sử dụng một thuật toán hiện có. Các thành phần Orange để tạo kịch bản Các widget Orange cho lập trình trực quan là gì ?. Các widget sử dụng cơ chế giao tiếp được thiết kế đặc biệt để truyền các đối tượng như bộ phân loại, bộ hồi quy, danh sách thuộc tính và tập dữ liệu cho phép dễ dàng xây dựng các lược đồ Data mining khá phức tạp sử dụng các phương pháp và kỹ thuật hiện đại.

Các đối tượng lõi Orange và mô-đun Python kết hợp nhiều tác vụ Data mining khác xa với việc xử lý trước dữ liệu để đánh giá và mô hình hóa. Nguyên tắc hoạt động của Orange là kỹ thuật cover và quan điểm trong Data mining và học máy. Ví dụ, cảm ứng từ trên xuống của cây quyết định của Orange là một kỹ thuật xây dựng bao gồm nhiều thành phần trong đó bất kỳ ai cũng có thể được tạo mẫu trong python và được sử dụng thay cho thành phần ban đầu. Các vật dụng Orange không chỉ đơn giản là các đối tượng đồ họa cung cấp giao diện đồ họa cho một chiến lược cụ thể trong Orange, mà nó bao gồm một cơ chế tín hiệu có thể thích ứng để giao tiếp và trao đổi các đối tượng như tập dữ liệu, mô hình phân loại, trình học, đối tượng lưu trữ kết quả của thẩm định, lượng định, đánh giá. Tất cả những ý tưởng này đều có ý nghĩa và cùng nhau công nhận Orange từ các cấu trúc Data mining khác.

Xem thêm

Widget Orange:

Các widget Orange cung cấp cho chúng ta giao diện người dùng đồ họa đối với các kỹ thuật Data mining và máy học của Orange. Chúng kết hợp các widget để nhập và tiền xử lý dữ liệu, phân loại, hồi quy, quy tắc kết hợp và phân cụm một tập hợp các widget để đánh giá mô hình và trực quan hóa kết quả đánh giá, cũng như các widget để xuất mô hình sang PMML.

Tiện ích con truyền tải dữ liệu bằng mã thông báo được chuyển từ người gửi đến tiện ích người nhận. Ví dụ, một widget tệp xuất ra các đối tượng dữ liệu, đối tượng này có thể được nhận bởi một widget người học cây phân loại widget. Cây phân loại xây dựng một mô hình phân loại gửi dữ liệu đến tiện ích con hiển thị cây bằng đồ thị. Một widget đánh giá có thể lấy một tập dữ liệu từ widget tệp và các đối tượng.

Script Orange:

Nếu chúng ta muốn truy cập các đối tượng Orange, thì chúng ta cần viết các thành phần của mình và thiết kế các lược đồ thử nghiệm và ứng dụng học máy của chúng ta thông qua tập lệnh. Orange giao diện với Python, một mô hình đơn giản để sử dụng ngôn ngữ kịch bản với cú pháp rõ ràng và mạnh mẽ và một tập hợp rộng các thư viện bổ sung. Giống như bất kỳ ngôn ngữ kịch bản nào, Python có thể được sử dụng để kiểm tra một số ý tưởng lẫn nhau hoặc để phát triển các tập lệnh và chương trình chi tiết hơn.

Chúng ta có thể thấy cách nó sử dụng Python và Orange bằng một ví dụ, hãy xem xét một tập lệnh dễ dàng đọc tập dữ liệu và in số lượng thuộc tính được sử dụng. Chúng tôi sẽ sử dụng tập dữ liệu phân loại được gọi là “bỏ phiếu” từ Kho lưu trữ Máy học UCI ghi lại mười sáu phiếu bầu quan trọng của mỗi Nghị sĩ Quốc hội Ấn Độ (Thành viên của Nghị viện) và gắn nhãn mỗi Nghị sĩ là thành viên đảng:

import orange

data1 = orange.ExampleTable(‘voting.tab’)

print(‘Instance:’, len(data1))

print(Attributes:’, 1len(data.domain.attributes))

Ở đây, chúng ta có thể thấy rằng tập lệnh tải đầu tiên trong thư viện Orange, đọc tệp dữ liệu và in ra những gì chúng ta quan tâm. Nếu chúng tôi lưu trữ tập lệnh này trong script.py và chạy nó bằng lệnh shell “python script.py” đảm bảo rằng tệp dữ liệu nằm trong cùng một thư mục thì chúng tôi nhận được

model = orange.BayesLearner(data1)

for i in range(5):

print(model(data1[i]))

Hãy để chúng tôi tiếp tục với tập lệnh của chúng tôi sử dụng cùng một dữ liệu được tạo bởi một bộ phân loại Bayesian ngây thơ và in ra phân loại của năm trường hợp đầu tiên:

model = orange.BayesLearner(data1)

for i in range(5):

print(model(data1[i]))

Nó rất dễ dàng để sản xuất mô hình phân loại; chúng tôi đã gọi đối tượng Orange (Bayes Learner) và cung cấp cho nó tập dữ liệu. Nó trả về một đối tượng khác (bộ phân loại Bayesian ngây thơ) khi được đưa ra một cá thể trả về nhãn của lớp khả thi. 

Ở đây, chúng ta cần khám phá các phân loại chính xác là gì; chúng tôi có thể in các nhãn gốc của năm phiên bản của chúng tôi:

for i in range(5):

print(model(data1[i])), ‘originally’ , data[i].getclass()

Tất cả các bộ phân loại được triển khai trong Orange đều có tính xác suất. Ví dụ, họ giả định các xác suất của lớp. Vì vậy, trong trình phân loại Bayesian ngây thơ, và chúng tôi có thể lo lắng về việc chúng tôi đã bỏ sót bao nhiêu trong trường hợp thứ ba:

n = model(data1[2], orange.GetProbabilities)

print data,domain.classVar.values[0], ‘:’, n[0]

Ở đây chúng tôi nhận ra rằng các chỉ số của Python bắt đầu bằng 0 và mô hình phân loại đó trả về một vectơ xác suất khi một bộ phân loại được gọi với đối số Orange.-Getprobabilities. Mô hình của chúng tôi đã ước tính một xác suất rất cao cho một inc:

Inc : 0.878529638542

Leave a Reply

Call now
%d bloggers like this: