Khai thác dữ liệu và khám phá tri thức là nguyên tắc phân tích lượng lớn dữ liệu và chọn ra thông tin liên quan dẫn đến quá trình khám phá tri thức để trích xuất các mẫu, quy tắc và mô hình có ý nghĩa từ dữ liệu thô làm cho các mẫu được khám phá trở nên dễ hiểu. Để quá trình diễn ra suôn sẻ chúng ta phải hiểu được các đối tượng dữ liệu và thuộc tính của nó, cách thức lưu tữ và biểu diễn của nó.
Sau đây hãy cùng websitehcm tìm hiểu về Data object và Attribute của dữ liệu.
Đối tượng dữ liệu và loại thuộc tính
Tập dữ liệu được tạo thành từ các đối tượng dữ liệu. Đối tượng dữ liệu đại diện cho một thực thể – trong cơ sở dữ liệu bán hàng, các đối tượng có thể là khách hàng, mặt hàng lưu trữ và bán hàng; trong cơ sở dữ liệu y tế, các đối tượng có thể là bệnh nhân; trong cơ sở dữ liệu trường đại học, các đối tượng có thể là sinh viên, giáo sư và các khóa học. Các đối tượng dữ liệu thường được mô tả bằng các thuộc tính. Đối tượng dữ liệu cũng có thể được gọi là mẫu, ví dụ, cá thể, điểm dữ liệu hoặc đối tượng. Nếu các đối tượng dữ liệu được lưu trữ trong cơ sở dữ liệu, chúng là các bộ dữ liệu. Nghĩa là, các hàng của cơ sở dữ liệu tương ứng với các đối tượng dữ liệu và các cột tương ứng với các thuộc tính. Trong phần này, chúng tôi xác định các thuộc tính và xem xét các loại thuộc tính khác nhau.
Các bài viết liên quan:
Thuộc tính là gì?
Thuộc tính là một trường dữ liệu, đại diện cho một đặc tính hoặc tính năng của một đối tượng dữ liệu. Các thuộc tính danh từ, thứ nguyên, đặc điểm và biến thường được sử dụng thay thế cho nhau trong tài liệu. Thứ nguyên thuật ngữ thường được sử dụng trong kho dữ liệu.
Các chuyên gia khai thác dữ liệu và cơ sở dữ liệu thường sử dụng thuật ngữ thuộc tính. Các thuộc tính mô tả đối tượng khách hàng có thể bao gồm, ví dụ: ID khách hàng, tên và địa chỉ. Các giá trị quan sát được cho một thuộc tính nhất định được gọi là quan sát.
Một tập hợp các thuộc tính được sử dụng để mô tả một đối tượng nhất định được gọi là vectơ thuộc tính (hoặc vectơ đặc trưng). Việc phân phối dữ liệu liên quan đến một thuộc tính (hoặc biến) được gọi là đơn biến. Phân phối hai biến liên quan đến hai thuộc tính, …
Loại thuộc tính được xác định bởi tập hợp các giá trị có thể có – danh nghĩa, nhị phân, thứ tự hoặc số.
Thuộc tính danh nghĩa
Danh nghĩa có nghĩa là “liên quan đến tên”. Các giá trị của thuộc tính danh nghĩa là ký hiệu hoặc tên của sự vật. Mỗi giá trị đại diện cho một số loại danh mục, mã hoặc trạng thái, và do đó, các thuộc tính danh nghĩa cũng được gọi là phân loại. Các giá trị không có bất kỳ thứ tự có ý nghĩa nào. Trong khoa học máy tính, các giá trị còn được gọi là liệt kê.
Ví dụ: Giả sử rằng màu tóc và tình trạng hôn nhân là hai thuộc tính mô tả đối tượng người. Trong ứng dụng của chúng tôi, các giá trị có thể có cho màu tóc là đen, nâu, vàng, đỏ, nâu vàng, xám và trắng. Thuộc tính tình trạng hôn nhân có thể nhận các giá trị độc thân, đã kết hôn, đã ly hôn và góa. Cả màu tóc và tình trạng hôn nhân đều là những thuộc tính danh nghĩa. Một ví dụ khác về thuộc tính danh nghĩa là nghề nghiệp, với các giá trị là giáo viên, nha sĩ, lập trình viên, nông dân, …
Thuộc tính nhị phân
Thuộc tính nhị phân là một thuộc tính danh nghĩa chỉ có hai danh giá trị hoặc trạng thái: 0 hoặc 1, trong đó 0 thường có nghĩa là thuộc tính không có và 1 có nghĩa là có. Thuộc tính nhị phân được gọi là Boolean nếu hai trạng thái tương ứng với true và false.
Ví dụ: Với thuộc tính người hút thuốc mô tả đối tượng bệnh nhân, 1 cho biết bệnh nhân hút thuốc, trong khi 0 cho biết bệnh nhân không hút thuốc. Tương tự, giả sử bệnh nhân trải qua một cuộc kiểm tra y tế có hai kết quả có thể xảy ra. Xét nghiệm y tế thuộc tính là nhị phân, trong đó giá trị 1 có nghĩa là kết quả xét nghiệm cho bệnh nhân là dương tính, trong khi 0 có nghĩa là kết quả âm tính.
Thuộc tính thứ tự
Thuộc tính thứ tự là một thuộc tính có các giá trị có thể có thứ tự hoặc thứ hạng có ý nghĩa trong số chúng, nhưng độ lớn giữa các giá trị liên tiếp không được biết.
Ví dụ: Giả sử rằng kích thước đồ uống có sẵn tại một nhà hàng thức ăn nhanh. Thuộc tính danh nghĩa này có ba giá trị có thể có: nhỏ, trung bình và lớn. Các giá trị có một chuỗi có ý nghĩa (tương ứng với việc tăng kích thước đồ uống); tuy nhiên, chúng ta không thể biết từ các giá trị lớn hơn bao nhiêu, chẳng hạn, một phương tiện lớn hơn một giá trị lớn. Các ví dụ khác về thuộc tính thứ tự bao gồm cấp (ví dụ: AC, A, A−, BC, …) và xếp hạng chuyên nghiệp. Các cấp bậc chuyên nghiệp có thể được liệt kê theo thứ tự tuần tự: ví dụ, trợ lý, phó, và đầy đủ cho giáo sư, hạ sĩ và trung sĩ cho các cấp quân đội.
Thuộc tính số
Thuộc tính số là định lượng. Nghĩa là nó là một đại lượng có thể đo lường được, được biểu diễn bằng giá trị nguyên hoặc giá trị thực. Các thuộc tính số có thể được chia tỷ lệ theo khoảng thời gian hoặc tỷ lệ.
Các thuộc tính theo tỷ lệ khoảng cách được đo lường trên một tỷ lệ của các đơn vị có kích thước bằng nhau. Giá trị của các thuộc tính được chia tỷ lệ theo khoảng có thứ tự và có thể là dương, 0 hoặc âm. Do đó, ngoài việc cung cấp xếp hạng các giá trị, các thuộc tính như vậy cho phép chúng ta so sánh và định lượng sự khác biệt giữa các giá trị.
Ví dụ: Thuộc tính tỷ lệ khoảng thời gian. Thuộc tính nhiệt độ được chia tỷ lệ theo khoảng thời gian. Giả sử rằng chúng ta có giá trị nhiệt độ ngoài trời cho một số ngày khác nhau, trong đó mỗi ngày là một đối tượng. Bằng cách sắp xếp thứ tự các giá trị, chúng tôi có được một thứ hạng của các đối tượng liên quan đến nhiệt độ. Ngoài ra, chúng ta có thể định lượng sự khác biệt giữa các giá trị. Ví dụ, nhiệt độ 20 ° C cao hơn nhiệt độ 15 ° C năm độ. Lịch ngày là một ví dụ khác. Ví dụ, năm 2002 và 2010 cách nhau tám năm.
Thuộc tính theo tỷ lệ là một thuộc tính số với một điểm 0 vốn có. Nghĩa là, nếu một phép đo được chia theo tỷ lệ, chúng ta có thể nói một giá trị là bội số (hoặc tỷ lệ) của một giá trị khác. Ngoài ra, các giá trị được sắp xếp theo thứ tự và chúng tôi cũng có thể tính toán sự khác biệt giữa các giá trị, cũng như giá trị trung bình, giá trị trung bình và chế độ.
Ví dụ: Thuộc tính tỷ lệ. Không giống như nhiệt độ tính bằng độ C và độ F, thang nhiệt độ Kelvin (K) có điểm được coi là điểm 0 thực sự (0◦K D −273,15◦C): Là điểm mà tại đó các hạt bao gồm vật chất có động năng bằng không. Các ví dụ khác về thuộc tính tỷ lệ bao gồm các thuộc tính số như số năm kinh nghiệm (ví dụ: đối tượng là nhân viên) và số lượng từ (ví dụ: đối tượng là tài liệu). Các ví dụ bổ sung bao gồm các thuộc tính để đo trọng lượng, chiều cao, vĩ độ và tọa độ kinh độ (ví dụ: khi phân nhóm các ngôi nhà) và số lượng tiền tệ (ví dụ: bạn giàu hơn 100 lần với 100 đô la so với 1 đô la).
Thuộc tính rời rạc so với liên tục
Các thuật toán phân loại được phát triển từ lĩnh vực học máy thường nói về các thuộc tính là rời rạc hoặc liên tục. Mỗi loại có thể được xử lý khác nhau. Thuộc tính rời rạc có một tập giá trị hữu hạn hoặc vô hạn đếm được, có thể có hoặc không được biểu diễn dưới dạng số nguyên. Mỗi thuộc tính màu tóc, người hút thuốc, kiểm tra y tế và kích thước đồ uống có một số lượng giá trị hữu hạn, và do đó, rất rời rạc. Lưu ý rằng các thuộc tính rời rạc có thể có các giá trị số, chẳng hạn như 0 và 1 cho các thuộc tính nhị phân hoặc các giá trị từ 0 đến 110 cho tuổi thuộc tính. Một thuộc tính có thể đếm được vô hạn nếu tập hợp các giá trị có thể là vô hạn nhưng các giá trị có thể được đặt trong sự tương ứng 1-1 với các số tự nhiên. Ví dụ: thuộc tính ID khách hàng là vô hạn. Số lượng khách hàng có thể tăng lên vô hạn, nhưng trên thực tế, tập giá trị thực tế có thể đếm được (trong đó các giá trị có thể được đặt tương ứng 1-1 với tập hợp các số nguyên). Mã zip là một ví dụ khác.
Nếu một thuộc tính không rời rạc, nó là liên tục. Các thuật ngữ thuộc tính số và thuộc tính liên tục thường được sử dụng thay thế cho nhau trong tài liệu. (Điều này có thể gây nhầm lẫn vì theo nghĩa cổ điển, các giá trị liên tục là số thực, trong khi giá trị số có thể là số nguyên hoặc số thực). Trong thực tế, các giá trị thực được biểu diễn bằng một số hữu hạn các chữ số. Các thuộc tính liên tục thường được biểu diễn dưới dạng các biến dấu phẩy động.
Xem thêm Global attribute trong html