Rate this post

Để quá trình tiền xử lý dữ liệu thành công, điều cần thiết là phải có một bức tranh tổng thể về dữ liệu của bạn. Các mô tả thống kê cơ bản có thể được sử dụng để xác định các thuộc tính của dữ liệu và làm nổi bật các giá trị dữ liệu nào nên được coi là nhiễu hoặc ngoại lệ.

Các bài viết liên quan:

Đo lường xu hướng trung tâm: Trung bình, trung vị và yếu vị

Trong phần này, chúng ta xem xét các cách khác nhau để đo lường xu hướng trọng tâm của dữ liệu. Giả sử rằng chúng ta có một số thuộc tính X, như tiền lương, đã được ghi lại cho một tập hợp các đối tượng. Gọi x1, x2, …, xN là tập N giá trị quan sát được hoặc quan sát được đối với X. Ở đây, những giá trị này cũng có thể được gọi là tập dữ liệu (đối với X). Nếu chúng ta lập biểu đồ các quan sát về tiền lương, thì hầu hết các giá trị sẽ giảm ở đâu? Điều này cho chúng ta một ý tưởng về xu hướng trung tâm của dữ liệu. Các thước đo về xu hướng trung tâm bao gồm giá trị trung bình, trung vị, chế độ và tầm trung.

Thước đo số phổ biến và hiệu quả nhất về “trung tâm” của một tập hợp dữ liệu là giá trị trung bình (số học). Gọi x1, x2, …, xN là một tập hợp N giá trị hoặc quan sát, chẳng hạn như đối với một số thuộc tính số X, chẳng hạn như tiền lương. Giá trị trung bình của bộ giá trị này là:

Điều này tương ứng với hàm tổng hợp được tích hợp sẵn, trung bình (avg () trong SQL), được cung cấp trong hệ thống cơ sở dữ liệu quan hệ

Ví dụ 1: Trung bình – Giả sử chúng ta có các giá trị sau cho tiền lương (tính bằng hàng nghìn đô la), được hiển thị theo thứ tự tăng dần: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110. Sử dụng công thức trên, chúng ta có:

Do đó, mức lương trung bình là $ 58,000.

Ví dụ 2: Trung vị – Hãy tìm giá trị trung bình của dữ liệu từ ví dụ 1. Dữ liệu đã được sắp xếp theo thứ tự tăng dần. Có một số lượng chẵn (tức là 12); do đó, trung vị không phải là duy nhất. Nó có thể là bất kỳ giá trị nào trong hai giá trị ở giữa là 52 và 56 (nghĩa là trong giá trị thứ sáu và thứ bảy trong danh sách). Theo quy ước, chúng tôi gán giá trị trung bình của hai giá trị ở giữa làm giá trị trung bình; nghĩa là 52+562=1082=54. Như vậy, giá trị trung vị là 54.000 đô la.

Giả sử rằng chúng ta chỉ có 11 giá trị đầu tiên trong danh sách. Cho một số giá trị lẻ, giá trị trung vị là giá trị ở giữa. Đây là giá trị thứ sáu trong danh sách này, có giá trị là 52.000 đô la.

Ví dụ 3: Yếu vị – Dữ liệu từ Ví dụ 1 là hai phương thức. Hai yếu vị là $52.000 và $70.000. 

Đối với dữ liệu số đơn phương thức bị lệch vừa phải (không đối xứng), chúng ta có quan hệ thực nghiệm sau:

Điều này ngụ ý rằng yếu vị cho các đường cong tần số đơn phương có độ lệch vừa phải có thể dễ dàng được tính gần đúng nếu biết giá trị trung bình và giá trị trung vị.

Khoảng giữa cũng có thể được sử dụng để đánh giá xu hướng trung tâm của tập dữ liệu số. Nó là giá trị trung bình của các giá trị lớn nhất và nhỏ nhất trong tập hợp. Biện pháp này dễ dàng tính toán bằng cách sử dụng các hàm tổng hợp SQL, max () và min ().

Đo lường sự phân tán của dữ liệu: Phạm vi, Phần tư, Phương sai, Độ lệch chuẩn và Dải phân vị

Bây giờ chúng ta xem xét các biện pháp để đánh giá sự phân tán hoặc trải rộng của dữ liệu số. Các thước đo bao gồm phạm vi, phân vị, phần tư, phần trăm và phạm vi liên phần. Bản tóm tắt năm số, có thể được hiển thị dưới dạng biểu đồ hình hộp, rất hữu ích trong việc xác định các ngoại lệ. Phương sai và độ lệch chuẩn cũng chỉ ra mức độ lan truyền của một phân phối dữ liệu.

Phạm vi, phần tư và phạm vi liên phần tư

Để bắt đầu, chúng ta hãy nghiên cứu phạm vi, lượng tử, phần tư, phần trăm và phạm vi liên phần tư dưới dạng các thước đo về phân tán dữ liệu.

Gọi x1, x2, …, xN là tập hợp các quan sát cho một số thuộc tính số, X. Phạm vi của tập hợp là hiệu giữa giá trị lớn nhất (max ()) và nhỏ nhất (min ()).

Giả sử rằng dữ liệu cho thuộc tính X được sắp xếp theo thứ tự số tăng dần. Hãy tưởng tượng rằng chúng ta có thể chọn một số điểm dữ liệu nhất định để chia phân phối dữ liệu thành các tập hợp liên tiếp có kích thước bằng nhau, như trong hình dưới. Các điểm dữ liệu này được gọi là các lượng tử. Các lượng tử là các điểm được lấy trong các khoảng thời gian đều đặn của một phân phối dữ liệu, chia nó thành các tập hợp liên tiếp bằng nhau về cơ bản. (Chúng tôi nói “về cơ bản” bởi vì có thể không có giá trị dữ liệu nào của X chia dữ liệu thành các tập con có kích thước chính xác bằng nhau. Để dễ đọc, chúng tôi sẽ coi chúng là bằng nhau.) Lượng tử q thứ k cho một phân phối dữ liệu nhất định là giá trị x sao cho nhiều nhất k = q trong số các giá trị dữ liệu nhỏ hơn x và nhiều nhất .q – k / = q của các giá trị dữ liệu lớn hơn x, trong đó k là số nguyên sao cho 0 <k <q. Có q – 1 q-lượng tử.

Lượng tử 2 là điểm dữ liệu phân chia nửa dưới và nửa trên của phân phối dữ liệu. Nó tương ứng với trung vị. 4 lượng tử là ba điểm dữ liệu chia phân phối dữ liệu thành bốn phần bằng nhau; mỗi phần đại diện cho một phần tư phân phối dữ liệu. Chúng thường được gọi là tứ phân vị. Các lượng tử 100 thường được gọi là phân vị phần trăm; chúng chia phân phối dữ liệu thành 100 tập hợp liên tiếp có kích thước bằng nhau. Trung vị, phần tư và phần trăm là những dạng lượng tử được sử dụng rộng rãi nhất.

Hiển thị đồ họa của các mô tả thống kê cơ bản về dữ liệu

Trong phần này sẽ nghiên cứu các hiển thị đồ họa của các mô tả thống kê cơ bản. Chúng bao gồm đồ thị lượng tử, đồ thị lượng tử-lượng tử, biểu đồ và đồ thị phân tán. Các biểu đồ như vậy rất hữu ích cho việc kiểm tra trực quan dữ liệu, rất hữu ích cho việc xử lý trước dữ liệu. Ba đầu tiên trong số này hiển thị phân phối đơn biến (tức là dữ liệu cho một thuộc tính), trong khi biểu đồ phân tán hiển thị phân phối hai biến (tức là liên quan đến hai thuộc tính).

Quantile Plot (Biểu đồ lượng tử)

Trong phần này và các phần phụ tiếp theo sẽ đề cập đến các hiển thị đồ họa phổ biến về phân phối dữ liệu. Biểu đồ lượng tử là một cách đơn giản và hiệu quả để có cái nhìn đầu tiên về phân phối dữ liệu đơn biến. Đầu tiên, nó hiển thị tất cả dữ liệu cho thuộc tính đã cho (cho phép người dùng đánh giá cả hành vi tổng thể và các lần xuất hiện bất thường). Thứ hai, nó lập biểu đồ thông tin lượng tử. Gọi xi, với i = 1 đến N, là dữ liệu được sắp xếp theo thứ tự tăng dần sao cho x1 là quan sát nhỏ nhất và xN là lớn nhất đối với một số thuộc tính thứ tự hoặc số X. Mỗi quan sát xi được ghép nối với một phần trăm fi, chỉ ra rằng xấp xỉ fi × 100% dữ liệu thấp hơn giá trị, xi. Chúng tôi nói “xấp xỉ” bởi vì có thể không có giá trị với chính xác một phần nhỏ, fi, của dữ liệu bên dưới xi. Lưu ý rằng 0,25 phần trăm tương ứng với phần tư Q1, phần trăm 0,50 là trung vị và 0,75 phần trăm là Q3.

Quantile–Quantile Plot (Biểu đồ lượng tử – lượng tử)

Biểu đồ lượng tử-lượng tử, hoặc biểu đồ q-q, vẽ biểu đồ các lượng tử của một phân phối đơn biến so với các lượng tử tương ứng của một phân phối khác. Nó là một công cụ trực quan hóa mạnh mẽ ở chỗ nó cho phép người dùng xem liệu có sự thay đổi trong việc chuyển từ bản phân phối này sang bản phân phối khác hay không.

Giả sử rằng chúng ta có hai bộ quan sát cho thuộc tính hoặc đơn giá biến đổi, được lấy từ hai vị trí chi nhánh khác nhau. Gọi x1, …, xN là dữ liệu từ nhánh đầu tiên và y1, …, yM là dữ liệu từ nhánh thứ hai, trong đó mỗi tập dữ liệu được sắp xếp theo thứ tự tăng dần. Nếu M = N (tức là số điểm trong mỗi tập hợp là như nhau), thì chúng ta chỉ cần vẽ biểu đồ yi so với xi, trong đó yi và xi đều là (i – 0,5) / N lượng tử của tập dữ liệu tương ứng của chúng. Nếu M < N (tức là nhánh thứ hai có ít quan sát hơn nhánh thứ nhất), chỉ có thể có M điểm trên đồ thị q-q. Ở đây, yi là lượng tử (i – 0,5) / M của y.

Hình 1 Biểu đồ lượng tử cho dữ liệu đơn giá

Hình 2: Tập hợp dữ liệu đơn giá cho các mặt hàng.

Histograms

Biểu đồ (hoặc biểu đồ tần suất) đã có ít nhất một thế kỷ và được sử dụng rộng rãi. “Histos” có nghĩa là cột hoặc cột và “gram” có nghĩa là biểu đồ, vì vậy biểu đồ là biểu đồ của các cực. Vẽ biểu đồ là một phương pháp đồ họa để tóm tắt sự phân bố của một thuộc tính nhất định, X. Nếu X là danh nghĩa, chẳng hạn như kiểu ô tô hoặc loại mặt hàng, thì một cực hoặc thanh dọc được vẽ cho mỗi giá trị đã biết của X. Chiều cao của thanh cho biết tần suất (tức là số lượng) của giá trị X đó. Biểu đồ kết quả thường được gọi là biểu đồ thanh.

Mặc dù biểu đồ được sử dụng rộng rãi, chúng có thể không hiệu quả bằng các phương pháp biểu đồ lượng tử, biểu đồ q-q và biểu đồ hình hộp trong việc so sánh các nhóm quan sát đơn biến.

Scatter Plots and Data Correlation (Biểu đồ phân tán)

Biểu đồ phân tán là một trong những phương pháp đồ họa hiệu quả nhất để xác định xem có xuất hiện mối quan hệ, mẫu hoặc xu hướng giữa hai thuộc tính số hay không. Để xây dựng biểu đồ phân tán, mỗi cặp giá trị được coi là một cặp tọa độ theo nghĩa đại số và được vẽ dưới dạng các điểm trong mặt phẳng.

Biểu đồ phân tán là một phương pháp hữu ích để cung cấp cái nhìn đầu tiên về dữ liệu lưỡng biến để xem các cụm điểm và ngoại lệ, hoặc để khám phá khả năng của các mối quan hệ tương quan. Hai thuộc tính, X và Y, có tương quan với nhau nếu một thuộc tính bao hàm thuộc tính kia. Các mối tương quan có thể là tích cực, tiêu cực hoặc rỗng (không tương quan).

Hình 3: Ví dụ về Histogram.

Hình 4: Ví dụ về Scatter Plot.

Hình 5: Biểu đồ phân tán có thể được sử dụng để tìm (a) tương quan dương hoặc (b) âm giữa các thuộc tính.

Kết luận

Tóm lại, các mô tả dữ liệu cơ bản (ví dụ: các phép đo xu hướng trung tâm và các phép đo độ phân tán) và hiển thị thống kê đồ họa (ví dụ, các biểu đồ lượng tử, biểu đồ và biểu đồ phân tán) cung cấp thông tin chi tiết có giá trị về hành vi tổng thể của dữ liệu của bạn. Bằng cách giúp xác định tiếng ồn và các yếu tố ngoại lai, chúng đặc biệt hữu ích cho việc làm sạch dữ liệu.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Contact Me on Zalo
Call now