Đi sâu hơn trong loạt bài websitehcm hướng dẫn R của chúng tôi, chúng ta sẽ tìm hiểu về Data Visualization trong R. Chúng tôi sẽ nghiên cứu sự phát triển của Data Visualization, khái niệm đồ họa R và Data Visualization bằng ggplot2. Chúng ta cũng sẽ khám phá các khái niệm khác nhau để tìm hiểu trong Data Visualization R và những ưu và nhược điểm của nó.
Các bài viết liên quan:
Trước khi đi sâu vào Data Visualization trong R, bạn chắc chắn phải có kiến thức cơ bản về phân tích đồ họa R. Vì vậy, hãy xem hướng dẫn dễ học của chúng tôi về Phân tích đồ thị R trước khi tiếp tục.
Data Visualization R là gì?
Bằng cách sử dụng các chức năng đa dạng được cung cấp bởi R, người ta có thể tạo ra các Data Visualization hấp dẫn trực quan chỉ với một vài dòng mã. Data Visualization là một kỹ thuật hiệu quả để đạt được thông tin chi tiết về dữ liệu thông qua phương tiện trực quan.
- Với sự trợ giúp của các kỹ thuật trực quan, con người có thể dễ dàng hiểu rõ hơn về các mẫu ẩn trong dữ liệu mà nếu không thì có thể bị bỏ qua.
- Sử dụng Data Visualization, người ta có thể làm việc với các tập dữ liệu lớn để có được những hiểu biết quan trọng về nó một cách hiệu quả.
R Gói hình ảnh hóa
Sau đây là một số gói trực quan hóa cần thiết trong Lập trình R:
Sử dụng lập trình R
Đối với hầu hết các công việc của chúng tôi trong Lập trình R, chúng tôi sẽ sử dụng RStudio môi trường.
RStudio của R có bốn bảng:
- Console – Đây là cửa sổ R thực, bạn có thể nhập các lệnh R vào đây. Và, do đó thực thi chúng bằng cách nhấn enter.
- Nguồn – Đây là nơi chúng ta có thể chỉnh sửa các tập lệnh. Đó là nơi bạn nên luôn làm việc. Control-enter sẽ gửi các mã đã chọn đến bảng điều khiển.
- Lô đất / Trợ giúp – Tại đây các lô đất và trang trợ giúp sẽ được hiển thị.
- Workspace – Hiển thị các đối tượng bạn hiện có.
Bất kỳ thứ gì theo sau ký hiệu # đều được coi là một nhận xét.
Lưu ý – Chúng ta cần Data Visualization R vì nó cung cấp sự hiểu biết rõ ràng về các mẫu trong dữ liệu. Ngoài ra, nó có khả năng phát hiện các cấu trúc ẩn trong dữ liệu.
Đồ họa R
Đồ họa tiêu chuẩn
Đồ họa tiêu chuẩn R có sẵn thông qua đồ họa gói, bao gồm một số chức năng cung cấp các biểu đồ thống kê, như:
- Scatterplots
- Boxplots
- Piecharts
- Barplots, v.v.
Chúng tôi sử dụng những đồ thị này thường là một lệnh gọi hàm duy nhất.
Thiết bị đồ họa
- Các chức năng của nó tạo ra đầu ra hoàn toàn phụ thuộc vào thiết bị đồ họa đang hoạt động.
- Màn hình là thiết bị mặc định và được sử dụng thường xuyên hơn.
- R thiết bị đồ họa, như thiết bị PDF, thiết bị JPEG, v.v.
- Người dùng chỉ cần mở thiết bị đầu ra đồ họa mà họ muốn. Do đó, R đảm nhận việc sản xuất loại đầu ra theo yêu cầu của thiết bị.
- Điều này có nghĩa là, để tạo ra một âm mưu nhất định trên màn hình hoặc dưới dạng tệp đồ họa GIF R, mã R phải hoàn toàn giống nhau. Bạn chỉ cần mở thiết bị đầu ra mục tiêu trước đó!
- Một số thiết bị có thể mở cùng một lúc, nhưng chỉ một thiết bị đang hoạt động.
Những điều cơ bản về ngữ pháp của đồ họa
Các yếu tố chính của đồ họa thống kê:
- Data
- Aesthetic Mappings
- Geometric Objects
- Statistical Transformations
- Scales
- Coordinates system
- Faceting
Bây giờ, chúng ta hãy thảo luận về từng người trong số họ.
Aesthetic Mappings
- Nó kiểm soát mối quan hệ giữa các biến dữ liệu và các biến đồ họa.
- Ngoài ra, nó giúp ánh xạ biến nhiệt độ của tập dữ liệu thành biến X trong biểu đồ phân tán.
- Nó giúp lập bản đồ các loài thực vật thành màu của các chấm trong đồ họa.
Geometric Objects
Nó cho thấy mỗi quan sát bởi một điểm bằng cách sử dụng ánh xạ thẩm mỹ mà bản đồ hai biến trong tập dữ liệu vào x, y biến của cốt truyện.
Statistical Transformations
- Nó cho phép chúng tôi tính toán và cũng thực hiện phân tích thống kê dữ liệu trong lô.
- Ngoài ra, phép biến đổi thống kê sử dụng dữ liệu và ước lượng nó bằng một đường hồi quy tọa độ x, y.
- Nó đếm số lần xuất hiện của các giá trị nhất định.
Scales
Nó ánh xạ các giá trị dữ liệu thành các giá trị trong hệ tọa độ của thiết bị đồ họa.
Coordinate system
Chúng tôi sử dụng nó để vẽ dữ liệu.
- Descartes
- Kịch bản
Faceting
Nó chia dữ liệu thành các nhóm con và vẽ các biểu đồ con cho mỗi nhóm.
Data Visualization trong R bằng ggplot2
“Ggplot2 là gói Data Visualization được sử dụng rộng rãi nhất của ngôn ngữ lập trình R.”
Loại Data Visualization trong R nên được sử dụng cho loại vấn đề nào? Tôi sẽ cung cấp cho bạn các mẹo giúp bạn chọn đúng loại biểu đồ cho các mục tiêu cụ thể của mình. Chúng ta cũng sẽ học cách triển khai Data Visualization trong R bằng ggplot2.
- Giới thiệu về ggplot2
- Tùy chỉnh giao diện
Giới thiệu về ggplot2
Nó là một hệ thống âm mưu. Chúng tôi sử dụng nó để xây dựng các biểu đồ trông chuyên nghiệp. Ngoài ra, sử dụng các lô một cách nhanh chóng với mã tối thiểu. Nó đỡ lo nhiều việc phức tạp khiến việc lập mưu trở nên khó khăn. Do đó, ggplot2 rất khác với sơ đồ R cơ sở nhưng nó cũng rất linh hoạt và mạnh mẽ.
Chúng ta có thể tạo biểu đồ bằng ggplot2 như sau:
library(magrittr) library(dplyr) library(ggplot2) data_histogram <- mtcars %>% mutate(cyl = factor(cyl)) %>% group_by(cyl) %>% summarize(mean_mpg = round(mean(mpg), 2)) ggplot(data_histogram, aes(x = cyl, y = mean_mpg)) + geom_bar(fill = "coral", stat = "identity")
Đầu ra:
Nó sử dụng khung dữ liệu làm đầu vào:
- Dữ liệu phải ở định dạng dài. Điều này có nghĩa là mỗi hàng là một quan sát và mỗi cột là một biến.
- Sử dụng reshape2 để lấy dữ liệu ở định dạng dài.
Những điều quan trọng cần nhớ đối với ggplot
- Nó được phát triển bởi Hadley Wickham như một sự triển khai ngữ pháp của đồ họa.
- ggplot tương đối hoàn chỉnh và là một gói đồ họa mạnh mẽ.
- Nó có thể làm được nhiều thứ nhưng không thể xây dựng hình ảnh 3D.
Cách cài đặt gói ggplot2
- ggplot2 có thể được cài đặt dễ dàng bằng cách gõ:
install.packages (“ggplot2”)
- Đảm bảo rằng bạn đang sử dụng phiên bản R mới nhất để tải phiên bản ggplot2 mới nhất.
Các ứng dụng của ggplot2
Aesthetics : Nó đề cập đến các thuộc tính trực quan ảnh hưởng đến cách dữ liệu được hiển thị trong đồ họa, ví dụ: màu sắc, kích thước điểm hoặc kiểu đường.
Geometric objects : Chúng tôi sử dụng nó để thể hiện trực quan các quan sát như điểm, đường thẳng, đa giác, v.v.
Faceting: Nó được áp dụng cho cùng một loại đồ thị.
Annotation : Chúng tôi sử dụng nó để thêm văn bản và / hoặc đồ họa bên ngoài vào ggplot.
Positional adjustments : Nó giúp giảm bớt các điểm quá nhiều.
Tại sao ggplot2?
- Nó được sử dụng một cách chuyên nghiệp.
- Dễ dàng thao tác.
- Có hỗ trợ trực tuyến tuyệt vời.
- Nó có chuyển giao kiến thức sang các gói / ngôn ngữ khác.
Học gì trong Data Visualization trong R?
Lập trình R giúp chúng ta tìm hiểu nghệ thuật này bằng cách cung cấp một tập hợp các hàm có sẵn và cũng như các thư viện để xây dựng các hình ảnh trực quan và trình bày dữ liệu. Trước khi tiến hành triển khai kỹ thuật của hình ảnh trực quan, trước tiên chúng ta hãy xem cách chọn loại biểu đồ phù hợp.
Chọn loại biểu đồ phù hợp
Có bốn kiểu trình bày cơ bản :
- So sánh
- Thành phần
- Phân bổ
- Mối quan hệ
Sau đây là các biểu đồ được sử dụng nhiều nhất trong Data Visualization:
- Scatter Plot
- Histogram
- Bar & Stack Bar Chart
- Box Plot
- Area Chart
- Heat Map
- Correlogram
Bây giờ chúng ta sẽ thảo luận về thời điểm sử dụng từng loại trong số chúng:
Scatter Plot
Để xem mối quan hệ giữa hai biến liên tục.
Histogram
Biểu đồ được sử dụng để vẽ một biến liên tục. Ngoài ra, nó giúp chia dữ liệu thành các thùng và hiển thị sự phân bố tần số của các thùng này. Do đó, chúng ta luôn có thể thay đổi kích thước thùng và xem tác động của nó đối với hình dung.
Bar Chart
Chúng tôi sử dụng biểu đồ thanh để vẽ một biến phân loại.
Box Plot
Biểu đồ hộp được sử dụng để vẽ một tập hợp các biến phân loại và liên tục. Nó cũng được sử dụng để trực quan hóa sự lan truyền của dữ liệu và phát hiện những điểm bất thường. Hơn nữa, nó cho thấy năm con số có ý nghĩa thống kê:
- Tối thiểu
- Phân vị thứ 25
- Trung bình
- Phân vị thứ 75 và
- Tối đa.
Area Chart
Chúng tôi sử dụng nó để hiển thị tính liên tục trên một biến hoặc tập dữ liệu. Nó gần giống như một biểu đồ đường. Ngoài ra, chúng ta có thể sử dụng nó cho các âm mưu của chuỗi thời gian. Chúng ta có thể sử dụng nó một cách khác để vẽ các biến liên tục và phân tích các xu hướng cơ bản.
Heat Map
Chúng tôi sử dụng nó cho cường độ của màu sắc. Nó cũng được sử dụng để hiển thị mối quan hệ giữa hai hoặc ba hoặc nhiều biến trong một hình ảnh hai chiều. Do đó, nó cho phép chúng ta khám phá hai chiều của trục và chiều thứ ba bằng cường độ màu.
Correlogram
Chúng tôi sử dụng nó để kiểm tra mức độ tương quan và giữa các biến có sẵn trong tập dữ liệu. Do đó, các ô của ma trận có thể được tô bóng hoặc tô màu để hiển thị giá trị quan hệ đồng.
Ưu và nhược điểm của Data Visualization trong R
Chúng ta hãy xem xét những ưu điểm và nhược điểm của Data Visualization trong lập trình R:
Ưu điểm của Data Visualization trong R
1. Hiểu biết
Có thể hấp dẫn hơn khi xem xét doanh nghiệp. Và, thật dễ hiểu thông qua đồ họa và biểu đồ khi so sánh với một tài liệu viết bao gồm văn bản và số. Như vậy, nó có thể thu hút một lượng lớn khán giả hơn. Ngoài ra, nó thúc đẩy việc sử dụng rộng rãi những hiểu biết kinh doanh đó để đi đến các quyết định tốt hơn.
2. Hiệu quả
Ứng dụng của nó cho phép chúng tôi hiển thị nhiều thông tin trong một không gian nhỏ. Mặc dù quá trình ra quyết định trong kinh doanh vốn đã phức tạp và nhiều mặt, nhưng việc hiển thị các kết quả đánh giá dưới dạng biểu đồ có thể cho phép các công ty tổ chức nhiều thông tin liên quan đến nhau theo những cách hữu ích.
Bạn có biết về Mô hình tuyến tính tổng quát trong lập trình R
3. Vị trí
Ứng dụng của nó sử dụng các tính năng như bản đồ địa lý và GIS có thể đặc biệt phù hợp cho các doanh nghiệp mở rộng khi vị trí là một yếu tố rất phù hợp. Chúng tôi sử dụng bản đồ để hiển thị thông tin chi tiết về doanh nghiệp từ những nơi khác nhau, đưa ra ý tưởng về mức độ nghiêm trọng của các vấn đề, lý do đằng sau chúng và cả các giải pháp để giải quyết chúng.
Nhược điểm của Data Visualization trong R
1. Chi phí
Các ứng dụng của nó tiêu tốn một khoản tiền kha khá, và đặc biệt là các công ty nhỏ có thể không sử dụng nhiều tài nguyên đó khi mua chúng. Để tạo báo cáo, nhiều công ty có thể thuê các chuyên gia để tạo ra các biểu đồ, điều này có thể làm tăng chi phí. Các doanh nghiệp nhỏ thường làm việc trong những môi trường hạn chế về nguồn lực và việc nhận được các kết quả đánh giá một cách kịp thời thường có tầm quan trọng cao.
2. Mất tập trung
Mặc dù đôi khi, các ứng dụng Data Visualization tạo ra các báo cáo và biểu đồ chứa nhiều đồ họa phức tạp và lạ mắt, có thể khiến người dùng tập trung nhiều hơn vào hình thức hơn là chức năng. Giá trị tổng thể của biểu diễn đồ họa sẽ là tối thiểu nếu trước tiên chúng ta thêm sự hấp dẫn trực quan. Trong thiết lập tài nguyên, điều quan trọng là phải suy nghĩ cẩn thận về cách tài nguyên có thể được sử dụng tốt nhất. Và cũng không bị cuốn vào xu hướng đồ họa mà không có mục đích rõ ràng.
Bản tóm tắt
Trong bài viết này, chúng tôi đã giới thiệu sơ lược về khái niệm hoàn chỉnh về Data Visualization trong R. Và, chúng tôi cũng tập trung vào ggplot2 trong R, chủ yếu được sử dụng trong Data Visualization. Ngoài ggplot2, chúng ta cũng đã tìm hiểu về hình ảnh hóa cùng với những ưu và nhược điểm của chúng.