Trong phần hướng dẫn Lập trình SAS lần trước, chúng ta đã thấy giao diện người dùng SAS và hôm nay chúng ta sẽ nói về cấu trúc chương trình SAS, các bước liên quan đến cấu trúc chương trình của Lập trình SAS: Bước dữ liệu SAS, Bước PROC trong SAS.
Các bài viết liên quan:
Cuối cùng, chúng ta sẽ thấy một số khác biệt cơ bản giữa SAS DATA và SAS PROC.
Bây giờ chúng ta hãy bắt đầu với cấu trúc của Chương trình SAS.
Cấu trúc chương trình SAS
Trước khi bạn chạy phân tích, hãy viết báo cáo, trước khi bạn làm bất cứ điều gì với dữ liệu của mình, SAS phải có khả năng đọc dữ liệu của bạn. Để dữ liệu được phân tích bởi SAS, trước tiên nó phải ở dạng tập dữ liệu. SAS DataSet là tổ chức các giá trị dữ liệu trong bảng dưới dạng hàng và cột.
Các thành phần chính của chương trình SAS là bước DATA và bước PROC.
Dưới đây là sơ đồ trình bày các bước liên quan đến cấu trúc của Chương trình SAS.
Xem thêm Thiết lập Môi trường SAS – Cấu hình & Cài đặt SAS
Đây, là một chương trình đơn giản chuyển đổi km sang mét bên trong bước SAS DATA và in kết quả trong bước SAS PROC:
DATA distance; kilometers = 23; meters = 1000*kilometers; PROC PRINT DATA = distance; Run;
Hãy để chúng tôi xem xét từng thành phần SAS một cách chi tiết.
STEP Data SAS
Bước này liên quan đến việc tải tập dữ liệu cần thiết vào bộ nhớ SAS.
Bước DATA đọc và sửa đổi dữ liệu và bắt đầu với từ khóa DATA. Theo sau từ khóa này là tên mà bạn tạo nên cho tập dữ liệu SAS. Bước DỮ LIỆU ở trên tạo ra một tập dữ liệu SAS có tên là DISTANCE.
Bước DỮ LIỆU SAS được sử dụng cho các mục đích sau:
- Nhận dữ liệu đầu vào vào tập dữ liệu SAS.
- Chỉnh sửa- kiểm tra bất kỳ lỗi nào trong dữ liệu và sửa chúng.
- Tạo các tập dữ liệu SAS mới từ các tập dữ liệu hiện có bằng cách hợp nhất và cập nhật các tập dữ liệu cũ.
- Thao tác dữ liệu như cập nhật, sửa đổi hoặc sắp xếp lại dữ liệu trong tập dữ liệu SAS.
Cú pháp:
DATA data_set_name; #Name of the data set. INPUT var1,var2,var3; #Defines the variables in this data set. NEW_VAR; #Creates a new variable. LABEL; #Assign labels to variables. DATALINES; #Enters the data. RUN;
STEP SAS PROC
Phần đầu của tất cả các thủ tục trong SAS bắt đầu bằng một câu lệnh PROC trong đó từ khóa PROC được theo sau bởi tên của thủ tục (ví dụ: MOD, PRINT, Proc SORT hoặc Proc MEANS ).
Trong bước này, một thủ tục tích hợp sẵn của SAS được sử dụng để phân tích dữ liệu. Giống như công thức được tuân theo một cách tuần tự, trong SAS, về cơ bản, chúng ta sử dụng các câu lệnh giống nhau mọi lúc.
PROC procedure_name options; #The name of the proc. RUN;
Bước output của SAS
Kết thúc một bước xảy ra khi SAS đi qua một bước mới được đánh dấu bằng câu lệnh DATA hoặc PROC và câu lệnh RUN. Các câu lệnh RUN yêu cầu SAS chạy tất cả các dòng trước đó. Tuy nhiên, các câu lệnh RUN không phải là một phần của bước DATA hoặc PROC.
Trong chương trình SAS ở trên, SAS biết rằng bước SAS DATA đã kết thúc khi nói đến câu lệnh PROC ở dòng tiếp theo. Bước PROC kết thúc bằng câu lệnh RUN, nghĩa là chương trình đã kết thúc.
Xem thêm Sắp xếp dữ liệu trong SAS
Sự khác biệt step DATA và step PROC
Step DATA và step PROC là hai loại step khác nhau trong chương trình SAS và có mục đích và chức năng riêng.
- Step DATA:
- Step DATA (DATA step) là một phần trong chương trình SAS được sử dụng để xử lý và biến đổi dữ liệu.
- Trong DATA step, bạn có thể khai báo và định dạng biến, xử lý dữ liệu, thực hiện các câu lệnh điều khiển như IF-THEN, DO loops, và tạo các tập tin đầu ra.
- DATA step cho phép bạn đọc dữ liệu từ các nguồn khác nhau, biến đổi dữ liệu theo yêu cầu, và tạo ra các tập tin đầu ra mới.
- Step PROC:
- Step PROC (Procedure step) là một phần trong chương trình SAS được sử dụng để thực hiện các phân tích dữ liệu và các tác vụ khác liên quan đến phân tích.
- Trong PROC step, bạn sử dụng các câu lệnh PROC để thực hiện các thao tác phân tích dữ liệu như tính toán thống kê, biểu đồ hóa, phân tích hồi quy, và nhiều tác vụ khác.
- PROC step thường là nơi bạn sử dụng các câu lệnh PROC như PROC MEANS, PROC FREQ, PROC REG để thực hiện các phân tích dữ liệu cụ thể.
Tóm lại, step DATA được sử dụng để xử lý và biến đổi dữ liệu trong chương trình SAS, trong khi step PROC được sử dụng để thực hiện các phân tích dữ liệu và các tác vụ liên quan đến phân tích. Cả hai loại step đều có vai trò quan trọng trong việc xử lý và phân tích dữ liệu trong chương trình SAS.
Xem thêm Sử dụng hồi quy tuyến tính trong SAS
Các thành phần cơ bản của một chương trình SAS
Các thành phần cơ bản của một chương trình SAS bao gồm:
- Khai báo thư viện (LIBNAME statement):
- Đây là một thành phần quan trọng để chỉ định các thư viện dữ liệu SAS mà chương trình sẽ sử dụng.
- Thông qua khai báo thư viện, bạn có thể xác định vị trí và tên của các tập tin dữ liệu SAS.
- Khai báo và định dạng biến (DATA step):
- Trong DATA step, bạn khai báo các biến mà chương trình cần sử dụng.
- Bạn cũng có thể xác định định dạng (format) của các biến, ví dụ: dạng ngày tháng, dạng tiền tệ, hoặc dạng văn bản.
- Xử lý dữ liệu (DATA step):
- Trong DATA step, bạn có thể thực hiện các thao tác xử lý dữ liệu như lọc dữ liệu, biến đổi dữ liệu, tính toán mới, ghép nối dữ liệu từ các nguồn khác nhau, và loại bỏ dữ liệu trùng lặp.
- Câu lệnh điều khiển (IF-THEN, DO loops):
- SAS cung cấp các câu lệnh điều khiển để kiểm soát luồng thực thi chương trình.
- Ví dụ: IF-THEN sử dụng để thực hiện câu lệnh chỉ khi một điều kiện được đáp ứng, DO loops được sử dụng để lặp lại một khối mã nhiều lần.
- Câu lệnh OUTPUT (OUTPUT statement):
- Câu lệnh OUTPUT được sử dụng để tạo ra một tập tin kết quả từ dữ liệu được xử lý.
- Nó định rõ cấu trúc và định dạng của tập tin kết quả.
- Câu lệnh PROC (Procedure):
- Các câu lệnh PROC được sử dụng để thực hiện các thao tác phân tích dữ liệu như thống kê, biểu đồ hóa, và phân tích dữ liệu.
- Ví dụ: PROC MEANS để tính toán các thống kê mô tả, PROC FREQ để tính toán tần số, PROC REG để thực hiện phân tích hồi quy.
- Đầu ra và hiển thị kết quả:
- Kết quả của chương trình SAS có thể được lưu trữ trong các tập tin đầu ra hoặc được hiển thị trực tiếp trên màn hình.
- Bạn có thể sử dụng câu lệnh PRINT để hiển thị dữ liệu hoặc câu lệnh PROC PRINT để hiển thị kết quả từ các thao tác phân tích dữ liệu.
- Câu lệnh PROC SQL:
- Câu lệnh MACRO (Macro statement):
- Điều kiện và điều kiện Logic (IF-THEN-ELSE):
- Xử lý lỗi và ghi nhật ký (Error handling and logging):
- Trong quá trình chạy chương trình, bạn có thể xử lý các lỗi và ghi lại thông tin về lỗi để kiểm tra và sửa chữa sau này.
- SAS cung cấp các công cụ và câu lệnh như ERROR, WARNING, LOG, và các câu lệnh truy cập dữ liệu như INFILE, FILE để thao tác với tập tin nhật ký.
Đây là một số thành phần cơ bản của một chương trình SAS. Tuy nhiên, cấu trúc chương trình SAS có thể linh hoạt và thay đổi tùy thuộc vào mục đích và yêu cầu của dự án cụ thể.
Xem thêm Hướng dẫn SAS PROC MEANS giá trị trung bình số học trong SAS
Các câu lệnh điều khiển trong chương trình SAS
Trong chương trình SAS, có một số câu lệnh điều khiển quan trọng được sử dụng để kiểm soát luồng thực thi và thực hiện các hành động khác nhau. Dưới đây là một số câu lệnh điều khiển chính trong SAS:
- IF-THEN:
- Câu lệnh IF-THEN được sử dụng để thực hiện một hành động nếu một điều kiện được đáp ứng.
- Ví dụ:
if condition then do; action; ... end;
- IF-THEN-ELSE:
- Câu lệnh IF-THEN-ELSE được sử dụng để thực hiện một hành động nếu một điều kiện được đáp ứng và một hành động khác nếu điều kiện không được đáp ứng.
- Ví dụ:
if condition then do; action1; ... end; else do; action2; ... end;
- DO loops:
- DO loops được sử dụng để lặp lại một khối mã nhiều lần.
- Có hai loại DO loops trong SAS: DO và DO WHILE.
- Ví dụ:
do index_variable = start_value to end_value; action; ... end;
- SELECT-WHEN-OTHER:
- Câu lệnh SELECT-WHEN-OTHER được sử dụng để kiểm tra một biến hoặc giá trị và thực hiện hành động tương ứng dựa trên giá trị đó.
- Ví dụ:
select (variable); when value1 do; action1; ... end; when value2 do; action2; ... end; ... otherwise do; action_default; ... end; end;
- WHILE-END:
- Câu lệnh WHILE-END được sử dụng để thực hiện một khối mã trong khi một điều kiện vẫn đúng.
- Ví dụ:
while condition do; action; ... end;
- LEAVE và ITERATE:
- Câu lệnh LEAVE được sử dụng để thoát khỏi một vòng lặp.
- Câu lệnh ITERATE được sử dụng để bỏ qua phần còn lại của vòng lặp hiện tại và chuyển đến vòng lặp tiếp theo.
- Ví dụ:
do index_variable = start_value to end_value; if condition then leave; if condition then iterate; ... end;
Đây là một số câu lệnh điều khiển chính trong chương trình SAS. Bạn có thể sử dụng các câu lệnh này
Bản tóm tắt
Do đó, mặc dù một chương trình SAS điển hình bắt đầu với bước SAS DATA để nhập dữ liệu và sau đó chuyển dữ liệu đó đến bước PROC trong SAS, nhưng đó không phải là một quy tắc cứng và nhanh.
Giống như bạn có thể xếp chồng các khối xây dựng theo bất kỳ thứ tự nào, bạn có thể sắp xếp các bước DATA và PROC theo bất kỳ thứ tự nào. Chương trình SAS có tính linh hoạt chỉ chứa các bước DATA hoặc chỉ các bước PROC.
Xem thêm Hướng dẫn về PROC SQL trong SAS