Trong hướng dẫn python lần trước, chúng tôi đã nghiên cứu Cách làm việc với Cơ sở dữ liệu quan hệ với Python . Trong hướng dẫn này, chúng tôi sẽ thảo luận về các loại Định dạng tệp dữ liệu Python khác nhau: Python CSV, JSON và XLS. Hơn nữa, chúng ta sẽ thảo luận về cách đọc các tệp CSV, JSON, XLS bằng Ngôn ngữ lập trình Python .
Vì vậy, hãy xem Định dạng tệp dữ liệu Python.
Các bài viết liên quan:
Định dạng tệp dữ liệu Python
Đầu tiên chúng ta hãy tìm hiểu một chút về các định dạng Tệp dữ liệu Python mà chúng ta sẽ xử lý.
Định dạng tệp dữ liệu Python – Python CSV
Dữ liệu CSV trong Python là cơ bản với khoa học dữ liệu. Tệp Giá trị được Phân tách bằng Dấu phẩy sử dụng dấu phẩy để phân tách các giá trị. Bạn có thể xem nó như một tệp văn bản được phân tách chứa dữ liệu dạng bảng dưới dạng văn bản thuần túy. Một vấn đề với điều này có thể phát sinh khi dữ liệu mà nó lưu giữ chứa dấu phẩy hoặc dấu ngắt dòng – chúng ta có thể sử dụng các dấu phân cách khác như dấu dừng tab. Định dạng tệp dữ liệu Python này tỏ ra hữu ích trong việc trao đổi dữ liệu và di chuyển dữ liệu dạng bảng giữa các chương trình. Phần mở rộng cho tệp CSV là .csv.
Đây là tệp CSV Python mà chúng tôi sẽ sử dụng cho bản demo
Chúng tôi đã lưu mục này dưới dạng schedule.csv trên Máy tính để bàn của mình. Nhớ lưu dưới dạng Tất cả các tệp (*. *) . Khi chúng tôi mở tệp này, nó sẽ mở trong Microsoft Excel theo mặc định trên Windows-
Xem thêm Xuất dữ liệu trong R sang các định dạng file khác
Định dạng tệp dữ liệu Python – Python JSON
JSON là viết tắt của JavaScript Object Notation và là một định dạng tệp tiêu chuẩn mở. Trong khi nó chứa các cặp thuộc tính-giá trị và kiểu dữ liệu mảng, nó sử dụng văn bản mà con người có thể đọc được cho việc này. Định dạng tệp dữ liệu Python này không phụ thuộc vào ngôn ngữ và chúng tôi có thể sử dụng nó trong giao tiếp máy chủ-trình duyệt không đồng bộ. Phần mở rộng cho tệp JSON Python là .json.
Hãy khám phá Python Zipfile – Lợi ích, Mô-đun, Đối tượng
Đây là tệp JSON bằng Python mà chúng tôi sẽ sử dụng cho bản demo-
Chúng tôi lưu nó dưới dạng Schedule.json trên Desktop.
Định dạng tệp dữ liệu Python – Python XLS
Phần mở rộng cho bảng tính Excel là .xlsx. Điều này chứng tỏ hữu ích cho khoa học dữ liệu; chúng tôi tạo một sổ làm việc với hai trang tính trong Microsoft Excel.
Chúng tôi lưu sheet làm việc này dưới dạng Schedule.xlsx trên Máy tính để bàn của chúng tôi.
Xem thêm Sử dụng mảng trong R
Bạn có biết xử lý XML trong Python 3 không
Chuẩn bị thư viện
Để xử lý các định dạng tệp dữ liệu Python này, chúng tôi cần các thư viện Pandas.
Cài đặt nó bằng pip-
pip install pandas
Làm thế nào để đọc tệp CSV bằng Python?
Để đọc toàn bộ tệp, hàng, cột hoặc kết hợp của chúng, hãy đọc tiếp.
Đọc toàn bộ tệp CSV Python
Để đọc toàn bộ tệp, chúng ta có thể sử dụng hàm read_csv().
import pandas #sử dụng thư viện pandas import os #sử dụng thư viện os os.chdir('C:\\Users\\admin\\Desktop') #khai báo thư mục đường dẫn print(pandas.read_csv('schedule.csv')) # dọc file schedulte.csv
Đọc hàng cho một cột
Đôi khi, chúng tôi có thể chỉ muốn tìm nạp một số hàng nhất định cùng một lúc cho một cột nhất định. Chúng tôi sử dụng toán tử cắt cho việc này. Đọc các Toán tử Python .
data=pandas.read_csv('schedule.csv') #đọc file csv print(data[0:3]['title']) #in ra giá trị cột title hàng index 0 đến 3
Đọc các cột nhất định
Bây giờ chúng ta cũng chỉ có thể tìm nạp một số cột nhất định. Đối với điều này, chúng tôi sử dụng phương thức .loc () để lập chỉ mục nhiều trục.
data=pandas.read_csv('schedule.csv') #đọc file CSV print(data.loc[:,['title','rating']]) # in ra 2 cột title và rating
Đọc một số hàng nhất định và một số cột nhất định
Sử dụng phương thức .loc (), chúng ta cũng có thể tìm nạp một số hàng và cột nhất định:
>>> data=pandas.read_csv('schedule.csv') #đọc file CSV >>> print(data.loc[[1,3],['title','rating']]) # in ra 2 cột title và rating hàng 1 và 3
Đọc các cột nhất định cho một loạt các hàng
Bây giờ để tìm nạp các cột nhất định cho một phạm vi hàng, chúng tôi thay đổi một chút cú pháp trước đó và sử dụng phương pháp cắt thay vì chỉ số.
data=pandas.read_csv('schedule.csv') #đọc file CSV >>> print(data.loc[1:3,['title','rating']])# in ra 2 cột title và rating hàng 1 đến 3
Sử dụng mô-đun CSV Python
Bạn cũng có thể cài đặt CSV mô-đun bằng cách sử dụng pip, sau đó sử dụng đoạn mã sau:
Làm thế nào để đọc tệp JSON bằng Python?
Hãy thảo luận về các tuyên bố ra quyết định trong Python
Xem thêm Hướng dẫn Table Layout trong android
Đọc toàn bộ tệp JSON Python
Để đọc toàn bộ tệp JSN bằng Python, chúng ta có thể sử dụng hàm read_json ().
import pandas print(pandas.read_csv('schedule.csv'))
Đọc các hàng và cột nhất định
Và khi bạn chỉ muốn một số hàng và một số cột, bạn có thể-
data=pandas.read_csv('schedule.csv') # đọc file CSV data.loc[[1,3],['title','rating']] # in ra
Đọc hàng và cột dưới dạng bản ghi
Bạn cũng có thể tìm nạp các hàng và cột dưới dạng một chuỗi các bản ghi-
data=pandas.read_csv('schedule.csv') print(data.to_json(orient='records',lines=True))
Làm thế nào để đọc tệp XLS bằng Python?
Cuối cùng, chúng ta hãy tìm hiểu cách đọc các tệp Python XLS.
Đọc toàn bộ tệp
Bạn có thể đọc toàn bộ tệp bằng hàm read_excel ().
import pandas #import thư viện print(pandas.read_excel('schedule.xlsx'))#đọc file xlsx
Lưu ý- Bạn có thể cần phải cài đặt một mô-đun cho việc này-
C:\Users\admin>pip install xlrd
Đọc các hàng và cột nhất định
Khi bạn chỉ muốn tìm nạp một số hàng và cột nhất định, bạn có thể sử dụng phương thức .loc ().
data=pandas.read_excel('schedule.xlsx') #đọc file schedule.xlsx print(data.loc[[1,3],['title','rating']]) # show ra sử cột title và rating
Đọc nhiều hơn một trang sheet
with pandas.ExcelFile('schedule.xlsx') as book: #đọc file schedule.xlsx s1=pandas.read_excel(book,'Sheet1') # đọc sheet 1 s2=pandas.read_excel(book,'Sheet2') # đọc sheet 2
s1[0:5]['title']
Sử dụng mô-đun Python XLRD
Vì vậy, đây là tất cả về Định dạng tệp dữ liệu Python. Hy vọng bạn thích giải thích của chúng tôi.
Kết luận
Do đó, trong hướng dẫn này, chúng tôi đã thảo luận về các loại Định dạng tệp dữ liệu Python khác nhau. Ngoài ra, chúng tôi cũng đã học cách xử lý / đọc các định dạng như tệp CSV, JSON và XLS bằng Python. Hãy để lại ý kiến của bạn bên dưới và đừng quên truy cập lại để xem một bài hướng dẫn khác vào ngày mai.
Xem thêm Định dạng Number trong SAS