Pandas là gì? Cách cài đặt Pandas Python - Pandas
Trong bài này mình sẽ hướng dẫn các bạn cách cài đặt thư viện Pandas Python. Qua bài này sẽ giúp bạn hiểu khái niệm Pandas là gì? Những lợi ích khi sử dụng Pandas? Và các bước cài đặt như thế nào? 1. Pandas là gì? Pandas là một thư viện mã nguồn mở giúp phân tích và thao tác dữ liệu nhanh, ...
Trong bài này mình sẽ hướng dẫn các bạn cách cài đặt thư viện Pandas Python. Qua bài này sẽ giúp bạn hiểu khái niệm Pandas là gì? Những lợi ích khi sử dụng Pandas? Và các bước cài đặt như thế nào?
1. Pandas là gì?
Pandas là một thư viện mã nguồn mở giúp phân tích và thao tác dữ liệu nhanh, mạnh mẽ, linh hoạt và dễ sử dụng, được xây dựng dựa trên ngôn ngữ lập trình Python. Cái tên pandas không phải vì tác giả của nó là người yêu gấu trúc mà là viết tắt cho panel data (bảng dữ liệu).
Pandas hỗ trợ rất nhiều kiểu dữ liệu khác nhau như CSV, TSV, Excel, HDF, JSON, THML, SQL,.... Thư viện này sẽ xử lý và phân tích dữ liệu theo năm bước: tải, chuẩn bị, thao tác, mô hình hoá và phân tích, dữ liệu được biểu thị dưới dạng một khung dữ liệu (data frame) trông khá giống với Excel nên rất dễ sử dụng.
Trong chương NumPy, chúng ta đã biết được cách thao tác và tính toán trên mảng một cách hiệu quả hơn nhiều so với sử dụng các phương thức truyền thống trong Python.
Dù ta có thể thấy NumPy là một thư viện rất mạnh, tuy nhiên những hạn chế của nó trở nên rõ ràng khi chúng ta cần sự linh hoạt hơn, đặc biệt là trong việc cấu trúc dữ liệu. Trong bài cuối của NumPy, ta đã tìm hiểu về Structured Array là một tính năng của NumPy để làm việc này, tuy nhiên nó vẫn chưa thực sự hiệu quả.
Pandas là một thư viện được xây dựng trên NumPy và cung cấp cho chúng ta những tính năng rất mạnh trong việc xử lý dữ liệu thiếu, gắn nhãn, nhóm,... vốn chiếm nhiều thời gian trong xử lý dữ liệu. Trong Series này, chúng ta sẽ cùng tìm hiểu từ cơ bản đến nâng cao về Pandas nhé. Bài đầu tiên này sẽ giới thiệu về lợi ích cũng như cách cài đặt Pandas.
2. Lợi ích khi sử dụng Pandas
Dưới đây là những lợi ích khi sử dụng thư viện Pandas Python.
- Biểu diễn dữ liệu: dễ đọc, dễ dùng, thích hợp để phân tích dữ liệu
- Dễ dàng xử lý dữ liệu bị thiếu (biểu diễn nó dưới dạng NaNs)
- Nhanh và cung cấp hiệu suất được tối ưu hóa cao vì nó được xây dựng trên NumPy.
- Hoạt động hiệu quả với Time Series
- Thích hợp cho việc xử lý các tập dữ liệu lớn
- Tương thích với rất nhiều định dạng file khác nhau
... và còn rất nhiều lợi ích khác, và sau khi học xong series này bạn sẽ thấy điểm mạnh của Pandas.
3. Hướng dẫn cài đặt Pandas
Để cài đặt Pandas thì chắc chạn bạn cần có Python. Nếu như bạn chưa cài Python thì mình khuyến khích sử dụng Anaconda, nó bao gồm Python, Pandas và các thư viện phổ biến được sử dụng khác (NumPy, Matplotlib, Scipy,...) cho tính toán khoa học và xử lý dữ liệu.
Ngoài ra, Pandas hoàn toàn có thể cài như một package Python bình thường, bạn có thể cài qua Pip bằng câu lệnh:
pip install pandas
Hoặc nếu bạn đang dùng conda:
conda install pandas
Hoặc bạn muốn cài đặt trên các phiên bản Linux:
Với người mới, chưa có nhiều kinh nghiệm thì cài đặt Pandas nói riêng cũng như Python nói chung khá khó khăn, mình khuyến khích cài đặt pandas theo các bước sau:
- Cài đặt Anaconda (giúp cài đặt tất cả các gói bạn cần và tất cả các công cụ khác được đề cập ở dưới).
- Để viết code, sử dụng notebooks trong JupyterLab.
- Dùng Anaconda Navigator để quản lý các packages sẽ cài.
4. Kiểm tra version của Pandas
Khi đã hoàn tất việc cài đặt Pandas, bạn có thể kiểm tra version pandas (trong thời điểm viết bài này thì pandas version đang là 1.1.3) để xem nó đã được cài đặt ổn định hay chưa bằng cú pháp sau:
import pandas as pd pd.__version__
'1.1.3'
Trong Jupyter Notebook:
Trong series này sẽ dùng pd
làm alias cho Pandas, đây là alias được cộng đồng Python trên thế giới sử dụng rất phổ biến cho pandas nên bạn nên làm quen với cách dùng này.
5. Tổng kết
Qua bài này ta đã tìm hiểu được khái niệm Pandas là gì? Công dụng của Pandas? Và cách cài đặt Pandas trong Python.
Pandas là một thư viện quan trọng, cùng với NumPy và Matplotlib làm nên 3 thư viện cơ bản nhất trong Data Science với Python. Trong bài tiếp theo, ta sẽ tìm hiểu về Pandas Object - thành phần cốt lõi nhất của Pandas. Hẹn gặp bạn ở bài sau.