06/04/2021, 14:46

Hướng dẫn cài đặt NumPy: Viết ứng dụng Hello World - ài liệu học Numpy từ cơ bản đến nâng cao

Trong bài này ta sẽ tìm hiểu khái niệm Numpy là gì, kèm theo đó là hướng dẫn cài đặt và chạy chương trình Hello World bằng Numpy, một thư viện của Python. Chắc chắn Numpy là thư viện mà bạn phải học khi muốn nghiên cứu về Data Science, vì vậy đừng bỏ lỡ những bài viết được chia sẻ tại Zaidap.com ...

Trong bài này ta sẽ tìm hiểu khái niệm Numpy là gì, kèm theo đó là hướng dẫn cài đặt và chạy chương trình Hello World bằng Numpy, một thư viện của Python.

Chắc chắn Numpy là thư viện mà bạn phải học khi muốn nghiên cứu về Data Science, vì vậy đừng bỏ lỡ những bài viết được chia sẻ tại Zaidap.com nhé.

1. Numpy là gì?

NumPy là một thư viện dành cho ngôn ngữ lập trình Python, hỗ trợ xử lý cho các mảng và ma trận lớn, nhiều chiều, cùng với rất nhiều các hàm toán học, đây là công cụ không thể thiếu cho một người bắt đầu với Data Science.

Lưu trữ và xử lý trên các mảng dữ liệu số là nền tảng cơ bản của Khoa học Dữ liệu (Data Science). Các nguồn dữ liệu có thể có rất nhiều định dạng khác nhau, như là một bộ ảnh, các file âm thanh, video,..... Dù định dạng không đồng nhất, chúng ta có thể hiểu cơ bản rằng, tất cả các dữ liệu đó đều có thể biểu diễn dưới các mảng, và các mảng đó đều chứa những con số.

Chẳng hạn, ta có thể hiểu các hình ảnh ở trên máy tính chính là các mảng 2 chiều, một hình ảnh với kích thước 64x64 có thể biểu diễn dưới mảng 2 chiều kích thước 64x64, với mỗi phần tử chính là 1 pixel tương ứng. Hay các file âm thanh có thể biểu diễn dưới mảng 1 chiều, mà mỗi phần tử đại diện cho tần số tương ứng trong khoảng thời gian nhất định.

Chẳng hạn như ảnh dưới:

numpy 1 png

Có thể được trích xuất thành mảng 2 chiều như sau:

numpy 2 png

Bất kể loại dữ liệu mà ta có là gì, thì bước đầu tiên trong việc xử lý chính là biểu diễn chúng dưới dạng các mảng số. Và NumPy chính là thư viện mạnh mẽ nhất để làm việc đó.

2. Numpy dùng để làm gì?

Python là một trong những ngôn ngữ được sử dụng nhiều nhất trong Data Science. Hệ sinh thái của Python dành cho Data Science gồm: NumPy, SciPy, Matplotlib, IPython, Sympy Pandas, thì NumPy (viết tắt cho Numerical Python) chính là phần lõi, sử dụng NumPy là bắt buộc nếu ta cần làm việc trên bất cứ mảng nào của Data Science.

Từ những thứ cơ bản trong việc xử lý và thao tác trên các mảng dữ liệu đơn giản, cho đến nâng cao như xử lý các mảng với số chiều lớn, tính toán (cộng, nhân, nghịch đảo, chuyển vị ma trận,... ) vốn rất khó để xử lý nếu ta dùng List đơn thuần trong Python (và tốc độ cũng kém hơn khá nhiều).

NumPy có thể được sử dụng để thực hiện các phép toán trên mảng như quy trình lượng giác, thống kê và đại số, nó chứa một số lượng lớn các hàm toán học, đại số và biến đổi. Bên cạnh đó, NumPy hỗ trợ rất nhiều hàm tạo số ngẫu nhiên (random number generators), và vì vốn được viết trên C, cũng như hỗ trợ rất nhiều hàm, NumPy rất nhanh (nhanh hơn nhiều so với List), cũng như cần ít code hơn để xử lý các mảng nhiều chiều. Ứng dụng của NumPy rất đa dạng, và hầu như ai muốn học về Data Science cũng cần phải học về NumPy.

3. Hướng dẫn cài đặt NumPy

Để cài đặt NumPy thì dĩ nhiên, ta cần có Python. Nếu như bạn chưa cài Python thì mình khuyến khích sử dụng Anaconda, nó bao gồm Python, NumPy và các thư viện phổ biến được sử dụng khác cho tính toán khoa học và xử lý dữ liệu.

Ngoài ra thì NumPy hoàn toàn có thể cài như một package Python bình thường, bạn có thể cài qua Pip bằng câu lệnh:

pip install numpy

Hoặc nếu sử dụng conda:

conda install numpy

Với người mới, mình khuyến khích các bạn làm theo các bước sau:

1. Cài đặt Anaconda (giúp cài đặt tất cả các gói bạn cần và tất cả các công cụ khác được đề cập ở dưới).

2. Để viết code, sử dụng notebooks trong JupyterLab.

3. Dùng Anaconda Navigator để quản lý các packages sẽ cài.

4. Viết ứng dụng Hello World với NumPy

Đầu tiên, ta có thể kiểm tra phiên bản của NumPy như dưới đây (trong thời điểm viết bài thì NumPy version là 1.19.2)

In [1]: 

import numpy as np np.__version__ 

Out[1]: '1.19.2'

Từ bài này trở về sau, và trong tất cả các chương liên quan đến Data Science, ta sẽ mặc định dùng np làm alias cho NumPy (đây cũng là alias phổ biến được dùng trong cộng đồng NumPy).

* Lưu ý: Nếu sử dụng Jupyter Notebook, thì bạn có thể đọc bài về IPython, đây là một công cụ hữu ích giúp ta tăng hiệu suất làm việc với NumPy.

Chẳng hạn, hiển thị tất cả các namespace bằng cách nhấn TAB:

numpy 3 gif

Hoặc hiển thị tài liệu có sẵn của NumPy bằng cách thêm “?”:

numpy 4 gif

5. Tổng kết

Qua bài này ta đã tìm hiểu được cơ bản về NumPy là gì, cũng như cách sửu dụng và cách cài đặt NumPy. Đây là một công cụ rất quan trọng nếu bạn đang muốn tìm hiểu về Data Science. Trong bài tiếp theo, ta sẽ cùng bắt đầu làm việc và thao tác với NumPy. Hẹn gặp các bạn ở bài tiếp theo nhé.

0