Big Data và nghề Data Scientist dưới góc nhìn của “Tiến sĩ Cambridge” Đặng Hoàng Vũ
“Big Data là dữ liệu lớn, thay đổi nhanh và phức tạp. Big Data thực ra không có định nghĩa duy nhất. Ví dụ như IBM định nghĩa Big Data là 4V: Volume, Velocity, Variety, Veracity…” Big Data không còn là công nghệ mới nổi mà đã trở thành xu hướng công nghệ chung của thế ...
“Big Data là dữ liệu lớn, thay đổi nhanh và phức tạp. Big Data thực ra không có định nghĩa duy nhất. Ví dụ như IBM định nghĩa Big Data là 4V: Volume, Velocity, Variety, Veracity…”
Big Data không còn là công nghệ mới nổi mà đã trở thành xu hướng công nghệ chung của thế giới. Nghề Data Scientist cũng là nghề “đắt giá” và hứa hẹn tiếp tục được săn đón gắt gao.
Đọc bài phỏng vấn của ITviec với anh Đặng Hoàng Vũ – Chief Scientist của tập đoàn FPT để biết được:
- Big Data là gì? Có ý nghĩa ra sao?
- Những lầm tưởng về nghề Data Scientist và thử thách trong nghề
- Tiêu chí tuyển dụng Data Scientist từ chính người trong cuộc
- Tài liệu hữu ích để học Big Data
Xem thêm việc làm Big Data trên website ITviec
Tiểu sử: Sau khi tốt nghiệp với bằng Tiến sĩ khoa Toán học, trường Đại học Cambridge, anh Vũ về làm Software Engineer cho tập đoàn HP (Hewlett-Packard) tại Anh. Đến năm 2014, anh quay về Việt Nam và đầu quân cho FPT với vai trò Data Scientist. Hiện tại anh là Chief Scientist ở Ban công nghệ tập đoàn FPT.
Chào anh Vũ. Em thắc mắc là vì sao anh lại quyết định về Việt Nam và chuyển hướng sang Data Scientist?
Lúc đấy anh chỉ nghĩ rằng anh ở châu Âu quá lâu rồi nên muốn về nhà cho vui thôi.
Còn chuyển hướng sang Data Scientist thì trước kia lúc còn ở HP, anh đã làm về Machine Learning, xử lý ảnh rồi nên về Việt Nam, làm các dự án Data Science cũng phù hợp.
Anh đã từng làm về Big Data cho những tập đoàn lớn như HP và FPT. Vậy theo cá nhân anh định nghĩa, Big Data là gì?
Big Data thực ra không có định nghĩa duy nhất. Ví dụ như IBM định nghĩa Big Data là 4V, bao gồm:
- Volume: Khối lượng dữ liệu
- Velocity: Tốc độ của dữ liệu
- Variety: Sự đa dạng của dữ liệu
- Veracity: Tính xác thực của dữ liệu
Nói chung, Big Data là dữ liệu lớn, thay đổi nhanh và phức tạp.
Các công ty làm Big Data thực ra cũng không quan tâm lắm đến định nghĩa chính xác, họ chỉ quan tâm đến kết quả cuối cùng mà quá trình khai thác dữ liệu mang lại.
Big Data khác gì với Data truyền thống vậy anh?
Chúng chỉ khác nhau ở quy mô và tốc độ thôi.
Thực ra thuật ngữ Big Data cũng mang tính thời trang nữa. Nghĩa là thỉnh thoảng người ta vẫn áp tên gọi Big Data cho những dữ liệu ở quy mô bình thường, chứ không phải lúc nào cũng là dữ liệu quy mô lớn.
Theo anh thì Big Data có thực sự cần thiết?
Khái niệm Big Data không phải trắng đen rõ ràng, người ta áp dụng nó nhiều khi cũng tùy hoàn cảnh. Không chỉ là thực sự cần thiết mà hiện nay Big Data là “xương sống” của hầu hết các công nghệ rồi.
Ví dụ: mỗi một sản phẩm có mặt trên các website thương mại điện tử như Tiki, Lazada, Sendo… đều là Big Data.
Các công ty truyền thống cũng dùng Big Data để tối ưu hóa hoạt động kinh doanh, chăm sóc khách hàng, phục vụ cho công tác marketing…
Công việc hàng ngày của một Data Scientist là gì?
Công việc của Data Scientist được chia thành các bước chính:
– Phân tích bài toán cần giải, mục tiêu dự án, tiêu chí thành công…
– Thu thập và xử lý dữ liệu
– Xây dựng các mô hình, thuật toán để đưa ra kết quả
– Test, đánh giá kết quả
– Đưa vào triển khai
Ở bước triển khai, công ty anh sẽ dùng các kết quả, dự đoán, đề xuất… được rút ra từ dữ liệu để đưa vào các hoạt động kinh doanh, marketing mà anh đã nhắc ở trên.
Những khó khăn và thử thách khi làm việc với Big Data mà anh cảm nhận được?
Khó khăn thì có 3 loại: (1) là đối tác không cho dữ liệu, (2) là code sai nên phải code đi code lại nhiều lần và (3) là code không ra kết quả như ý.
Anh nghĩ thu thập và xử lý dữ liệu là phần việc mất nhiều thời gian và công sức nhất. Em phải làm việc với nhiều bộ phận khác nhau, các nguồn dữ liệu nhiều khi cũng không nhất quán và chất lượng dữ liệu thường là không tốt.
Còn phần mọi người hay mắc sai lầm nhất chính là đánh giá và triển khai kết quả. Nhiều khi dân kỹ thuật thường đặt ra các tiêu chí theo lý thuyết hoặc theo các case study có sẵn nhưng nó lại không phù hợp với quy trình kinh doanh thực tế.
Ở một góc nhìn khác, blogger Ông Xuân Hồng cho hay: “Một trong những sai lầm của người làm Data Scientist là chưa có mindset đúng.”
Anh đã làm gì để vượt qua những thử thách này?
Cái này thì dự án nào cũng gặp hết, không phải thử thách theo kiểu vượt qua 1 lần là được (cười). Khi có nhiều kinh nghiệm thì sẽ quen thôi.
Tất nhiên là mỗi dự án cụ thể đều có cách giải quyết nhưng mà không có công thức chung. Em phải dựa vào kinh nghiệm và thí nghiệm để giải quyết.
Làm sao để một người có thể trở thành Data Scientist vậy anh?
Điều đầu tiên là phải biết lập trình (cười). Bạn không cần phải chạy theo các ngôn ngữ hoặc công cụ mới nhất nhưng phải có tư duy rõ ràng, mạch lạc.
Có rất nhiều thứ để học:
- Ngôn ngữ lập trình Python. Ngoài Python thì có SQL, Spark, R hoặc các công cụ cấp cao hơn như là H2O, tableau
- Các công cụ của Data Scientist: Numpy, Pandas, Matplotlib, Scikit-learn
- Các công cụ Machine Learning: Tensorflow, Keras, Pytorch
- Thống kê cơ bản
Bạn phải có hiểu biết nhất định về Big Data, về các framework như Hadoop hay Scala, sau nữa phải biết cách làm việc với Data Engineer.
Tóm lại, không cần biết tất cả nhưng tối thiểu phải biết về SQL, Numpy, Scikit-learn và 1 công cụ Machine Learning. Tất nhiên khi bắt đầu có thể hơi khó khăn nhưng vừa làm vừa học cũng được.
Có nhiều người vẫn chưa thực sự phân biệt được Data Engineer và Data Scientist. Anh có thể định nghĩa chúng một cách ngắn gọn?
Data Engineer là người xử lý, chuẩn bị dữ liệu cho Data Scientist thực hiện quá trình phân tích. Khi làm việc cùng nhau, người này sẽ giúp một phần việc của người kia nhưng trách nhiệm cơ bản là như thế.
Cơ hội nghề nghiệp cho những người muốn làm việc với Big Data nói riêng và những người muốn trở thành Data Scientist nói chung?
Anh nghĩ cơ hội nghề nghiệp nói là tốt. So với nghề Developer nói chung thì tất nhiên là số việc làm ít hơn nhiều nhưng mà mức thu nhập khá ổn. Công việc cũng mang lại cái nhìn toàn diện hơn về hoạt động của sản phẩm.
Có điều gì mà nhiều người lầm tưởng về nghề Data Scientist không anh?
Có một số người tưởng Data Scientist là nhà khoa học hoặc làm Data Scientist cần nhiều toán nhưng mà không phải. Nếu bạn giỏi toán thì tốt nhưng code vẫn quan trọng hơn.
Data Scientist là người giải quyết các vấn đề cho doanh nghiệp bằng cách phân tích dữ liệu chứ không phải là nhà khoa học nghiên cứu cái mới.
Anh lựa chọn Data Scientist dựa trên những tiêu chí nào?
Đầu tiên là đầu óc phải sáng sủa. Đặc biệt là không được cố chấp vì sai là chuyện bình thường.
Bạn đó phải có khả năng code rõ ràng, mạch lạc và biết cơ bản về Python. Nếu biết về Machine Learning, Database hoặc toán thống kê là một lợi thế lớn.
Ngoài ra, còn phải có khả năng giao tiếp, biết diễn đạt và lắng nghe người khác. Nên nhớ đây ko phải vị trí làm việc một mình (cười).
Điều gì mà anh nghĩ một người cần biết trước khi quyết định có trở thành Data Scientist hay không?
Anh nghĩ nghề Data Scientist cũng không có gì mạo hiểm, chỉ cần trình độ tư duy khá và có tinh thần học hỏi là làm được.
Những nguồn học Big Data hiệu quả
- Designing Data-Intensive Applications: Cuốn sách được viết năm 2017 bởi Martin Kleppmann, vẽ nên bức tranh toàn cảnh về Big Data và tập trung vào các khía cạnh của hệ thống cơ sở dữ liệu phân tán.
- Big Data: Principles and best practices of scalable realtime data systems: Giới thiệu về hệ thống Big Data và các công cụ như Hadoop, Cassandra và Storm
- Hadoop: The Definitive Guide: được viết bởi Tom White – một trong những thành viên của tổ chức phần mềm Apache uy tín. Cuốn sách là toàn bộ những điều cần biết + ví dụ cụ thể khi làm việc với Hadoop.
- High Performance Spark: Cuốn sách cần thiết cho những ai muốn học về Apache Spark với rất nhiều minh họa thực tế.
Ngoài ra, các khóa học Big Data online trên Coursera cũng đáng để cân nhắc.
Bạn có nghĩ những kiến thức về Big Data này thực sự mang lại ý nghĩa? Hoặc bạn muốn chia sẻ kinh nghiệm về nghề Data Scientist? Hãy chia sẻ ý kiến ở phần bình luận bên dưới nhé.
Và đừng quên tham khảo việc làm Big Data tại ITviec!