01/10/2018, 08:58
[Khai Thác Dữ Liệu] Tai sao dữ liệu thu thập được trong thực tế thường có chất lượng xấu
Mình có câu hỏi như tiêu đề ạ.
Dữ liệu có thể bị thiếu, bị nhiễu, mâu thuẫn…
Mình nghĩ có thể là do đối tượng cung cấp dữ liệu một cách chủ quan (VD sinh viên cung cấp data trong các ngày hội việc làm).
Bài liên quan
Do chủ quan hoặc khách quan. Do máy tính thu thập sai, các cảm biến sai hoặc do cố tình sai.
Theo mình nghĩ thì khi khai thác dữ liệu, đối tượng mình thu thập có 2 xu hướng:
Cơ bản máy tính chỉ làm những gì con người ra lệnh nó mà thôi, không liên quan nhiều.
Nhưng mình không hiểu lắm “chất lượng xấu” cụ thể là xấu về cái gì, sai sự thật hay thế nào.
Đơn giản , Dữ liệu thường có chất lượng xấu là vì
Có thể do mô tả khó tiếp cận, không có ràng buột pháp lý…
Vâng!
Cảm ơn mọi người nhiều lắm