01/10/2018, 08:58

[Khai Thác Dữ Liệu] Tai sao dữ liệu thu thập được trong thực tế thường có chất lượng xấu

Mình có câu hỏi như tiêu đề ạ.
Dữ liệu có thể bị thiếu, bị nhiễu, mâu thuẫn…
Mình nghĩ có thể là do đối tượng cung cấp dữ liệu một cách chủ quan (VD sinh viên cung cấp data trong các ngày hội việc làm).

Minh Hoàng viết 11:12 ngày 01/10/2018

Do chủ quan hoặc khách quan. Do máy tính thu thập sai, các cảm biến sai hoặc do cố tình sai.

Đăng Trần viết 11:11 ngày 01/10/2018

Theo mình nghĩ thì khi khai thác dữ liệu, đối tượng mình thu thập có 2 xu hướng:

  1. Thổi phồng dữ liệu có lợi.
  2. Hạn chế kê khai những dữ liệu gây ảnh hưởng không tích cực về nhiều mặt.
    Cơ bản máy tính chỉ làm những gì con người ra lệnh nó mà thôi, không liên quan nhiều.
    Nhưng mình không hiểu lắm “chất lượng xấu” cụ thể là xấu về cái gì, sai sự thật hay thế nào.
Đẵng Nguyễn Quốc viết 10:58 ngày 01/10/2018

Đơn giản , Dữ liệu thường có chất lượng xấu là vì

  • Ở mỗi chi nhánh có cách nhập dữ liệu khác nhau.
  • Trình độ , tư duy của người nhập liệu khác nhau.
Đăng Trần viết 11:14 ngày 01/10/2018

Có thể do mô tả khó tiếp cận, không có ràng buột pháp lý…

Trần Huy viết 11:11 ngày 01/10/2018

Vâng!
Cảm ơn mọi người nhiều lắm

Bài liên quan
0