01/10/2018, 01:14

Cách để phát hiện file trùng nội dung (duplicated files)?

Đang tìm một ‘strategy’ thích hợp để lùng ra các files có cùng nội dung (duplicate) trong một thư mục (directory), bao gồm cả các thư mục con (recursive).

Hiện tại (*) tôi dùng cách ‘thủ công’ là đặt cho mỗi file một dãy mã hash (128-bit) tương ứng với nội dung (bytes sequence (stream)) của file khi open nó. Sau đó so sánh các hash này để phát hiện các files có nội dung như nhau.

(*) FiFo: https://www.microsoft.com/en-us/store/p/fifo-files-folders-utilities-free/9n2mb2n6l4t5

Một số nhược điểm mà tôi đang gặp:

nếu số lượng file, và size nhiều thì sẽ càng tiêu tốn tài nguyên (time, CPU, performance).
có cách nào khác (thay vì hash) để tìm một mã/giá trị duy nhất cho một file với một nội dung cho sẵn?
hiện tại, tôi đang nghĩ đến việc gạn lọc (filter) đầu vào trước, ví dụ nếu 2 files có size khác nhau thì dĩ nhiên là không phải là duplicate rồi. Còn có giải pháp nào khác nữa không?

Thanks

rogp10 viết 03:19 ngày 01/10/2018

Sử dụng CRC64 để pre-hash rồi mới chạy sha256.

cdxf viết 03:23 ngày 01/10/2018

Tạo 1 array chứa Object({path,size})
Sort cái array đó theo size.
Duyệt qua cái array đó chỗ nào cùng size thì so sánh.
So sánh thì cứ

Lúc so sánh thì: Chỉ hash 1 phần nhỏ với file có nội dung lớn

Sau đó nếu hash giống nhau thì hẳn so sánh byte-to-byte

Lộc Nguyễn viết 03:31 ngày 01/10/2018

Thanks bro!
Có thể thêm một ít:

tạo 1 dictionary (path, size)
sort dựa trên size, chỉ dữ lại những file có size bằng nhau
kiểm tra file type extension (có lẽ optional tùy vào người dùng)
hash 1 phần nhỏ (ví dụ 100 bytes) so sánh trước để loại bỏ những file khác nhau
nếu giống hash thêm, ví dụ 200 bytes nữa (không biết có nên không?)
…
bước cuối cùng là hash toàn bộ file

Bình luận về bài viết này

Chia sẻ tin đăng đến bạn bè

Gửi Messenger

Bài liên quan

Lộc Nguyễn

0 chủ đề

0 bài viết

Tác giả nổi bật

Từ khóa nổi bật

AngularJS Blog Bootstrap C / C++ Cấu trúc dữ liệu & Giải thuật Cơ sở dữ liệu Codeigniter Công cụ lập trình CSS CSS cơ bản CSS3 Học Excel HTML HTML cơ bản HTML5 Java Javascript jQuery Json Lập trình mobile Laravel Linux MongoDB MySQL NodeJS Oracle Pascal PHP PHP cơ bản PHP nâng cao Python React Native ReactJS Ruby SEO SQL Server Swift Visual Basic VueJS WordPress XML

Chủ đề nổi bật

0

Các chủ đề đang được quan tâm

phần mềm lập trình php | lập trình web php + mysql | khóa học lập trình php | tự học lập trình php | học php cơ bản thachpham | Nhà cung cấp thùng rác 120L 240L 660L giá rẻ nhất- thùng rác siêu bền- lh 0911082000 | Farm or Flip? The Two Roads to Riches in POE 3.29 Curse of the Allflame | U4GM Monopoly Go Juggle Jam: Is It Worth Playing | Code24h | Cho thuê phòng trọ hà nội | Cho thuê phòng trọ bình thạnh | Cho thuê phòng trọ | Cho thuê nhà trọ

Đăng ký

Đăng ký nhận thông báo

Các bài học thú vị sẽ được gửi đến inbox của bạn

HỖ TRỢ HỌC VIÊN

Các câu hỏi thường gặp
Điều khoản sử dụng
Chính sách và quy định
Chính sách bảo mật thanh toán
Hỗ trợ học viên: hotro@code24h.com
Báo lỗi bảo mật: security@code24h.com

VỀ CODE24H

HỢP TÁC VÀ LIÊN KẾT

KẾT NỐI VỚI CHÚNG TÔI

TẢI ỨNG DỤNG TRÊN ĐIỆN THOẠI