Tutorial: Hướng dẫn loại bỏ siêu dữ liệu trong file PDF
Đã bao giờ bạn tự hỏi có bao nhiêu siêu dữ liệu (thẻ metadata) bao gồm trong các tệp PDF mà bạn gửi email hoặc chia sẻ với người khác. Vâng, SecurityBox chắc chắn rằng rất ít người thắc mắc về điều này. Làm thế nào để làm sạch siêu dữ liệu – metadata từ các tệp PDF của bạn trước khi gửi chúng tới ...
Đã bao giờ bạn tự hỏi có bao nhiêu siêu dữ liệu (thẻ metadata) bao gồm trong các tệp PDF mà bạn gửi email hoặc chia sẻ với người khác. Vâng, SecurityBox chắc chắn rằng rất ít người thắc mắc về điều này. Làm thế nào để làm sạch siêu dữ liệu – metadata từ các tệp PDF của bạn trước khi gửi chúng tới người khác và làm thế nào để bảo vệ toàn bộ file pdf của bạn. Bài viết này sẽ chia sẻ bạn cách bảo mật các file pdf và làm sạch siêu dữ liệu từ file pdf.
LƯU Ý: Nếu bạn đang sử dụng giải pháp copy, paste thì hãy bỏ qua phần dưới cùng của bài viết này nhé !
1. Điều kiện tiên quyết trước khi tiến hành
Giả sử bạn đang sử dụng Ubuntu hoặc một hệ điều hành Debian OS thì hãy chắc chắn rằng bạn đã cài đặt các công cụ sau:
apt install exiftool
apt install qpdf
apt install pdftk
2.Làm sạch siêu dữ liệu từ tệp PDF
$ exiftool -all My_Secrect_Document.pdf
Bắt đầu chạy lệnh ngay trên áp cho một tài liệu PDF để kiểm tra xem siêu dữ liệu nào thực sự có trong tệp PDF. Bạn có thể chạy lệnh này an toàn trên bất kỳ tệp PDF nào.
Tiếp theo, sử dụng một ví dụ PDF và những lệnh đầu ra dưới đây. Bạn sẽ nhìn thấy siêu dữ liệu gần đây nhất liên quan tới file pdf
Lúc này , bạn sẽ nhận thấy các siêu dữ liệu trong tập tin PDF chứa những thông tin gồm:
- Dấu thời gian để tạo và thay đổi tệp tin
- Ngôn ngữ sử dụng
- múi giờ máy tính được thiết lập
- Ứng dụng đã được sử dụng để tạo ra tệp và số phiên bản. Như trong trường hợp này của mình là Microsoft Word
- Tên đã được sử dụng để đăng ký tài khoản Microsoft Word
Mặc dù mình không chắc rằng thông tin này có thể dẫn tới những điều nguy hiểm nào như máy tính của mình hay không, nhưng nó sẽ giúp bạn có được 1 lượng lớn các thông tin về file pdf tôi đã tạo ra. Mặt khác, bằng cách làm như trên, kẻ tấn công có thể khai thác các ứng dụng Word mà mình đã sử dụng , từ đó mà tin tặc sẽ tiết kiệm thời gian hơn và tập trung khai thác tấn công vào cái mà bạn đang sử dụng.
3. qpdf và exiftool – công cụ làm giảm siêu dữ liệu web
Hai công cụ bạn có thể giảm bớt các siêu dữ liệu web là qpdf và exiftool
– Qpdf cho phép bạn linearize một tập tin PDF, trong số các chức năng thao tác PDF khác. Theo truyền thống Qpdf sẽ tạo các tệp PDF được tối ưu hóa trên web để tải xuống và xem nhanh hơn.
– Exifool cho phép bạn xem và cập nhật siêu dữ liệu cho các tập tin. Exiftool không chỉ giới hạn trong các tệp PDF
LƯU Ý: các công cụ này loại bỏ siêu dữ liệu thông thường khỏi một tệp PDF, một số siêu dữ liệu vẫn có thể tồn tại trong tệp bao gồm siêu dữ liệu phông chữ và siêu dữ liệu đối tượng.
OK. Đầu tiên, chúng ta sẽ bắt đầu với qpdf để linearize PDF và dải metadata
qpdf My_Secrect_Document.pdf My_Secrect_Document_CLEAN.pdf
Khi chúng ta xem các siêu dữ liệu của tập tin bạn sẽ nhận thấy rất nhiều, so với đầu ra ở trên, cái mà đã được loại bỏ đi.
Khi bạn đã sử dụng qpdf, bạn có thể chạy tệp exiftool trên tệp. Trong lệnh dưới đây SecurityBox sẽ nói với exiftool để loại bỏ tất cả các trường siêu dữ liệu mà nó có thể và thay thế bằng null. Thao tác này sẽ loại bỏ trường siêu dữ liệu khỏi bị truy vấn.
exiftool -all:all= My_Secrect_Document_CLEAN.pdf
Khi chạy exiftool,bạn chỉ cần truy vấn các siêu dữ liệu trong tập tin, và đây là kết quả:
Bạn sẽ nhận thấy rất ít ở đầu ra đã thực sự thay đổi, đặc biệt hơn là vì không có siêu dữ liệu XMP trong tài liệu PDF mình đã sử dụng cho ví dụ này. Mình khuyên bạn sử dụng cả hai qpdf và exiftool cùng nhau là exiftool cũng loại bỏ tất cả siêu dữ liệu XMP, trong khi qpdf tối ưu hóa tệp trong khi cũng loại bỏ bất kỳ đối tượng mồ côi nào, giống như những cái mà chúng tôi đã thiết lập để null.
Chú ý: Phần hướng dẫn bảo mật file PDF mình sẽ up sau nhé. Các bạn nhớ chia sẻ và follow nhé!