12/08/2018, 15:46

Từ hàng tỉ phép so sánh đến 10 giây

Mình mới làm một dự án nho nhỏ về xử lý dữ liệu cho khách hàng X. Dữ liệu không lớn lắm, chỉ vài trăm MB nhưng cũng có khá nhiều điều để nói. Mình viết bài này để chia sẻ lại với anh em cách mà mình đã làm nhé. Trong DB (MY_DOMAIN) mình có khoảng 500K domains có dạng /^[w]+(.com)?.vn$/ Hàng ...

Mình mới làm một dự án nho nhỏ về xử lý dữ liệu cho khách hàng X. Dữ liệu không lớn lắm, chỉ vài trăm MB nhưng cũng có khá nhiều điều để nói.

Mình viết bài này để chia sẻ lại với anh em cách mà mình đã làm nhé.

  • Trong DB (MY_DOMAIN) mình có khoảng 500K domains có dạng /^[w]+(.com)?.vn$/
  • Hàng ngày mình phải tải dữ liệu từ trên một số trang web nước ngoài về, Khoảng (~4 triệu domains) được lưu trong các files (~20 files khác nhau). Các domains này có dạng bất kỳ, đúng chuẩn tên miền.             </div>
            
            <div class=
0