Breaking a Captcha by Machine Learning
Một ngày đẹp trời, TienNA @vigov5 gửi vào box một đường link & kêu gọi anh em "Hãy vote cho Framgia" https://chuyencuadev.com/framgia/reviews# Đây là một trang đánh giá các công ty theo các tiêu chí "Lương thưởng & phúc lợi", "Đào tạo & học hỏi", "Quan tâm đến nhân viên", "Văn hoá ...
Một ngày đẹp trời, TienNA @vigov5 gửi vào box một đường link & kêu gọi anh em "Hãy vote cho Framgia" https://chuyencuadev.com/framgia/reviews#
Đây là một trang đánh giá các công ty theo các tiêu chí "Lương thưởng & phúc lợi", "Đào tạo & học hỏi", "Quan tâm đến nhân viên", "Văn hoá công ty", "Văn phòng làm việc" với thang điểm từ 1-5.
Vào làm thử một review và thấy vài điều đáng chú ý:
- Không cần đăng nhập hay yêu cầu xác thực gì cả
- Chỉ cần nhập captcha là có thể post được
Một gợi ý rất rõ ràng cho việc break captcha và gửi review. Mình sẽ áp dụng thử bằng Machine Learning cho Framgia.
Các bước xây dựng hệ thống:
- Chuẩn bị dữ liệu ảnh captcha
- Xử lý nhiễu
- Cắt ảnh captcha
- Gắn nhãn cho từng ký tự được cắt
- Xây dựng model Softmax với Tensorflow
- Predict captcha và post review
Môi trường sử dụng: Python3.6, Tensorflow with GPU Disclaimer: Bài viết chỉ mang tính chất học hỏi, không nhằm mục đích khuyến khích nâng bi hay dìm hàng bất cứ công ty nào.
Update 2017/09/12: Mình có update thêm code sử dụng SVM, có độ chính xác cho predict tốt hơn, nếu bạn có hứng thú thì check thử trên repo của mình tại đây. nhé