lấy dữ liệu chuỗi kí tự từ hình ảnh có chứa kí tự như sách báo
Xin chào. Mình đang làm đồ án. Có ai biết api, module, sourcecode hay tài liệu nào lấy data string từ một hình ảnh có chứa kí tự như trang sách, báo. Hay tốt hơn là quét hồng ngoại một trang sách rồi lấy data string từ đó( hồng ngoại ko bị ảnh hưởng khi thiếu sáng nên tốt hơn). chức năng ấy ko ảnh hưởng bởi nhiều loại phông chữ. Mình thấy trên lumia có chức năng lấy chữ từ hình ảnh sách rồi lấy dữ liệu đó để dịch hoặc tìm kiếm nhưng ko biết lấy mã nguồm chức năng ấy từ đâu. cảm ơn
Ngày trước cũng từng thử và thanh công, làm chơi cho vui thôi mà mất gần 1 năm để tối ưu
Tìm hiểu “OCR Engine”, “Tesseract OCR”. bạn tự tìm hiểu nhé
Đấy là hướng đi, ứng dụng như từ điển labanDictionary của VNG cũng đang dùng thằng này.
Tks bạn. Mà cho mình hỏi luôn là ocr ngoài quét qua hình ảnh còn quét được qua hồng ngoại ko vậy ( hồng ngoại ko bị thiếu sáng nên tốt hơn )
Quét qua hình ảnh nha bạn
Nếu dùng hồng ngoại thì chắc phải hun nóng chữ lên mất
Có 2 bản cho bạn dùng, free và open source thì dùng Tesseract OCR
link : https://code.google.com/p/tesseract-ocr/
Còn trả phí thì dùng ABBYY (thằng này của Nga thì phải)
http://www.abbyy.com/
à do hôm bữa đọc báo thấy cái chụp hình hồng ngoại gì đó của lumia chụp vẫn nét trong điều kiện thiếu sáng, giờ search lại đó là công nghệ mới nên khỏi tham nữa, dùng tạm chụp bình thường vậy
hic cái tesseract như hạch vậy, cái hình sáng bóng rõ ràng mà sai tùm lum. Tiếng việt thì ra cái gì đâu