30/09/2018, 18:13
Hỏi về xử lý file .txt trên Python
chào cả nhà. mình có 1 file .txt chứa dữ liệu song ngữ anh việt theo đinh dạng:
chào bạn hello
can you understand? bạn có hiểu không?
…
Bây giờ, mình muốn viết 1 chương trình để xử lý file này, tức là tách nó thành 2 file riêng rẽ. File 1 chỉ là dữ liệu tiếng anh, file 2 là dữ liệu tiếng Việt tương ứng?
File 1:
hello
can you understand?
…
File 2.
chào bạn
bạn có hiểu không?
…
Mình đang tìm cách xử lý mà chưa ra hướng cụ thể, cả nhà cùng góp ý cho mình nhé. thanks!
Bài liên quan
Nội dung của bạn không có dấu hiệu ngăn cách tiếng Việt và tiếng Anh nên cũng hơi khó tách, lại trên cùng 1 dòng nữa.
chịu khó ngồi thêm vào ký hiệu ngăn cách giữa việt với anh rồi dùng regex để tách ra
mình nghĩ máy không thể nào hiểu được các chữ đó là tiếng anh hay tiếng Việt vì thậm chí còn cùng bảng chữ cái abc nữa. Nên theo mình thì chỉ có cách kết nối với một cái từ điển có sẵn, quét theo từng chữ (khoảng trắng) và check xem chữ đó có trong bảng từ tiếng anh không, nếu có thì vào file Eng, nếu ko thì file Việt.
Về giải thuật thì có thể quét nhanh hơn bằng cách xét “có dấu - không dấu”.