12/08/2018, 17:01

Giải thích Machine Learning với các bạn "mù" công nghệ thế nào?!!

Đi chợ mua cam Giả sử một hôm bạn phải đi mua cam ngoài chợ. Người bán hàng bày la liệt các giỏ cam, bạn có thể chọn bất cứ quả cam nào theo sở thích. Người bán hàng sẽ cân số cam và bạn sẽ trả tiền theo mỗi cân cam đó. Rõ ràng, bạn muốn chọn những quả cam ngọt nhất (bởi vì bạn trả tiền theo ...

Đi chợ mua cam

Giả sử một hôm bạn phải đi mua cam ngoài chợ. Người bán hàng bày la liệt các giỏ cam, bạn có thể chọn bất cứ quả cam nào theo sở thích. Người bán hàng sẽ cân số cam và bạn sẽ trả tiền theo mỗi cân cam đó. Rỏ cam vàng

Rõ ràng, bạn muốn chọn những quả cam ngọt nhất (bởi vì bạn trả tiền theo khối lượng chứ không phải chất lượng). Bạn sẽ chọn cam như thế nào?

Bạn nhớ về những lời bà mình dạy: những quả cảm vàng tươi thì ngọt hơn những quả nhạt màu. Bạn ghi nhớ điều này và chỉ chọn những quả cảm vàng tươi nhất. Bạn kiểm tra màu sắc quả cam, chọn những quả cam ưng ý, trả tiền và quay về nhà với tâm trạng hứng khởi. Hạnh phúc viên mãn?

Chưa đâu.

Cuộc sống phức tạp hơn nhiều

Giả sử bạn về nhà, ăn thử cam mình đã mua. Một vài trong số chúng không ngọt như bạn nghĩ. Rõ ràng, lời khuyên từ bà vẫn chưa đủ. Dường như còn nhiều yếu tố ảnh hưởng khác nữa, hơn là chỉ màu sắc.

Sau khi cân nhắc thật kĩ (và thử rất nhiều quả cam khác nhau), bạn kết luận là trong những quả cam vàng tươi, những quả to thì luôn ngọt, nhưng chỉ nửa số cam bé ngọt (nghĩa là nếu bạn mua 100 quả vàng tươi, trong đó 50 quả to, 50 quả bé, thì toàn bộ 50 quả to đều ngọt, trong khi chỉ có 25 trong tổng số 50 quả bé ngọt mà thôi)

Bạn hạnh phúc với phát kiến mới, và bạn dùng chúng để chọn cam lần tới. Nhưng cô bán cam bạn hay mua đã rời khỏi thị trấn. Bạn quyết định mua từ một cô bán hàng khác, người nhập cam từ huyện khác của thành phố. Rồi bạn chợt nhận ra ràng, những quy luật mà bạn đã học (rằng những quả cảm to, vằng tươi luôn ngọt nhất) đã không thể áp dụng được nữa. Bạn phải học lại từ đầu. Bạn thử cam từ mỗi loại của người bán hàng này, và thấy những quả nhỏ, nhạt màu mới thực sự là những quả ngọt nhất.

Một người cháu từ quê lên chơi. Bạn muốn bổ cam cho cháu ăn, nhưng cậu bé nói rằng độ ngọt không quan trọng, cậu bé muốn ăn những quả cam mọng nước. Và thêm lần nữa, bạn thực hiện các thử nghiệm, ăn thử tất cả các loại cam, và phát hiện ra quả mềm hơn là những quả nhiều nước hơn.

Rồi bạn chuyển nhà sang tỉnh khác do công việc. Những quả cam ở đây thật khác biệt khi ở nhà cũ. Những quả cam xanh lại ngọt hơn cam vàng. Rổ cam xanh

Bạn cưới vợ, và vợ bạn ghét ăn cam. Cô ấy thích ăn táo cơ. Bạn đi chợ mua táo, và giờ, tất cả những kiến thức về cam của bạn trở nên vô dụng. Bạn phải học lại về mỗi liên hệ giữa tính chất vật lý và màu sắc táo, bằng một phương pháp thử nghiệm tương tự. Bạn làm điều đó, bởi vì bạn yêu cô ấy.

Thế giới máy tính

Cuối cùng, với quá nhiều luật lệ, bạn quyết định viết một chương trình máy tính giúp bạn chọn cam (hoặc táo). Bạn liệt kê các luật như:

Nếu (màu vàng tươi và to và bán từ cô bán hàng quen thuộc): quả cam sẽ ngọt

Nếu (mềm): cam mọng nước

......

Bạn muốn sử dụng những luật lệ này để chọn cam. Bạn thậm chí còn có thể gửi những luật này tới em trai bạn để em bạn có thể chọn ra những quả cam ngon nhất.

Nhưng mỗi lần bạn thấy một hiện tượng mới từ những thử nghiệm, bạn phải tự mình thay đổi luật lệ trong chương trình đó. Bạn phải hiểu được sự phức tạp từng chi tiết của tất cả các yếu tố ảnh hưởng đến chất lượng của cam. Nếu vấn đề đủ phức tạp, sẽ rất khó để bạn tạo tự tay ra luật chính xác bao hàm tất cả các trường hợp có thể. Nếu làm được điều đó, bạn thậm chí có thể kiếm được bằng PhD trong ngành nghiên cứu cam (nếu tồn tại).

Nhưng không phải ai cũng có đủ thời gian như vậy.

Thế giới thuật toán Machine Learning (Học Máy)

Thuật toán học máy được phát triển từ các thuật toán thông thường. Chúng tạo ra những chương trình thông minh hơn, bằng cách tự động học từ dữ liệu bạn cung cấp.

Bạn lấy ngẫu nhiều cam với nhiều loại khác nhau (training data - dữ liệu đào tạo) từ chợ, tạo một bảng tất cả các đặc trưng của cam như màu sắc, kích cỡ, hình dáng, nguồn gốc... (features - đặc trưng), cùng với độ ngọt, mọng nước, chín... (output variables - kết quả thử nghiệm) của từng quả cảm . Bạn đưa những dữ liệu này vào thuật toán học máy (classification - phân nhóm, regression - hồi quy ...), và nó học tính tương quan giữa các đặc tính vật lý và chất lượng của cam.

Lần tiếp theo bạn ra chợ, bạn đo lường các đặc tính của cam được bán (test data - dữ liệu kiểm thử), rồi chuyển nó vào thuật toán học máy. Mô hình bạn tạo ra sẽ dự đoán quả cam ngọt, mọng nước và/hoặc đã chín hay còn xanh. Thuật toán sử dụng có thể tương tự như luật bạn viết bằng tay bên trên (decision tree - cây quyết định), hoặc các thuật toán liên quan khác, nhưng bạn không cần quá quan tâm đến điều đó.

Bạn có thể mua cam với sự tự tin, mà không cần lo lắng về cách chọn cam tốt nhất. Hơn nữa, bạn có thể khiến thuật toán tự cải thiện theo thời gian (reinforcement learning - học củng cố), để nó có thể cải thiện độ chính xác trong khi đang học từ dữ liệu đào tạo, tự thay đổi khi tạo ra những dự đoán sai. Và điều thích thú nhất là, bạn có thể sử dụng thuật toán tương tự để đào tạo nhiều mô hình khác nhau, mỗi mô hình sẽ dự đoán chất lượng của táo, cam, chuối, dâu, dưa hấu... để chọn ra những loại quả tốt nhất, làm vui lòng tất cả những người bạn yêu thương.

Và đó, chính là Machine Learning trong cuộc sống. Quá tuyệt vời phải không nào             </div>
            
            <div class=

0