21/11/2018, 23:45

5 bài học về Machine learning: những sai lầm dễ mắc phải nhất

Machine learning là một trong những công nghệ hot được rất nhiều tổ chức và công ty háo hức sử dụng vào trong sản phẩm của mình. Nếu thực hiện đúng, machine learning có thể giúp bạn tạo ra các chiến dịch bán hàng và tiếp thị hiệu quả hơn, cải thiện các mô hình tài chính, dễ dàng phát ...

Machine learning là một trong những công nghệ hot được rất nhiều tổ chức và công ty háo hức sử dụng vào trong sản phẩm của mình. Nếu thực hiện đúng, machine learning có thể giúp bạn tạo ra các chiến dịch bán hàng và tiếp thị hiệu quả hơn, cải thiện các mô hình tài chính, dễ dàng phát hiện gian lận và bảo trì thiết bị theo đúng kế hoạch.

Nhưng machine learning cũng có thể mắc những sai lầm khủng khiếp, làm cho bạn hối tiếc vì đã vội vàng áp dụng nó. Dưới đây là năm cách machine learning có thể đi sai, dựa trên kinh nghiệm thực tế của các công ty đã áp dụng nó.

Bài học 1: Giả định không chính xác khiến machine learning đưa ra kết luận sai

Projector PSA, một công ty của Mỹ chuyên về thiết kế và xây dựng automation software nhằm giúp các công ty điều hành doanh nghiệp của họ, đã đúc kết bài học xương máu này sau khi cố gắng sử dụng machine learning để dự báo sự khác biệt trong kế hoạch nhân sự.

Bởi vì các công ty luôn chú trọng vào nguồn nhân lực chuyên nghiệp, được đào tạo tốt và sử dụng hiệu quả, do đó các công ty thường thuê project manager để đánh giá và dự báo nhu cầu nhân sự cho dự án của họ.

Sau đó, tùy vào thời gian dành cho từng dự án riêng lẻ mà các project manager tham gia, công ty sẽ lập hóa đơn tính phí dịch vụ cho khách hàng. Nếu tổ chức quản lý cả hai hoạt động trong cùng một hệ thống như một công cụ tự động hoá dịch vụ chuyên nghiệp sẽ mang lại rất nhiều hiệu quả và lợi ích.

Do đó, Projector PSA đã bắt đầu một nghiên cứu với một trong những khách hàng của mình cùng hàng trăm project manager. Nó xây dựng các mô hình so sánh sự khác biệt giữa số giờ thực tế trung bình đã làm việc so với giờ được dự báo. Nó cũng nghiên cứu trong quá trình nhiều tháng tính nhất quán của các dự đoán của project manager.

Thuật toán machine learning sau đó sẽ phân loại các project manager dựa trên những gì nó đã học được. Tuy vậy, kết quả cho ra lại khá thất vọng khi nó cho rằng một trong số những project manager giỏi nhất lại là rất tệ chỉ vì họ có tỉ lệ thành công quá cao so hơn mức bình thường mà theo nó là một “lỗi sai phạm”.

Tương tự như vậy, thuật toán đầu đã đánh giá cao một project manager bởi vì cô ấy đạt được chuẩn mà nó dựa vào. Nhưng hóa ra là cô ấy đã gửi giờ dự báo cho nhóm của mình với một kỳ vọng rằng họ sẽ báo cáo những giờ thay vì khoảng thời gian mà họ đã thực sự làm việc. Điều này dẫn đến một tình huống mà cô ta sẽ không bao giờ bị vượt quá hoặc dưới ngân sách do nhóm luôn làm đúng giờ và theo đúng kế hoạch.

“Những sai lầm này không phải do thuật toán learning machine gây ra, mà là do các giả định của chúng tôi khi đào tạo chúng”, COO Steve Chong nói.

Bài học 2: machine learning có thể đưa ra những sai lệch không mong muốn nếu không được giám sát

Mặc dù nhiều task có thể được thực hiện bằng machine learning, có một số trường hợp nhất định ngoài ý muốn mà không được tính vào khiến làm cho sai lệch kết quả của machine learning. Đó là những gì đã xảy ra với Mejor Trato, một công ty dịch vụ tài chính ở Brazil đang sử dụng machine learning như là một phần của việc chuyển đổi kỹ thuật số cho bộ phận nhân sự của hãng.

Dự án liên quan đến việc các nhân viên mới tiềm năng trả lời một loạt các câu hỏi thông qua live chat và các cuộc gọi với machine learning chatbot mà công ty đã phát triển.

Đã xảy ra hai sai lầm quan trọng trong quá trình này. Một là các ứng cử viên đã được yêu cầu hoàn thành các form sai cho hồ sơ / nghề nghiệp của họ. Mặt khác là ngày và giờ cho các cuộc phỏng vấn lại chồng chéo với các buổi họp nhân sự, có nghĩa là HR sẽ không thể theo dõi các chatbots khi cần thiết.

Trong vài tuần đầu tiên, điều quan trọng là một số người trong nhóm nhân sự sẽ theo dõi từng cuộc trò chuyện để sửa chương trình khi cần thiết, CTO Cristian Rennella nói. “Chúng tôi đã nhầm lẫn khi nghĩ rằng mọi thứ đã được giải quyết và cứ để chatbot tự do mà không cần giám sát” cô nói.

Do không điều chỉnh được các chatbots, công ty đã xác định rằng khoảng 10% dữ liệu thu thập được là không chính xác.

“Việc machine learning sẽ hữu ích ngay từ đầu có lẽ cho 90% câu trả lời, nhưng 10% còn lại sẽ cần có sự giám sát của con người có thể sửa thuật toán” Rennella nói. Theo thời gian, 90% sẽ được cải thiện và tăng lên tới 99%, nhưng chúng tôi sẽ không ngừng chú ý đến những sai lệch và cả những tình huống mới có thể phát sinh trong dự án.

Bài 3: Nghèo data label khiến kết quả machine learning bị ảnh hưởng

Hai công ty liên kết ở Nga, Ashmanov Neural Networks và SOVA (Smart Open Virtual Assistant), chuyên phát triển các dịch vụ dựa trên machine learning cho khách hàng doanh nghiệp của họ. Chúng bao gồm phân tích video, xử lý ngôn ngữ tự nhiên, xử lý tín hiệu và mạng nơron.

Một trong những vấn đề lớn nhất mà các công ty liên quan đến machine learning là dữ liệu nghèo nàn vì khó khăn trong label, Stanislav Ashmanov, CEO của cả hai công ty cho biết. “Hầu như không thể cung cấp data label chất lượng cao. Thông thường, những người làm về data label thì cẩu thả vì họ thường bị hối thúc. Hơn nữa, vô cùng khó khăn để chuyển tiếp các task theo cách mà để mọi người hiểu theo cùng một cách”.

Kết quả là, dữ liệu chứa nhiều mẫu được dán nhãn xác định sai khiến ảnh hưởng xấu đến chất lượng hiệu suất của mạng thần kinh được đào tạo.

Mặt khác, cũng rất khó để thu thập lượng lớn dữ liệu cần thiết trong một khoảng thời gian ngắn. Đôi khi, việc thu thập dữ liệu có thể mất đến một vài tháng, Ashmanov nói. Và dữ liệu được thu thập từ các nguồn có sẵn công khai, chẳng hạn như trên internet, không phải lúc nào cũng chính xác và thực tế.

Bài 4: Các vấn đề về phân lớp có thể gây nhầm lẫn cho machine learning

Casepoint, một nhà cung cấp công nghệ khám phá điện tử của Mỹ cho lĩnh vực pháp lý và các thị trường khác, đã trải qua những khiếm khuyết trong machine learning. Công ty sử dụng  machine learning để phân loại tài liệu và các phân tích dự báo. Bằng cách sử dụng công nghệ này, các nhóm pháp lý có thể giảm đáng thời gian xem xét và phân loại tài liệu.

Sử dụng machine learning để phân loại tài liệu là rất hiệu quả, nhưng không hoàn hảo, David Carns, giám đốc chiến lược của Casepoint nói. Một điểm yếu mà công ty đã thấy trong machine learning đến từ việc phải giải quyết các vấn đề phân loại tinh tế, đòi hỏi nhiều sắc thái hơn.

Ví dụ, trong các máy phân loại tài liệu pháp lý thường được sử dụng để xác định các tài liệu đáp ứng với “yêu cầu sản xuất tài liệu.” Bên A yêu cầu các tài liệu liên quan đến chủ đề hoặc nội dung cụ thể và Bên B có thể sử dụng bộ phân loại tài liệu machine learning giúp sàng lọc thông qua kho lưu trữ tài liệu.

Nó hoạt động rất tốt đến mức các luật sư đã bắt đầu sử dụng công nghệ này (TAR) thường xuyên, Carns nói. “Thành công như vậy dẫn đến việc sử dụng một cách mù quáng machine learning để phân loại các loại tài liệu tinh tế và phức tạp hơn, chẳng hạn như xác định những tài liệu vốn đã được bảo vệ bởi đặc quyền luật sư-khách hàng”, ông nói.

Bài học 5: Sự sai lầm trong Test/train có thể gây khó khăn machine learning

Công ty tự động hóa Indico của Mỹ đã cung cấp dịch vụ artificial intelligence và deep learning cho khách hàng trong nhiều năm, và một trong những vấn đề lớn nhất mà họ tiếp tục gặp phải là sự nhiễm bẩn dữ liệu trong testing và training cho machine learning.

Một khách hàng đã yêu cầu tạo ra một mô hình để xác định xem một mẩu tin tức có tác động đến giá cổ phiếu của nó hay không, CTO Slater Victoroff nói. Thật khó để xác định chính xác thời gian tác động sẽ là gì, vì vậy công ty đã tạo mô hình để luôn dự đoán tác động của ngày hôm sau.

“Những gì họ không nhận ra là đã bỏ qua các nguyên tắc cơ bản về khoa học dữ liệu để đảm bảo việc phân chia thử nghiệm / đào tạo được sạch”- Victoroff nói – “Vì vậy, họ trình bày độ chính xác gần như là 100 phần trăm về nhiệm vụ dự đoán các tác động vào ngày hôm sau, trong khi thực tế thì nó hoàn toàn chỉ là dự đoán không hơn không kém”.

Nói cách khác, chính vì cách suy nghĩ nặng lí thuyết và phi thực tế đã khiến cho việc test/train cho machine learning cũng trở nên bị thiếu thực tiễn. Do đó, các kết quả được đưa ra cũng theo đó mà sai lệch hoàn toàn.

Techtalk via infoworld

0