Wikipedia và cuộc chiến chống những kẻ phá hoại nội dung bài viết
Wikipedia hiện đang là một trong những trang từ điển bách khoa được nhiều người truy cập nhất thế giới, và vì bản chất “mở” nên ai cũng có thể tham gia biên tập, tạo mới hoặc chỉnh sửa nội dung trên website này. Vậy đã bao giờ bạn tự hỏi rằng vì sao có rất nhiều người cùng sửa chỗ ...
Wikipedia hiện đang là một trong những trang từ điển bách khoa được nhiều người truy cập nhất thế giới, và vì bản chất “mở” nên ai cũng có thể tham gia biên tập, tạo mới hoặc chỉnh sửa nội dung trên website này. Vậy đã bao giờ bạn tự hỏi rằng vì sao có rất nhiều người cùng sửa chỗ này, chỉnh chỗ kia, xóa chỗ nọ trên Wikipedia nhưng chúng ta ít, thậm chí là không bao giờ, thấy những thông tin “tạp nham” xuất hiện đầy rẫy hay không? Wikipedia có cả một bộ máy phức tạp để kiểm soát việc này.
Tính đến thời điểm hiện tại thì Wikipedia đã có hơn 700 triệu lượt chỉnh sửa, và như đã nói ở trên thì không phải lần chỉnh sửa nào cũng có ý nghĩa. Đôi lúc có một số người nào đó quấy rối, ví dụ như khi trang truyện tranh The Oatmeal khuyến khích đôc giả của mình chèn link dẫn đến trang mô tả Thomas Edison trong mục nói về từ “douchebag” (tạm dịch là kẻ khốn). 4 triệu bài viết trên Wikipedia hằng ngày phải chịu hàng nghìn lượt biên tập kiểu như thế từ những kẻ thích đi gây hấn, các “anh hùng bàn phím” hoặc và thậm chí là cả tội phạm nữa.
Kết hợp những quy luật này lại, phần mềm Cluebot của anh đã tỏ ra rất có hiệu quả. Trong vòng 2 tháng sau khi đi vào hoạt động, nó đã giúp Wikipedia sửa lại 21.000 bài viết bị phá. Công cụ này tiếp tục được duy trì liên tục trong ba năm liền sau đó.
Đến cuối năm 2010, Carter đã sẵn sàng để viết ra thế hệ mới của Cluebot và anh gọi nó là Cluebot NG. Những nguyên lý duyệt nội dung đã chứng minh được khả năng của mình trong đời Cluebot đầu tiên và đã loại bỏ hầu hết những đợt phá hoại. Nhưng cũng những quy luật này lại chỉ có thể “bắt” được những kẻ phá hoại rõ ràng mà thôi, thế nên thuật toán vẫn cần phải được cải tiến nhiều. Vậy là Carter cùng với người bạn Chris Breneman của mình bắt tay vào công việc.
Nếu như chú “bot” đầu tiên sử dụng các bộ quy tắc được định sẵn thì Cluebot NG lại sử dụng machine learning (khả năng tự học hỏi của máy tính). Điều đó có nghĩa là thay vì lập trình viên đẩy một loạt quy tắc và ra lệnh cho phần mềm thực thi chúng, Carter và Breneman sẽ cung cấp một danh sách dài những bài edit (có cả lượt chỉnh sửa mang tính xây dựng lẫn các lượt phá hoại). Đây cũng là quy trình được các hãng lớn dùng để chống và lọc email rác khỏi hộp thư của người dùng.
Điểm mấy chốt dẫn đến sự thành công của machine learning là phải có số lượng dữ liệu đủ lớn thì máy tính mới có thể “học” một cách hiệu quả. May mắn thay, một cuộc thi chống phá hoại mới được Wikipedia tổ chức đã cung cấp hơn 60.000 lượt edit đã phân loại. Từ nền tảng này, Cluebot NG bắt đầu học, tìm ra những điểm giống, khác giữa các bài viết xấu, tốt cũng như xác định mối quan hệ giữa các dữ liệu với nhau.
Nhằm giúp đỡ cho việc này, Breneman đã sử dụng một mạng lưới trí tuệ nhân tạo mô phỏng lại hoạt động của não người. “Bạn không thể ném một mớ từ tiếng Anh vào mạng nơ-ron và kỳ vọng nó sẽ đưa ra những điểm giống và khác”. Việc xử lý ban đầu là bắt buộc: chuyển thể các ví dụ thành số liệu hoặc những ký hiệu mà máy tính có thể hiểu được. Ngoài ra còn có một kỹ thuật xử lý khác được áp dụng gọi là “sự phân loại Bayesian” để so sánh những từ được biên tập với các từ trong cơ sở dữ liệu. Nếu từ “khoa học” xuất hiện trong một bài viết mang tính xây dựng thì xác suất xuất hiện của từ “khoa học” trong các bài viết xấu cũng khá cao.
Việc xử lý trước như thế đã gom hơn 300 dữ liệu đầu vào rồi xuất ra một con số duy nhất ở đầu ra: chính là xác suất xuất hiện của một bài viết phá hoại. Cluebot sau đó áp dụng kết quả này để lọc trước khi quyết định sẽ nên làm gì tiếp theo. Vậy là trong một thời gian dài, Cluebot NG lại tiếp tục tỏ ra hiệu quả, có thể kiểm soát được và khả năng thích nghi tương đối cao.
Một trong những lo ngại lớn nhất của cộng đồng Wikipedia đó là những bài viết tốt lại bị liệt kê vào danh sách các bài phá hoại, và điều này sẽ khiến các biên tập viên cảm thấy không hài lòng. Tất nhiên, vì là một hệ thống máy tính tự động nên Cluebot “vẫn bị sai sót”, tuy nhiên người quản trị có thể điều chỉnh được tỷ lệ sai sót này và kết quả “tốt hơn bất kỳ con bot nào đi trước”.
Cũng chính vì những lý do đó mà Cluebot hoạt động lên tục 24/7 không ngừng nghỉ. Nó có thể thực thi việc kiểm tra hơn 9.000 bài chỉnh sửa mỗi phút mặc dù nó chưa bao giờ phải vận hành hết công suất như thế. Từ năm 2010 đến nay, phần mềm này đã chăm chỉ loại bỏ hàng nghìn lượt biên tập xấu hằng ngày, và tính đến năm 2013 thì con số bài viết được kiểm tra bởi Cluebot NG đã đạt đến mức 2 triệu. Một nghiên cứu đã chỉ ra rằng nếu như Cluebot không hoạt động và thay vào đó là đưa con người vào thì việc loại bỏ những nội dung xấu sẽ mất thời gian gấp đôi.
Thực ra thì đây cũng chính là mục tiêu mà người ta làm ra Cluebot cũng như tất cả mọi loại bot khác trên thế giới công nghệ. Chúng được sinh ra là để làm một việc gì đó hiệu quả hơn con người. Nhưng song song với những lợi ích mà Cluebot mang lại thì vẫn có một số người không ủng hộ việc áp dụng phần mềm tự động trong việc loại bỏ các lượt biên tập xấu. Họ tranh luận rằng nội dung có xấu hay không là do vấn đề chủ quan của con người chứ không có thể chỉ áp dụng thuần túy những công thức toán học. Một người có nickname beakerMeep từng viết: “(Việc sử dụng) các bot ở Wikipedia là sai trái, và nếu họ tiếp tục cho phép nó thì họ đang hy sinh tầm nhìn về sự đóng góp của cộng đồng để thay vào đó là việc sử dụng các giải pháp công nghệ”. Nhưng nếu nhìn từ góc nhìn thực tế, nếu không có Cluebot thì ngày nay Wikipedia thực sự trở thành một mớ hỗn độn và không thể dùng được. Tất nhiên, cũng còn đó những hoạt động phá hoại mà chỉ con người mới bắt được.
Hành trình săn những kẻ xảo quyệt: người và máy
Vào sáng ngày 7/2/2014, một người dùng Wikipedia nặc danh (chỉ để lộ địa chỉ IP) đã thay đổi trang thông tin về Date Night, một bộ phim của Steve Carell và Tina Fey. Ở cuối danh sách diễn viên, người bí ẩn này đã thêm vào một dòng như sau: “Brittany Taya là chỉ đạo nghệ thuật”. Vài phút sau, cũng địa chỉ IP này thêm vào dòng “Rachel McAdams đóng vai Natasha Henstridge” trong bài viết về phim Date Movie. Tương tự như thế, địa chỉ IP đó đã thay đổi nội dung của trên 12 bài viết khác nhau bằng những mẫu thông tin nhỏ và ít người để ý. Chưa kể đến việc hàng tá những lượt chỉnh sửa như thế đã diễn ra nhiều tháng trời trong một dải IP nhất định. Mọi lần đều như một: thêm vào danh sách diễn viên những thông tin sai lệch.
Cluebot không thể nhận ra việc chống phá xảo quyệt như thế. Thay vào đó, một người phải đảm trách nhiệm vụ này và anh ấy từ lâu đã là một “tuần tra viên” của Wikipedia với nickname SeaPhoto. Người này đã thực hiện hơn 55.000 lượt chỉnh sửa, và phần lớn trong số này là để sửa những bài viết bị thay đổi nội dung sai lệch. Anh thường thực hiện công việc của mình trong lúc xem TV, một mắt thì theo dõi chương trình yêu thích của mình, mắt còn lại thì nhìn vào danh sách những thay đổi gần đây đang cuộn trên màn hình máy tính bởi việc “tuần tra” bình thường không quá vất vả. Chỉ khi nào đối mặt với những lượt chỉnh sửa như đã nói ở trên thì mới cần tập trung. SeaPhoto từng đùa rằng anh không làm việc khi đang xem Breaking Bad hay Game of Thrones.
Bên cạnh việc chỉnh sửa nội dung, Wikipedia còn là một nơi để các thành viên giao tiếp với nhau. Wikipedia vừa là một sản phẩm, vừa là một tập hợp những quy trình xã hội với hàng triệu lượt tương tác của các thành viên, và hầu hết những người đó đều chưa từng gặp nhau ngoài đời. Nếu không có “đám đông” này, Wikipedia sẽ nhanh chóng suy tàn. Sự tham gia của người dùng vào Wikipedia đạt đỉnh cao nhất là hồi năm 2007 và tốc độ gia tăng biên tập viên mới đang chậm lại. Có nhiều lời giải thích cho việc này, từ giao diện biên tập chưa ngon của Wiki cho đến việc những biên tập viên lâu năm đóng tài khoản của các người dùng mới chưa có kinh nghiệm. Đây cũng là điều mà SeaPhoto rất lo lắng. Việc chạy đua để đấu tranh với các hành động phá hoại rất vui, ngay cả khi bạn bị đánh bại bởi một chú bot, nhưng “bạn cần phải dành một giây để cân nhắc rằng bạn không đang yêu ai đó”.
Chào mừng người mới
Vậy sự tự động hóa ảnh hưởng như thế nào đến việc tương tác xã hội giữa các Wikipedian? Đó là câu hỏi mà Aaron Halfaker, một nhà nghiên cứu của Wikimedia Foundation, đang đi tìm câu trả lời. Nhìn vào những phần mềm chống phá hoại như Huggle và Cluebot, anh nói: “Tôi thấy một điều tuyệt vời: nó làm cho Wikipedia trở nên dễ kiểm soát”. Công cụ này đã thêm một lớp bảo vệ cho quyển từ điển bách khoa mà ai ai cũng có thể vào chỉnh sửa.
Snuggle được thiết kế để mang lại một góc nhìn khác về hiện tượng phá hoại. Halfaker lấy ví dụ của một cầu thủ đá bóng người Ai Cập với họ là Homos. Nếu chỉ nhìn riêng thì cái tên của anh này có thể bị liệt vào loại “phá hoại” vì nó là từ viết tắt của homosexual, nghĩa là người đồng giới. Nhưng với một biên tập viên có nhiều kinh nghiệm và kiến thức trong bộ môn thể thao này, cái tên Homos hoàn toàn có ý nghĩa và không gặp vấn đề gì hết. Snuggle xuất hiện để chứng tỏ điều đó, cho thấy nhiều hơn về mặt con người rằng sau những hành vi có nguy cơ là hoạt động phá phách.
Halfaker cũng cố gắng nhận mạnh rằng Wikipedia không chỉ là một chiến trường: đó không chỉ là nơi những gã khổng lồ thô lỗ lao vào chiến đấu với các công cụ chống phá hoại, mà Wikipedia còn là nơi giao tiếp giữa những người lạ với nhau với đầy đủ tất cả tính chất phức tạp của một cộng đồng. Anh nhận thấy rằng không phải ai cũng thích Snuggle bởi nó không phù hợp với ý thức về việc chống phá hoại đã được thiết lập sẵn trong tâm trí của họ cũng như những gì họ muốn làm để giúp đỡ người dùng mới. Con người là con người, họ sở hữu những cách riêng để làm một việc gì đó. Hiện Halfaker đang làm việc với một dự án lớn hơn nhằm cải thiện “sự xã hội hóa của những người mới”, trong đó có bao gồm việc đưa ra những cách tốt hơn để những tay mơ cũng như những người chuyên nghiệp tìm được tiếng nói chung.