13/08/2018, 22:02

AI hoàn thành màn chơi Mario chỉ sau 34 lần thử

Hẳn các bạn cũng không còn lạ gì về Mario – game về một chàng sửa ống nước và hành trình giải cứu nàng công chúa. Với cách chơi đơn giản nhưng đầy thử thách, đòi hỏi người chơi phải có sự tập trung cũng như nhuần nhuyễn trong điều khiển nhân vật, Mario được xem là một trong những tượng ...

Hẳn các bạn cũng không còn lạ gì về Mario – game về một chàng sửa ống nước và hành trình giải cứu nàng công chúa. Với cách chơi đơn giản nhưng đầy thử thách, đòi hỏi người chơi phải có sự tập trung cũng như nhuần nhuyễn trong điều khiển nhân vật, Mario được xem là một trong những tượng đài huyền thoại của làng game thế giới. Và cũng không có gì lạ khi tựa game này thường được dùng để phát triển và testing AI cũng như machine learning. MarI/O – một AI đã hoàn thành trò chơi mario chỉ sau 34 lần chơi thử.

Không như các AI thông thường, dùng các lệnh “If”, MarI/O hoàn toàn không hề được dạy bất cứ điều gì trước khi được cho chơi game Mario – thậm chí nó còn không biết là phải di chuyển phía bên phải thì mới có thể hoàn thành được màn chơi – Thay vào đó, MarI/O được dạy về các “thước đo”. Nói cách khác, AI có một thức đo về “fitness”, sẽ tăng khi nhân vật trong game di chuyển về phía bên phải và giảm khi đi về trái. MarI/O nhận thức được rằng “Fitness” tăng là tốt, và trong quá trình chơi game, nó bắt đầu tìm ra cách thức tốt nhất để có thể tăng điểm cho “Fitness”. Kết quả là MarI/O hoàn thành màn chơi sau một thời gian học hỏi và cải tiến.

“Mirroring actual evolution” – một thuật ngữ chỉ việc khi chúng ta làm đi làm lại một việc và rút ra kinh nghiệm khi so sánh lại kết quả, nhờ đó mà ta làm càng nhiều thì càng thuần thục và giỏi hơn, nói cách khác chúng ta đang “tiến hóa”. Đây chính xác là những gì đã xảy ra với MarI/O. Nó không hề thay đổi hành động bằng bất cứ dự đoán nào có trước. Thay vào đó, sau mỗi lần trải nghiệm nó rút ra bài học và đưa ra ý tưởng mới. Nói cách khác, MarI/O chỉ đơn giản là thử cách mới, chứ không phải là nghĩ nó sẽ thành công, đây chỉ như một phương pháp loại trừ cho đến khi AI có đạt được mục đích của mình là hoàn thành màn chơi. Và như, MarI/O càng chơi nhiều nó càng phát triển, nó nhớ và áp dụng những thất bại sẽ bị loại bỏ. Và sau 34 lần chơi, thì MarI/O đã hoàn thành màn chơi với đa phần thời lượng là nhảy để vượt qua các chướng ngại vật. Điều thú vị là nếu Seth Bling, cha đẻ của nó, vẫn cho MarI/O tiếp tục chơi thì nó sẽ càng phát triển và tìm ra cách tốt hơn nữa để hoàn thành màn chơi.

Cách học này được gọi là NeuroEvolution of Augmenting Topologies (Hay cứ gọi là NEAT cho ngắn gọn). Đây vốn là thuật ngữ đã có sẵn nhưng với MarI/O thì ta mới thấy rõ việc sử dụng nó một cách triệt để đến vậy. Để hiểu rõ hơn, chúng ta sẽ quay về thời điểm mà AI mới bắt đầu chơi game.

Khi đó MarI/O, giống như một đứa trẻ sơ sinh, chả biết làm gì mà bấm ngẫu nhiên các nút. Tuy nhiên sau khi nó bấm vào nút phải và nhân vật di chuyển đúng theo mục đích của trò chơi khiến cho thanh điểm  “Fitness” được tăng, AI nhận ra nó đã làm “Đúng” và bắt đầu tiếp tục làm như vậy. Tất nhiên trò chơi có rất nhiều chướng ngại vật mà nhân vật không thể chỉ cứ đi qua phải. Do đó, MarI/O sau mỗi lần mất mạng và phải chơi lại sẽ tự động đưa ra những phương hướng, ý tưởng để có thể vượt qua được thử thách và tiếp tục màn chơi.

Ở hình trên, với góc ô vuông bên trái chính là những gì mà MarI/O nhìn thấy. Với các dãi ô vuông tròn là có thể chạm vạo còn ô đen là không. Bạn có thể thấy các dòng kẻ màu xanh và đỏ kết nối từ vị trí trong ô vuông tới các nút di chuyển tương ưng tại phía bên phải “Right”. Với dòng màu đỏ ám chỉ thất bại và dòng màu xanh là thành công, MarI/O sẽ rút ra bài học dựa trên các thành công của nó. Đây cũng tương tự là cách hoạt động của não bộ của chúng ta nhưng đơn giản hơn rất nhiều.

Mặc dù chúng ta vẫn chưa thể thật sự tạo ra những trí tuệ nhân tạo hoàn hảo như người thật bởi sự hạn chế của công nghệ. Nhưng MarI/O đã chứng tỏ cho rằng tiềm năng mạnh mẽ của chúng với khả năng học hỏi một cách chọn lọc. Tin rằng trong tương lai, trí tuệ nhân tạo sẽ mở ra cách mạng mới cho công nghệ và khoa học.

Techtalk

0