Google tham vọng ứng dụng AI vào y học giúp phát hiện đột biến Gen
Nếu bạn đã từng xem một bộ phim tội phạm kinh điển như CSI , bạn có thể nhớ một cảnh phim trong đó một chuyên gia phân tích pháp y đã sử dụng máy tính để phân tích sâu hàng ngàn đoạn ADN, để tìm điểm tương đồng giữa hiện trường vụ án và nghi phạm. Ngoài đời thực thì chuyện này không ...
Nếu bạn đã từng xem một bộ phim tội phạm kinh điển như CSI, bạn có thể nhớ một cảnh phim trong đó một chuyên gia phân tích pháp y đã sử dụng máy tính để phân tích sâu hàng ngàn đoạn ADN, để tìm điểm tương đồng giữa hiện trường vụ án và nghi phạm. Ngoài đời thực thì chuyện này không thực sự xảy ra như trên truyền hình, nhưng về bản chất thì là như nhau. Di truyền học vốn đã là một môn khoa học tương đối. Cho dù bạn có cố gắng để xác định một nghi phạm hoặc một căn bệnh di truyền hoặc người thân đã thất lạc từ lâu, nó đều bao gồm việc so sánh một gen này và một gen khác, tìm những điểm tương đồng hoặc khác nhau giữa hàng tỷ của các mã DNA.
Nhưng trong khi tìm kiếm một người thân hoặc một kẻ tình nghi thường sẽ chỉ cần xem xét một vài đoạn mã di truyền của một người, còn các vấn đề như xác định các biến thể gen nào gây ra căn bệnh thì đòi hỏi phải được tiến hành qua nhiều dữ liệu hơn. Ngay cả với tất cả các tính toán đặc biệt được thiết kế để giúp các nhà khoa học làm việc này, việc hiểu được tất cả các dữ liệu đó vẫn là một thách thức rất lớn. Đây cũng chính là vấn đề mà trí tuệ nhân tạo được thiết kế ra để giải quyết.
Trong tuần này, Google đã phát hành một công cụ gọi là DeepVariant sử dụng deep learning để xâu chuỗi gen của một người và xác định đột biến trong một chuỗi DNA chính xác hơn.
Sau khi được xây dựng công cụ này cho phép Google nhận dạng được một bức ảnh là con mèo hay con chó, DeepVariant giải quyết được một vấn đề quan trọng trong thế giới phân tích DNA. Trình sắp xếp ADN hiện đại thực hiện thao tác được biết đến như một Giải trình tự hiện đại, sẽ không trả về một đoạn dài trong chuỗi ADN đầy đủ mà là các đoạn ngắn chồng lên nhau. Những đoạn này sau đó được so sánh với một bộ gen khác để gộp chúng lại với nhau và nhận diện được sự biến đổi. Nhưng công nghệ này rất dễ bị lỗi, và nó có thể gây khó khăn cho các nhà khoa học trong việc phân biệt giữa lỗi và đột biến nhỏ. Và những đột biến nhỏ lại quan trọng. Chúng có thể cung cấp được những cái nhìn sâu sắc đáng kể vào, có thể nói rằng, nguyên nhân gốc rễ của căn bệnh. Việc phân biệt cặp nào là kết quả của lỗi và cặp nào là thật được gọi là “truy tìm biến thể.”
Hiện đã có công cụ có thể giúp các nhà khoa học thực hiện điều này. Công cụ phổ biến nhất là GATK, một thuật toán do con người thiết kế áp dụng thống kê để dò ra những nơi máy mà kết nối thường xuyên xảy ra lỗi nhất. Tuy nhiên, DeepVariant, lại sử dụng công nghệ neural network để xây dựng nên một cái gì đó chính xác hơn bất cứ cái gì hiện có. Năm ngoái, nó đã giành giải nhất trong một cuộc thi FDA nhằm cải thiện tính chính xác của sắp xếp chuỗi gen.
Neural network được đặt tên như vậy bởi vì chúng khá tương tự cách các tế bào thần kinh hoạt động trong não. Mỗi tầng mạng thì gặp phải một vấn đề dần dần phức tạp hơn. Để sử dụng một AI nhận dạng hình ảnh giúp xây dựng một chuỗi ADN chính xác, đội ngũ của Google đã chuyển dữ liệu chuỗi DNA thành một hình ảnh. Ví dụ như, các As, Ts, Cs, và Gs tạo nên một mã di truyền, thì sẽ được hiển thị dưới màu đỏ. Các nhà nghiên cứu sau đó đào tạo mạng lưới của họ về hàng triệu hệ gen được xâu chuỗi và phép đọc công nghệ cao, dạy về cái gì quan trọng và cái gì cần bỏ qua.
Kết quả thuật toán cuối có thể phân loại các đột biến thực tế khỏi các lỗi với độ chính xác cao hơn bất kỳ hệ thống nào trước đó. Ban đầu, những hình ảnh chỉ được tạo nên bởi ba màu, hoặc ba lớp dữ liệu. Nhưng trong phiên bản mới nhất phát hành trong tuần này chứa đến bảy loại, thậm chí làm cho nó hoạt động mượt hơn. Nó được phát hành dưới dạng phần mềm mã nguồn mở, giúp các nhà nghiên cứu bên ngoài có thể sử dụng và thậm chí cài thêm được.
DeepVariant không có nghĩa là chính xác 100%. Nhưng thành công của nó minh chứng cho ảnh hưởng của học thuật máy tính lên các hệ gen. Quy mô và độ phức tạp của dữ liệu di truyền là bao la vô số. Máy móc có thể chỉ là cái để giúp chúng ta hiểu được nó.
Source: Gizmodo