08/09/2018, 22:37

Google phát hành search engine hỗ trợ tìm kiếm những tệp datasets

Mục đích của Google luôn là giúp tổ chức, mã hóa và sắp xếp thông tin của thế giới với mục tiêu đầu tiên của nó là những trang web thương mại. Giờ đây, hãng muốn làm điều tương tự cho cộng đồng khoa học với một công cụ tìm kiếm mới cho bộ dữ liệu. Dịch vụ này, được gọi là ...

Mục đích của Google luôn là giúp tổ chức, mã hóa và sắp xếp thông tin của thế giới với mục tiêu đầu tiên của nó là những trang web thương mại. Giờ đây, hãng muốn làm điều tương tự cho cộng đồng khoa học với một công cụ tìm kiếm mới cho bộ dữ liệu.

Dịch vụ này, được gọi là Dataset Search, sẽ ra mắt ngày hôm nay và là bạn đồng hành của Google Scholar, công cụ tìm kiếm phổ biến khác chuyên dành cho các nghiên cứu và báo cáo học tập. Các tổ chức, như trường đại học và chính phủ, khi đăng dữ liệu của họ lên mạng sẽ cần phải bao gồm metadata tag trong phần web mô tả dữ liệu của họ, bao gồm cả người tạo ra dữ liệu, thời điểm nó được xuất bản, cách dữ liệu được thu thập, v.v. Thông tin này sau đó sẽ được index bởi Dataset Search và được kết hợp với input từ Google’s Knowledge Graph.

Phát biểu với The Verge, Natasha Noy, một nhà khoa học nghiên cứu tại Google AI, người đã giúp tạo ra Dataset Search, cho biết mục tiêu của nhóm phát triển là nhầm thống nhất hàng chục nghìn kho dữ liệu khác nhau cho các datasets online.

Hiện tại, các lĩnh vực khoa học khác nhau có kho lưu trữ ưa thích của riêng họ, cũng như các chính phủ và chính quyền địa phương luôn có những ràng buộc nhất định với nguồn dữ liệu. Chính việc này khiến cho quá trình tìm kiếm dữ liệu khoa học cực kì khó khăn và tốn thời gian.

Noy đưa ra ví dụ về một nhà khoa học khí hậu mà cô đã nói chuyện gần đây, người đã nói với cô rằng việc tìm kiếm một tập dữ liệu cụ thể về nhiệt độ đại dương cho một nghiên cứu sắp tới gần như là bất khả thi bởi không thể tìm thấy nó ở bất cứ đâu. Mãi sau này, cô may mắn tìm ra nó nhờ vào sự chỉ dẫn của một đồng nghiệp của mình. Nói cách khác, những thông tin chúng ta cần luôn hiện hữu nhưng lại vô cùng khó tiếp cận và tìm kiếm.

Bản phát hành đầu tiên của Dataset Search sẽ bao gồm các lĩnh vực về khoa học môi trường và xã hội, dữ liệu của chính phủ và các tập dữ liệu từ các tổ chức tin tức như ProPublica. Tuy nhiên, nếu dịch vụ này trở nên phổ biến hơn thì số lượng dữ liệu mà nó index sẽ nhanh chóng tăng đột biến khi các nhà khoa học bắt đầu quan tâm tới việc làm cho công trình khoa học của họ dễ tiếp cận hơn.

Chính sự tham gia của Google sẽ giúp làm cho dự án này thành công, theo Jeni Tennison, Giám đốc điều hành của Viện dữ liệu mở (ODI). “Tìm kiếm tập dữ liệu luôn là một điều khó khăn, và tôi hy vọng rằng Google sẽ tham gia và làm cho nó dễ dàng hơn”, cô nói.

Trong thực tế, Tennison nói, lý tưởng nhất là Google sẽ tự tung ra dataset của riêng nó về cách Dataset Search được dùng. Mặc dù các metadata tag mà công ty đang sử dụng để hiển thị các dataset của trình search khá là hiệu quả, search engine có cải thiện nhanh nhất khi có lượng lớn người dùng sử dụng nó.

Techtalk via theverge

0