17/09/2018, 20:21

LinkedIn tham gia giải quyết các vấn để về Bigdata với Pinot

Dữ liệu lớn (Big data) là một cơ hội lớn trong cộng đồng công nghề và nó thường xuyên được quan tâm đến. Nhưng không phải nhiều người nhận ra những khó khăn và vấn đề khi khai thác sức mạnh dữ liệu lớn. Linkedln đang mở ra những thách thức về dữ liệu lớn của riêng mình thông qua việc ra ...

LinkedIn tham gia giải quyết các vấn để về Bigdata với Pinot

Dữ liệu lớn (Big data) là một cơ hội lớn trong cộng đồng công nghề và nó thường xuyên được quan tâm đến. Nhưng không phải nhiều người  nhận ra những khó khăn và vấn đề khi khai thác sức mạnh dữ liệu lớn.

Linkedln đang mở ra những thách thức về dữ liệu lớn của riêng mình thông qua việc ra mắt một công cụ phân tích mới. Pinot, công cụ phân tích thời gian thực được thiết kế để theo dõi, quản lí và sử dụng một khối lượng khổng lồ dữ liệu liệu lớn tạo ra bởi nhiều sản phẩm của Linkedln như mạng xã hội hay những sản phẩm kĩ thuật số khác. Sự ra đời của Pinot bắt đầu từ 2 năm trước khi Linkedln cảm thấy cạn kiệt khi chống lại bức tường dữ liệu. Khi dự án Pinot được bắt đầu, mất tầm 8 tháng để xây dựng nền tảng trước khi nó được sử dụng lưu hành nội bộ.

Đội ngũ kĩ thuật cho biết họ đã sử dụng các hệ thống lưu trữ khác nhau từ Oracle đến những hệ thống lưu trữ liên quan đến dự án Voldemort. Kĩ sư của Linkedln, ông Neppalli Naga giải thích rằng họ không thể đáp ứng được sự phát triển nhanh chóng  của dữ liệu lớn sản sinh từ mạng xã hội và hơn 300 triệu thành viên trên toàn thế giới. Ông khẳng định rằng :” Pinot được sinh ra để trả lời câu hỏi cho các vấn đề của chúng tôi”. Pinot hiện tại được sử dụng như một cơ sở hạ tầng dữ liệu hàng đầu cho các sản phẩm như  “Who’s Viewed Your Profile” và những sản phẩm đòi hỏi truy vấn phức tạp và thường xuyên. Hiện nay có các đội quản lí sản phẩn nội bộ dành cho việc phân tích báo cáo quảng cáo  và những sản phẩm trả tiền cao cấp như “company profile follows”. Linkedln cũng đang có kế hoạch dần đần công bố mã nguồn mở của Pinot.

Dữ liệu của Linkedln có rất nhiều chiều và mỗi chiều đòi hỏi cần phải được xử lí đặc biệt. Linkedln cần phải xây dựng các kĩ thuật nén nhằm phù hợp với mọi chiều, để có được sự cân bằng tối ưu tốc độ quét so với bộ nhớ tiêu thụ. Linkedln xây dựng Pinot với mục tiêu index data, nhưng sẽ tiết kiệm được được các kĩ thuật nén trong tương lai.

zdnet

0