01/10/2018, 15:46

Thuật toán trích xuất từ khóa, tìm kiếm của google

Có anh chị nào ở đây từng nghiên cứu về thuật toán tìm kiếm của google sử dụng chưa ạ. Vd: mình gõ thuật toán thì google sẽ trả ra các trang web liên quan đến thuật toán . Có thể giải thích cho em cách thuật toán google tìm kiếm nó hoạt động được không ạ, có code giải thích càng tốt

Aster-Dynos viết 17:59 ngày 01/10/2018

Mình không biết algorithm Google bây giờ xài là gì nhưng hồi mình học về Numerical Analysis (toán phân tích số) thì ông giáo sư mình nói Google hồi đó dùng vài chiêu về Matrix (SOR, Power Method, Perturbation, Markov, etc… ) + nhiều kiến thức Graph theory để làm Google Search.

Links tham khảo:

http://www4.ncsu.edu/~ipsen/ps/slides_man.pdf
https://www.rose-hulman.edu/~bryan/googleFinalVersionFixed.pdf
http://www4.ncsu.edu/~ipsen/ps/cedya.pdf

Mấy cái thuật toán này phức tạp, kiến thức ít nhất là Đại Học level hay cao hơn. Bạn đọc thử coi nha.

Hung viết 17:56 ngày 01/10/2018

Tên là PageRank, là giải thuật được đề xuất của Larry Page khi làm PhD Thesis.
Chắc giờ giải thuật đó được cải tiến nhiều rồi.

en.wikipedia.org

PageRank

PageRank (PR) is an algorithm used by Google Search to rank websites in their search engine results. PageRank was named after Larry Page, one of the founders of Google. PageRank is a way of measuring the importance of website pages. According to Google: PageRank works by counting the number and quality of links to a page to determine a rough estimate of how important the website is. The underlying assumption is that more important websites are likely to receive more links from other websites. ...

letpet viết 17:51 ngày 01/10/2018

Google không thể show một cách rõ ràng các thuật toán mình dùng được bạn, nếu vậy thì đã có rất nhiều Search engine giống Google xuất hiện rồi.

Nhưng để hiểu cách mà google thực hiện việc tìm kiếm cũng khả thi. Đây là cách hiểu của mình.

Đầu tiên phải làm rõ là Từ khóa bạn gõ sẽ không được tìm kiếm trên Internet mà được tìm kiếm trong trong liệu của Google
Và đây là cách mà Google có được lượng dữ liệu khổng lồ đó.
Nếu bạn từng làm web bạn sẽ biết đến file robot.txt đây là file kiểm soát những con BOT của SE truy cập vào trang của bạn.
Những con BOT này Google gọi là Spider. Không phải spider man mà là spider bot.
Nó sẽ len lỏi trong môi trường Internet truy cập vào tất cả những trang web mà nó có thể. Ví dụ như nó vào daynhauhoc.com trong site này có link đến những bài/trang khác thì nó lại tiếp tục truy cập vào đó…
Kết quả là thâu tóm một hệ thống index rất nhiều website trên Internet.
Tiếp đó khi nhận được từ khóa thì Google bắt đầu tìm kiếm trong dự liệu của mình. Từ title page, content, URL,… về sự xuất hiện của từ khóa
Google đủ thông mình để tìm luôn các từ đồng nghĩa hoặc dự đoán sai lỗi chính tả
Quá trình tìm kiếm này thì @Asterick đã có trích một số tài liệu phía trên
Sau khi tìm kiếm thì sẽ bắt đầu xếp hạng thứ tự hiển thị. Cái này cũng có thể đã được sắp xếp trước khi thực hiện tìm kiếm rồi
PageRank mà @hungsteve nói là thật toán cơ sở trong việc sắp xếp.
Ngoài ra Google còn rất nhiều thuật toán khác để xếp hạng. và thay đổi liên tục làm cho mấy bạn làm về SEO phải chật vật
2 thuật toán được nhắc nhiều khi SEO là Panda và Penguin.