Các bộ máy tìm kiếm (Search Engines) hoạt động như thế nào?

ho tro seo - Các bộ máy tìm kiếm hoạt động như thế nào?
Hotroseo.com - Bộ máy tìm kiếmchìa khóa để tìm kiếm thông tin trên thế giới mạng bao la rộng lớn này. Nếu không có những bộ máy tìm kiếm phức tạp này thì các trang web sẽ không được tìm thấy, và nếu muốn truy cập 1 trang web nào đó, bạn sẽ phải biết chính xác URL của trang web đó.

Vậy, các bộ máy tìm kiếm hoạt động như thế nào?
Khi một người nào đó tìm kiếm nội dung trên Internet, họ sẽ tìm kiếm thông qua cơ sở dữ liệu các trang HTML, những cơ sở dữ liệu này được tạo ra bởi các robot.
Về cơ bản, bộ máy tìm kiếm được phân thành 3 loại: 
- Loại được tạo ra bởi các robot (còn gọi là crawlers, ants hoặc spiders, bots)
- Loại được tạo ra bởi sự cập nhật của con người, và loại còn lại là kết hợp của cả 2 loại trên.

Các bộ máy tìm kiếm theo dạng Crawler-based: là các bộ máy sử dụng các phầm mềm tự động (gọi là crawlers) để viếng thăm các website và ghi nhận các thông tin trên website đó như nội dung, các thẻ meta, các liên kết trên website, … để từ đó lập chỉ mục (index) tất cả các liên kết đến trang đó. Các crawler sẽ trả về tất cả các thông tin thu thập được cho trung tâm lưu trữ, tại đây các dữ liệu sẽ được lập chỉ mục (index). Các crawler cũng sẽ thu thập thông tin định kỳ trên các website để kiểm tra nếu có sự thay đổi nào xảy ra trên website đó. Tần suất viếng thăm của các crawler đến các website sẽ được xác định bởi từng bộ máy tìm kiếm.

Các bộ máy tìm kiếm dạng Human-powered: dựa trên việc cập nhật thông tin của các nhân viên. Chỉ những thông tin nào được cập nhật mới được lập chỉ mục (index) và phân loại (catalog).

Trong cả 2 trường hợp trên, khi bạn tìm kiếm một thông tin nào đó, thì thực ra là bạn đang tìm kiếm trong các chỉ mục (index) mà các bộ máy tìm kiếm đã tạo ra – thực tế là không phải bạn đang tìm kiếm trên Internet. Những thông số này là các database khổng lồ các thông tin được thu thập và lưu trữ để phục vụ cho việc tìm kiếm sau này. Điều này giải thích tại sao là đôi lúc bạn tìm kiếm thông tin trên Google, Yahoo hoặc Bing, … lại cho ra kết quả là các link chết (dead links). Bởi vì kết quả tìm kiếm dựa trên index, nên nếu index không được cập nhật kể từ khi website chết thì các bộ máy tìm kiếm vẫn xem như website đó vẫn còn tồn tại. Nó sẽ duy trì cho tới khi index được cập nhật lại mới.

Tại sao khi bạn tìm kiếm cùng 1 vấn đề trên 2 bộ máy tìm kiếm khác nhau lại cho ra kết quả khác nhau? 
Câu trả lời là, bởi vì không phải tất cả các chỉ số đều giống nhau hoàn toàn. Nó phụ thuộc vào các spiders sẽ tìm thấy những thông tin gì trên website hoặc những gì các nhân viên cập nhật. Nhưng quan trọng hơn là mỗi bộ máy tìm kiếm sử dụng các thuật toán khác nhau để tìm kiếm thông qua các chỉ số.
Một trong những thành phần mà một thuật toán tìm kiếm sử dụng là tần suất và vị trí xuất hiện của từ khóa trên trang web, tần suất cao hơn sẽ được xem như thích hợp hơn.
Yếu tố phổ biến khác mà thuật toán phân tích là cách thức mà các trang liên kết với các trang web khác trên Internet. Bằng cách phân tích các trang web liên kết với nhau như thế nào, một bộ máy tìm kiếm có thể xác định trang web thuộc lĩnh vực nào (nếu từ khóa của trang web được liên kết giống với từ khóa của trang gốc) và trang web có được xem là quan trọng hay không.

Bạn có biết…?
Công cụ tìm kiếm đầu tiên trên Internet được tạo ra năm 1990 là “Archie”. Nó download các danh sách thư mục của tất cả các file trên các FTP server công cộng, tạo ra một database về filename để phục vụ cho việc tìm kiếm. Một năm sau, “Gopher” được tạo ra. Nó index các tài liệu phain text. Bộ máy tìm kiếm thực sự trên Web đươc phát triển bởi Matthew Gray năm 1993 và có tên là “Wandex

Các khái niệm liên quan đến bộ máy tìm kiếm trên Internet
Spider trap
Là một điều kiện trên các website động khi mà các spider của các bộ máy tìm kiếm bị mắc vào sẽ rơi vào một vòng lặp vô tận.

Search engine
Là một chương trình để tìm kiếm các tài liệu theo một từ khóa xác định và trả về một danh sách các tài liệu khi các từ khóa được tìm thấy.

Meta tag
Là một thẻ đặc biệt của HTML để cung cấp thông tin về trang web

Deep link
Là URL con của trang web, không phải là trang Home

Robot
Là chương trình chạy tự động để thu thập thông tin về các website, sau đó gửi về trung tâm lưu trữ để phân tích, index …


Tác giả: Mr.Chau243 (theo webopedia)
Vui lòng ghi rõ nguồn Hỗ trợ SEO - www.hotroseo.com khi phát hành lại bài viết này

Nhận xét