Hotroseo.com - Bộ máy tìm kiếm là chìa khóa để tìm kiếm thông tin trên thế
giới mạng bao la rộng lớn này. Nếu không có những bộ máy tìm kiếm phức tạp này
thì các trang web sẽ không được tìm thấy, và nếu muốn truy cập 1 trang web nào đó,
bạn sẽ phải biết chính xác URL của trang web đó.
Vậy, các bộ máy tìm kiếm hoạt
động như thế nào?
Khi một người nào đó tìm kiếm nội dung trên Internet, họ sẽ
tìm kiếm thông qua cơ sở dữ liệu các trang HTML, những cơ sở dữ liệu này được tạo
ra bởi các robot.
Về cơ bản, bộ máy tìm kiếm được phân thành 3 loại:
- Loại được
tạo ra bởi các robot (còn gọi là crawlers, ants hoặc spiders, bots)
- Loại được tạo ra
bởi sự cập nhật của con người, và loại còn lại là kết hợp của cả 2 loại trên.
Các bộ máy tìm kiếm theo dạng Crawler-based: là các bộ máy sử
dụng các phầm mềm tự động (gọi là crawlers) để viếng thăm các website và ghi nhận
các thông tin trên website đó như nội dung, các thẻ meta, các liên kết trên
website, … để từ đó lập chỉ mục (index) tất cả các liên kết đến trang đó. Các crawler sẽ
trả về tất cả các thông tin thu thập được cho trung tâm lưu trữ, tại đây các dữ
liệu sẽ được lập chỉ mục (index). Các crawler cũng sẽ thu thập thông tin định kỳ
trên các website để kiểm tra nếu có sự thay đổi nào xảy ra trên website đó. Tần
suất viếng thăm của các crawler đến các website sẽ được xác định bởi từng bộ
máy tìm kiếm.
Các bộ máy tìm kiếm dạng Human-powered: dựa trên việc cập nhật
thông tin của các nhân viên. Chỉ những thông tin nào được cập nhật mới được lập
chỉ mục (index) và phân loại (catalog).
Trong cả 2 trường hợp trên, khi bạn tìm kiếm một thông tin
nào đó, thì thực ra là bạn đang tìm kiếm trong các chỉ mục (index) mà các bộ máy tìm kiếm
đã tạo ra – thực tế là không phải bạn đang tìm kiếm trên Internet. Những thông
số này là các database khổng lồ các thông tin được thu thập và lưu trữ để
phục vụ cho việc tìm kiếm sau này. Điều này giải thích tại sao là đôi lúc bạn
tìm kiếm thông tin trên Google, Yahoo hoặc Bing, … lại cho ra kết quả là các link chết (dead links). Bởi vì kết quả tìm kiếm dựa trên index, nên nếu
index không được cập nhật kể từ khi website chết thì các bộ máy tìm kiếm vẫn
xem như website đó vẫn còn tồn tại. Nó sẽ duy trì cho tới khi index được cập nhật
lại mới.
Tại sao khi bạn tìm kiếm cùng 1 vấn đề trên 2 bộ máy tìm kiếm
khác nhau lại cho ra kết quả khác nhau?
Câu trả lời là, bởi vì không phải tất cả
các chỉ số đều giống nhau hoàn toàn. Nó phụ thuộc vào các spiders sẽ tìm thấy
những thông tin gì trên website hoặc những gì các nhân viên cập nhật. Nhưng
quan trọng hơn là mỗi bộ máy tìm kiếm sử dụng các thuật toán khác nhau để tìm
kiếm thông qua các chỉ số.
Một trong những thành phần mà một thuật toán tìm kiếm sử dụng
là tần suất và vị trí xuất hiện của từ khóa trên trang web, tần suất cao hơn sẽ
được xem như thích hợp hơn.
Yếu tố phổ biến khác mà thuật toán phân tích là cách thức mà
các trang liên kết với các trang web khác trên Internet. Bằng cách phân
tích các trang web liên kết với nhau như thế nào, một bộ máy tìm kiếm có thể
xác định trang web thuộc lĩnh vực nào (nếu từ khóa của trang web được liên kết
giống với từ khóa của trang gốc) và trang web có được xem là quan trọng hay
không.
Bạn có biết…?
Công cụ tìm kiếm đầu tiên trên Internet được tạo ra năm 1990
là “Archie”. Nó download các danh sách thư mục của tất cả các file trên các FTP
server công cộng, tạo ra một database về filename để phục vụ cho việc tìm kiếm.
Một năm sau, “Gopher” được tạo ra. Nó index các tài liệu phain text. Bộ máy tìm
kiếm thực sự trên Web đươc phát triển bởi Matthew Gray năm 1993 và có tên là “Wandex”
Các khái niệm liên quan đến bộ máy tìm kiếm trên Internet
Spider trap
Là một điều kiện trên các website động khi mà các spider của
các bộ máy tìm kiếm bị mắc vào sẽ rơi vào một vòng lặp vô tận.
Search engine
Là một chương trình để tìm kiếm các tài liệu theo một từ
khóa xác định và trả về một danh sách các tài liệu khi các từ khóa được tìm thấy.
Meta tag
Là một thẻ đặc biệt của HTML để cung cấp thông tin về trang
web
Deep link
Là URL con của trang web, không phải là trang Home
Robot
Là chương trình chạy tự động để thu thập thông tin
về các website, sau đó gửi về trung tâm lưu trữ để phân tích, index …
Tác giả: Mr.Chau243 (theo webopedia)
Vui lòng ghi rõ nguồn Hỗ trợ SEO - www.hotroseo.com khi phát hành lại bài viết này
Nhận xét
Đăng nhận xét