Robot indeksujący (web crawler)

CIDEPIX

Roboty indeksujące gromadzą informacje na temat witryn, pełniąc tym samym ważną rolę w ich indeksowaniu. Są wykorzystywane przez wyszukiwarki internetowe. Warto wiedzieć, że działanie robotów indeksujących można kontrolować.

Czym są roboty indeksujące?

Roboty indeksujące wykorzystywane są przez wyszukiwarki do zbierania informacji na temat stron internetowych. Web crawler sprawdza zarówno strukturę i kod strony, jak i jej zawartość oraz aktualizacje. Dodatkowo roboty mogą tworzyć kopie stron, tzw. mirrory.

Informacje uzyskane w czasie „crawlowania” są wykorzystywane do określania wartości strony dla użytkownika, a tym samym ustalaniu pozycji witryny w wyszukiwarce.

Nie oznacza to jednak, że każda strona sprawdzona przez robot zostanie umieszczona w wynikach wyszukiwania.

Pracę robota indeksującego w witrynie można kontrolować, umieszczając plik tekstowy robots.txt lub korzystając z tagu meta. Plik robots.txt jest sprawdzany przez web crawler w pierwszej kolejności. Z tego powodu warto umieścić w nim dyrektywy, która przekierują jego działania na podstrony istotne z punktu pozycjonowania strony i jednocześnie zablokować dostęp do mniej ważnych podstron.

Przykłady robotów indeksujących

Ze względu na ważną funkcję w procesie indeksowania stron, roboty wykorzystywane są przede wszystkim przez wyszukiwarki. Każda z nich posiada najczęściej własnego crawlera. Wyróżnić można robota MSN, Bing czy Yahoo!.

Najbardziej znany robot indeksujących należy do Google. Web crawler o nazwie Googlebot przechodzi między stronami za pomocą umieszczonych na nich linków. Web crawler wyszukiwarki Google indeksuje strony za pomocą dwóch technik – techniki deep crawl oraz fresh crawl. Pierwsza z metod wykorzystywana jest średnio co miesiąc. Za każdym razem robot odwiedza wszystkie odnośniki znajdujące się na stronie i dodaje je do indeksu. Celem techniki fresh crawl jest natomiast sprawdzenie aktualności na stronach internetowych. W takim przypadku odwiedzane są strony najczęściej odświeżane.

Dodaj komentarz

Twój adres email nie zostanie opublikowany.