Indeksowanie stron

techniczna nazwa procesu informatycznego, którego celem jest utworzenie wydajnej bazy dany

Indeksowanie stron – proces analizy dokumentów dostępnych w World Wide Web (np. w formatach HTML, PDF) przez specjalny program komputerowy nazywany robotem indeksującym. Polega na gromadzeniu danych o występujących w dokumentach wyrazach i innych treściach (np. grafikach), które umieszcza się w wydajnych bazach danych umożliwiających późniejsze szybkie wyszukiwanie wyrazów i fraz bez konieczności ponownego analizowania i przeszukiwania źródłowych dokumentów. To dzięki indeksowaniu wyszukiwarka internetowa może podać wynik przeszukiwania miliardów dokumentów w bardzo krótkim czasie[1].

Robot indeksujący porusza się po stronach internetowych na wiele sposobów. Na konkretny adres URL program może trafić przy pomocy linków. W przypadku wyszukiwarki Google możliwa jest także implementacja mapy witryny do narzędzia Google Search Console. Wówczas robot indeksujący odwiedza witrynę, analizuje ją i pobiera zasoby do indeksu. Następnie strona internetowa może wyświetlać się w wynikach wyszukiwania. Jeżeli adres URL nie zostanie zaindeksowany, konkretna podstrona nie będzie wyświetlana na zapytanie użytkownika[2].

Blokowanie indeksowania edytuj

Nie każdy adres URL w obrębie domeny powinien być indeksowany przez wyszukiwarkę. Przykładem są koszyki w sklepach internetowych, a także zasoby wyświetlane dopiero po zalogowaniu na konkretny portal internetowy. Dlatego administrator domeny może zablokować indeksowanie wybranych adresów URL. W tym celu umieszcza się w sekcji <head> strony internetowej atrybut noindex.

Robot indeksujący może być również poinformowany o tym, aby nie indeksować danego adresu URL przy pomocy pliku robots.txt[3].

Zobacz też edytuj

Przypisy edytuj

  1. Wprowadzenie do indeksowania | Centrum wyszukiwarki Google | Dokumentacja [online], Google Developers [dostęp 2022-06-21] (pol.).
  2. Co to jest mapa witryny | Centrum wyszukiwarki Google | Dokumentacja [online], Google Developers [dostęp 2022-06-21] (pol.).
  3. Robots.txt – Everything SEOs Need to Know [online], Deepcrawl [dostęp 2022-06-21] (ang.).