Robots Meta Tag i X-Robots-Tag: wszystko, co musisz wiedzieć

Prowadzenie wyszukiwarek w celu przeszukiwania i indeksowania Twojej witryny internetowej tak, jak chcesz, może być trudnym zadaniem. Chociaż plik robots.txt zarządza dostępnością treści dla robotów indeksujących, nie informuje ich, czy powinny one indeksować zawartość, czy nie.

Do tego służą metatagi robots i nagłówek HTTP x ‑ robots-tag.

Zacznijmy od jednej rzeczy. Nie możesz kontrolować indeksacji za pomocą pliku robots.txt. To powszechne nieporozumienie.

Zasada noindex w pliku robots.txt nigdy nie była oficjalnie obsługiwana przez Google. W lipcu 2019 roku został oficjalnie wycofany.

Metatag robots to fragment kodu HTML, który informuje wyszukiwarki, jak przeszukiwać lub indeksować określoną stronę. Jest umieszczony w sekcji strony internetowej i wygląda następująco:

Dlaczego metatag robots jest ważny dla SEO?

Metatag robots jest powszechnie używany do zapobiegania wyświetlaniu stron w wynikach wyszukiwania, chociaż ma też inne zastosowania (więcej o nich później).

Istnieje wiele typów treści, których indeksowanie może nie być zalecane:

  • Cienkie strony o niewielkiej lub żadnej wartości dla użytkownika;
  • Strony w środowisku przejściowym;
  • Strony administracyjne i strony z podziękowaniami;
  • Wyniki wyszukiwania wewnętrznego;
  • Strony docelowe PPC;
  • Strony o nadchodzących promocjach, konkursach lub premierach produktów;
  • Zduplikowana treść (użyj tagów kanonicznych, aby zasugerować najlepszą wersję do indeksowania);
  • Ogólnie rzecz biorąc, im większa jest Twoja witryna, tym bardziej będziesz zajmować się zarządzaniem indeksowaniem i indeksowaniem. Chcesz również, aby Google i inne wyszukiwarki indeksowały i indeksowały Twoje strony tak wydajnie, jak to tylko możliwe. Prawidłowe połączenie dyrektyw na poziomie strony z plikiem robots.txt i mapami witryn ma kluczowe znaczenie dla SEO.

    Jakie są wartości i atrybuty metatagu robots?

    Metatagi robotów składają się z dwóch atrybutów: nazwy i treści .

    Państwo musi określić wartości dla każdego z tych atrybutów. Przyjrzyjmy się, co to jest.

    W imię wartości atrybutów i User-Agent

    W imię Określa atrybut, który roboty powinny być zgodne z poniższymi instrukcjami. Ta wartość jest również nazywana klientem użytkownika (UA), ponieważ roboty indeksujące muszą być identyfikowane za pomocą UA, aby zażądać strony. Twoja UA odzwierciedla przeglądarkę, której używasz, ale klienty użytkownika Google to na przykład Googlebot lub Googlebot-image.

    Wartość UA „robots” dotyczy wszystkich robotów. Możesz także dodać do sekcji dowolną liczbę metatagów robotów. Na przykład, jeśli chcesz zapobiec wyświetlaniu obrazów w wyszukiwarce obrazów Google lub Bing, dodaj następujące metatagi:

    W atrybutach nazwy i zawartości wielkość liter nie jest rozróżniana. Atrybuty „Googlebot-Image”, „msnbot-media” i „Noindex” również działają w przypadku powyższych przykładów.

    Zawartość atrybutu i pełzające dyrektyw / indeksujące

    Zawartość atrybut zawiera instrukcje dotyczące pełzać i informacje na stronie indeksu. Jeśli nie ma dostępnego metatagu robotów, roboty interpretują go jako indeks i śledzą. To daje im uprawnienia do wyświetlania strony w wynikach wyszukiwania i indeksowania wszystkich linków na stronie (chyba że określono inaczej w tagu rel = ”nofollow”).

    Poniżej przedstawiono obsługiwane wartości atrybutu content przez Google:

    wszystko

    Domyślna wartość „index, follow”, nie ma potrzeby używania tej dyrektywy.

    noindex

    Instruuje wyszukiwarki, aby nie indeksowały strony. To zapobiega wyświetlaniu go w wynikach wyszukiwania.

    nofollow

    Uniemożliwia robotom indeksowanie wszystkich linków na stronie. Należy pamiętać, że te adresy URL nadal mogą być indeksowane, zwłaszcza jeśli mają skierowane do nich linki wsteczne.

    Żaden

    Połączenie noindex, nofollow . Unikaj używania tego, ponieważ inne wyszukiwarki (np. Bing) tego nie obsługują.

    noarchive

    Uniemożliwia Google wyświetlanie kopii strony z pamięci podręcznej w SERP.

    nie ma tłumaczenia

    Uniemożliwia Google oferowanie tłumaczenia strony w SERP.

    noimageindex

    Uniemożliwia Google indeksowanie obrazów osadzonych na stronie.

    niedostępny_after:

    Informuje Google, aby nie wyświetlał strony w wynikach wyszukiwania po określonej dacie / godzinie. Zasadniczo dyrektywa noindex z licznikiem czasu. Datę / godzinę należy podać w formacie RFC 850.

    nosnippet

    Rezygnuje ze wszystkich fragmentów tekstu i wideo w SERP. Działa również jako noarchive w tym samym czasie.

    Od października 2019 roku Google oferuje bardziej szczegółowe opcje kontrolowania, czy i jak chcesz wyświetlać fragmenty w wynikach wyszukiwania. Wynika to po części z europejskiej dyrektywy dotyczącej praw autorskich, która została po raz pierwszy wdrożona przez Francję wraz z nowym prawem autorskim.

    Co najważniejsze, przepisy te dotyczą już wszystkich właścicieli witryn. W jaki sposób? Ponieważ Google nie wyświetla już fragmentów (tekstu, obrazów ani wideo) z Twojej witryny użytkownikom we Francji, chyba że zdecydujesz się na korzystanie z ich nowych metatagów robots.

    Poniżej omówimy, jak działa każdy z tych nowych tagów. To powiedziawszy, jeśli dotyczy to Twojej firmy i szukasz szybkiego rozwiązania, dodaj następujący fragment kodu HTML do każdej strony w witrynie, aby poinformować Google, że nie chcesz żadnych ograniczeń dla swoich fragmentów:

    Zwróć uwagę, że jeśli używasz Yoast SEO, ten fragment kodu jest dodawany automatycznie na każdej stronie, chyba że dodałeś dyrektywy noindex lub nosnippet .

    max-snippet:

    Określa maksymalną liczbę znaków, które Google może wyświetlać we fragmentach tekstu. Użycie 0 spowoduje rezygnację z fragmentów tekstu, -1 oznacza brak ograniczeń w podglądzie tekstu.

    Następujący tag ustawi limit do 160 znaków (podobnie jak w przypadku standardowej długości opisu meta):

    max-image-preview:

    Informuje Google, czy i jak duży obraz może wykorzystać jako fragmenty obrazu. Ta dyrektywa ma trzy możliwe wartości:

  • none, nie będzie wyświetlany żaden fragment obrazu
  • standard – może zostać wyświetlony domyślny podgląd obrazu
  • duży – może zostać wyświetlony największy możliwy podgląd obrazu
  • max-video-preview:

    Ustawia maksymalną liczbę sekund dla fragmentu wideo. Podobnie jak w przypadku fragmentu tekstu, 0 spowoduje całkowitą rezygnację, -1 oznacza brak ograniczeń.

    Następujący tag pozwoliłby Google wyświetlić maksymalnie 15 sekund:

    krótka uwaga na temat używania atrybutu HTML data-nosnippet

    Oprócz nowych dyrektyw dotyczących robotów wprowadzonych w październiku 2019 r., Google wprowadził również atrybut HTML data-nosnippet. Możesz użyć tego do oznaczenia fragmentów tekstu, których Google nie ma używać jako fragmentów.

    Można to zrobić w HTML na elementach div, span i section. Data-nosnippet jest uważana za atrybut logiczny, co oznacza, że ​​jest poprawna z wartością lub bez niej.

    To jest tekst w akapicie, który można wyświetlić jako fragment z wyłączeniem tej części

    Korzystanie z tych dyrektyw

    Większość SEO nie musi wychodzić poza dyrektywy noindex i nofollow, ale dobrze jest wiedzieć, że są też inne opcje. Pamiętaj, że wszystkie wymienione powyżej dyrektywy są obsługiwane przez Google.

    Sprawdźmy porównanie z Bing:

    Dyrektywa Google Bing
    wszystko
    noindex
    nofollow
    Żaden
    noarchive
    nosnippet
    max-snippet:
    max-image-preview:
    max-video-preview:
    nie ma tłumaczenia
    noimageindex
    niedostępny_after:

    Możesz używać wielu dyrektyw jednocześnie i łączyć je. Ale jeśli są w konflikcie (np. „Noindex, index”) lub jeden jest podzbiorem innego (np. „Noindex, noarchive”), Google użyje najbardziej restrykcyjnego. W takich przypadkach będzie to po prostu „noindex”.

    Dyrektywy dotyczące fragmentów mogą zostać zastąpione przez uporządkowane dane, które pozwalają Google na wykorzystanie dowolnych informacji w adnotacji. Jeśli chcesz uniemożliwić Google wyświetlanie fragmentów, odpowiednio dostosuj adnotację i upewnij się, że nie masz żadnej umowy licencyjnej z Google.

    Możesz również natknąć się na dyrektywy specyficzne dla innych wyszukiwarek. Przykładem może być „noyaca”, która uniemożliwia Yandex używanie własnego katalogu do generowania fragmentów wyników wyszukiwania.

    Inne mogły być przydatne i używane w przeszłości, ale są już przestarzałe. Na przykład, dyrektywa „noodp” została użyta, aby uniemożliwić wyszukiwarkom korzystanie z Open Directory Project do generowania fragmentów.

    Jak skonfigurować metatag robots

    Teraz, gdy wiesz już, jak działają i jak wyglądają te wszystkie dyrektywy, czas przejść do faktycznej implementacji w Twojej witrynie.

    Metatagi robotów należą do sekcji strony. Jest to całkiem proste, jeśli edytujesz kod za pomocą edytorów HTML, takich jak Notepad ++ lub Brackets. Ale co, jeśli używasz CMS z wtyczkami SEO?

    Skoncentrujmy się na najpopularniejszej opcji.

    Wdrażanie metatagów robotów w WordPress przy użyciu Yoast SEO

    Przejdź do sekcji „Zaawansowane” poniżej bloku edycji każdego posta lub strony. Skonfiguruj metatag robots zgodnie ze swoimi potrzebami. Poniższe ustawienia implementują dyrektywy „noindex, nofollow”.

    Wiersz „Meta robots advanced” umożliwia implementację dyrektyw innych niż noindex i nofollow , takich jak noimageindex .

    Możesz też zastosować te dyrektywy w całej witrynie. Przejdź do opcji „Wygląd w wyszukiwarce” w menu Yoast. Możesz tam ustawić metatagi robotów na wszystkich postach, stronach lub tylko w określonych taksonomiach lub archiwach.

    Yoast nie jest jedynym sposobem kontrolowania metatagów robotów w WordPress. Istnieje wiele innych wtyczek SEO WordPress o podobnej funkcjonalności.

    Co to jest tag X-Robots?

    Metatag robots nadaje się do implementowania dyrektyw noindex na stronach HTML tu i tam. Ale co, jeśli chcesz uniemożliwić wyszukiwarkom indeksowanie plików, takich jak obrazy lub pliki PDF? To wtedy wchodzą do gry tagi x-robots-tags.

    X-Robots-Tag to nagłówek HTTP wysłany z serwera WWW. W przeciwieństwie do metatagu robots, nie jest on umieszczony w kodzie HTML strony. Oto jak to może wyglądać:

    Sprawdzanie nagłówków HTTP jest nieco bardziej skomplikowane. Możesz to zrobić w stary sposób w Narzędziach dla programistów lub użyć rozszerzenia przeglądarki, takiego jak „Live HTTP Headers”.

    Rozszerzenie Live HTTP Headers monitoruje cały ruch HTTP (S) wysyłany przez Twoją przeglądarkę (nagłówki żądań) i odbierany (nagłówki odpowiedzi). Jest przechwytywany na żywo, więc upewnij się, że wtyczka jest aktywna. Następnie przejdź do strony lub pliku, który chcesz sprawdzić, i sprawdź, czy wtyczka zawiera dzienniki. To wygląda tak:

    Jak skonfigurować X ‑ Robots-Tag

    Konfiguracja zależy od typu używanego serwera WWW oraz stron lub plików, które mają pozostać poza indeksem.

    Linia kodu wygląda następująco:

    Zestaw nagłówków X-Robots-Tag „noindex”

    W tym przykładzie uwzględniono najbardziej rozpowszechniony typ serwera – Apache. Najbardziej praktycznym sposobem dodania nagłówka HTTP jest modyfikacja głównego pliku konfiguracyjnego (zwykle httpd.conf ) lub plików .htaccess . Brzmi znajomo? To jest miejsce, w którym zdarzają się również przekierowania.

    Używasz tych samych wartości i dyrektyw dla tagu x ‑ robots-tag co metatag robots. To powiedziawszy, wprowadzenie tych zmian należy pozostawić doświadczonym. Kopie zapasowe są Twoimi przyjaciółmi, ponieważ nawet mały błąd składni może zepsuć całą witrynę.

    Jeśli korzystasz z sieci CDN obsługującej aplikacje bezserwerowe dla Edge SEO, możesz modyfikować zarówno metatagi robotów, jak i X ‑ Robots-Tags na serwerze granicznym, bez wprowadzania zmian w podstawowej bazie kodu.

    Kiedy używać metatagu robots, a kiedy x ‑ robots-tag?

    Chociaż dodanie fragmentu kodu HTML wygląda na najłatwiejszą i najprostszą opcję, w niektórych przypadkach jest nieskuteczna.

    Pliki inne niż HTML

    Nie możesz umieścić fragmentu kodu HTML w plikach innych niż HTML, takich jak pliki PDF lub obrazy. X-Robots-Tag to jedyny sposób.

    Poniższy fragment kodu (na serwerze Apache) skonfigurowałby nagłówki HTTP noindex we wszystkich plikach PDF w witrynie.

    Stosowanie dyrektyw na dużą skalę

    Jeśli chcesz zindeksować całą (pod) domenę, podkatalog, strony z określonymi parametrami lub cokolwiek innego, co wymaga edycji zbiorczej, użyj tagów x-robots-tags. To jest łatwiejsze.

    Ruch z wyszukiwarek innych niż Google

    Google obsługuje zarówno metatagi robots, jak i x ‑ robots-tags, ale nie dotyczy to wszystkich wyszukiwarek.

    Na przykład Seznam, czeska wyszukiwarka obsługuje tylko metatagi robotów. Jeśli chcesz kontrolować sposób, w jaki ta wyszukiwarka przeszukuje i indeksuje Twoje strony, używanie tagów x-robots-tagów nie będzie działać. Musisz użyć fragmentów HTML.

    Jak uniknąć błędów związanych z indeksowaniem i (de) indeksacją

    Chcesz wyświetlać wszystkie wartościowe strony, unikać powielania treści, problemów i nie umieszczać określonych stron w indeksie. Jeśli zarządzasz ogromną witryną, kolejną rzeczą, na którą należy zwrócić uwagę, jest zarządzanie budżetem indeksowania.

    Przyjrzyjmy się najczęściej popełnianym przez ludzi błędom dotyczącym dyrektyw robotów.

    Błąd 1: dodawanie dyrektyw noindex do stron niedozwolonych w pliku robots.txt

    Nigdy nie blokuj indeksowania treści, które próbujesz usunąć z indeksu w pliku robots.txt. Uniemożliwia to wyszukiwarkom ponowne zindeksowanie strony i wykrycie dyrektywy noindex.

    Jeśli uważasz, że mogłeś popełnić ten błąd w przeszłości, przeszukaj swoją witrynę za pomocą Audytu witryny Ahrefs. Poszukaj stron z błędem „Strona Noindex otrzymuje ruch bezpłatny”.

    Brak zindeksowanych stron, które otrzymują ruch organiczny, są nadal wyraźnie indeksowane. Jeśli niedawno nie dodałeś tagu noindex, prawdopodobnie jest to spowodowane blokadą indeksowania w pliku robots.txt. Sprawdź, czy nie występują problemy i odpowiednio je napraw.

    Błąd 2: złe zarządzanie mapami witryn

    Jeśli próbujesz deindeksować zawartość za pomocą metatagu robots lub x ‑ robots-tag, nie usuwaj jej z mapy witryny, dopóki nie zostanie pomyślnie deindeksowana. W przeciwnym razie ponowne indeksowanie strony przez Google może być wolniejsze.

    @nishanthstephen ogólnie wszystko, co umieścisz w mapie witryny, zostanie odebrane wcześniej – Gary „鯨 理” Illyes (@methode) 13 października 2015

    Aby potencjalnie przyspieszyć proces deindeksowania, ustaw datę ostatniej modyfikacji w mapie witryny na datę dodania tagu noindex. Zachęca to do ponownego przeszukiwania i ponownego przetwarzania.

    Inną sztuczką, którą możesz zrobić, jest przesłanie pliku mapy witryny z datą ostatniej modyfikacji, w której 404 chcesz zachęcić do ponownego indeksowania i ponownego przetwarzania. – ???? John ???? (@JohnMu) 16 stycznia 2017

    John mówi tutaj o 404 stronach. To powiedziawszy, zakładamy, że ma to również sens w przypadku innych zmian, takich jak dodanie lub usunięcie dyrektywy noindex.

    Nie uwzględniaj stron bez indeksów w mapie witryny na dłuższą metę. Po deindeksowaniu treści usuń ją z mapy witryny.

    Jeśli obawiasz się, że stara, pomyślnie deindeksowana treść może nadal istnieć w Twojej mapie witryny, sprawdź błąd „Mapa witryny strony Noindex” w Audycie witryny Ahrefs.

    Błąd 3: nieusuwanie dyrektyw noindex ze środowiska produkcyjnego

    Uniemożliwienie robotom przeszukiwania i indeksowania czegokolwiek w środowisku pomostowym jest dobrą praktyką. Czasami jednak zostaje wepchnięty do produkcji, zapomniany, a ruch organiczny spada.

    Co gorsza, organiczny spadek ruchu może nie być tak zauważalny, jeśli bierzesz udział w migracji witryny przy użyciu przekierowań 301. Jeśli nowe adresy URL zawierają dyrektywę noindex lub są niedozwolone w pliku robots.txt, przez pewien czas nadal będziesz otrzymywać ruch organiczny ze starych. Odindeksowanie starych adresów URL może zająć Google nawet kilka tygodni.

    Ilekroć pojawią się takie zmiany w Twojej witrynie, miej oko na ostrzeżenia „Strona Noindex” w Audycie witryny Ahrefs:

    Aby zapobiec podobnym problemom w przyszłości, uzupełnij listę kontrolną zespołu programistów o instrukcje usuwania reguł zakazu z pliku robots.txt i dyrektyw noindex przed przekazaniem do wersji produkcyjnej.

    Błąd 4: dodawanie „tajnych” adresów URL do pliku robots.txt zamiast ich bezindeksowania

    Programiści często próbują ukryć strony o nadchodzących promocjach, rabatach lub premierach produktów, uniemożliwiając dostęp do nich w pliku robots.txt witryny. Jest to zła praktyka, ponieważ ludzie nadal mogą wyświetlać plik robots.txt. W związku z tym te strony łatwo wyciekają.

    Aby rozwiązać ten problem, nie umieszczaj „tajnych” stron w pliku robots.txt i nie używaj ich zamiast indeksowania.

    Końcowe przemyślenia

    Prawidłowe zrozumienie i zarządzanie pobieraniem i indeksowaniem Twojej witryny jest podstawą SEO. Techniczne SEO może być dość skomplikowane, ale metatagi robotów nie mają się czego obawiać.

    Mam nadzieję, że jesteś teraz przygotowany do zastosowania najlepszych praktyk w zakresie długoterminowych rozwiązań na dużą skalę.

    Daj mi znać na Twitterze lub w komentarzach, jeśli masz jakieś pytania.

    Marek Dąbrowski
    Marek Dąbrowski
    Specjalista ds. promocji
    - SEO Blog