Suchmaschinenoptimierung
Rankingfaktoren Yandex Leak
Ende Januar 2023 wurden Teile des Quellcodes der Suchmaschine Yandex veröffentlicht resp. geleaked. Dieses "Rankingfaktoren Yandex Leak", also die Veröffentlichung der Rankingfaktoren von Yandex verschaffen die einmalige Gelegenheit, generelle Mechanismen von Suchmaschinen näher untersuchen zu können.
Die Suchmaschine Yandex liegt weltweit auf Platz 4 bis 5 nach Seitenaufrufen. Der technische Aufbau ist zwar nicht deckungsgleich mit Google, dennoch ist die Systematik und Funktionsweise mit Google vergleichbar.
Die folgende Ergebnisse der Auswertung des Quellcodes sind, aus unserer Sicht, interessant.
Total 1922 Rankingfaktoren
Zuerst einmal ist die Anzahl von Rankingfaktoren sehr interessant; mit 1922 unterschiedlichen Faktoren ist sie erstaunlich hoch.
Davon sind ca. 400 aktiv im Einsatz. Die restlichen werden nicht (mehr) gebraucht.
Die von einem ehemaligen Mitarbeiter von Yandex veröffentlichten Files sind alle auf den 24. Februar 2022 datiert. Ob es sich um eine vollständige Liste handelt, ist aus unserer Sicht nicht ganz klar, schmälert aber nicht den Wert der Erkenntnisse aus dem Inhalt der Files.
Liste der wichtigsten Rankingfaktoren von Yandex
Aufgrund der Unterlagen lässt sich darauf schliessen, dass folgende vier Bereiche für die Gewichtung der Rankingfaktoren am wichtigsten sind:
Nutzersignale
Nutzersignale, wie Verweildauer, Absprungrate und Click-Through-Rate (CTR) und der Return-to-SERP-Rate ist ein von den vier wichtigsten Rankingfaktoren
Links
Der PageRank-Algorithmus gewichtet die Qualität der Links, Linktexte und das Alter.
Relevanz des Inhalts
Die Relevanz des Inhalts für die gesuchte Keyphrase wird hauptsächlich mit der Methode BM25 ermittelt.
BM25 ist eine Funktion, welche die Wahrscheinlichkeit der Relevanz von Inhalten für die gesuchten Keyphrasen berechnet. BM25 besteht wiederum aus über 33 Funktionen, wie z.B. Überschrift, Keyword im URL, Haupttext, Ankertext, Begriffsrelevanz-Sättigung, Längennormalisierung, Dokumentlänge, Termhäufigkeits-Normalisierung, usw.
Mehr Informationen über BM25 finden Sie in Wikipedia.
Qualitätsfaktor und Vertrauensfaktor
Für bestimmte Themen, wie z.B. Gesundheit, Finanzen und bei rechtlichen Fragen werden höhere Qualitätsanforderungen für ein hohes Ranking gesetzt, um eine vordere Platzierung im Suchergebnis erreichen zu können.
Auch der Host selber wird als Qualitätsmerkmal gelistet.
Weitere Erkenntnisse
Bestimmte höhere Gewichtungen von Seite, z.B. Wikipedia.org wurden bereits seit längerem vermutet. Auch dass technische Fehler, wie z.B. 400er und 500er Statuscode Fehler stark abgestraft werden, ist hiermit bestätigt worden. Ebenfalls ist die Servergeschwindigkeit, HTTPS-Verschlüsselung, Seitenaufbau und Seitengrösse usw. relevant für die Gewichtung.
Insgesamt ermöglicht der Leak einen interessanteen Einblick in die Funktionsweise einer Suchmaschine.
Liste von ausgesuchten YANDEX Rankingmerkmalen
PageRank
Die durchgesickerte Datei bestätigt, dass Yandex eine Form von PageRank als Ranking-Faktor verwendet, und angesichts der Tatsache, dass viele "Google"-Taktiken funktionieren, kann davon ausgegangen werden, dass der Yandex-PageRank auf ähnliche Weise wie der Google-PageRank funktioniert.
Es ist auch erwähnenswert, dass PageRank der erste erwähnte Rankingfaktor ist.
Penalization
Dies ist ein Punkt, auf den sich viele konzentriert haben. Nach unserer Interpretation wird der PageRank einer Seite auf Null reduziert, wenn sie bestraft wird (Penalization). Dies stimmt mit der alten Theorie überein, dass es sehr schwierig ist, sich zu erholen, wenn eine Website bei Yandex abgestraft wird.
Klicks und CTR sind ein Faktor (Nutzersignale)
Es ist seit langem bekannt, dass Klickmanipulationen bei Yandex effektiv sind. Der durchgesickerte Ranking-Faktor hat nun eine weitere Bestätigung geliefert. Harte Klicks, weiche Klicks, Absprungrate und Traffic auf der Website aus bestimmten Quellen werden ebenfalls erwähnt.
Die Gesamtleistung der Website wirkte sich auf einzelne Abfragen aus
Die durchschnittliche Leistung von URLs (und Webhosts) ist ein Ranking-Faktor, einschliessßlich der Anzahl der Anfragen für eine URL (und einen Webhost).
Probleme mit der URL-Struktur
Zusätzlich zu den spezifischen URL-fokussierten Ranking-Faktoren werden URL-Komponenten auch in über 100 Ranking-Faktoren getaggt. Einige der wichtigsten Überlegungen sind im Folgenden aufgeführt.
Negativ
Zu viele Schrägstriche am Ende werden als negativ angesehen.
Die Verwendung von Zahlen in der URL kann als negativ angesehen werden.
Positiv
Die URL enthält das Land oder die Stadt (GEO-Kennung), die dem Nutzer entspricht.
Die URL enthält eine Abfrage oder eine semantische Beziehung zu einer Abfrage.
Die Länge der URL scheint ein Faktor zu sein, der jedoch weder positiv noch negativ ist.
Es geht also darum, dass die URL einfach und möglichst auf die Suchanfrage ausgerichtet sein sollte.
Vorhersage der Anzahl von Produkten auf einer Seite
Yandex verwendet DSSM aus der URL und dem Seitentitel, um festzustellen, ob ein oder mehrere Produkte auf einer Webseite aufgeführt sind.
Der Wert der Seitenqualität in Yandex
Es gibt sieben Ranking-Faktoren, die sich auf die Seitenqualität beziehen, zwei lassen Experimente zur Seitenqualität aus, aber zwei liefern zusätzliche Informationen, z.B.
DSSM sagt die Seitenqualität eines Dokuments voraus
Qualität der Seite (Durchschnittswert), aggregiert nach Webhost
Andere Ranking-Faktoren in dem Papier zeigen auch, dass der Webhost eine Rolle spielt.
YMYL Faktoren
Insgesamt gibt es 15 Faktoren in den Bereichen "Your Money - Your Life", z.B. für Medizin, Finanzen und Recht.
TikTok
Einige Faktoren erwähnen Traffic und Links von TikTok. Es ist nicht hundertprozentig klar, ob diese umgesetzt worden sind.
Zuverlässigkeit des Webhost
Die Anzahl der fehlerhaften URLs auf der Domain (wahrscheinlich 5XX und 4XX) ist ein Indikator für die Qualität.
Metrika-Daten beeinflussen das Ranking
Das Durchsickern von Rankingfaktoren zeigt, dass Yandex Metrika-Daten das Ranking beeinflussen können.
Viele Beschreibungen verweisen einfach auf einen ähnlichen Mechanismus - ähnlich wie bei YabarUrlVisits. Dies hat seinen eigenen Ranking-Faktor, der als die Menge des Verkehrs von Yabar (in bar) beschrieben wird.
Und durch andere individuelle Rankingfaktoren sind die Metriken, die das Ranking beeinflussen, bekannt. Diese sind wie folgt.
Anzahl der Besucher (visitors) auf jeder URL
Anzahl der Besuche (visits) auf jeder URL
Durchschnittliche Verweildauer der Nutzer auf einzelnen URLs
Core Audience über Besucher von Webseiten mit metrischen Zählern (Kernpublikum)
Durchschnittliche Verweildauer auf dem Webhost eines Nutzers beim Fernzugriff (von Nicht-Such-Websites) von einer bestimmten URL aus
Durchschnittliche "Verweildauer" (Anzahl der Treffer im Webhost) der Nutzer beim Zugriff auf eine bestimmte URL von externen (nicht suchbasierten) Websites.
Dies zeigt auch, dass ein Zusammenhang mit der geschalteten Werbung auf der Suchmaschine besteht und die organischen Suchergebnisse beeinflusst werden können.
Alter der Links
Wie bereits vermutet, hat auch das Alter von Backlinks einen Einfluss auf die Gesamtwirkung von Links auf die Suchergebnisse.
Relevanzfaktoren in Text und Titel
Die Yandex Ranking-Faktoren geben auch einen guten Einblick, wie das Vorhandensein einer Suchanfrage im Text und im Titel eines Dokuments behandelt wird.
Keywords im Text und im Titel
Vorhandensein von Keywords im Text
Vorkommen von Keywords in Absätzen
Meta Keywords
Es ist auch erwähnenswert, dass IDF (Inverse Document Frequency) ebenfalls erwähnt wird.
BM25-Algorithmus für die Textanalyse
Der BM25-Algorithmus verwendet 33 verschiedene Rankingfaktoren für die Textanalyse.
Die folgende Beschreibung des BM25 ist Wikipedia entnommen:
Im Information Retrieval ist Okapi BM25 (BM steht für bestes Matching) eine Ranking-Funktion, die von Suchmaschinen verwendet wird, um die Relevanz eines Dokuments für eine bestimmte Suchanfrage zu bewerten, von Stephen E. Robertson und Karen Spärck Jones et al. Es basiert auf dem probabilistischen Suchrahmen, der in den 1970er und 1980er Jahren entwickelt wurde.
Der offizielle Name Okapi BM25 beinhaltet den Namen des Systems, das zuerst von Okapi verwendet wurde, einem Information-Retrieval-System, das in den 1980er und 1990er Jahren an der City University of London implementiert wurde; BM25 und die neue Version BM25F (die in der BM25-Version die Dokumentstruktur und den Ankertext berücksichtigen kann) und andere stellen Suchfunktionen dar, die der TF-IDF ähneln, die für das Dokument-Retrieval verwendet wird.
Geschaltete Werbung in Yandex (Ads) und allgemeine Werbung
Das Vorhandensein von Yandex-Werbung und Werbung im Allgemeinen sind zwei unterschiedliche Rankingfaktoren.
Diese Erklärung sagt nichts darüber aus, ob das Vorhandensein oder Fehlen von allgemeinen oder Yandex-Anzeigen gut oder schlecht ist, sondern nur, dass es in irgendeiner Weise wichtig ist.
Yandex prüft auch aktiv, ob eine Website Werbung für nicht jugendfreie Inhalte enthält.
Einfluss von Tageszeit und Wochentag
Es werden zehn Faktoren aufgeführt, die zeigen, dass die Tageszeit und der Wochentag das Ranking beeinflussen.
Wenn Sie um 11 Uhr vormittags nach [Restaurants in der Nähe] suchen, ist es sinnvoll, lokalisierte und kartierte Ergebnisse zu liefern, die zur Mittagszeit geöffnet sind/bald öffnen, Artikel mit Bewertungen zur Mittagszeit und eine Mischung von Artikeln zum Abendessen.
Wenn die gleiche Suche um 16 Uhr durchgeführt wird, sind die Ergebnisse zum Mittagessen nicht mehr so relevant, so dass die Restaurants und die lokalisierten Ergebnisse auf der Karte in den SERPs für die Nutzer besser sind, wenn sie für das Abendessen relevant sind.
Identifikatoren für bestimmte Standorte
Es gibt Kennungen für bestimmte Websites, wie Wikipedia oder Vkontakte. Das bedeutet, dass diese Websites in den Suchergebnissen als eigene Quellenart behandelt werden und (bis zu einem gewissen Grad) fast ihre eigenen Regeln haben.
Quellenangaben
Arseniy Yshestakov - Yandex Service Source Code Leak
Indian Express - Yandex Code Leak
https://breached.vc/Thread-yandex-git-sources