Fünf Sterne oder Daumen hoch? Wann du welches Bewertungssystem nutzen solltest
Bewertungssysteme sind gut für die Plattform, die die Bewertungsmöglichkeit stellt und für die Person, die die Bewertung vornimmt. Denn anhand der Bewertung lässt sich feststellen, wie ein Angebot potenziellen oder bestehenden Kunden gefällt, und davon haben beide Seiten etwas. Für den Nutzer ist der Deal dabei, dass ihm die Plattform künftig mehr von dem, was ihm gefällt und weniger von dem, was ihm nicht gefällt, vorschlagen wird. Plattformbetreiber werden damit aber nicht nur in die Lage versetzt, die passenden Angebote zu machen.
Vielmehr haben die Bewertungen für die Plattform durchaus eigene Vorteile. So kann sie etwa besonders beliebte Produkte auch innerhalb der Gruppe der umsatzstarken Produkte besser ranken oder ganz allgemein Forschungsdaten erheben, die sich nutzen und sogar vermarkten lassen. Der Nutzer, Kunde, Leser freut sich über gute Vorschläge, die häufig auch auf Produkte hinweisen, die zuvor noch nicht im Fokus des Nutzers standen.
In der Vergangenheit setzten gefühlte 100 Prozent der Marken, die mit Bewertungssystemen arbeiten, auf das Sterne-System. Hier wird eine Bewertung in der Form vorgenommen, dass der Bewerter einem Produkt eine bestimmte Zahl von Sternen zuweist. Die Zahl der möglichen Sterne schwankt zwischen fünf und zehn, wobei sich die meisten Systeme, die aktuell noch mit Sternen arbeiten, inzwischen auf fünf reduzieren. Fünf Sterne erlauben eine balancierte Bewertung mit der Drei als Durchschnittsvotum und zwei besseren sowie zwei schlechteren Optionen.
Neben den Sterne-Bewertungen setzt sich immer mehr die klare Bewertung mit zwei Alternativen, nämlich „Daumen hoch” oder „Daumen runter” oder Derivate davon durch. Auch die Sterne-Bewertung gibt es in Varianten, etwa mit Emojis statt Sternen. So soll das Icon an sich schon eine Bewertung nahelegen. Im Urlaubskontext oder im politischen Raum werden Bewertungen häufig nach dem Muster „Stimme voll zu“, „Stimme nicht zu“ und so weiter vorgenommen. Häufig wird auch der Grad der Zufriedenheit nach einer festgelegten Skala abgefragt.
Unter dem Gesichtspunkt der Benutzererfahrung sind die verschiedenen Bewertungssysteme nicht eindeutig als gut oder schlecht zu klassifizieren. Es kommt immer darauf an, was mit dem System erreicht werden soll.
Der Trend geht zum Daumen-System
Jahrelang setzte Netflix auf das Sterne-Bewertungssystem. Jetzt wechselten die Film-Provider auf die klarere Methode des „Daumen hoch/Daumen runter“. Netflix begründet diesen Schritt damit, dass das neue System in A/B-Tests eine um 200 Prozent höhere Interaktionsrate erzielen konnte als das vormalige.
Mit einer etwas nahrhafteren Begründung hat der Video-Riese Youtube schon weit früher Abschied vom Sterne-System genommen. Dort konnte nachgewiesen werden, dass im Grunde ohnehin nur die Maximal- und – weit seltener – die Minimalwertung vergeben wurden. Das führte letztlich dazu, dass die meisten Videos als ganz toll gekennzeichnet waren, was die Aussagekraft der Bewertungen verpuffen ließ. Mit dieser sehr simplen Grafik erläuterte Youtube die Problematik:
Das Phänomen ist als J-Kurve bekannt geworden und hat mehrere Dimensionen, wobei Psychologie stets eine Rolle spielt. Generell bewerten Personen mit größter Wahrscheinlichkeit Produkte nur in zwei Fällen: Entweder sie sind begeistert oder zutiefst enttäuscht. Sind sie indes lediglich zufrieden, finden das Produkt ganz okay oder entspricht es nur voll und ganz den Erwartungen, so ist die Chance, dass eine Bewertung abgegeben wird, minimal.
Dazu kommt, dass wir alle in der Schule jahrelang mit Bewertungssystemen gequält wurden. Dabei haben wir gelernt, dass alles unterhalb einer Zwei eigentlich schlecht ist. Selbst wenn wir uns am Ende gezwungenermaßen mit einer Drei oder einer Vier abfinden mussten, blieb die Konditionierung doch bestehen. Davon zeugt die folgende Illustration der Seite XKCD:
Der Trend geht daher generell zum einfachen Daumen-System. Hier haben wir genau zwei Alternativen: Ja oder nein, gut oder schlecht, hot oder not, lieben oder hassen. Damit kann jeder etwas anfangen und muss nicht lange nachdenken. Das Daumen-System ist emotional gesteuert, während das Sterne-System Differenzierung erfordert. Ist das Produkt jetzt sehr gut oder nur gut oder doch eher befriedigend?
Ist das Sterne-System damit dem Untergang geweiht? Nein, es ist in manchen Bereichen die beste Alternative, in den meisten jedoch nicht. In allen Bereichen, in denen klar aus zwei Alternativen gewählt werden kann, wie etwa der Bewertung eines Songs wie hier auf Deezer, sollte das auch erfolgen:
Auf Youtube ergibt es ebenso wenig Sinn, ein komplizierteres Verfahren zu wählen. Das wird besonders deutlich, wenn wir als Beispiel eines der wohl polarisierendsten Videos der jüngeren Vergangenheit wählen:
Die Domäne der 5-Sterne-Bewertungen
Geht es hingegen um komplexere Produkte wie Waschmaschinen, Smartphones, Möbel und so weiter, reicht das simple Daumen-System nicht aus. Hier fehlt es an Differenzierung. Deshalb setzen große Marktplätze wie Amazon oder Otto.de nach wie vor auf eine Kombination aus Fünf-Sterne-Bewertung plus Rezension. Die angehängte Rezension erlaubt es, die gewählte Sternezahl genauer zu erläutern: Welche Aspekte haben sich wie auf die Bewertung ausgewirkt?
Durch die Vielzahl an zu lesenden Rezensionen ergibt sich allerdings ebenfalls ein Problem. Denn das Sterne-System reflektiert meist nicht gezielt die Punkte, die individuelle Kunden womöglich an einer Waschmaschine interessieren. Also suchen diese Kunden mühsam in den Rezensionstexten nach diesem Merkmal, etwa der Waschleistung oder der Stromaufnahme.
Kollege Jochen Fuchs stellte vor wenigen Tagen hier bei t3n das verbesserte System vor, mit dem Otto.de ebendiese Probleme beseitigen will. Mit Hilfe von Technologien aus dem Bereich der künstlichen Intelligenz strukturiert Otto.de die Kundenrezensionen und erlaubt die Suche nach eben jenen erwähnten Merkmalen, ohne dabei auf das Sterne-System zu verzichten.
Amazon versucht, das Problem dadurch zu lindern, dass wiederum die Rezensionen bewertet werden können, dann aber nur noch unter dem Aspekt „Hilfreich: ja/nein“. Zudem ist es möglich, die Kommentare zu kommentieren. Ottos Ansatz ist da weitaus fortschrittlicher und für den potenziellen Kunden zeitsparender.
Neben der differenzierten Bewertung komplexer Produkte gibt es einen weiteren Anwendungsfall, in dem das Sterne-System seine Berechtigung hat – nämlich immer da, wo sich User gegenseitig bewerten, um die Transaktionsqualität zu beschreiben. Hier verstehen die Nutzer in aller Regel, dass es von Bedeutung ist, klar und gezielt zu differenzieren, um den Nutzen für andere Teilnehmer hochzuhalten.
Der größte Marktplatz der Welt, nämlich Ebay, setzt zwar nicht auf das Sterne-System, bietet aber mit einer reduzierten Wahlmöglichkeit auf „positiv“, „neutral“ und „negativ“ ebenfalls die Möglichkeit der hinreichenden Differenzierung.
Varianten für bestimmte Zwecke
Soll mit der Bewertung eine bestimmte Emotion abgefragt werden, werden häufig Emoji-Skalen eingesetzt. Der Vorteil daran ist, dass das Emoji selber schon erklärt, wofür es steht. Der Ansatz ist sehr spielerisch und daher besonders für das jüngere Publikum geeignet.
Ebenso können natürlich Varianten gebildet werden, die Zufriedenheit oder Zustimmung graduell abbilden. Einiger Beliebtheit erfreuen sich in jüngster Zeit beispielsweise Bewertungssysteme auf Slider-Basis. Hier wird auf einer Schiebeskala der entsprechende Wert gewählt.
Schlussendlich ist das omnipräsente „Gefällt mir” auf diversen sozialen Medien, wie etwa Facebook und Twitter, auch eine Form eines Bewertungssystems. Um den Charakter eines sozialen Netzwerks nicht zu gefährden, besteht hier die Wahlmöglichkeit zumeist nur darin, das Gefallen an einem Post auszudrücken. Für die kommunikative Zielsetzung dieser Plattformen reicht das völlig.
Fazit: Wähle weise
Als Fazit lässt sich sehr gut Radio Eriwan zitieren. Welches Bewertungssystem soll ich wählen? Es kommt darauf an. Unter dem Gesichtspunkt der Benutzererfahrung muss das gewählte Bewertungssystem erwartungsgemäß sein und darf nicht zu angestrengtem Grübeln hinsichtlich dessen Sinnhaftigkeit führen.
Methoden des Machine Learning werden es künftig erlauben, stets mit einfachen Alternativen zu arbeiten, die dann mittels KI weiter unterfüttert werden. Das genannte Beispiel Otto.de ist nur der Anfang dieser Entwicklung.
Quellen zum Weiterlesen:
- The User Experience (UX) Of Rating Things | Ben Nadel
- Five Stars Dominate Ratings | YouTube Blog
- Are Stars a Good Rating System? | UX Stack Exchange
- 5-Star vs. Thumbs-Up: When to Use Which Rating System | Julia Chen für AppCues
- Rating Systems for Restaurants — Likes vs Stars | Choon Hian auf Medium
- Wie Otto.de große Probleme der marktüblichen Produktbewertungen löst | Jochen Fuchs für t3n
- Was ist eigentlich der Unterschied zwischen AI, Machine Learning, Deep Learning und Natural Language Processing? | Dieter Petereit für t3n
Es ist doch generell so, dass Google Bewertungen immer mehr an Glaubwürdigkeit verlieren. Die diversen Firmenverzeichnisse haben sich ohnehin seit Jahren erübrigt. Und selbst Amazon kämpft schon längst mit Fake Reviews obwohl sie „verifizierte Käufer“ eingeführt haben. Einen Weg zur Fälschung wird es immer geben und die Unternehmen erkennen diese List zunehmend für sich.
Den stärksten Einfluss werden zukünftig aber mit Sicherheit Google und Amazon behalten, weshalb sich Unternehmer auch an diesen Bewertungen zu schaffen machen werden – da holen sie eben das beste für sich raus ….