27. Juni 202616 min LesezeitMartin Kocijaz, CEO Radical Innovators

Synthetische Personas in der Marktforschung: Abkürzung oder Sackgasse?

Was die Forschung über KI-generierte Personas in der Marktforschung wirklich zeigt — die Möglichkeiten, die Gefahren und die eine Frage, die alles entscheidet.

#SYNTHETIC_PERSONAS#MARKET_RESEARCH#AI_STRATEGY#GEO

Synthetische Personas in der Marktforschung: Abkürzung oder Sackgasse?

Zusammenfassung

Synthetische Personas eignen sich 2026 vor allem für frühes Konzept-, Copy- und Kampagnen-Feedback: Hypothesen schneller prüfen, schwache Varianten aussortieren. Sie ersetzen aber keine repräsentative Marktforschung, keine Prognosen unter Dynamik und keine finalen Entscheidungen mit hohem Risiko. Entscheidend ist, ob sie auf echten Daten, psychologischen Modellen und Validierung beruhen — oder ob nur ein Sprachmodell eine Rolle spielt.

Eine KI kann heute die Umfrageantworten eines konkreten Menschen mit 83 bis 86 Prozent der Verlässlichkeit reproduzieren, mit der dieser Mensch sich selbst nach zwei Wochen wiederholt (Stanford, Park et al. 2024). Im selben Jahr zeigte die Forschung das Gegenstück: Werden synthetische Befragte als Ersatz für echte repräsentative Erhebungen eingesetzt, kollabiert ihre Varianz, und fast die Hälfte der statistischen Zusammenhänge verschiebt sich (Bisbee et al. 2024).

Beide Befunde stimmen. Welcher für Sie zählt, hängt von genau zwei Dingen ab: wofür Sie synthetische Personas einsetzen — und wie Sie sie bauen. Dieser Artikel trennt die seriöse Anwendung von der fahrlässigen. (Stand: Juni 2026.)

Was sind synthetische Personas — und was unterscheidet sie von einer Annahme?

Der Begriff klingt nach Science-Fiction, beschreibt aber eine nüchterne Methode: Ein großes Sprachmodell wird so konditioniert, dass es nicht „irgendeine" Antwort gibt, sondern die Antwortverteilung einer realen Personengruppe nachbildet. Die Forschung nennt das „silicon samples" und die zugrunde liegende Eigenschaft „algorithmic fidelity" — die Beobachtung, dass ein Modell, richtig konditioniert, die Einstellungsmuster verschiedener Bevölkerungsgruppen erstaunlich treffend emuliert (Argyle et al., Political Analysis 2023, peer-reviewed).

Der Sprung der letzten Jahre liegt nicht im Begriff, sondern in der Datenbasis. Eine simple „Proto-Persona" ist eine Annahme in Foliengestalt. Eine datenbasierte synthetische Persona ist ein Agent, der auf echten Profilen, psychologischen Modellen und Verhaltensdaten beruht — und der planen, antworten und auf Nachfragen reagieren kann. Genau diese Datenfundierung entscheidet später über Wert oder Wertlosigkeit.

Wie verlässlich sind synthetische Personas — was die Forschung zeigt

Die Evidenz für den seriösen Einsatz ist stärker, als Skeptiker oft annehmen — solange man genau hinsieht, was gemessen wurde.

KI erreicht 83–86 % der menschlichen Retest-Reliabilität

—

Aus zweistündigen Interviews mit 1.052 Menschen gebaute KI-Agenten reproduzierten deren Umfrageantworten mit 83 % (nur Interview), 82 % (nur Surveys) und 86 % (kombiniert) der menschlichen Zwei-Wochen-Test-Retest-Reliabilität — gegenüber nur 74 % bei rein demografisch geprompteten Agenten. Wichtig: Das ist nicht „85 % korrekt", sondern „so konsistent, wie Menschen sich selbst gegenüber sind".

QuelleStanford, Park et al. — „Generative Agent Simulations of 1,000 People", 2024

Kaufabsicht: bis zu 90 % des menschlichen Ceilings

—

Eine neue Elicitation-Methode (Semantic Similarity Rating) erreichte bei der Vorhersage von Kaufabsicht 90 % der menschlichen Test-Retest-Reliabilität — über 57 Produkt-Surveys mit rund 9.300 echten Antworten.

QuelleMaier et al. (u. a. PyMC Labs / Colgate-Palmolive), 2025

76 % der Effekte aus 133 Studien repliziert

—

KI-Personas reproduzierten 76 % der Haupteffekte (84 von 111) aus 133 publizierten Experimentalstudien — ein Hinweis, dass sich bekannte Muster in vielen, aber nicht allen Fällen wiederfinden lassen.

QuelleYeykelis et al., 2024

Dazu kommt der Hebel, der Entscheider überhaupt erst hellhörig macht: Tempo und Kosten. Eine klassische Zielgruppenstudie dauert Wochen und kostet vier- bis fünfstellige Beträge. Eine datenbasierte synthetische Persona liefert eine erste, strukturierte Reaktion auf eine Anzeige, eine Landingpage oder eine Produktidee in Minuten — für den Preis eines Mittagessens. Der Wert liegt nicht darin, die echte Forschung zu ersetzen, sondern darin, mit zehn fundierten Hypothesen in die echte Forschung zu gehen statt mit einer ungetesteten.

Wann werden synthetische Personas gefährlich?

Genauso klar muss aber die andere Seite benannt werden — und sie ist gut dokumentiert. Als die österreichische Meinungsforschung über den Einsatz synthetischer Umfragen diskutierte, fielen ungewöhnlich harte Worte.

„Nach jetzigem Forschungsstand ist das Quacksalberei, und es wäre höchst fahrlässig, die Methode anzuwenden. Die große Gefahr ist, dass sie statt der ehrlichen Antwort, etwas nicht zu wissen, eine Pseudosicherheit vermittelt."
— Christoph Hofinger, Meinungsforscher (Foresight), in ORF.at, 2026

Sein Kollege Jakob-Moritz Eberl (Universität Wien) benennt die eigentliche Schwachstelle: „Ausgerechnet in jenen Momenten, in denen Meinungsforschung besonders wichtig ist – bei Dynamik, Unsicherheit und Wandel –, sind synthetische Antworten besonders nutzlos." Und Informatiker Stefan Szeider (TU Wien) erinnert daran, dass „der Teufel im Detail steckt", weil Trainingsdaten nicht für alle Bevölkerungsgruppen gleich verfügbar sind. (Alle drei: ORF.at, 2026.)

Diese Skepsis ist messbar, nicht nur rhetorisch:

Varianz-Kollaps: weniger Streuung, Vorzeichen kippen

—

Synthetische Befragte trafen zwar die Mittelwerte echter Erhebungen, zeigten aber deutlich weniger Varianz als reale Menschen — und 48 % der Regressionskoeffizienten wichen signifikant ab, bei einem Drittel (32 %) kippte sogar das Vorzeichen. Dazu: zeitliche Instabilität bei minimal geänderten Prompts.

QuelleBisbee et al. — „The Perils of Large Language Models", Political Analysis, 2024

In der Praxis wird daraus dreierlei: Wahlprognosen auf Basis synthetischer Stichproben „largely fail" und sind über Länder und Sprachen hinweg ungleich verlässlich (von der Heyde et al. 2024). Minderheiten und schwer erreichbare Gruppen — etwa über 65-Jährige oder Verwitwete — werden systematisch unterrepräsentiert (Santurkar et al., „OpinionQA", 2023). Und in der qualitativen Forschung neigen synthetische Nutzer zur Gefälligkeit: Sie loben, was reale Nutzer abgebrochen hätten — bis hin zu Teilnehmern, die einen Kurs als „abgeschlossen" beschrieben, den echte Menschen mittendrin aufgaben (Nielsen Norman Group, 2024). Die NN/g-Bilanz ist unmissverständlich: Forschung ohne echte Nutzer ist keine Forschung.

🧪

„Aber die Modelle sind doch längst veraltet?" Ein berechtigter Einwand — und er stimmt teilweise. Viele der meistzitierten Skeptiker-Studien liefen auf alten Modellen: Argyle auf GPT-3 (davinci, 2020), Bisbee auf GPT-3.5-Turbo (2023), die deutsche Wahlstudie auf einem Modell von Ende 2022. Neuere Frontier-Modelle verbessern tatsächlich die Durchschnittswerte: In einer Auswertung 2025 erreichte GPT-5 die höchste Übereinstimmung mit globalen Meinungsverteilungen, und Fine-Tuning auf echte Umfragedaten schließt die Lücke zum Menschen um bis zu 46 % (SubPOP, Suh et al. 2025).

Nur: Der Durchschnitt war nie das Problem. Die strukturellen Defekte bleiben — und wachsen mit der Modellgröße teilweise sogar.

Stärkere Modelle simulieren schlechter, nicht besser

—

Sprachmodelle können eine Meinungsverteilung besser beschreiben als simulieren — und diese Lücke wuchs vom älteren GPT-3.5 (8,39 %) zum stärkeren Claude Opus (53,57 %). Mehr Leistung löste das Varianzproblem nicht, sie verschärfte es.

QuelleMeister et al. (arXiv-Preprint), 2025

Dasselbe Muster bei der Gefälligkeit: Über aktuelle Modelle hinweg (GPT-4o, Claude, Gemini) wurden in einer Auswertung 58 % der Antworten als sycophantisch eingestuft (SycEval 2025); selbst ein GPT-5-Klasse-Modell lag in einem anderen Test noch bei 29 %. Und ein Bericht aus 2026 fand bei einem Modell der GPT-5-Generation weiterhin eine zu flache Verteilung (Varianz-Steigung 0,82 statt 1,0) — extreme Anteile werden zu schwach abgebildet (Verasight, 2026). Die Defekte stecken in den geteilten Trainingsdaten und im Feintuning-Prozess, nicht in der Rechenkraft. Deshalb gilt: Skalierung löst es nicht — die Methode schon.

Die entscheidende Frage: wofür — und wie?

✅

Grün — hier sind synthetische Personas stark (richtig gemacht): frühes Konzept- und Copy-Feedback, Pretests von Anzeigen/Landingpages, Hypothesen-Screening vor teurer Feldforschung, näherungsweise Abbildung schwer erreichbarer B2B-Profile, schnelle Vorab-Reaktion in Minuten statt Wochen.

⛔

Rot — hier sind sie gefährlich: repräsentative Bevölkerungsaussagen, statistische Inferenz auf Subgruppen, Prognosen unter Dynamik und Wandel (Wahlen, Krisen, Trendbrüche), weitreichende Entscheidungen mit hohem Risiko ohne menschliche Validierung. Hier produzieren sie genau die „Pseudosicherheit", vor der die Forschung warnt.

Die Trennlinie verläuft also auf zwei Ebenen: entlang des Anwendungsfalls (Exploration ja, repräsentative Inferenz nein) und entlang der Methode (datenbasiert und validiert ja, „sag der KI, sie sei ein Kunde" nein). Wer beide Achsen respektiert, gewinnt Tempo, ohne die Wahrheit zu verlieren.

Synthetisch, klassisch oder hybrid?

Die ehrlichste Antwort ist selten ein Entweder-oder. Drei Wege stehen offen, und sie schließen sich nicht aus. Klassische Forschung — Fokusgruppen, Panels, repräsentative Umfragen — bleibt der Goldstandard für belastbare, repräsentative Aussagen: langsam und teuer, aber wahr. Synthetische Personas sind unschlagbar dort, wo Tempo und Exploration zählen: zehn Varianten einer Kampagne über Nacht testen, eine Idee vor dem Konzeptbudget prüfen, sich einer schwer erreichbaren Zielgruppe annähern. Hybrid — synthetisch früh im Prozess, menschlich an den Entscheidungspunkten — ist in der Praxis fast immer die richtige Architektur; selbst Anbieter wie Qualtrics empfehlen ausdrücklich die Kombination: Synthetik für Geschwindigkeit und Hypothesen, echte Menschen für die finale Validierung. Die Frage ist also nie „ob synthetisch", sondern „an welcher Stelle des Prozesses".

Anbietervergleich: Wer auf echten Daten aufbaut — und wer nur eine Rolle spielt

Der Markt 2026 ist unübersichtlich, und fast jeder Anbieter wirbt mit einer beeindruckenden Prozentzahl. Zwei Fragen trennen seriös von riskant: Worauf stützen sich die simulierten „Befragten" — und wer hat die Genauigkeit unabhängig geprüft? Wichtig zur Einordnung: Bis auf eine Ausnahme sind alle hier aufgeführten Genauigkeitszahlen Anbieterangaben, keine unabhängig geprüften Befunde.

Plattform

Fairgen

Augmentiert echte Umfragedaten statistisch — ergänzt unterbesetzte Segmente, statt Meinungen zu erfinden (kein LLM-Rollenspiel).

Vorteile

✓Methodisch am solidesten: baut auf ECHTEN Daten auf

✓Validierung gegen Holdout-Stichproben

✓Respektiert Fragebogenlogik

Einschränkungen

—Braucht echte Basisstichprobe (~300)

—Nur quantitativ/geschlossen

—Kein öffentlicher Preis

Plattform

Qualtrics Edge Audiences

Synthetische Respondenten aus einem auf Millionen echter Umfrageantworten feingetunten Modell; synthetisch/menschlich mischbar.

Vorteile

✓Starke Datenprovenienz (echte Survey-Daten)

✓Publiziertes Validierungs-Framework

✓Enterprise-Skalierung

Einschränkungen

—„10–12×"-Outperformance ist Anbieterangabe

—Empfiehlt selbst Human-Panels für High-Stakes

—Kein öffentlicher Preis

Plattform

Toluna HarmonAIze

Synthetische Personas aus Tolunas eigenem First-Party-Panel; modelliert Individuen statt Segment-Durchschnitte.

Vorteile

✓Großes echtes First-Party-Panel als Quelle

✓Individual-Level statt Durchschnitt

✓14 Märkte/Sprachen

Einschränkungen

—Keine unabhängige Genauigkeitszahl gefunden

—Claims durchweg vendor-seitig

—Kein öffentlicher Preis

Plattform

PyMC Labs

Bayes-Beratung mit publizierter Methode (Semantic Similarity Rating) zur Vorhersage von Kaufabsicht — die einzige unabhängig validierte Option.

Vorteile

✓Einzige mit unabhängiger Validierung (mit Colgate)

✓Transparente Metriken + Unsicherheitsquantifizierung

✓Offen über Grenzen

Einschränkungen

—„90 %" = Anteil des menschlichen Test-Retest-Ceilings, nicht absolute Genauigkeit

—Bisher nur eine Produktkategorie validiert

—Beratungsmodell, kein Listenpreis

Plattform

Radical Personas

8-Schichten-Personas, fundiert auf Big Five, Prospect Theory & Hofstede; ~20 Min bis Report, ab €29, EU-gehostet; als Ergänzung (nicht Ersatz) positioniert.

Vorteile

✓Für frühe Konzept- und Copy-Tests ohne Panel-Infrastruktur: fertige Personas in ~20 Min ab €29

✓Transparente wissenschaftliche Fundierung

✓Klare „augment-not-replace"-Haltung, niedriger Einstieg, EU/DSGVO

✓Schnell/günstig für frühes Konzept-Feedback

Einschränkungen

—Geerdet in psychologischen Modellen und einer Persona-Bibliothek — nicht in Interviews mit den jeweils echten Zielkund:innen

—Keine eigene Peer-Review-Validierung

—Unterliegt den kategorieweiten Grenzen synthetischer Methoden

Plattform

Aaru

Multi-Agent-Simulation ganzer Populationen zur Vorhersage von Entscheidungen/Events.

Vorteile

✓Geschwindigkeit/Skalierung

✓Verankerung in institutionellen Kontexten

✓Klare Forecasting-Produktlinie

Einschränkungen

—Methodik/Kalibrierung nicht offengelegt (Blackbox)

—Dokumentierte 2024-Wahl-Fehlprognose

—Kein öffentlicher Preis

Plattform

Synthetic Users

Generiert synthetische Interview-Teilnehmer für frühe qualitative UX-/Produktforschung.

Vorteile

✓Sehr günstig ($2–60/Interview) und schnell

✓Transparente, publizierte Methodik

✓Öffentliche Preise

Einschränkungen

—Am nächsten an generischem LLM-Rollenspiel (kein Panel)

—Unabhängige Bewertungen fallen durchweg kritisch aus

—Dokumentierter Hang zu positiven Rückmeldungen und Gefälligkeit

Das Muster ist eindeutig. Am methodisch solidesten arbeitet, wer echte Daten ergänzt statt Meinungen zu erfinden. Eine Stufe darunter stehen die Anbieter, die auf echten Panels aufbauen, deren synthetische Befragte ihr Signal aus Millionen realer Antworten beziehen. Unabhängig validiert ist bislang praktisch nur ein einziger Anbieter — über eine publizierte, extern validierte Methode. Andere Anbieter — darunter Radical Personas — kompensieren das mit Transparenz über die psychologischen Modelle, auf denen sie aufbauen, und klaren Nutzungsgrenzen. Am riskantesten ist das generische LLM-Rollenspiel mit aufgesetzter Persönlichkeit und das Blackbox-Forecasting, dessen Kalibrierung niemand offenlegt. Die ehrliche Prüffrage an jeden Anbieter lautet schlicht: In wessen echten Daten ist das geerdet — und können Sie es zeigen?

Wie setzt man synthetische Personas richtig ein?

Aus der Evidenz lassen sich fünf Prinzipien ableiten, die seriöse von fahrlässiger Praxis trennen — jedes mit einer konkreten Handlung: 1. Auf echten Daten aufbauen. Verlangen Sie von jedem Anbieter Transparenz über die Datenbasis: Stammen die Personas aus echten Panels, Profilen und validierten psychologischen Modellen — oder „spielt" nur ein Sprachmodell eine Rolle? Keine Datenbasis, kein Vertrauen. 2. Gegen Menschen kalibrieren. Prüfen Sie synthetische Ergebnisse regelmäßig gegen echte Stichproben. Eine einmalige Validierung genügt nicht — Modelle ändern sich, und mit ihnen die Antworten. 3. Mensch im Loop. Nutzen Sie Synthetik, um den Suchraum zu verengen, nicht um ihn zu schließen. Die finale Entscheidung gehört zu echten Menschen. 4. Ergänzen, nicht ersetzen. Setzen Sie synthetische Personas früh im Prozess ein — Screening, Pretests, Hypothesen — und echte Forschung dort, wo Budget und Risiko hoch sind. 5. Transparenz. Geben Sie synthetische Ergebnisse nie als echte Befunde aus. Dokumentieren Sie, welche Methode welche Frage beantwortet hat — und wo sie an ihre Grenzen stößt.

Genau an diesen Prinzipien haben wir Radical Personas ausgerichtet. Statt ein Modell einfach in die Kundenrolle zu versetzen, bauen wir Personas aus acht Schichten — Biografie, Psychologie (Big Five), kognitive Biases, emotionaler Zustand, Kulturkontext (Hofstede), Verhalten, Anti-Patterns und Sprache —, fundiert auf etablierter psychologischer Forschung (Big Five, Prospect Theory, Hofstede) und transparent als das positioniert, was sie sind: ein schnelles, wissenschaftlich fundiertes Ergänzungsinstrument für frühe Entscheidungen, gehostet in der EU, ab €29. Ausdrücklich kein Ersatz für die zweistündigen Interviews der Stanford-Studie — und damit auch kein Anspruch auf deren Reliabilitätswert, sondern die konsequente Umsetzung der Prinzipien der Datenfundierung und Ergänzung, die die Forschung als entscheidend identifiziert. → Radical Personas in der Praxis ansehen

Was Praktiker dazu sagen

Synthetische Personas sind kein Ersatz für echte Forschung — und genau deshalb sind sie so wertvoll. Wer sie als das einsetzt, was sie sind — ein schnelles, datengeerdetes Reaktions-Instrument für frühe Entscheidungen —, gewinnt Tempo, ohne die Wahrheit zu verlieren. Wer sie als Volkszählung missversteht, kauft teure Pseudosicherheit.
— Martin Kocijaz, Gründer & CEO, Radical Innovators

Als Innovationsmanager frage ich nicht zuerst, ob eine Idee gefällt — sondern wie schnell ich die schwachen aussortiere, bevor sie Budget binden. Datengeerdete Personas sind dafür ein scharfes Werkzeug im frühen Innovationstrichter: Sie ersetzen die Marktforschung nicht, sie sorgen dafür, dass nur belastbare Ideen überhaupt bis zur teuren Validierung kommen. In der Marktforschung war Geschwindigkeit immer der Feind der Gründlichkeit — datengeerdete Personas verschieben diese Grenze, aber nur, wenn die Methode hält. Die Frage ist nie ‘Mensch oder KI’, sondern: an welcher Stelle des Innovationsprozesses, mit welcher Validierung?
— Thomas Kasper, Business-Model- & Innovationsexperte, Radical Innovators

Keywords

synthetische PersonasKI Marktforschungsynthetic usersAI Personas Marktforschungsilicon samplingKI Zielgruppe simulieren

Häufige Fragen

Was ist eine synthetische Persona?+

Eine synthetische Persona ist ein KI-generierter Stellvertreter einer realen Zielgruppe: Ein Sprachmodell wird so konditioniert — idealerweise auf echten Profil-, Verhaltens- und psychologischen Daten —, dass es die Reaktionen und Antwortmuster dieser Gruppe nachbildet. Die Forschung spricht von „silicon samples". Der entscheidende Unterschied zur simplen Proto-Persona: Eine seriöse synthetische Persona ist in Daten geerdet und validiert — keine bloße Annahme in Dokumentform.

Ersetzen synthetische Personas echte Marktforschung?+

Nein — und seriöse Anbieter behaupten das auch nicht. Die Forschung ist hier eindeutig: Synthetische Personas sind stark für frühe Exploration, Screening und Pretests, aber kein Ersatz für repräsentative Erhebungen oder weitreichende Entscheidungen mit hohem Risiko. Sie verkürzen den Weg zur echten Forschung, sie ersetzen ihn nicht.

Wie verlässlich sind die Ergebnisse?+

Das hängt von Methode und Anwendungsfall ab. Richtig geerdet erreichen synthetische Antworten in abgegrenzten Aufgaben 83–86 % bzw. bei Kaufabsicht bis 90 % der menschlichen Test-Retest-Reliabilität (Park 2024; Maier 2025). Bei repräsentativen Aussagen kollabiert die Varianz dagegen, und statistische Zusammenhänge verschieben sich (Bisbee 2024). Verlässlichkeit ist kein Produktversprechen, sondern eine Frage des richtigen Einsatzes.

Wann sollte man sie nicht einsetzen?+

Für repräsentative Bevölkerungsaussagen, Subgruppen-Statistik, Prognosen unter Dynamik und Wandel sowie finale, hochriskante Entscheidungen ohne menschliche Validierung. Genau dort entsteht die „Pseudosicherheit", vor der die Forschung warnt.

Wie fängt man richtig an?+

Mit einem klar abgegrenzten Anwendungsfall (z. B. Anzeigen- oder Konzept-Feedback), datenbasierten Personas statt generischem Rollenspiel — und einer Validierungsschleife gegen echte Menschen. Wer Tempo und Wahrheit verbinden will, nutzt Synthetik früh im Prozess und echte Forschung an den Entscheidungspunkten.

Projekt besprechen→

Zurück zu Insights