8 min czytania

Digital Twins - czy możemy zastąpić badania UX symulacją konkretnych osób?

Grzegorz Pławecki
UX Designer

W sierpniu 2025 Raluca Budiu z Nielsen Norman Group opublikowała artykuł „Digital Twins: Simulating Humans with Generative AI"[1] — wprowadzając koncepcję digital twins jako kolejny krok w ewolucji badań z AI. Od modelowania segmentów populacji (synthetic users) przechodzimy do klonowania konkretnych jednostek.

Ten artykuł to nasza analiza i interpretacja tej koncepcji — z uwzględnieniem pytań, które NN/g podnosi, ale nie rozwija,oraz implikacji praktycznych dla CRO i UX research.

Czym jest Digital Twin?

Digital twin to model generatywny AI — zazwyczaj oparty na dużym modelu językowym (LLM) — który próbuje działać jako pełnomocnik konkretnej osoby. System może odpowiadać na nowe pytania lub reagować na sytuacje w sposób zbliżony do tego, jak zrobiłaby to dana osoba.[1]

Warto myśle o tym, jak o sztucznym klonie poznawczym — systemie, który może wypełniać ankiety, przewidywać wybory lub wchodzić w interakcje w czasie rzeczywistym w imieniu konkretnej osoby. Twin jest trenowany informacjami osobistymi — takimi jak demografia, wcześniejsze odpowiedzi na ankiety, wywiady, logi zachowań — i może być używany do przewidywania zachowań na poziomie jednostki (co zrobi konkretna osoba) oraz na poziomie populacji (co zrobi grupa użytkowników).

Digital Twins vs Synthetic Users — continuum, nie dychotomia

Kiedy mówimy o symulowaniu ludzi za pomocą AI, możemy wyróżnić dwa podejścia:

Synthetic users reprezentują segmenty populacji lub archetypy (np. "profesjonaliści medyczni w Ameryce Łacińskiej"). Są generowani z deskryptorów na poziomie grupy i służą do przewidywań na poziomie populacji.

Digital twins reprezentują konkretne osoby, modelując ich prawdopodobne myśli i działania. Te reprezentacje jednostek mogą być używane do przewidywania zarówno zachowań indywidualnych, jak i populacyjnych.

W praktyce jednak rozróżnienie między digital twins a synthetic users jest rozmyte. Wyobraź sobie continuum:

  • Na jednym końcu: synthetic user zbudowany z atrybutów, które dzieli wiele osób (demografia, ogólne preferencje)
  • Na drugim końcu: digital twin oparty na informacjach zebranych o bardzo niewielu osobach — często tylko jednej (pełna historia zakupów, szczegółowe wywiady, logi behawioralne)

Czasami synthetic users mogą być generowani na podstawie czegoś więcej niż tylko demografia — na przykład opisu przypominającego personę. Im mniej specyficznych informacji użyjemy do stworzenia digital twins, tym mniej prawdopodobne, że będą pasować do konkretnej osoby, a bardziej będą działać jak synthetic users reprezentujący większą grupę.

Use Cases — kiedy digital twins mogą być użyteczne?

Przewidywanie preferencji i zachowań jednostek

Możliwość prognozowania, jak konkretna osoba zareaguje na bodziec, ma wyraźną wartość w UX, marketingu i naukach społecznych. Przykłady:

Uzupełnianie brakujących danych: Uzupełnianie pominiętych pytań w ankietach za pomocą predykcji twina.

Krótsze ankiety: Pytanie respondentów tylko o podzbiór pytań, a następnie wnioskowanie reszty przez twina.

Trudno dostępni uczestnicy: Wykorzystanie danych z jednorazowych wywiadów do budowy twinów, które zastępują grupy, których rekrutacja jest kosztowna lub niepraktyczna do wielokrotnych badań w czasie.

Journey orchestration: Antycypowanie reakcji użytkowników na różne punkty styku i dostosowywanie doświadczeń.

Problemy użyteczności: Proaktywne identyfikowanie przeszkód w użyteczności lub reakcji emocjonalnych na zmiany interfejsu.

Przewidywanie trendów na poziomie populacji

Chociaż twiny są konstruowane na poziomie jednostki, ich wyniki można agregować, aby ujawnić szersze trendy populacyjne. Umożliwiałyby badaczom symulowanie, jak całe audytoria mogą zareagować na nową funkcję, design lub przekaz — bez konieczności rekrutowania setek lub tysięcy osób z wyprzedzeniem.

Przez zastosowanie wag próby, które odzwierciedlają strukturę populacji docelowej, digital twins mogą przybliżać reprezentatywność ankiety i wspierać testowanie behawioralne na dużą skalę przed jakimkolwiek wdrożeniem w świecie rzeczywistym.

Jak buduje się Digital Twins?

Konstrukcja digital twina zależy od tego, ile informacji kontekstowych jest dostępnych o jednostce i jak te informacje są integrowane z modelem.

Informacje specyficzne dla jednostki

Mogą obejmować:

  • Atrybuty demograficzne
  • Zadeklarowane preferencje i przekonania, często w formie podsumowania przypominającego personę
  • Wcześniejsze odpowiedzi na ankiety
  • Wywiady
  • Dane behawioralne — takie jak wcześniej odwiedzane strony internetowe lub kupione produkty

Metody integracji kontekstu

Po zebraniu tych informacji trzeba je wprowadzić do modelu. Można to zrobić na kilka sposobów:

Prompt Augmentation

To podejście buduje twina przez dodanie odpowiedniego kontekstu osobistego do promptu LLM. Choć jest łatwe do wdrożenia, może napotkać ograniczenia długości promptu, gdy kontekst jednostki jest zbyt duży.

Retrieval-Augmented Generation (RAG)

Przy tej metodzie wszystkie istotne informacje (takie jak historia jednostki wraz z innymi informacjami specyficznymi dla domeny) są kodowane w zewnętrznym źródle danych. Dla każdego promptu najbardziej istotne dokumenty z zewnętrznych źródeł danych są pobierane i dołączane do promptu, a następnie przekazywane do LLM.

Pozwala to modelom na dynamiczny dostęp do bogatych danych — takich jak transkrypcje wywiadów lub historie odpowiedzi — bez przeciążania promptu.

Finetuning

To podejście jest najbardziej kosztowne — obejmuje ponowne trenowanie modelu przy użyciu mniejszego zestawu danych specyficznych dla domeny (np. odpowiedzi tysięcy użytkowników tego samego produktu), aby dostosować go do konkretnego zestawu zadań. Ten proces może skutkować wewnętrznymi wagami modelu, które są zoptymalizowane dla tej konkretnej domeny.

W rezultacie odpowiedzi jednostki mogą być przewidywane nie tylko na podstawie jej własnych wcześniejszych działań, ale także na podstawie wcześniejszych działań osób o podobnych wzorcach zachowań lub opiniach w tej samej domenie. Na przykład model może przewidzieć, że konkretny miłośnik psów polubiłby ogrodzone podwórko, bazując na fakcie, że wielu miłośników psów w zestawie treningowym miało ogrodzone podwórka.

Kluczowe pytania i ograniczenia

Kiedy twin przestaje być twoim twinem?

Ile kontekstu potrzeba, żeby model nie był już generic synthetic user, a prawdziwym digital twinem? To pytanie pozostaje otwarte. NN/g sugeruje continuum, ale nie definiuje progów.

Hipoteza: Digital twins mogą działać lepiej dla stabilnych preferencji (wartości, osobowość, długoterminowe przekonania), ale gorzej dla zachowań zależnych od kontekstu (impulse purchases, decyzje zależne od nastroju, reakcje emocjonalne).

Paradoks reprezentatywności

Jeśli twin jest super-dokładny dla jednostki, czy agregacja 100 twinów daje reprezentatywną próbę? A może tylko replikuje biasy z rekrutacji?

Problem: Ludzie, którzy zgodzili się na szczegółowe badanie i udostępnienie swoich danych, mogą być systematycznie różni od tych, którzy odmówili. Agregacja twinów nie rozwiązuje problemu selection bias — może go nawet wzmocnić.

Brakujące badania

Nikt jeszcze nie przeprowadził bezpośredniego porównania head-to-head:

Synthetic user vs Digital twin vs Real user — w tym samym zadaniu, tej samej populacji, z tymi samymi metrykami.

NN/g wspomina o "najnowszych badaniach naukowych" pokazujących obiecujące wyniki, szczególnie dla:

  • Wypełniania brakujących danych w ankietach
  • Przewidywania odpowiedzi na ankiety na podstawie obszernych wywiadów

Ale te studia nie są cytowane ani linkowane w artykule, co utrudnia weryfikację twierdzeń.

Praktyczne implikacje dla CRO i UX

Dla kogo?

  • CRO teams z małym budżetem na badania
  • UX researchers pracujący z trudno dostępnymi segmentami
  • Product teams potrzebujące szybkich hipotez przed drogimi testami

Realistyczne use cases (teraz)

Survey completion

Twin wypełnia pominięte pytania. To prawdopodobnie najbardziej obiecujący use case według NN/g — niskie ryzyko, jasna metryka walidacji (porównanie z rzeczywistymi odpowiedziami).

Longitudinal studies replacement

Jeden szczegółowy wywiad → twin odpowiada na pytania follow-up przez rok. Potencjalna oszczędność czasu i kosztów w badaniach długoterminowych.

Pre-screening dla testów

Nie pytanie "czy A wygra?", ale "dla jakiego typu użytkownika A będzie lepsze?". Twin może pomóc w segmentacji i priorytetyzacji wariantów przed uruchomieniem drogich testów A/B.

Kiedy NIE używać

⚠️ Decyzje high-stakes — prawne, medyczne, finansowe. Błędna predykcja może mieć poważne konsekwencje.

⚠️ Konteksty z silnymi emocjami — żałoba, trauma, ethical dilemmas. AI nie replikuje głębi doświadczenia emocjonalnego.

⚠️ Gdy potrzebujesz "why", nie tylko "what" — twins mogą przewidywać zachowania, ale nie zastąpią wywiadów jakościowych w odkrywaniu motywacji i kontekstu.

⚠️ Nowe, nieznane konteksty — jeśli użytkownik nigdy nie był w podobnej sytuacji, twin będzie ekstrapolował z ograniczonego kontekstu. Ryzyko halucynacji.

Kwestie etyczne — co wykracza poza praktyczne zastosowania

Cognitive sovereignty

Czy masz prawo "nie być sklonowany"? Co jeśli firma zbuduje twojego twina z publicznie dostępnych danych (LinkedIn, Twitter, public comments) bez twojej zgody?

NN/g podnosi temat consent, ale nie rozwija. W świecie, gdzie nasze cyfrowe ślady są wszędzie, granica między "dane publiczne" a "dane wystarczające do sklonowania poznawczego" staje się niewyraźna.

Temporal consent

Zgoda ma wymiar czasowy. Zgodziłeś się na wywiad 2 lata temu. Czy to zgoda na używanie twojego twina dziś do predykcji zachowań w nowym kontekście, którego nie mogłeś przewidzieć?

Przykład: Zgodziłeś się na wywiad o preferencjach zakupowych e-commerce. Firma buduje twojego twina. Rok później używa go do przewidywania twoich poglądów politycznych. Czy to nadal w ramach oryginalnej zgody?

Bias amplification via aggregation

100 twinów ≠ 100 ludzi reprezentujących populację.

Jeśli wszystkie twiny bazują na podobnym datasecie (np. tylko early adopters zgodzili się na szczegółowe badanie), agregacja nie da ci reprezentatywności — da ci echo chamber.

Ryzyko: Organizacje mogą traktować agregowane predykcje twinów jako "głos klienta", podczas gdy w rzeczywistości słyszą tylko głos najbardziej chętnych do udziału w badaniach klientów — którzy mogą być systematycznie różni od reszty.

Czy digital twins działają?

NN/g przyznaje szczerze: Nie jesteśmy pod wrażeniem synthetic users. Nie udaje im się uchwycić chaotycznej, niuansowanej natury prawdziwego ludzkiego zachowania. Są użyteczni jako narzędzie desk research, ale nie jako substytut rozmów z rzeczywistymi klientami.

Hipoteza NN/g: Digital twins mogą dawać bardziej realistyczne wyniki, ponieważ bazują na niuansowanej złożoności konkretnej osoby, zamiast na zagregowanych, uśrednionych danych reprezentujących grupę.

Czy to się sprawdzi? Nie wiemy jeszcze. NN/g obiecuje kolejny artykuł z przeglądem akademickich badań pokazujących "lot of promise" dla digital twins, szczególnie dla praktycznych aplikacji jak wypełnianie brakujących danych w ankietach i przewidywanie odpowiedzi na podstawie obszernych wywiadów.

Ale bez dostępu do tych badań, bez peer review, bez replikacji — pozostajemy z obiecującą koncepcją i wieloma otwartymi pytaniami.

Wnioski — gdzie jesteśmy teraz

Digital twins to fascynująca ewolucja w kierunku od modelowania segmentów do klonowania jednostek. Koncepcyjnie elegancka, potencjalnie transformacyjna dla badań UX i CRO.

Ale:

  • Brakuje twardych dowodów z niezależnych źródeł
  • Pytania etyczne (consent, privacy, bias) są podniesione, ale nie rozwiązane
  • Nie wiemy, gdzie przebiega granica między "wystarczająco dobre do decyzji" a "niebezpiecznie mylące"
  • Nie mamy benchmarków: jaka dokładność jest akceptowalna? Dla jakich zadań?

Nasza rekomendacja (na grudzień 2025):

Traktuj digital twins jako eksperymentalną metodę badawczą, nie production-ready tool. Digital twins mogą uzupełniać tradycyjne metody i rozszerzać zasięg badań UX na nowe, szybsze i bardziej adaptacyjne terytorium — ale tylko jeśli będziemy postępować ostrożnie i z jasną świadomością ich ograniczeń.

Opublikowany
3/12/2025
© 2025 Croaissant. Wszystkie prawa zastrzeżone.