
Wyobraź sobie, że masz pomysł na nowy produkt. Może to być nowy smak pasty do zębów, innowacyjne opakowanie szamponu albo nowa linia kosmetyków. Zanim wypuścisz produkt na rynek i wydasz miliony na produkcję i marketing, musisz się dowiedzieć: czy ludzie w ogóle będą tego chcieli?
To pytanie kosztuje firmy takie jak Colgate, Unilever czy Procter & Gamble setki milionów złotych rocznie. Tradycyjne badania konsumenckie – ankiety, panele testowe, focus groups – są drogie (często 50-200 tysięcy złotych za jeden test koncepcji), wolne (wyniki czeka się 4-8 tygodni) i mają swoje wady. Ludzie w ankietach często nie mówią tego, co naprawdę myślą – z uprzejmości stawiają wyższe oceny, albo po prostu nie poświęcają wystarczająco dużo uwagi na przemyślenie odpowiedzi.
Od kilku lat naukowcy i firmy eksperymentują z pomysłem „syntetycznych konsumentów" – czyli wykorzystaniem sztucznej inteligencji do przewidywania, jak ludzie zareagują na nowe produkty. Pomysł brzmi kusząco: zamiast rekrutować setki prawdziwych ludzi, wystarczy zapytać model AI. Problem w tym, że dotychczasowe próby kończyły się rozczarowaniem. Gdy wprost pytano ChatGPT lub podobne modele „oceń ten produkt w skali od 1 do 5", odpowiedzi były nudne i nierealistyczne – zazwyczaj bezpieczna „trójka" i niewiele więcej.
Badacze z PyMC Labs we współpracy z Colgate-Palmolive odkryli coś fascynującego: problem nie leżał w samej sztucznej inteligencji, ale w sposobie, w jaki zadawaliśmy pytanie.
Benjamin Maier, Thomas Wiecki i ich zespół opracowali metodę, którą nazwali SSR (Semantic Similarity Rating – „ocena przez podobieństwo semantyczne"). Zamiast zmuszać AI do podania konkretnej liczby, podzielili proces na dwa kroki.
Najpierw model AI wcielał się w określoną osobę – powiedzmy, trzydziestoletniego mężczyznę z średnimi zarobkami, który zwraca uwagę na skład produktów. Dostawał opis nowego produktu i proszony był, żeby napisał krótką, naturalną opinię – tak jakby rozmawiał ze znajomym. Coś w stylu: „Brzmi całkiem nieźle, ale ta cena mnie trochę odstrasza. Może spróbowałbym, gdyby była jakaś promocja."
Potem naukowcy brali tę tekstową odpowiedź i porównywali ją z zestawem wcześniej przygotowanych „wzorcowych" opinii. Każda z tych wzorcowych opinii odpowiadała konkretnej ocenie w skali 1-5. System sprawdzał, do której wzorcowej opinii odpowiedź modelu jest najbardziej podobna – nie w znaczeniu dosłownym, ale pod względem sensu i wydźwięku.
Co ciekawe, zamiast jednej sztywnej liczby, ta metoda dawała rozkład prawdopodobieństwa. Odpowiedź mogła być na przykład w 10% podobna do dwójki, w 45% do trójki, w 35% do czwórki i w 10% do piątki. To przypomina to, jak myślą prawdziwi ludzie – rzadko kto jest całkowicie pewny swojej oceny.
Zespół nie poprzestał na kilku eksperymentalnych próbach. Colgate-Palmolive udostępnił dane z 57 rzeczywistych badań rynkowych swoich produktów higieny osobistej – w sumie odpowiedzi prawie dziesięciu tysięcy konsumentów zebrane na przestrzeni lat.
Gdy porównali wyniki z metody SSR z tym, co odpowiadali prawdziwi ludzie, rezultaty były zaskakujące. Sztuczna inteligencja osiągnęła 90% tego, co naukowcy nazywają „test-retest reliability" – to znaczy, że syntetyczni konsumenci byli tak samo spójni jak prawdziwi ludzie, którzy wypełniają tę samą ankietę dwa razy.
Co więcej, rozkład odpowiedzi wyglądał naturalnie. Zamiast wąskiego piku wokół bezpiecznej średniej, otrzymano szeroki rozrzut opinii – dokładnie tak jak w prawdziwym życiu, gdzie jedni ludzie uwielbiają produkt, inni są sceptyczni, a jeszcze inni gdzieś pośrodku.
Model AI nawet poprawnie symulował różnice demograficzne. Gdy wcielał się w osobę z niższymi dochodami, dawał systematycznie niższe oceny produktom premium – dokładnie tak samo jak robią to prawdziwi konsumenci o podobnym profilu. Podobnie działało to z wiekiem: syntetyczna młodsza osoba reagowała inaczej niż starsza.
Były też ograniczenia – model gorzej radził sobie z subtelniejszymi różnicami, na przykład tymi wynikającymi z płci czy miejsca zamieszkania. Ale sama dokładność przewidywań była imponująca.
Żeby zrozumieć, dlaczego ta metoda działa, warto pomyśleć o tym, na czym trenowano modele AI takie jak GPT czy Gemini. Te systemy „przeczytały" miliardy stron tekstu z Internetu – w tym niezliczone recenzje produktów na Amazonie, dyskusje na Reddicie o zakupach, posty na Twitterze o nowych gadżetach. Przez te wszystkie lektury model nauczył się rozpoznawać wzorce w tym, jak ludzie myślą o produktach i jak wyrażają swoje preferencje.
Kluczem okazało się nie zmuszanie modelu do sztucznej precyzji („daj ocenę 3.7"), ale pozwolenie mu na naturalne wyrażenie opinii – tak jak robią to ludzie. Ta tekstowa forma daje modelowi przestrzeń do pokazania niuansów: „produkt brzmi dobrze, ale…", „pewnie bym kupił, gdyby…", „nie jestem pewien czy warto za tę cenę".
Co szczególnie fascynujące, metoda działa „od razu" – nie trzeba uczyć modelu na historycznych danych konkretnej firmy. To znaczy, że każda firma może ją zastosować bez żadnych przygotowań. Wystarczy dobrze opisać produkt i określić profil konsumenta.
Gdy zagłębialiśmy się w to badanie, kilka rzeczy szczególnie zwróciło naszą uwagę.
Po pierwsze, syntetyczni konsumenci okazali się mniej uprzejmi niż prawdziwi ludzie. To brzmi dziwnie, ale to akurat zaleta. W tradycyjnych ankietach ludzie często zawyżają oceny – nie chcą być niegrzeczni, nie chcą sprawić przykrości ankieterowi, albo po prostu nie chce im się dokładnie zastanawiać i dają bezpieczną czwórkę. AI nie ma tych oporów i daje bardziej szczere, zróżnicowane oceny. Dzięki temu łatwiej odróżnić prawdziwie obiecujące pomysły od przeciętniaków.
Po drugie, zauważyliśmy, że sukces tej metody z produktami Colgate wynika prawdopodobnie z tego, że modele AI widziały w swoim treningu mnóstwo dyskusji o pastach do zębów, szamponach i mydłach. To popularne, codzienne produkty, o których ludzie często piszą w internecie. Ale co by było, gdybyśmy testowali niszowy produkt B2B albo bardzo specjalistyczne oprogramowanie? Tam modele mogą „halucynować" preferencje, bo po prostu nie mają wystarczająco dużo danych o tym, jak ludzie myślą o takich produktach.
Po trzecie, sposób, w jaki formułujemy pytanie i opisujemy „personę" konsumenta, ma ogromne znaczenie. Badanie pokazało różnice sięgające 15 punktów procentowych w dokładności w zależności od tego, czy personę opisano przez cechy demograficzne („35-letnia kobieta z Warszawy"), czy przez wzorce zachowań („osoba, która regularnie kupuje ekologiczne produkty"). To przypomina, jak ważny jest dobry brief w każdym projekcie badawczym.
Warto być szczerym – ta metoda ma swoje miejsce w procesie, ale nie zastąpi całkowicie tradycyjnych badań.
Wyobraźmy sobie firmę, która ma dwadzieścia pomysłów na nowe produkty, ale budżet pozwala na dokładne przetestowanie tylko pięciu. Tradycyjnie musieliby albo zgadywać, które pięć wybrać, albo wydać fortunę na przetestowanie wszystkich. Teraz mogą przepuścić wszystkie dwadzieścia przez metodę SSR za ułamek kosztu (około tysiąca złotych zamiast miliona) i w ciągu dni zamiast miesięcy. To pozwala zawęzić wybór do najbardziej obiecujących kandydatów, na których dopiero uruchamiają pełne, drogie badania z prawdziwymi ludźmi.
Podobnie działa to z testowaniem różnych wariantów komunikatu na stronie produktowej. Zamiast losowo wybierać, który z dziesięciu wariantów Value Proposition przetestować w kosztownym teście A/B, można najpierw zasymulować reakcje różnych grup konsumentów i wybrać trzy najbardziej obiecujące. To oszczędza czas, pieniądze i przepustowość na stronie.
Natomiast metoda definitywnie nie sprawdzi się jako jedyna podstawa do podejmowania wielomilionowych decyzji. Nie powinna być używana do produktów, które wymagają doświadczenia fizycznego – jedzenia (smak, zapach), ubrań (dotyk, dopasowanie) czy samochodów. AI nie oddycha, nie czuje, nie doświadcza produktu tak jak człowiek.
Nie zadziała też dobrze w bardzo niszowych branżach B2B, gdzie nie ma wystarczających danych treningowych. Model może wtedy zmyślać preferencje zamiast je przewidywać. I wreszcie, nie uwzględnia złożonego kontekstu decyzji zakupowej – wpływu reklam, opinii znajomych, tego, co człowiek widzi na półce w sklepie obok konkurencji.
Patrząc na to z perspektywy zespołów zajmujących się optymalizacją konwersji i rozwojem produktów, widzimy to jako narzędzie do fazy eksploracji – tej wczesnej, gdzie generujemy i testujemy mnóstwo pomysłów, zanim skupimy się na najlepszych.
Zamiast modelu „wymyśl → zbuduj → przetestuj → dowiedz się, że nie działa", mamy teraz „wymyśl 20 wariantów → zasymuluj wszystkie → wybierz 5 najlepszych → zbuduj i przetestuj te 5 → znacznie większa szansa sukcesu".
To zmienia ekonomię innowacji. Gdy koszt wczesnego testowania spada dziesięciokrotnie, możesz sobie pozwolić na testowanie dziesięciokrotnie więcej pomysłów. A jak mawiają w branży startupowej – liczba prób często ma większe znaczenie niż geniusz pojedynczego pomysłu.
Badanie Colgate to fascynujący krok naprzód, ale otwiera też mnóstwo pytań.
Czy ta metoda zadziała poza zachodnim, anglojęzycznym kontekstem? Modele AI mają naturalny „bias" w stronę kultury, na której się uczyły. Jak dokładnie przewidzą preferencje konsumentów w Azji, Afryce czy Ameryce Łacińskiej?
AI może powiedzieć „chciałbym kupić ten produkt", ale czy to uwzględnia realne ograniczenia budżetu domowego? Ludzie w ankietach deklarują jedno, a w sklepie robią drugie, bo nagle okazuje się, że właśnie wydali budżet na czynsz.
Co się stanie z tą metodą, gdy następne generacje modeli AI będą trenowane na innych danych? Czy ich „rozumienie" preferencji konsumenckich będzie stabilne, czy będzie się zmieniać z każdą aktualizacją?
I wreszcie pytanie etyczne: jeśli syntetyczne badania zaczną zastępować 80% tradycyjnych, czy nie tracimy czegoś ważnego w bezpośrednim kontakcie z prawdziwymi ludźmi? Czy firmy powinny informować, że podejmują decyzje na podstawie symulacji AI?
Metoda SSR to zdecydowanie przełom dla wczesnej fazy rozwoju produktów. Daje możliwość masowego, szybkiego i taniego testowania koncepcji, które dotychczas były poza zasięgiem większości firm. Oszczędza czas i pieniądze, a co ważne – daje lepszy sygnał niż tradycyjne ankiety dzięki mniejszemu „biasowi uprzejmości".
Ale to nie jest zamiennik dla prawdziwych ludzi. To narzędzie do pre-screeningu i priorytetyzacji. Myślimy o tym jak o sicie – przepuszcza słabe pomysły, zatrzymuje obiecujące, które potem trzeba zwalidować z prawdziwymi konsumentami.
Jeśli pracujesz w CRO, product development albo marketingu, warto wypróbować tę metodę na swoich danych. Wybierz kilka zakończonych testów A/B, których wyniki znasz, zasymuluj je metodą SSR i zobacz, jak dokładne są przewidywania. To da ci poczucie, gdzie ta metoda działa w twoim kontekście, a gdzie nie.
Badanie pokazuje też coś szerszego: jak zmieniamy sposób pracy z AI. Zamiast traktować je jak oracle, które ma dać definitywną odpowiedź, używamy go jako narzędzie do szybkiej eksploracji przestrzeni możliwości. Nie zastępuje to ludzkiego osądu i prawdziwych danych – ale niewiarygodnie przyspiesza drogę do nich.
📄 Badanie: LLMs Reproduce Human Purchase Intent via Semantic Similarity Elicitation of Likert Ratings (PyMC Labs × Colgate-Palmolive, 2025)