Datall's first blog

Datall's first blog

Minder=Meer!: De waarde van het voorspellen van klantgedrag

Data analysisPosted by Stefan Gelissen 16 May, 2014 08:59

Modellen die klantgedrag kunnen voorspellen zijn van grote waarde voor een bedrijf. In deze blog richt ik mij ondermeer op modellen voor responsgedrag. Deze responsmodellen voorspellen welke klant wel/niet gaat reageren op een marketingactie. De waarde van deze responsmodellen is het kunnen realiseren van aanzienlijke kostenbesparingen bij marketingacties.
Ook laat ik een nieuw model zien dat klantgroepen (segmenten) kan onderscheiden die zich ieder anders gedragen. Juist door het kunnen identificeren van verschillende klantgroepen is dit nieuwe model in staat klantgedrag nauwkeuriger te voorspellen.


Minder=meer!
Marketingacties (zoals een productaanbod of het versturen van een productcatalogus) resulteren vaak in weinig respons. Bij lage respons kun je de vraag stellen: Is het mogelijk vooraf alleen die klanten te selecteren die wel gaan reageren op de marketingactie?
Het afgelopen decennium is er een opmars geweest van zogenaamde responsmodellen. Deze wiskundige modellen schatten de kans in dat een klant gaat reageren. Dergelijke voorspellingen resulteren in aanzienlijke kostenbesparingen. Immers, als een onderneming vooraf kan inschatten welke klanten hoogstwaarschijnlijk niet gaan reageren, dan kan ze kosten drukken door te besluiten deze klanten bijvoorbeeld geen catalogus te sturen of niet telefonisch te benaderen.
Kortom, niet-respondenten vooraf kunnen uitsluiten bij een marketingactie resulteert in kostenbesparingen en een grotere winstmarge. Een responsmodel helpt minder klanten te selecteren (alleen die een waarbij de responskans aanzienlijk is) en zodoende meer winst te genereren, dus minder=meer!


Een voorbeeld
Een eenvoudig voorbeeld verduidelijkt hoe een responsmodel werkt. Stel een bedrijf stuurt een catalogus naar 30 klanten. Van deze 30 klanten reageerden 9 door een bestelling te plaatsen binnen 6 maanden. In de tabel hieronder is te zien wie van de 30 klanten reageerden.

Als het bedrijf vooraf had geweten wie zou gaan reageren op de catalogus, dan had het kosten kunnen besparen door niet-respondenten de catalogus niet te sturen.
Een responsmodel helpt het bedrijf respondenten van niet-respondenten te onderscheiden. Hoe doet een responsmodel dat? Het model bepaalt eerst in welke mate klantkarakteristieken (bijv. afstand tot winkel of gemiddelde prijs per aanschaf) verband houden met respons (wel of niet reageren). Op basis van deze verbanden schat het model de responskans in.
De volgende tabel toont de voorspellingen van het model voor de 30 bovenstaande klanten. De voorspellingen liggen tussen 1 en 0. Het getal 1 betekent dat een klant met 100% zekerheid gaat reageren op de actie. Het getal 0 houdt in dat de responskans 0% is. Een concreet voorbeeld uit de tabel: Klant 22 krijgt de score .99, wat wil zeggen dat deze met 99% zekerheid zal reageren. Merk op dat in de onderstaande tabel klanten geordend zijn naar de kans dat ze gaan reageren op de marketingactie, met voorop de meest kansrijke klanten.


(klik hier voor een grotere weergave van de afbeelding)

Met de voorspelde kansen kan het bedrijf respondenten van niet-respondenten onderscheiden. Namelijk, als het bedrijf besluit de catalogus alleen te sturen indien de voorspelde responskans groter is dan .75 dan worden vrijwel alle respondenten (7 van de 9) geselecteerd.


Bronnen van informatie
Responsmodellen kunnen responskansen inschatten omdat ze bepalen in hoeverre de respons afhangt van klantkarakteristieken. Voordat het model daartoe in staat is moet het eerst “leren”. Dat leren doet het op basis van eerdere marketingacties (waarvan de resultaten zijn vastgelegd in een database of CRM-systeem). In die zin verschilt het niet van wiskundige modellen voor weersvoorspellingen die ook leren op basis van eerdere weersobservaties.
Welke bronnen van informatie zijn zoal bruikbaar als trainmateriaal voor leren? Een mogelijke bron is een eerdere marketingactie voor een soortgelijk product. Bijvoorbeeld, een uitgever traint een responsmodel op basis van de resultaten van een eerdere marketingactie voor wetenschappelijke boeken. Dit model wordt vervolgens ingezet bij het voorspellen van de responskans bij nieuwe klanten voor eenzelfde actie maar voor wetenschappelijke tijdschriften.
Voor het trainen kan ook een eerdere marketingactie voor een bepaald product bij reeds bestaande klanten worden genomen. Dit model kan vervolgens toegepast worden om nieuw aangetrokken klanten te scoren bij een actie voor exact hetzelfde product.


Andere doeleinden voor dit type modellen
In de bovenstaande voorbeelden was de aandacht gevestigd op een model voor het inschatten van de responskans. Maar in de praktijk wordt dit type model toegepast voor allerlei omstandigheden waar het draait om wel/niet of ja/nee situaties. Bijvoorbeeld, hetzelfde type model wordt gebruikt om de kans te voorspellen (1) dat een klant wel/niet weggaat bij een bedrijf of het abonnement opzegt (zogenaamde churn), (2) of een klant wel/niet een product mogelijk in de toekomst wil kopen (koopintentie), (3) of een klant wel/niet een verstrekt krediet zal terugbetalen (met name banken gebruiken dit type model om te voorspellen of ze wel/niet een risico lopen bij het verstrekken van een krediet).


Heterogeniteit: verschillen tussen klantgroepen
Bij het modelleren en voorspellen van klantgedrag is het raadzaam rekening te houden met mogelijke verschillen tussen klantgroepen (zogenaamde heterogeniteit). Er zijn modellen die rekening houden met heterogeniteit (voor een overzicht zie: Wedel & Kamakura 2000). Een nieuwkomer op dit gebied is “Model Based Recusive Partitioning”, afkorting MOB (Zeileis, Hothorn & Hornik 2008, Kopf, Augustin & Strobl 2010). MOB is in staat klantgroepen (segmenten) te identificeren aan de hand van variabelen (zoals verschillende klantkarakteristieken). Onderstaand voorbeeld zal verduidelijken hoe dit model werkt.


Voorbeeld modelleren van heterogeniteit
Een bedrijf wil de koopintentie in kaart brengen voor een nieuw product. Als vooronderzoek wordt aan een steekproef uit het huidige klantenbestand gevraagd of ze wel/niet het nieuwe product zouden kopen (koopintentie). Op basis van de onderzoeksresultaten van deze steekproef gaat het bedrijf bepalen wie ze van al haar bestaande klanten het eerste gaat benaderen bij de marktintroductie van het nieuwe product. Hoe hoger de ingeschatte koopintentie, des te eerder zal een klant worden benaderd bij de verkoop van het nieuwe product. Het bedrijf veronderstelt dat de koopintentie hoger is bij klanten die al eerder bij het bedrijf een product uit dezelfde productklasse gekocht hebben.
De onderzoeksresultaten van de steekproef staan in de volgende grafiek. De steekproefresultaten wijzen inderdaad uit dat bij klanten die eerder een soortgelijk product gekocht hebben de koopintentie hoger ligt (ongeveer 50%), vergeleken met klanten die dat niet hebben gedaan (ongeveer 30%).
Echter, deze conclusie is te simpel en misleidend omdat geen rekening gehouden is met heterogeniteit. Hier komt de waarde van MOB om de hoek kijken. Op basis van “leeftijd” identificeert MOB namelijk drie klantgroepen (segmenten) onder de mensen in de steekproef. De volgende figuur* toont de door MOB geïdentificeerde groepen.
(klik hier voor een grotere weergave van de afbeelding)

Bij de eerste (meest linkse) groep ligt de leeftijd onder de 27.75 jaar. Bij tweede (middelste) ligt de leeftijd tussen 27.75 en 33.7. Bij derde (meest rechtse) ligt de leeftijd boven de 33.7.
Binnen ieder afzonderlijk segment geldt nog steeds het veronderstelde verband tussen “koopintentie” en “eerdere aankoop”. Klanten uit de derde (rechtse) groep die eerder een aankoop hebben gedaan vertonen de hoogste koopintentie van allemaal. Maar wat opvalt is de koopintentie van klanten uit de derde groep die niet eerder een aankoop hebben gedaan. Deze klanten verschillen qua koopintentie niet veel van de tweede (middelste) groep die wel eerder een aankoop hebben gedaan. Dit laatste resultaat strookt niet met “de koopintentie is hoger bij klanten die eerder een soortgelijk product kochten”.
Het voorspellen van “koopintentie” op basis van “eerdere aankoop” is dus complexer dan eerder werd voorgesteld. Sterker, zonder rekening te houden met heterogeniteit werd het bedrijf op het verkeerde been gezet wat betreft het voorspellen op basis van “eerdere aankoop”.
Dit voorbeeld laat zien dat modellen die rekening houden met heterogeniteit (zoals MOB) een nauwkeurigere beschrijving kunnen geven van de werkelijkheid. Daardoor zijn zij ook vaak nauwkeuriger in hun voorspellingen van klantgedrag. En hoe nauwkeuriger een model is, des te groter haar waarde voor een bedrijf.


Meer informatie
Wilt u meer informatie over de beschreven modellen? Neem dan contact op met Datall (tel: 06 413 00 472; email: info at datall-analyse.nl) of raadpleeg www.datall-analyse.nl.


dr.ing. Stefan Gelissen
data-analist en analyse-ontwikkelaar bij Datall


*Ondanks dat de figuur overeenkomsten vertoont met een beslisboom verschilt MOB fundamenteel van beslisboommodellen (zoals CHAID, CART en Random Forest). Zie Kopf, Augustin & Strobl (2010) voor een duidelijke uiteenzetting van de verschillen.


Gebruikte literatuur

  • Kopf, J., Augustin, T., & Strobl, C. 2010. The potential of model-based recursive partitioning in the social sciences - Revisiting Ockham’s Razor. Technical Report Number 88, Department of Statistics, University of Munich.
  • Wedel, M., & Kamakura, W. 2000. Market segmentation: Conceptual and methodological foundations, 2nd ed. Dordrecht: Kluwer academic publishers.
  • Zeileis, A., Hothorn, T., & Hornik, K. 2008. Model-Based Recursive Partitioning. Journal of Computational and Graphical Statistics, 17, 492-514.