Fraudedetectie met Data Science • Novalinq

We weten ondertussen allemaal dat de belastingdienst en banken gebruikmaken van fraudedetectie. In veel gevallen voorkomt dat grote problemen. Helaas is dit niet altijd het geval. Data science is in te zetten om fraude te voorkomen, maar hoe gaat dit proces in zijn werk? In dit artikel kijken we welke informatie er wordt gebruikt en halen we een voorbeeld aan van fraudedetectie dat ons allemaal kan gebeuren.

Waarom fraude detecteren?

Fraude vinden we over het algemeen vervelend. Het komt voor op financieel gebied, maar ook met onze identiteiten. En daar blijft het niet bij. Voor de gedupeerden komen er vele problemen achteraan. Daarom willen we allemaal dat er zo min mogelijk fraude voorkomt.

Helaas kost zo'n proces van fraude opsporen en voorkomen veel geld en mankracht. En omdat het zo veel tijd kost, zijn we geregeld te laat als het om het voorkomen van fraude gaat.

Gelukkig is fraude vaak op te merken door een patroon dat afwijkt van het alledaagse patroon. Als we bijvoorbeeld naar een bank kijken, dan hebben ze uitgebreide informatie over jou als klant.

Dit hoeft nog geen persoonlijke informatie te zijn. Uit jouw transacties kunnen ze bijvoorbeeld een patroon halen. Ze kunnen zien waar jij je bevindt en wat je gemiddeld per transactie besteedt. Dat is al wel heel veel informatie van één klant. Wil je dit allemaal controleren voor alle klanten van de bank, dan kost het je nog steeds veel mankracht en tijd.

Daarom worden nu algoritmes ingezet. Algoritmes gaan veel sneller door alle data heen dan de mens. Hiermee bespaar je tijd. Een algoritme is op twee verschillende manieren op te bouwen:

Optie 1: Je leert een algoritme fraudepatronen herkennen waarmee jij als organisatie al bekend bent.

Dit werkt ongeveer zo: Je kunt een algoritme een dataset geven met historische transacties waarbij niets aan de hand is en historische transacties waarbij wel sprake is van fraude. Als je dit per regel netjes labelt, kan een algoritme zelfstandig het verschil ontdekken tussen frauduleuse en normale transacties.

Een dergelijk gelabelde dataset noemen we trainingsdata. Als het algoritme klaar is met trainen, genereert het een model dat inzetbaar is om miljoenen transacties per dag te monitoren op zoek naar de reeds bekende fraudepatronen.

Het voordeel van deze methode is dat je de fraudepatronen die je in het verleden ontdekte, sneller en efficiënter kunt opsporen. Het nadeel is dat het algoritme alleen de patronen leert die je in het verleden kon aantonen. Nieuwe fraudepatronen worden niet per se door het algoritme ontdekt. Bovendien heeft een algoritme veel data nodig voordat het kan leren. Je moet dus investeren in trainingsdata en dat blijven herhalen voor ieder nieuw fraudepatroon.

‍

Optie 2: Je laat een computer helpen bij het opsporen van zogenaamde anomaliteiten.

Dit werkt iets anders. De computer hoeft niet van tevoren te weten welke transacties frauduleus zijn en welke normaal. De computer begint simpelweg met het maken van groepen van transacties die op elkaar lijken, klanten met dezelfde patronen, etc. De meeste groepen bevatten normale patronen en bestaan dus ook uit veel transacties, maar er zijn ook groepen met afwijkende patronen en opvallend weinig transacties. Het algoritme kan deze groepen markeren, zodat wij het over kunnen nemen en de zaak nader kunnen inspecteren.

Het voordeel van deze methode is dat het algoritme objectief blijft. Het is in eerste instantie niet op zoek naar fraude, maar naar anomaliteiten. Dit kan enorm bijdragen aan het vinden van nieuwe fraudepatronen. Het nadeel is dat de methode nog steeds vrij veel handwerk vereist om te controleren of het daadwerkelijk om fraude gaat of simpelweg om een kleine groep legitieme transacties.

‍

Gaat het ook weleens mis?

Helaas is het algoritme niet 100% nauwkeurig. Het komt voor dat een situatie lijkt op fraude, terwijl achteraf blijkt dat er van fraude geen sprake is. Een voorbeeld van zo'n situatie kan jou overkomen terwijl je op vakantie bent. Stel je voor:

Normaal gesproken sluiten twee vakanties niet naadloos op elkaar aan. Er zit vaak een periode tussen voordat je weer op vakantie gaat. Toevallig wijk je daar een keer vanaf. Het begint met een weekend weg naar Antwerpen. Het weekend erop vertrek je voor een week wintersport. De dag dat je terugkomt van wintersport ben je een paar uurtjes thuis, om vervolgens weer te vertrekken voor een weekje Londen. Eenmaal in Londen belt jouw bank je op. Ze vonden een verdacht patroon in jouw transacties: de uitgaven waren ver boven je gemiddelde transactiewaarde en de locaties wisselden elkaar verdacht snel door heel Europa op.

Ja, als je in deze situatie alleen naar de cijfers kijkt, lijkt het op fraude.

We kunnen deze algoritmes effectief en efficiënt inzetten tegen fraude. Over het algemeen gaat het niet vaak fout. Maar als een inschatting niet klopt, dan kan dat voor de gedupeerden vervelende gevolgen hebben. Het is daarom belangrijk om te begrijpen dat je in deze gevallen een algoritme als hulpmiddel kunt inzetten. Het is en blijft een computer met beperkte informatie. Waarschijnlijk zit de fraudedetectie er over 5 jaar minder vaak naast. Een algoritme blijft zich ontwikkelen naarmate er meer informatie beschikbaar komt.

Het is tijdefficiënt, maar heeft na het detecteren van fraude nog de menselijke controle nodig.

opleidingen Development Incompany