Payment Screening: Machine Learning führt zu einem Optimum an Effizienz 🎧
Machine Learning kann dabei helfen, die hohen Anforderungen nach einer unscharfen Suche (Fuzzy Matching) zu erfüllen und gleichzeitig die Anzahl der Falschmeldungen (False Positives) auf ein Minimum zu reduzieren. Die VP Bank Gruppe, eine international agierende Privatbank, hat ihr Payment Screening von scharf auf fuzzy umgestellt und berichtet über ihre Erfahrungen.
Um einzelne Transaktionen im Zahlungsverkehr zu erkennen, die Anhaltspunkte für Geldwäsche, Terrorismusfinanzierung und sonstige strafbare Handlungen aufweisen, müssen Kreditinstitute geeignete Payment-Screening-Systeme betreiben. Diese prüfen Daten ein-und ausgehender Zahlungen automatisiert gegen Sanktionslisten, Embargolisten und weitere Black Lists.
Geprüft werden in der Regel Nachnamen, Vornamen, Firmennamen, Aliasse, Domizile, alternative Schreibweisen und Buchungstexte. » 1
Wird eine potenzielle Übereinstimmung von Transaktionsdaten mit Sanktionslisten-Daten (Treffer) gefunden, wird die Zahlung gestoppt und zur weiteren Bearbeitung an die lokale Compliance-Einheit zur Abklärung gesendet.
Finanzaufsichten fordern unscharfe Suche für Kreditinstitute
Die Anforderungen an die Finanzinstitute für eine effektive Prävention von Geldwäsche und Terrorismusfinanzierung steigen. So wird von diversen Regulatoren erwartet, dass im Rahmen des Sanktionsscreenings eine Software eingesetzt werden sollte, die „die Überprüfung von Namen auf Ähnlichkeiten mittels unscharfer Suchlogik (fuzzy logic) zulässt“.
Fuzzy bedeutet hier, dass eine risikobehaftete Transaktion nicht nur dann gefunden werden soll, wenn die Zeichenfolge der Namen exakt gleich ist, sondern auch dann, wenn die Zeichenfolge ähnlich ist, der Name also bewusst oder unbewusst durch einen Tippfehler oder eine andere Schreibweise verfälscht wurde. Die Suchlogik sollte dafür höchst effektiv sein und möglichst viele Verfälschungen zuverlässig erkennen können.
Um festzustellen, wie gut die unscharfe Prüfung funktioniert, muss geklärt werden, welche Arten von Verfälschungen der Algorithmus erkennen kann. Bei diesen Effektivitätstests werden zunächst Testdaten generiert, bei denen die zu findenden Namen bewusst anhand festgelegter Muster, wie beispielsweise dem Vertauschen von Buchstaben, verfälscht wurden. Das zu testende System sollte nun möglichst alle Testdatensätze den ursprünglichen Namen zuordnen können. Je besser ein System die Testfälle erfüllt, desto effektiver arbeitet es.
Der Trade-off zwischen Effektivität und Effizienz: höhere Kosten oder mehr Risiko
Aber nicht nur die Regulatorik treibt Banken dazu, ihr Transaktions-Monitoring neu aufzustellen. Auch die Notwendigkeit, effizienter zu arbeiten gehört zu den Treibern dieser Entwicklung. Die Effizienz ist dabei ein Maß dafür, wie viel Aufwand ein Treffer generiert. Jeder potenzielle Treffer, der gefunden wird, muss geprüft und abgeklärt werden. In der Folge wird entschieden, ob der Name, der in der Zahlung auftaucht, tatsächlich jene Person ist, die auf der Sanktionsliste steht. Je weniger unnötige Treffer gefunden werden, desto effizienter arbeitet das System. Wann genau ist ein potenzieller Treffer ein wirklicher Treffer (True Positive) oder ein False Positive, also ein Treffer, bei dem keine Identität der Person mit dem Individuum auf den entsprechenden Sanktionslisten besteht?
Die Herausforderung ist nun, dass die unscharfe Suche mehr Risikohinweise (Treffer) erzeugt als eine exakte Suche. Der Grund: Die unscharfen Treffer findet das System zusätzlich zu den exakten Treffern. Das erhöht den Arbeitsaufwand der Zahlungsverkehr- und Compliance-Mitarbeitenden, die jeden Treffer manuell abklären müssen.
Instant Payments befeuern Konflikt zwischen Kosten und Risiko weiter
Dieser Zielkonflikt zwischen möglichst hoher Effektivität bei der unscharfen Suche und möglichst wenig unnötigen Treffern wird durch die steigende Bedeutung von Instant-Payment- Verfahren weiter verschärft. Denn eine manuelle Bearbeitung ist innerhalb des für Instant Payment vorgesehenen Zeitfensters von zehn Sekunden unmöglich, sodass ein False Positive zum Leidwesen der Kundschaft nicht ausgeführt werden kann.
Auch die Anforderungen an die Performance einer komplexeren Prüflogik, die besser zwischen True Positives und False Positives unterscheiden kann, steigen in einem Realtime-Performance-Umfeld. Ein Payment-Screening-System muss also so eingestellt sein, dass es möglichst nur die wirklichen Risiken findet und so wenige sogenannte False-Positive-Treffer wie möglich produziert.
Die VP Bank setzt auf Fuzzy Payment Screening
Ein aktuelles Beispiel ist die VP Bank Gruppe. Die international tätige Privatbank hat kürzlich ihr Payment Screening auf fuzzy umgestellt und setzt damit auf die Unterstützung von Machine-Learning-Verfahren. Das Projektteam, bestehend aus Mitarbeitenden der Compliance-Abteilung, des Zahlungsverkehrs und der IT, hat sich intensiv mit der Kalibrierung und dem Testing des neuen Payment-Screening-Systems auseinandergesetzt.
Das Projektteam bei der VP Bank Gruppe hat sich intensiv damit beschäftigt, Effektivität und Effizienz in eine gute Balance zu bringen. Das bedeutet konkret,
- möglichst alle risikobehafteten Transaktionen zu finden (Effektivität),
- möglichst wenige Transaktionen zu finden, die sich bei näherer Betrachtung als risikofrei herausstellen (Effizienz).
Das Projektteam ist wie folgt vorgegangen:
- Implementierung eines neuen Software-Systems auf der Basis von Machine Learning mit dem Ziel, die exakte Suche durch eine unscharfe Suche (Fuzzy Matching) zu ersetzen
- Überprüfung der Effektivität durch ein externes Beratungsunternehmen
- Kalibrierung des Systems mittels Effizienztests auf Basis historischer Transaktionsdaten der Bank
- Kontinuierliche Verbesserung der Trefferquote im laufenden Betrieb
Das ist das Ergebnis nach der siebenmonatigen Projektphase:
- Signifikante Erhöhung der Trefferqualität
- Reduzierung auf 50 Prozent des Arbeitsaufwands
Machine-Learning-Methoden führen zu einem Optimum an Effektivität und Effizienz
Die Basis der von der VP Bank eingeführten Software bildet ein neu entwickeltes Machine-Learning-Modell, das verschiedenste Vergleichsalgorithmen intelligent kombiniert. Machine Learning ist eine Form von Künstlicher Intelligenz (KI), bei der das System aus einem Set von Trainingsdaten ein statistisches Modell erzeugt.
Dieses Modell ist in der Lage, aus den Trainingsdaten gelernte Gesetzmäßigkeiten auf unbekannte Daten anzuwenden. Beim Payment Screening übernimmt das Modell die Entscheidung, ob es sich um eine risikobehaftete Transaktion handelt, die einer genaueren Untersuchung bedarf, oder ob die Transaktion als unbedenklich eingestuft werden kann. Durch gezieltes Training lässt sich ein Modell immer weiter optimieren.
Deshalb ist Fuzzy Matching in Kombination mit Machine Learning die bestmögliche Lösung für den oben beschriebenen Zielkonflikt. Das Ziel bei der Einführung eines Machine-Learning-Modells bei der Zahlungsüberwachung ist, unscharfe Treffer (Fuzzy Matching) besser zu finden, ohne überproportional mehr Abklärungen auszulösen.
Kombination verschiedener Vergleichsalgorithmen erhöht die Effektivität
Es existiert bereits eine Reihe verschiedener Algorithmen, um die Anforderungen eines Fuzzy Matching zu erfüllen. Diese Algorithmen können anhand unterschiedlicher Kriterien die Ähnlichkeit von zwei Zeichenketten bestimmen. Man differenziert dabei im Wesentlichen zwischen zwei Arten von Algorithmen.
- Phonetische Algorithmen untersuchen, ob zwei Wörter einen ähnlichen Klang haben, sich also phonetisch ähneln. Ein Beispiel hierfür ist der Double-Metaphone-Algorithmus.
- Distanz-Algorithmen hingegen vergleichen direkt das Schriftbild der zu untersuchenden Wörter. Hierzu gehört beispielsweise der Levenshtein-Distanz-Algorithmus, der die minimale Anzahl von Einfüge-, Lösch-und Ersetzungs-Operationen berechnet, die benötigt werden, um ein Wort in ein anderes zu transformieren. Eine spezielle Art von Distanz-Algorithmen sind Token-oder sequenzbasierte Algorithmen, die die Zeichenkette in kleine Teile (Tokens) oder Sequenzen zerteilen und auf Basis dieser eine Ähnlichkeit berechnen. Beispiele hierfür sind auf n-Gramen basierende Algorithmen oder der Longest-Common-Substring-Algorithmus.
Jeder Algorithmus ist für das Erkennen spezieller Muster besonders gut geeignet, versagt jedoch bei der Erkennung anderer Muster. So kann beispielsweise durch den Levenshtein- Algorithmus ein einfaches Vertauschen zweier Buchstaben sehr leicht erkannt werden. Die unterschiedlichen Schreibweisen eines Namens wie beispielsweise „Meier, Meyer, Mayer, Mayr“ können hingegen durch einen phonetischen Algorithmus deutlich besser erkannt werden.
Damit ein Lernalgorithmus aus den Trainingsdaten ein Modell erstellen kann, werden sogenannte Features benötigt. Features bilden die verschiedenen Arten von Ähnlichkeit der zu untersuchenden Paare auf maschinenlesbare Werte ab. So können die Vorteile der unterschiedlichen Ähnlichkeitsalgorithmen kombiniert werden. Der ML-Algorithmus lernt dann diese Werte so zu interpretieren, dass er zwischen Treffern und Nicht-Treffern unterscheiden kann. Je besser die Features die gesamte Information über die Ähnlichkeit der zu vergleichenden Paare abbilden, desto besser kann das Modell lernen, risikobehaftete Transaktionen zu erkennen.
Trainingsdaten sind das A und O
Ein Machine-Learning-Modell ist nur so gut wie die Daten, aus denen es lernt. Beim sogenannten überwachten Lernen wird für das Training ein Set aus gelabelten Daten benötigt. Das bedeutet im Fall des Payment Screenings eine Kombination aus Transaktionen und Sanktionslisten-Einträgen, bei denen definiert ist, ob die Kombination zu einem Treffer führen soll oder nicht.
Um eine möglichst hohe Effektivität zu erreichen, ist es entscheidend, dass die Lerndaten möglichst alle Muster abdecken, die auch später von dem Modell gefunden werden sollen. Für eine hohe Effizienz ist es jedoch ebenso wichtig, ausreichend Trainingsdaten zu definieren, bei denen die Ähnlichkeit nicht zu einem Treffer führen soll. Nur so kann das System lernen, zwischen risikobehafteten und unbedenklichen Transaktionen zu unterscheiden.
Daher wurde bei der Erstellung geeigneter Lerndaten auf die Erfahrung der VP Bank Gruppe und weiterer Partner gesetzt. So konnte ein standardisiertes Machine-Learning- Modell trainiert werden. Der Aufwand der Modellentwicklung konnte gering gehalten werden, da verschiedene Partner mitgearbeitet haben und ihre Expertise einbringen konnten. Diese Punkte sind entscheidend für die Wirksamkeit des Machine-Learning-Modells:
- Lerndaten, die alle zu erkennenden Muster ausreichend abdecken
- Lerndaten, die trotz einer gewissen Ähnlichkeit nicht zu einem Treffer führen sollen
- Features, die alle zur Erkennung der Muster nötigen Ähnlichkeits-Informationen in maschinenlesbare Werte abbilden
- Auswertung und Optimierung der Parameter
Effektivität von externen Dritten testen lassen
Damit das System auch den aktuellen Anforderungen der Aufsichtsbehörden genügt, empfiehlt es sich, die Effektivität zusätzlich von einem unabhängigen Dritten überprüfen zu lassen. Wirtschaftsprüfungsgesellschaften oder Unternehmensberatungen liefern hierfür die Testdaten. Diese Informationen beruhen in der Regel auf synthetischen Daten und können daher bei verschiedenen Instituten eingesetzt werden, um einen Benchmark durchzuführen.
So liefert ein Effektivitätstest eines unabhängigen Dritten nicht nur Informationen über die Effektivität des Systems bezüglich verschiedener Muster, sondern gibt auch einen Hinweis auf die Güte des Systems im Vergleich zu den bei anderen Instituten eingesetzten Algorithmen. Ein Benchmarking durch ein externes Beratungsunternehmen bei der VP Bank hat die überdurchschnittliche Effektivität des eingesetzten Modells bestätigt.
Einsatz von historischen Transaktionen (Effizienz-Test)
Ein entscheidender Schritt vor der Produktivnahme eines neuen Systems ist die Überprüfung der Effizienz mit historischen Transaktionen. Dieser Test erfolgt mit historischen Transaktionen der Bank. Nur durch den Einsatz echter Transaktionen lässt sich herausfinden, wie viele Treffer ein Algorithmus im täglichen Betrieb wirklich generiert und ob der dadurch entstehende Arbeitsaufwand in einem für die Compliance-Abteilung vertretbaren Rahmen ist.
Zudem bietet der Effizienztest mit Echtdaten die Möglichkeit, das Trefferbild mit dem des alten Systems zu vergleichen. Insbesondere Treffer, die nur durch das alte System oder nur durch das neue System gefunden wurden bzw. werden, können auf weitere Optimierungsmöglichkeiten hinweisen oder diese sogar notwendig machen. Durch den Effizienztest mit Echtdaten möchte man Folgendes herausfinden:
- a. Wie hoch ist der Arbeitsaufwand im Vergleich zum alten System?
- b. Gibt es historische Treffer (True Positives), die durch das neue System nicht mehr gefunden werden (False Negatives)?
- c. Wie ist die Qualität der durch das neue System zusätzlich gefundenen Treffer?
Erfüllt das System auf den historischen Daten nicht die Erwartungen, also generiert es zu viele Treffer von geringer Qualität, müssen die Lerndaten und Features weiter optimiert werden.
Der finale Schritt vor dem Go-Live, um die Anzahl der False Positives gering zu halten
Während bei der Überprüfung der Effektivität eines Algorithmus die Bedeutung eines True Positives klar definiert ist, muss bei der Überwachung der Effizienz berücksichtigt werden, dass ein Treffer zwar berechtigt, aber dennoch im laufenden Betrieb nicht erwünscht sein kann. Dieser Fall tritt immer dann auf, wenn der Kundenname oder der Name einer in den Transaktionen häufig auftauchenden Gegenpartei eine ausreichende Ähnlichkeit mit einem Namen auf der Prüfliste aufweist, es sich jedoch nicht um dieselbe Person handelt.
Die Anzahl dieser unerwünschten Treffer steigt natürlicherweise mit der „Unschärfe” des Vergleichs und kann auch durch einen noch so intelligenten Algorithmus allein nicht vollständig abgestellt werden. Daher gilt es, diese unerwünschten Treffer schon vor der Produktivnahme zu identifizieren und das System zu kalibrieren.
Dafür wird ein geeignetes White Listing eingerichtet, sodass die unerwünschten Treffer den manuellen Abklärungslauf nicht unnötig in die Höhe treiben. Die Schwierigkeit besteht hierbei darin, das White Listing so zu kalibrieren, dass zwar die Effizienz gesteigert, die Effektivität des Algorithmus jedoch nicht beeinträchtigt wird.
Kalibrierung und Testing mit Tausenden von Zahlungen
Das Team der VP Bank hat die Effizienz des Tools mit der neuen Prüflogik mittels Einspielung von täglich mehreren tausend Zahlungen auf Herz und Nieren geprüft. Durch gezielte dynamische Auswertungen konnte eruiert werden, welche Prüfelemente die meisten Treffer verursachen. Ein gezieltes White Listing, etwa durch die Erfassung von Ausnahmen gegen bestimmte Aliasse, führte zur Eliminierung zahlreicher unnötiger Treffer. Durch die sorgfältige Kalibrierung des Systems war bereits beim Go-Live das tägliche Treffervolumen trotz der unscharfen Suche auf leicht geringerem Niveau als beim Vorgängersystem.
Das Treffervolumen wurde nach dem Go-live laufend reduziert und die Trefferqualität erhöht. Gleichzeitig konnte die Quote der Transaktionen, die zur vertieften Abklärung an das Compliance-Team weitergeleitet wurden, im Vergleich zum Gesamtvolumen der ausgesteuerten Transaktionen auf über 15 Prozent erhöht werden. Dies weist auf eine durch das System gesteigerte Qualität der ausgesteuerten Transaktionen hin. » 2
Fazit
Die größte Herausforderung, vor der Finanzinstitute bei der Erfüllung steigender Anforderungen an das Payment Screening stehen, ist es, eine Balance zwischen Effektivität und Effizienz zu schaffen. Die unscharfe Suche kann zu einem massiven Anstieg an False Positives und damit an nötigen manuellen Abklärungen führen. Dies würde einen extrem hohen Einsatz an Ressourcen bedeuten. Damit steht die Anforderung an Fuzzy Screening stark in Konkurrenz zum Ziel, möglichst nur wenige und richtige Treffer zu haben.
Durch die Nutzung von Machine-Learning-Verfahren lässt sich die Trefferqualität signifikant steigern und an das Risikoprofil eines Instituts anpassen. In Kombination mit einer sorgfältigen Kalibrierung konnte so bei der VP Bank ein neues Payment-Screening-System eingeführt werden, das die Anforderungen an eine unscharfe Suche erfüllt und trotzdem weniger False Positives generiert.
Autoren
Fabian Wälte ist Head Payments and Transactions Services bei der VP Bank Gruppe in Liechtenstein. In seiner Verantwortung liegt die Abwicklung des gesamten Zahlungsverkehrs, darunter auch das Payment Screening.
Dr. Sönke Wienholdt ist Senior Consultant bei Actico GmbH. Der Schwerpunkt des theoretischen Physikers liegt auf der Steigerung der Effizienz von Algorithmen zur Erkennung von Geldwäsche und Terrorismusfinanzierung.
Melden Sie sich bei Interesse zu unserer Online-Fachtagung „Data Science und Machine Learning in Kreditinstituten“ an.