iStock.com/pxel66

ML im Credit Management: Risikofrüherkennung mittelständischer Unternehmen auf Basis von Nachrichten

Ein umfassender und aktueller Einblick in die Bonitätsentwicklung eines Kreditnehmers ist essenziell für ein effizientes, vorausschauendes Kreditrisikomanagement. Neben der statischen, oftmals lediglich turnusmäßigen Bonitätsbeurteilung – zum Beispiel bei der Vertragsgestaltung eines Kredit- bzw. Finanzierungsgeschäfts oder dessen Neuprüfung – ist auch die kontinuierliche Überwachung (Monitoring) notwendig. Ziel dabei ist es, frühzeitig auf Verwerfungen und Schieflagen des Schuldners reagieren zu können.

Die methodischen Ansätze in der Kreditrisikomodellierung haben ein zentrales Ziel: Mittels statistischer Verfahren des Machine Learning wird versucht, Kreditnehmer anhand von Mustern in historischen Kennzahlen in gute (zahlungsfähige) und schlechte (zahlungsunfähige) Schuldner einzuordnen. Solche Kennzahlen basieren klassischerweise auf Bilanz- oder Marktdaten.

Angesichts der hohen Datenfrequenz eignen sich Marktdaten wie Aktienkurse, CDS-Spreads usw., die in der Regel täglich verfügbar sind und bei denen – liquide Märkte vorausgesetzt – die Erwartungshaltung der Marktteilnehmer für die Zukunft bereits eingepreist ist, besonders gut zur Früherkennung von Zahlungsausfällen oder Downgrades bei Ratingagenturen. Allerdings geht dies mit der Einschränkung einher, dass diese Daten nur für wenige, vornehmlich börsennotierte und damit eher große Unternehmen (gemessen an Umsatz, Bilanzsumme, Anzahl Beschäftigte) zur Verfügung stehen.

Dagegen sind Bilanzdaten zwar für deutlich mehr Unternehmen vorhanden und verwertbar, jedoch mit geringerer Frequenz und in der Regel mit einer zeitlichen Verzögerung von mehreren Wochen bis Monaten. Dadurch sind diese Daten zwar grundsätzlich für Ratingverfahren, nicht jedoch zur Risikofrüherkennung geeignet.
Wie aber steht es um die Frühwarnung bei der Mehrheit der Unternehmen, insbesondere in Deutschland, die nicht an einer Börse gelistet sind, jedoch als kleinere und mittlere Unternehmen (KMU) den sogenannten Mittelstand bilden?
Häufig handelt es sich hierbei um inhabergeführte Familienunternehmen, die nicht selten die deutlich höheren Transparenzanforderungen des Kapitalmarkts scheuen, gleichzeitig aber als „Hidden Champions“, also als Weltmarktführer in Nischenmärkten, den Motor der Wirtschaft bilden. Regelmäßige Informationen wie Markt- und meist auch Bilanzdaten sind hier kaum verfügbar.
 

Nachrichtenbasierte Frühwarnung

Eine alternative Datenquelle, die eine hinreichend hohe Frequenz und Aktualität auch für den Mittelstand aufweist, stellen Zeitungsnachrichten dar: Seit 2018 führt die RSU eine Kooperationspartnerschaft mit der Firma GBI-Genios (1), in deren Rahmen die einzigartigen Datenpools aus Ratinginformationen (RSU) mit Nachrichten der deutschen Presselandschaft (Genios) kombiniert wurden, um daraus ein Frühwarnmodell für eine sich abzeichnende Bonitätsverschlechterung von Einzelunternehmen zu entwickeln. Seit 2019 ist dieses Modell in Risk Guard unter dem Namen „Nachrichtenbasierte Frühwarnung“ (kurz NBF) verfügbar.

Das von Genios für die Entwicklung und den Produktiv­betrieb bereitgestellte Datenarchiv umfasst derzeit mehr als 13 Mio. Nachrichtenartikel aus insgesamt 270 deutschsprachigen Zeitungsquellen ab dem Jahr 2005 zu etwa 30.000 Unternehmen mit Sitz in Deutschland. Täglich kommen in Risk ­Guard bis zu ca. 5.000 neue Zeitungsartikel hinzu. Die Verteilung der Nachrichten nach Unternehmen bzw. nach Nachrichtenquellen sind in den Abbildungen  » 1  und  » 2  dargestellt.

 


Von allen 30.000 zugeordneten deutschen Unternehmen sind nur etwa 700 börsennotiert (2 Prozent), bei den übrigen 29.300 Unternehmen (98 Prozent) handelt es sich um nicht gelistete Firmen. Dass auf wenige große Aktiengesellschaften knapp zwei Fünftel (41 Prozent) aller Artikel entfallen, ist nicht weiter überraschend. Gleichzeitig wird aber in fast 60 Prozent der übrigen Nachrichtenartikel von den nicht gelisteten Unternehmen berichtet, zu denen im Wesentlichen der deutsche Mittelstand gehört.
Die 15 größten der 270 deutschen Zeitungen tragen etwa jeden dritten Artikel (ca. 4 Mio.) zum Bestand bei. Zwei Drittel der Nachrichten stammen aus kleineren Nachrichtenhäusern, darunter auch Zeitungen mit starkem regionalen Fokus wie etwa der Nordkurier (0,7 Prozent), die Frankenpost (0,3 Prozent), oder die Magdeburger Volksstimme (0,2 Prozent), um nur drei Beispiele zu nennen.

Diese – für die Anwendung in der Kreditrisikofrüherkennung – neue Art von Daten, die im Gegensatz zu (quantitativen) Markt- oder Bilanzdaten in einer sogenannten „unstrukturierten Form“ vorliegen, erfordert ein zusätzliches Repertoire an Methoden und Herangehensweisen, um diese überhaupt maschinell zu verarbeiten und sinnvolle Erkenntnisse hieraus gewinnen zu können.
 

Methodik

Die „Good News“ von den „Bad News“ zu unterscheiden – damit beschäftigt sich die sogenannte Sentiment-Analyse als Teilbereich des Natural Language Processing (NLP). Hierbei werden aus Textinhalten mittels moderner Machine-Learning-Verfahren die zugrunde liegenden Stimmungsbilder extrahiert.

Oftmals ist aber je nach Anwendungsfall nicht jeder Text gleichermaßen relevant, hat also für den untersuchten Zweck keine Aussagekraft. Um aus dieser unüberschaubaren Menge diejenigen Texte zu identifizieren, aus denen überhaupt Erkenntnisse gewonnen werden können, ist eine Vorverarbeitung und Filterung erforderlich (Preprocessing):
 

Tägliche und automatisierte Verarbeitung

Bevor der eigentliche Textinhalt eingelesen und beispielsweise nach Fremdsprachen bereinigt wird, ist festzulegen, welche Bestandteile eines Dokuments neben dem Textinhalt noch verwertet werden sollen (zum Beispiel Ressort, Titel, Untertitel, usw.) und welche nicht (zum Beispiel Autor, Bilder, URLs, usw.).
 

Vorsortierung nach Relevanz

In einem zweiten Schritt müssen die Textdaten nach inhalt­licher Relevanz gefiltert werden, deren Definition je nach Anwendungsfall variieren kann. Für die nachrichtenbasierte Frühwarnung in Risk Guard lag es nahe, dass vor allem Wirtschaftsnachrichten als relevant betrachtet wurden. Bei anderen Nachrichten ist – zumindest für diesen Zweck – keine hohe Aussagekraft hinsichtlich bonitätsrelevanter Information zu einem Unternehmen zu erwarten: Etwa das Interview mit einem ehemaligen bayerischen Ministerpräsidenten, der über seine Leidenschaft für Produkte des schwäbischen Modellbahnherstellers Märklin berichtete. Ein solcher Artikel erscheint tendenziell eher im Bereich „Politik“, „Feuilleton“ oder „Panorama“, nicht aber in „Wirtschaft“ oder „Finanzen“.

Nun könnte man einfach nach bestimmten Ressorts der Zeitungen filtern und alle anderen unberücksichtigt lassen. Allerdings sind diese Kategorien sehr ungenau und unvollständig, sodass man Gefahr läuft, zu viele Nachrichten pauschal zu verlieren. Gerade im Lokalteil können viele relevante Artikel, gerade zu kleinen Betrieben, stehen.
Zu diesem Zweck wurde ein eigenes statistisches Klassifikationsverfahren entwickelt, um sicherzustellen, dass prinzipiell alle Ressorts berücksichtigt werden können: So wird aus dem Ressort „Wirtschaft“ fast kein Artikel herausgefiltert, aus anderen wiederum bleiben nur noch einzelne Nachrichten übrig, wie zum Beispiel Artikel über die Fußball-Übertragungsrechte im Pay-TV (Ressort „Sport“), die Trends auf den Absatzmärkten der Automobilhersteller („Motor“) oder die wirtschaftlichen Entwicklungen von Verlagen („Kultur“).

Als hierfür geeignete Klassifikationsverfahren kommen beispielsweise Support Vector Machines (SVMs) infrage, die mit großen Datenmengen ebenso wie mit mehreren hunderten Faktoren umgehen können, aber auch neuronale Netze. Dabei wurde dem Modell in historischen Daten anhand eines zuvor festgelegten Lexikons „antrainiert“, welche Texte Wirtschaftscharakteristika aufweisen und welche nicht. Dieses Lexikon wurde einmalig im Rahmen der Entwicklung aus hunderten bis tausenden solcher selektierter Schlüssel- oder Signalwörter gebildet, die teils typisch (etwa „Ebit“, „Marge“, „Verkauf“), teils explizit atypisch (etwa „kulinarisch“, „Außenstürmer“) für Wirtschaftsnachrichten sein können. Bei diesem sogenannten Bag-of-Words-Ansatz erfolgt die Wahl dieser Wörter auf Expertenbasis, gestützt durch statistische Signifikanztests.


Identifikation von Unternehmen

Wurden alle nicht relevanten Nachrichtenartikel aussortiert, müssen aus den verbleibenden Texten betroffene Unternehmen erkannt und extrahiert werden. Hier kommen moderne Ansätze des Deep Learning (ein Unterbegriff des Machine Learning) zum Tragen. Mit einem eigens trainierten neuronalen Netz wird aus bekannten Mustern in und um Wortfolgen herum mit hoher Präzision erkannt, dass es zum Beispiel beim Textausschnitt „… sorgten bei Linde zu einem Umsatzrückgang …“ um einen Konzern geht und nicht um eine Baumgattung. Somit wird für jeden Artikel eine Liste von gefundenen Unternehmensnamen extrahiert, auch Named Entity Recognition genannt.

Ein gegebener Nachrichtentext muss jedoch nicht für jedes darin genannte Unternehmen von zentraler Bedeutung sein: Zum Beispiel wird im Zusammenhang mit der Insolvenz von „Air Berlin“ von einer Jobmesse berichtet, auf der auch „Zalando“ und die „Deutsche Bahn“ ihre Stände eröffnet haben. Wird der Text gleichzeitig allen drei Unternehmen zugeordnet, hat dies womöglich gar fatale Auswirkungen auf das Bonitätsmonitoring einzelner Fälle, sodass hier im Zweifel eher konservativ vorgegangen werden muss. Daher werden die gefundenen Unternehmensnamen in einem nächsten Schritt nach ihrer sogenannten Salienz (2) sortiert und gefiltert. Dieses Ranking wird mithilfe leicht interpretierbarer Metriken wie etwa der Häufigkeit oder der Verteilung des Firmennamens im Text u. ä. gebildet. Unternehmen unterhalb einer bestimmten (absoluten und relativen) Salienz, hier „Zalando“ und „Deutsche Bahn“, wird der Artikel nicht mehr zugeordnet.

Nun hat das Verfahren zwar erkannt, dass es sich bei „Linde“ in einem bestimmten Kontext um einen Unternehmensnamen handelt. Ob dabei die „Linde plc“ oder der „Linde Verlag“ gemeint ist, wird in einem abschließenden Schritt mit einem zentralen Firmenregister abgeglichen. In diesem Register sind Firmennamen in verschiedenen Schreibweisen erfasst, in denen auch zum Beispiel Unternehmensformen wie „GmbH“ oder „Aktiengesellschaft“ abgekürzt, ausgeschrieben oder gänzlich weggelassen werden.

Risikoscore und Frühwarnsignale

Der oben beschriebene Bag-of-Words-Ansatz funktioniert nicht nur bei der Unterscheidung zwischen Wirtschaftsnachrichten und „Nicht-Wirtschaftsnachrichten“, sondern ebenso bei der Einteilung von Artikeln in die genannten Kategorien „drohender Zahlungsausfall“ bzw. „kein drohender Zahlungsausfall“.
Die Ausfallinformation wurde im Rahmen der Entwicklung für etwa 3.200 deutsche Unternehmen aus dem Ratingdaten-Pool mit den Nachrichten kombiniert. Hierfür wurde ein eigenes Lexikon gebildet, ähnlich der Vorgehensweise für die Wirtschaftsklassifikation: Auf Basis der Vorkommen dieser Wörter bzw. Wortgruppierungen (z. B. „Schieflage“, „rote Zahlen“, „Verlust“ für negative Nachrichten oder „Absatzrekord“, „verdienen“, „feiern“ für positive Nachrichten) wird für jeden Nachrichtenartikel ein Risiko-Score berechnet, der angibt, ob es sich insgesamt eher um Good News oder um Bad News handelt. Je höher der Score, desto höher die Wahrscheinlichkeit für einen Zahlungsausfall aus dem Nachrichtentext und umgekehrt.

Überschreitet der Risiko-Score einen kritischen Grenzwert, wird jedes Unternehmen, das dem Text zugeordnet werden konnte, mit einem Signal als auffällig gekennzeichnet. Das Niveau dieser Signalschwelle wurde so gewählt, dass mit einer Vorlaufzeit von bis zu einem Jahr etwa 75 Prozent aller Ausfälle in der Datenhistorie erkannt werden, während gleichzeitig die Quote der Unternehmen mit mindestens einem Fehlalarm möglichst gering bleibt – in unserem Fall durchschnittlich ca. 25 Prozent pro Jahr.
 

Blick in die Anwendung

Als Ergebnis hat die RSU zwei nachrichtenbasierte Modelle entwickelt: News Scores und News Sentiment Index – die in Risk Guard Warnsignale für auffällige Unternehmen senden und im Folgenden kurz vorgestellt werden.

News Scores ( » 3 ): Für jede Nachricht zu einem Unternehmen wird wie oben beschrieben ein Risiko-Score berechnet. In der Anwendung sind alle täglichen Scores zu allen Nachrichten der letzten fünf Jahre im Chart dargestellt (vgl. grüne Punkte in der Abbildung 3).
News Sentiment Index ( » 4 ): Risiko-Scores der Einzelnachrichten werden durch „Glättung“ zu einem Sentiment Index aggregiert. In der Anwendung wird je Unternehmen der historische Verlauf des Sentiment Index der letzten fünf Jahre grafisch dargestellt (vgl. grüne Linie in Abbildung 4).
 


Beide Modelle können jeweils unabhängig voneinander ein Warnsignal für auffällige Nachrichten generieren, wenn mindestens ein Score- oder der Sentiment-Index-Wert die jeweils modellspezifische, kritische Schwelle überschreitet: Die gelben, orangenen bzw. roten Linien in den Abbildungen 3 bzw. 4 stellen für das jeweilige Modell die Signalschwellen für je eine Signalzone dar.

Für jedes Unternehmen wird außerdem ein Überblick über die aktuellsten Nachrichten bei Klick auf einen Score- bzw. Sentiment-Index-Wert im Chart ermöglicht, wie die Abbildung  » 5  zeigt.
 



Das sich öffnende Pop-up enthält einen ersten nachvollziehbaren Überblick über die Hintergründe, warum das betrachtete Unternehmen auffällig ist oder nicht. Neben Nachrichtentitel und -quelle werden der Einzel-Score dargestellt sowie die sieben stärksten Schlagwörter, auf die das Modell „anschlägt“. Bei einem Klick auf die einzelne Zeile im Pop-up wird der jeweilige Artikel zudem zur Volltextansicht in einem zugriffsgeschützten Bereich von Genios bereitgestellt.


Fazit
Im Credit (Risk) Management wird es zunehmend wichtiger – aber dank moderner statistischer Verfahren und des wachsenden Spektrums an Datenquellen auch leichter –, kontinuierlich ein möglichst umfassendes und aktuelles Bild über die Bonitätssituation seiner Kreditnehmer zu erlangen. Vor der Erweiterung des Frühwarnsystems Risk Guard konnten ausschließlich börsennotierte Unternehmen überwacht werden, zu denen es Marktdaten gab. Bei nicht gelisteten und somit kleineren und mittelgroßen Unternehmen, dem Mittelstand, war man mangels Datenquellen und geeigneter Verfahren auf die manuelle und zeitaufwendige Recherche durch Analysten angewiesen.

Dank der beschriebenen Kooperation können nun Zeitungsnachrichten als neue Informationsquelle genutzt werden. Für diese neue Form von Datenquelle werden moderne Ansätze des Machine Learning und des Natural Language Processing (NLP) mit selbst entwickelten Verfahren kombiniert, um nun über Unternehmen potenziell jeder Größe effizient, zeitnah und zuverlässig Erkenntnisse zu gewinnen.

 

(1) GBI-Genios Deutsche Wirtschaftsdatenbank GmbH mit Sitz in München ist eine Tochter der Frankfurter Allgemeinen Zeitung und der Handelsblatt Media Group.
(2) Salienz ist ein Begriff aus der Linguistik und der kognitiven Psychologie und bezeichnet die Eigenschaft von Merkmalen, schnell und leicht wahrgenommen zu werden.     Eine höhere Salienz eines Unternehmensnamens bedeutet also, dass dieser im Gegensatz zu einem anderen Begriff eher als zentral aufgefasst wird.

Autoren

Márton Eifert arbeitet seit 2013 als Senior Risk Analyst für die RSU im Bereich Methodik (Marktdatenbasierte Verfahren). Er trägt u. a. die Produktverantwortung für das Frühwarnsystem Risk Guard.
Dr. Janis Bauer ist als Risk Analyst im gleichen Unternehmen tätig. Seit 2018 ist er Teil des Projektteams Risk Guard und beschäftigt sich zurzeit primär mit der automatisierten Auswertung von Wirtschaftsnachrichten.
Dr. Franz-Rudolf Brüggemann ist Senior Relationship Manager bei der RSU Rating Service Unit GmbH in München. Sein Themenschwerpunkt sind deutsche Banken und ihre Fragestellungen rund um die interne Kreditrisiko­bewertung.

Stichworte

Verwandte Artikel

Anzeige

Lexikoneinträge