Share Button

GASCORE (Genetic Algorithm Scoring)

GASCORE ist ein von uns entwickeltes Programm, mit dem ein hoch optimiertes Scoring-Modell im Einschrittverfahren erstellt werden kann.

Wir setzen GASCORE sowohl als Entwicklungs- als auch als Benchmarktool auf Projekten ein. Weiterhin besteht die Möglichkeit das Programm zu lizensieren.

Globale Optimierung

GASCORE verwendet genetische Algorithmen, um das hochdimensionale Probleme der Klasseneinteilung von Merkmalen, der Selektion von Merkmalen und der Bepunktung in einer globalen Optimierung durchzuführen. Das Problem wird nicht wie in den Standardmethoden (siehe unten) üblich in Teilprobleme zerlegt.

Im Vergleich zur logistischen Regression erzielen wir in der Regel 0.5%-1.5% bessere AUC-Werte (Area under Curve). In der Regel werden diese Ergebnisse unter Verwendung deutlich weniger Merkmale und deutlich weniger Klassen pro Merkmal erreicht.

Variable Zielfunktionen

Es ist möglich unterschiedliche Zielfunktionen zu optimieren. Diese Zielfunktionen führen zu ähnlichen Ergebnissen wie die Verwendung der Log-Likelihood, jedoch können kleinen Abweichungen erhebliche finanzielle Auswirkungen bewirken.

  • AUC – direkte Optimierung des AUC-Werte
  • Log-Likelihood (entspricht der logistischen Regression)
  • Cut-Off-Earnings: Die Zielfunktion ist so angepasst, dass ein optimaler Score bestimmt wird, ab dem Kredite vergeben werden.
  • Calinsky-Harabsz: Die Scores werden direkt so in Notenklassen umgesetzt, dass die Varianz der Ausfallrate innerhalb einer Noteklasse möglichst gering und die Varianz zwischen den Noteklassen möglichst groß ist.
  • Masterskala: Direkte Optimierung auf eine vorgegeben Masterskala.
Ein- und AUsgabe

GASCORE benötigt als Eingabe eine csv-Datei mit den Entwicklungsdaten und eine Steuerungsdatei. Es besteht die Möglichkeit den Datensatz in einen Train- und einen Testanteil aufzuteilen. Die Ausgabe erfolgt in Form von Tabellen:

  • Modelldaten
    • Merkmalstransformation und Scorepunkte
    • Kalibrierungsdaten
    • Metadaten mit Segmentinformation
    • SQL-Skript für die direkte Anwendung des Modells auf den aktuellen Lebendbestand
  • Statistische Analysen
    • Deskriptive Analysen der Einzelmerkmale
    • Merkmalskorrelationen
    • Signifikanztests
    • Deskriptive Analysen zum Gesamtmodell
    • Bootstrap, x-Validierung
Effizienz

Durch das Einschrittverfahren ist Gascore  ermöglicht eine Modellentwicklung innerhalb eines einzigen Tages. Ist keine aufsichtsrechtliche Modellvalidierung erforderlich – wie z.B. bei Vertriebsmodellen – können  Modelle  extrem schnell entwickelt und ausgerollt werden.

Speicher- und Rechenzeitbedarf, Systemanfordeungen

Speicher- und Rechenzeitbedarf sind linear in der Anzahl der verwendeten Merkmale und der Anzahl der Fälle.GASCORE wurde erfolgreich auf Datensätze mit mehreren Hundert unterschiedlichen Merkmalen und mehreren Millionen Datensätzen angewendet.  Bei einem Datensatz mit  100 Merkmalen und 1.000.000 Fällen liegt der Speicherplatzbedarf  nur bei ca. 1 GB.

GASCORE ist voll parallelisiert und sowohl unter Windows, Linux als auch Mac-OS lauffähig. Die Installation erfolgt durch das Kopieren eines ca. 20 MB großen ausführbaren Programms.

Probleme der Standardmethodik (logistische Regression)

In üblichen Verfahren werden typischerweise

  • Wertebereiche von Merkmalen zu Klassen zusammengefasst
  • Merkmale für das Gesamtmodell selektiert
  • Punkte für die einzelnen Klassen mittels logistische Regression bestimmt
  • häufig wird dies in einem mehrstufigen Verfahren durchgeführt, bei dem mehrere Merkmale zu Scorecards und dann die Scorecards zu einem Gesamtmodell zusammengefasst werden
Methodische Probleme der Standardverfahren
  • Die logistische Regression optimiert die Likelihood-Funktion, die Bewertung findet jedoch auf Basis der Power (oder idealerweise auf Basis einer barwertigen Funktion) statt
  • Klasseneinteilung von Merkmalen, Optimierung der Merkmalsscores, Moduloptimierung und Kalibrierung finden in getrennten Schritten statt, obwohl es sich um EIN Optimierungsprobleme handelt. Dies führt zu suboptimalen Lösungen des Gesamtproblems
  • Durch die Einteilung der Merkmale in Module werden Korrelationen nicht korrekt berücksichtigt
Prozessuale Ineffizienz der Standardverfahren
  • Das schrittweise Vorgehen mit manueller Begutachtung nach jedem Einzelschritt ist sehr zeitaufwendig
  • Das derzeitige Verfahren macht es notwendig iterativ den gesamten Entwicklungsprozess mehrmals zu wiederholen (z.B. weil Korrelationen von Klasseneinteilungen erst nach derlogistischen Regression erkannt werden)
Numerische Probleme der Standardverfahren
  • Rechenzeitaufwand und Speicherbedarf steigen mit der Anzahl der verwendeten Merkmale überproportional an, so dass häufig das oben erwähnte stufenweise Vorgehen angewendet werden muss
  • Die logistische (Dummy) Regression
    • ist bei vielen Regressionskoeffizienten oder hoher Fallzahl sehr hauptspeicherintensiv
    • ist instabil bei linearen Abhängigkeiten der Dummy-Variablen
  • Die Merkmalsselektion ist bei Problemen mit vielen Merkmalen extrem aufwendig
  • Ein Gesamtoptimierung ist häufig nicht möglich und eine Zerlegung in „Module“ unabdingbar

 

Share Button