DATA-MINING-CUP 2005 Aufgabenstellung ================ Ausgangssituation ----------------- Verglichen mit dem klassischen stationären Handel ist der Online-Handel ein Eldorado für kleine und große "Betrüger", deren Tätigkeitsfelder bis hin zum organisierten bandenmäßigen Betrug reichen. Die Regel "Ware gegen Geld" ist im Online-Handel, wie im ganzen Versandhandelsgeschäft, im direkten 1:1 Verhältnis nicht umsetzbar, mit Ausnahme des Nachnahmeversands. Die Nachnahme als einzige Zahlungsmethode anzubieten und damit ein recht betrugssicheres Online-Geschäft zu betreiben, ist jedoch für das ansonsten sehr flexible Online-Geschäft eher hinderlich. Also stoßen wir in Online-Shops auf eine Vielzahl von Zahlungsmöglichkeiten - von Rechnungslegung (meist auf einen Betrag limitiert) über Lastschriftverfahren bis hin zu Kunden- oder Kreditkarten. Doch wie erkennt der Händler, ob es sich bei einer Bestellung um einen zahlungswilligen Kunden handelt, der letztendlich die Ware auch bezahlt? Szenario -------- Ein Handelsunternehmen (Markenartikler, Filialist) stellte mit dem Weihnachtsgeschäft 2004 für den Online-Bereich seines Angebotes einen erfreulichen Umsatzanstieg fest. Leider ist die Höhe der Zahlungsausfälle im Online-Bereich, trotz schon ein- gesetzter Mittel wie Kreditkarten- und Adressprüfung, wesentlich höher als in seinem klassischen Filialgeschäft. Um die Zahlungs- ausfälle zu minimieren, wurden bislang alle eingehenden Bestellungen manuell nach Augenschein geprüft. Diese Form der Kontrolle ist jedoch fehleranfällig und mit steigenden Bestellzahlen auch nicht mehr aufrechtzuerhalten. Eine Lösung des Problems sieht das Unternehmen nun im Einsatz von Data Mining. Zukünftig soll eine Scoringmaschine die Bewertung des Zahlungs- ausfallrisikos durchführen. Die Scoringmaschine bewertet jeden Bestelldatensatz mit einer individuellen Risikowahrscheinlichkeit und kann dann auf Grundlage einer vorgegebenen Kostenmatrix (siehe unten) eine Klassenzuordnung in die Klassen "Niedrigrisiko" oder "Hochrisiko" durchführen. Die Zuordnung zu einer der beiden Klassen ermöglicht somit eine automatische Weiterverarbeitung (z.B. Umstellung auf Versand per Nachnahme). Die folgende Kostenmatrix (Deckungsbeiträge je Bestellung) bildet die Grundlage für die Optimierung der Klassifikation in Niedrig- oder Hochrisikoklasse: | Zahlungs- | ordentliche | ausfälle | Bestellung -------------------------|------------|-------------- Bestellung wird als | 2,00 EUR | 13,00 EUR Hochrisiko eingestuft | | -------------------------|------------|-------------- Bestellung wird als | -25,00 EUR | 15,00 EUR Niedrigrisiko eingestuft | | Im konkreten Fall soll eine Stichprobe von 30.000 Online-Bestellungen aus dem Monat Januar 2005 zur Gewinnung einer Beschreibung (Klassifikationsmodell) für die Vorhersage des Zahlungsausfallrisikos untersucht werden. Die Stichprobe (dmc2005_train.txt) umfasst sowohl bestellbezogene Daten als auch Daten, die aus der Warenwirtschaft abgeleitet wurden. Eine genaue Beschreibung der Merkmale befindet sich in der Datei DMC2005_Merkmale.pdf. Zur Beschreibung des Zahlungsausfallverhaltens wurden bei diesen Bestellungen über einen Zeitraum von 4 Wochen das Merkmal TARGET_BETRUG erfasst. Unter Verwendung der Lerndaten (dmc2005_train.txt) ist ein entsprechendes Modell zur Prognose des Zahlungsausfallrisikos zu entwickeln. Das Prognosemodell soll anschließend zur fortlaufenden Vorhersage der zu erwartenden Ausfallwahrscheinlichkeit für alle einkommenden Bestellungen dienen, damit unter Beachtung der Kostenmatrix eine Klassifikation in Hochrisiko- oder Niedrigrisikoklasse getroffen werden kann. Im Rahmen des DATA-MINING-CUP Wettbewerbs soll das Modell exemplarisch auf weitere 20.000 Bestellungen (dmc2005_class.txt) angewandt werden, um die Klassenzugehörigkeit (Niedrigrisiko oder Hochrisiko) zu ermitteln. Aufgabe ------- Folgende Data-Mining-Aufgabe ist zu bearbeiten: Aus den Daten (dmc2005_train.txt) ist ein Data-Mining-Modell zu generieren, welches auf die exemplarisch ausgewählten 20.000 zu klassifizierenden Bestellungen (dmc2005_class.txt) anzuwenden ist und eine Klassenzuordnung (Niedrig- oder Hochrisiko) trifft. Einreichung des Ergebnisses --------------------------- Einsendeschluß der Aufgabe ist Samstag, 30.04.2005, 24:00 Uhr. Als Ergebnis ist eine Liste der prognostizierten Bestellungen in der Form , zu liefern. Bei soll hierbei N für Niedrigrisiko und H für Hochrisiko verwendet werden. Die Liste ist als Textdatei (nur DOS-Files, kein Unicode) an die E-Mail-Adresse dmc@prudsys.de zu senden. Der Name der Datei ist aus der Teilnehmer-ID wie folgt zu bilden: .txt (z.B. 0534-9823.txt) Nur so ist es möglich, die eingesandte Lösung richtig dem jeweiligen Wettbewerbsteilnehmer zuzuordnen. Anmerkung: Ihre Teilnehmer-ID ist identisch mit dem Downloadpasswort, welches Ihnen mit der Registrierung zum Wettbewerb zugegangen ist. In der Datei sind somit BESTELLIDENT und zugehörige Klasse einzutragen, und zwar jede BESTELLIDENT auf einer Zeile: ... 23083,N 23082,H 23078,N 23076,N ... Daten ----- Zwei Textdateien werden zur Verfügung gestellt: dmc2005_train.txt ... Trainingsmenge, 30.000 Datensätze, Das Zielmerkmal lautet "TARGET_BETRUG". Das ID Merkmal heißt "BESTELLIDENT". dmc2005_class.txt ... Daten von 20.000 Bestellungen, für die eine Vorhersage zu treffen ist. Die einzelnen Spalten sind durch Tabulator voneinander getrennt. Sofern keine Werte angegeben wurden, sind die Werte nicht bekannt, sie sind in diesen Fällen als fehlende Werte zu behandeln. Aus Gründen der Geheimhaltung handelt es sich bei den zur Verfügung gestellten Daten um simulierte Daten. Bewertung der Ergebnisse ------------------------ Der Jury ist das Merkmal "TARGET_BETRUG" aller 20.000 zu bewertenden Bestellungen (dmc2005_class.txt) bekannt. Die eingesandten Ergebnisse werden mit der bekannten Information über die tatsächliche Zuordnung nach der im Szenario beschriebenen Regel verglichen und gemäß der unten stehenden Kostenmatrix bewertet. Zur Bewertung der korrekten Klassenzuordnung wird folgende Kostenmatrix angesetzt (siehe Text oben): | H N --------------- H | 2 13 | N | -25 15 Das heißt, wurde laut Modell eine Bestellung der Klasse H zugeordnet, und gehört diese auch tatsächlich zur Klasse H (Zahlungsausfall), dann bekommt der Teilnehmer für diesen Datensatz 2 Punkte. Wurde die Bestellung fälschlicherweise der Klasse N zugeordnet, erhält der Teilnehmer für diesen Datensatz -25 Punkte. Gewinner ist der Teilnehmer mit der höchsten Punktzahl. Im Fall von Punktgleichheit entscheidet das Los. Der Rechtsweg ist ausgeschlossen. Beschreibung der Merkmale ------------------------- Die verwandten Merkmale sind in der Datei DMC2005_Merkmale.pdf beschrieben. V I E L E R F O L G B E I M L Ö S E N D E R D M C A U F G A B E 2 0 0 5 Kontakt ------- prudsys AG DMC Team Bergstraße 61 09113 Chemnitz E-Mail: dmc@prudsys.de WWW: http://www.data-mining-cup.de