Lieferantenstammdaten mit Hadoop normieren

Es ist eine unausgesprochene Wahrheit, dass Anwender großer ERP-Systeme ihre Lieferanten oft als Zeichenketten in einer Datenbank archivieren, und nicht selten gibt es zu ein und demselben Lieferanten mehrere Datensätze. Da für eine akkurate Ausgabenanalyse stimmige Lieferantendaten erforderlich sind, wurde eine Initiative gestartet, JAGGAER Solutions Consultants algorithmisch bei einem häufig auftretenden Geschäftsproblem zu helfen: Normieren von Lieferantenstammdaten. Die technische Herausforderung besteht darin: wie kann man rasch alle Zeichenketten auffinden, die einen einzigen Lieferanten repräsentieren?