Bevor Analysemethoden automatisch auf einen übermittelten Datensatz angewendet werden können, müssen die Daten eingelesen, konsolidiert und angereichert werden. In diesem Abschnitt werden die Einzelheiten dieser drei Schritte erläutert.

Einlesen von Daten

Die automatisierte Analyselösung von Inspirient kann tabellarische Geschäftsdaten aus einer Reihe von Datenquellen einlesen, einschließlich Microsoft Excel-Dateien (XLS oder XLSX), Textdateien mit abgegrenzten Werten (CSV) und Daten aus relationalen Datenbankmanagementsystemen (RDMS).

Die Datenimportkomponente ist für die Aufnahme der Quelldaten in die interne Datenstruktur von Inspirient verantwortlich, die eine standardisierte Datendarstellung bietet, auf die Best-Practice-Statistiken und fortschrittliche Analysemethoden, allgemeine Geschäftsheuristiken und anwendungsfallspezifische Verarbeitung angewendet werden können.

Um dies zu erreichen, führt die Komponente die folgenden Aufgaben aus:

  • Formaterkennung der Eingabedatenquelle, die Microsoft Excel, SPSS, CSV und RDMS umfasst
  • Automatische Tabellenerkennung für halbstrukturierte Datenquellen, z.B. Excel-Dateien, die mehrere Tabellen mit nicht-tabellarischen Metainformationen enthalten
  • Klassifizierung der Eingabedimensionen anhand struktureller Eigenschaften, z.B. automatische Erkennung von Ja/Nein-Werten, numerischen Werten einschließlich der Ableitung von Dezimal- und Tausendertrennzeichen, Textwerten und Datumswerten aus verschiedenen Gebietsschemata

Konsolidierung der Daten

Nach dem Einlesen der Daten führt die Automated Analytics Engine von Inspirient eine Bewertung der Datenqualität durch (eine Referenzliste der Prüfungen findet sich hier) und führt dann die üblichen Datenverarbeitungsaufgaben durch:

  • Standardisierung des Datenmodells – Daten können auf unterschiedliche Weise modelliert werden, z.B. relational, Matrix, Zeitreihen, dies konsolidiert Tabellen zu einem Standardformat für die weitere automatisierte Verarbeitung, einschließlich der Fähigkeit zur Tabellenvereinigung
  • Tabellenfilterung und -aufteilung – Tabellen können durch logische Ausdrücke gefiltert oder automatisch nach jeder möglichen Kategorie für eine optionale Deep-Drill-Down-Analyse aufgeteilt werden
  • Datenbereinigung – Übliche Datenbereinigungsaufgaben werden automatisch an den Eingabedaten durchgeführt, einschließlich der Standardisierung gemeinsamer N/A- und NULL-Werte, der Standardisierung von Datums- und Zeitangaben und der Entskalierung numerischer Werte (z.B. von ‘1K’ auf ‘1000’)
  • Standardisierung von Werten – z.B. Standardisierung von Länder- und Städtenamen und Konvertierung von Postleitzahlen, Städten und Längen-/Breitengraden in Geokoordinaten oder Umwandlung von Datumsangaben unterschiedlicher Formate in ein einziges Standardformat
  • Anonymisierung – Werte in Spalten können automatisch zu eindeutigen Hash-Werten anonymisiert werden, wenn dies angegeben wird, und können bei Bedarf mit einer sicheren Zuordnungstabelle wieder in die ursprünglichen Werte umgewandelt werden

Datenanreicherung

Nach der Datenkonsolidierung reichert die Automated Analytics Engine von Inspirient die Eingabedaten an, um die Relevanz der analytischen Ergebnisse zu erhöhen und bisher unbekannte Erkenntnisse zu gewinnen. Die folgenden Anreicherungen werden für die entsprechenden Eingabedimensionen durchgeführt:

  • Datum und Uhrzeit – Abgeleitete Datums- und Zeitwerte in verschiedenen Auflösungen werden aus den Zeitstempelspalten der Quelle generiert, z.B. Stunde des Tages, Tag der Woche, Quartal des Jahres, etc.
  • Demografisch – Abgeleitete demografische Werte wie die Kategorisierung von Alterssegmenten aus Geburtsdatumsspalten
  • Geografisch – Entfernung zwischen Geokoordinaten und geografischen und politischen Indikatoren
  • Natürliche Sprache – Erkennung von Schlüsselsätzen und Textanalyse-Indikatoren wie die Wortanzahl für Spalten, die natürlichsprachlichen Text enthalten
  • Geschäfts-KPIs – Übliche Geschäfts-KPIs werden berechnet, wenn die erforderlichen Spalten erkannt werden, z.B. wenn eine Tabelle sowohl ‘Stückkosten’ als auch ‘Menge’ enthält, wird automatisch ‘Umsatz’ berechnet
  • Externe Daten – Anreicherung mit externen Datenquellen wie Länderindikatoren von der Weltbank. Globale Indikatoren verfügbar unter data.worldbank.org
  • Benutzerdefinierte Regeln – Benutzerdefinierte benutzerdefinierte Regeln können als Excel-ähnliche Funktionen oder JavaScript konfiguriert werden, die auf die Eingabetabelle als Anreicherung angewendet werden