Priorisierung und Annotation der Dimensionen der Eingabedaten sind Teil des optionalen Vorbereitungsschritts für jede Analyse, wie in Arbeit mit Inspirient > Vorbereitung der Analyse vorgestellt. Sowohl für Dimensionsprioritäten als auch für Annotationen werden vom System auf der Grundlage seines aktuellen Verständnisses des Datensatzes vorgeschlagene Werte bereitgestellt. In den meisten Fällen müssen die Benutzer diese Vorschläge nur überprüfen und möglicherweise anpassen. Wenn eine Analyse über die Schaltfläche I’m feeling lucky gestartet wird, werden alle Vorschläge direkt verwendet, ohne dass sie vom Nutzer gesichtet und explizit bestätigt werden müssen.

Priorisierung der Dimensionen des Eingabedatensatzes

Die Priorisierung wirkt sich auf die Sortierreihenfolge der Ergebnisse aus, so dass Ergebnisse, die von Dimensionen mit höherer Priorität abgeleitet sind, in den Ergebnissen prominenter angezeigt und eher in die Stories aufgenommen werden.

Mit Prioritäten wird sichergestellt, dass die Vollständigkeit der Ergebnisse über alle Analysemethoden hinweg auch bei sehr großen Datensätzen nur kontrolliert abnimmt. Die genauen Auswirkungen niedriger/hoher Prioritäten sind wie folgt:

  • Dimensionen, die auf die niedrigste Priorität eingestellt sind, werden bei der Analyse ignoriert
  • Dimensionen mit der höchsten Priorität werden bevorzugt analysiert, d.h. sie werden garantiert von allen anwendbaren Analysemethoden ausgewertet
  • Andere Niedrigprioritätsdimensionen können bei bestimmten Analysemethoden ausgelassen werden, wenn andernfalls die Berechnungsanforderungen die zugewiesenen Ressourcen übersteigen würden.

Kunden- und hardwarespezifische Optionen können von Systemadministratoren eingestellt werden, um das Systemverhalten fein abzustimmen.

Vorbereitung der Analyse - Priorisierung und Kontextualisierung von Dimensionen des Datensatzes
Vorbereitung der Analyse – Priorisierung und Kontextualisierung von Dimensionen des Datensatzes

Kontextualisierung der Dimensionen des Eingabedatensatzes

Mit Hilfe von Annotationen können Nutzer den analytischen Kontext von Eingabedimensionen festlegen, z.B. ob die Berechnung der Summe über eine Spalte numerischer Werte sinnvoll ist (z.B. bei Bestandsmengen) oder nicht (z.B. bei Zeitreihenmessungen).

Es gibt vier Arten von Datenannotationen:

  • Filter – Annotationen, die verschiedene Filter auf die Eingabedaten anwenden
  • Transformation – Annotationen, mit denen eine Transformation der Eingabewerte durchgeführt wird
  • Semantik – Annotationen zur expliziten Übermittlung der Spaltenbedeutung
  • Analyse – Annotationen, die die Analyse beeinflussen

Die vollständige Liste der unterstützten Annotationen und ihre Auswirkungen sind in der folgenden Tabelle aufgeführt.

Unterstützte Datenannotationen
Annotation Art Beschreibung Details
FILTER_ON Filter Filterung der Eingabetabelle nach einem bestimmten Kriterium (regulärer Ausdruck akzeptiert)
FILTER_ON_DOMINANT_DOMAIN Filter Filtert die Tabelle nach den am häufigsten vorkommenden Elementen (80 % des Vorkommens)
FILTER_ON_DOMINANT_DOMAIN_BY_VALUE Filter Filtert die Tabelle auf die Elemente mit der größten Summe einer bestimmten Wertespalte (80% des kumulierten Wertes)
FILTER_ON_TOP_3_BY_VALUE Filter Filtert die Tabelle auf die 3 Elemente mit der größten Summe einer bestimmten Wertspalte
FILTER_ON_TOP_10_BY_VALUE Filter Filtert die Tabelle auf die 3 Elemente mit der größten Summe einer bestimmten Wertspalte
ABC_CLASSIFICATION Transformation Einteilung der Spalte in n Kategorien mit Hilfe der ABC-Analyse
ANONYMIZE Transformation Anonymisierung von Elementen in einer Spalte mit einem generierten ID-Wert Annotiert eine zu anonymisierende Dimension, indem sie durch eine neue Spalte ersetzt wird, die einen kryptografisch sicheren Hash-Wert für jeden Originalwert enthält. Eine Nachschlagetabelle zur Zuordnung von Hashwerten zu Originalwerten wird dem Benutzer, der die Analyse besitzt, separat zur Verfügung gestellt.
DEEP_DRILL_DOWN Transformation Aufteilung der Eingabetabelle auf jedes Element in der Spalte
DEFAULT_VALUE Transformation Transformiert fehlende Werte, d.h. fehlende oder null, in einen Standardwert Vermerkt eine Dimension, um einen bestimmten Standardwert zu verwenden, falls kein Wert vorhanden ist, z.B. {DEFAULT_VALUE(no data available)}
DEFINE_AS_MISSING Transformation Definiert einen Wert, der bei der Analyse als fehlend behandelt werden soll Dimension beinhaltet einen spezifischen Wert, der als fehlend behandelt werden soll, z.B. {DEFINE_AS_MISSING(-1:nicht anwendbar)}
DRILL_DOWN Transformation Aufteilung der Eingabetabelle nach den häufigsten Einträgen (80 % des Auftretens)
IGNORE_VALUE Transformation Ignorieren angegebener Werte, d.h. als abwesend oder null behandeln Übergeht bestimmte Werte einer Dimension, indem übereinstimmende Zeilen bei der Analyse ausgeschlossen werden, z.B. {IGNORE_VALUE(John Doe)}
JOINABLE_ID_VALUES Transformation Verknüpft Tabellen anhand bestimmter ID-Werte Entsprechend annotierte Dimension kann für die Verknüpfung mit einer anderen Tabelle mit einer entsprechenden JOINABLE_ID_VALUES-Annotation verwendet werden
USE_AS_IS Transformation Deaktiviert alle automatischen Transformationen während der Analyse für diese Spalte
CATEGORICAL Semantik Werte, die kategorische Elemente darstellen Annotierte Dimension enthält kategorische Werte ohne natürliche Reihenfolge (siehe auch ORDINAL)
DEMOGRAPHIC_VARIABLE Semantik Soziodemografische Informationen Dimension, die als soziodemografische Variable zu behandeln ist, z.B. bei der Analyse von Umfragedaten
HAS_SUBTOTALS Semantik Numerische Spalte mit Zwischensummen Vermerkt, dass eine Dimension Zwischensummen enthält
ID Semantik Werte, die ID-Werte darstellen Annotiert eine Dimension, die als ID-Werte behandelt werden soll
IS Semantik Werte, die eine ausgewählte Bedeutung repräsentieren
LESS_IS_BETTER Semantik Ein niedrigerer numerischer Wert ist besser Vermerkt eine Dimension, die numerische Werte enthält, für die im Kontext der aktuellen Analyse niedrigere Werte wünschenswert sind
MAXIMIZABLE Semantik Numerische Werte, bei denen das Maximum für alle numerischen Operationen berücksichtigt werden sollte
MINIMIZABLE Semantik Numerische Werte, bei denen das Minimum für alle numerischen Operationen berücksichtigt werden sollte
MORE_IS_BETTER Semantik Ein höherer numerischer Wert ist besser Dimension enthält numerische Werte, für die im Kontext der aktuellen Analyse größere Werte wünschenswert sind
NATURAL_LANGUAGE_TEXT Semantik Textwerte, die für die Verarbeitung natürlicher Sprache berücksichtigt werden sollten Dimension, die als natürlichsprachlicher Text behandelt werden soll, und wendet entsprechende Analysemethoden an
NOT_CATEGORICAL Semantik Werte, die für alle numerischen Operationen berücksichtigt werden sollten Vermerkt eine Dimension als nicht kategorische Werte enthaltend
NOT_SUMMABLE Semantik Numerische Werte, die nicht summiert werden können Vermerkt eine Dimension als nicht mit summierbaren Werten
ORDINAL Semantik Numerische Werte, die geordnete kategortische Elemente darstellen Dimension enthält numerische kategorische Werte mit einer natürlichen Reihenfolge (siehe auch CATEGORICAL)
SUMMABLE Semantik Numerische Werte, die summiert werden können Vermerkt, dass eine Dimension summierbare Werte enthält
SURVEY_DURATION Semantik Indikator für Erhebungsdauer Dimension, die als Indikator für Erhebungsdauer behandelt werden soll
SURVEY_INTERVIEWER_ID Semantik Interviewer-Identifikator Dimension, die als Interviewer-ID behandelt werden soll
SURVEY_META Semantik Umfrage-Meta-Information Dimension, die als Umfrage-Meta-Information behandelt werden soll
SURVEY_RESPONSE Semantik Antworten einer Umfrage Dimension, die als Antworten einer Umfragebe behandelt werden soll
AGGREGATION_WEIGHT Analyse Gewichtung von Aggregaten nach Werten in dieser Dimension, typischerweise für die Analyse von Umfragedaten verwendet, um Verzerrungen zu verringern Vermerkt eine Dimension, die als Gewichtungsvariable behandelt werden soll, z.B. bei der Analyse von Umfragedaten
DEPENDENT_VARIABLE Analyse Eine Eingabevariable von Interesse, die erklärt werden soll Dimension, die in der aktuellen Analyse als abhängige Variable behandelt werden soll. Wird beim maschinellen Lernen auch als Target oder Label bezeichnet.
INDEPENDENT_VARIABLE Analyse Eine Kontrollvariable, die verwendet wird, um Auswirkungen auf eine abhängige Variable zu erklären Vermerkt eine Dimension, die in der aktuellen Analyse als unabhängige Variable behandelt wird. Wird beim maschinellen Lernen auch als Prädiktor oder Feature bezeichnet.
OVERRIDE_RESTRICTIONS Analyse Analysebeschränkungen zur Leistungsoptimierung deaktivieren Analysiert eine Dimension ohne jegliche Beschränkungen, welche sonst eine akzeptable Laufzeit bei der Analyse sehr großer Tabellen gewährleisten. Mit Vorsicht zu verwenden!

Fortgeschrittene Benutzer können diese Annotationen auch direkt in ihre Daten einbetten, indem sie sie an die in geschweiften Klammern eingeschlossenen Spaltenbezeichnungen anhängen, z.B. {SUMMABLE}.

Best Practices

  • Wenig aber deutlich priorisieren – In den meisten Fällen ist es nicht notwendig, die Prioritäten jeder Dimension eines Datensatzes fein abzustimmen. Es ist zeitsparender, die Prioritäten der wichtigsten Dimensionen schnell anzupassen und dann später Tags zu verwenden, um weniger wichtige Ergebnisse herauszufiltern.
  • Selektiv annotieren – Annotationen helfen dem System, die Dimensionen eines Datensatzes in allen Eckfällen korrekt zu behandeln. Das bedeutet, dass in den meisten Fällen die richtigen Analysemethoden angewandt werden, auch ohne Annotationen. Wenn die Zeit drängt, können manche Benutzer sogar einen schnellen ersten Durchlauf mit der Schaltfläche I’m feeling lucky durchführen, die wichtigsten Ergebnisse auf Probleme prüfen und nur die Annotationen hinzufügen, die zur Lösung dieser Probleme erforderlich sind.
  • Wiederverwendung bisheriger Prioritäten und Annotationen – Prioritäten und Annotationen aller bisherigen Analysen werden gescannt, um den bestmöglichen Vorschlag für den aktuellen Datensatz zu machen. Dies schließt auch Datensätze von anderen Nutzern (mit Konten auf derselben Inspirient-Dienstinstanz) ein. Die vorgeschlagenen Prioritäten und Annotationen können daher das widerspiegeln, was Ihre Kollegen für Ihre aktuellen Daten für angemessen halten.