kehrte Schrägstriche geschrieben. Solche Daten müssen mit derselben Einstellung gelesen
werden. Es wird dringend empfohlen, bei der Verarbeitung von Zeichenfolgedaten, die Zei-
lenvorschub- oder Rücklaufzeichen enthalten, das Format Splittable binary format zu ver-
wenden.
5. Wählen Sie ein Komprimierungsformat aus. Die Liste enthält alle Formate, die zur Verwen-
dung mit Ihrer Analytic Server-Installation konfiguriert wurden.
Anmerkung: Manche Kombinationen aus Komprimierungsformat und Dateiformat führen
dazu, dass die Ausgabe nicht aufgeteilt werden kann und die Ausgabe daher nicht für die
weitere MapReduce-Verarbeitung geeignet ist. Analytic Server gibt eine Warnung im Ab-
schnitt für die Ausgabe aus, wenn Sie eine solche Auswahl treffen.
Einstellungen (Dateidatenquellen)
Im Dialogfeld mit den Einstellungen (Settings) können Sie die Spezifikationen für das Lesen dateibasier-
ter Daten definieren. Die Einstellungen gelten für alle ausgewählten Dateien und für alle Dateien in den
ausgewählten Ordnern, die die Kriterien auf der Registerkarte Folder erfüllen.
Die Angabe falscher Parsereinstellungen für eine Datei kann zur Folge haben, dass Vorschau und Metada-
ten von der Konsole nicht erstellt werden können oder eigentlich gültige Werte als ungültig (null) geparst
werden, wenn Analytic Server die Datei liest.
Registerkarte "Settings"
Auf der Registerkarte Settings können Sie den Dateityp und die für den Dateityp spezifischen Parserein-
stellungen angeben.
Sie können Datenquellen mithilfe von komprimierten Dateien für ein beliebiges unterstütztes Dateiformat
definieren. Unterstützte Komprimierungsformate sind unter anderem Gzip, Deflate, Bz2, Snappy und
IBM CMX.
Typ für Dateien mit Trennzeichen
Dateien mit Trennzeichen sind Textdateien mit freien Feldern, deren Datensätze eine konstante Anzahl
von Feldern, aber eine variable Anzahl von Zeichen pro Feld enthalten. Dateien mit Trennzeichen haben
normalerweise die Dateierweiterung *.csv oder *.tab. Weitere Informationen finden Sie in „Einstellungen
für Dateitypen mit Trennzeichen" auf Seite 7.
Typ für Dateien mit festem Format
Textdateien mit festen Feldern sind Dateien, deren Felder nicht begrenzt sind, aber an derselben Position
beginnen und eine feste Länge aufweisen. Textdateien mit festen Feldern haben normalerweise die Datei-
erweiterung *.dat. Weitere Informationen finden Sie in „Einstellungen für unveränderliche Dateitypen"
auf Seite 9.
Typ für semistrukturierte Dateien
Semistrukturierte Dateien (z. B. *.log) sind Textdateien, die eine vorhersehbare Struktur aufweisen, die
über reguläre Ausdrücke Feldern zugeordnet werden kann. Diese Dateien sind jedoch nicht in dem ho-
hen Maße strukturiert wie Dateien mit Trennzeichen. Weitere Informationen finden Sie in „Einstellungen
für semistrukturierte Dateitypen" auf Seite 9.
Text Analytics-Dateityp
Text Analytics-Dateien sind Dokumente (z. B. *.doc, *.pdf oder *.txt), die mit SPSS Text Analytics analy-
siert werden können.
6
IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch