Seite 1
IBM SPSS Analytic Server Version 3.0.1 Benutzerhandbuch...
Seite 2
„Bemerkungen” auf Seite 33 gelesen werden. Produktinformation Diese Ausgabe bezieht sich auf Version 3, Release 0, Modifikation 1 von IBM SPSS Analytic Server und alle nachfol- genden Releases und Modifikationen, bis dieser Hinweis in einer Neuausgabe geändert wird. Diese Veröffentlichung ist eine Übersetzung des Handbuchs IBM SPSS Analytic Server, Version 3.0.1, User's Guide,...
Seite 6
Name den Suchbegriff enthält. Wählen Sie Author oder Reader in der Dropdown-Liste aus, um die Rolle der Benutzer innerhalb der Datenquelle festzulegen. Klicken Sie auf Add member, um die Benutzer der Liste der Mitglieder hinzuzufügen. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
Seite 7
Nutzer, der entsprechenden Datenquelle oder dem entsprechenden Projekt (abhängig vom ausgewählten Modus) und dem entsprechenden Unterordner. Ange- nommen, Sie führen Folgendes aus: 1. Anmelden am Nutzer ibm 2. Erstellen einer Datenquelle fraudDetection 3. Auswählen des Datenquellemodus 4. Erstellen eines Unterordners historicalData 5.
Seite 8
Geben Sie den Namen einer Tabelle aus der Datenbank ein, die Sie verwenden wollen. Filter Der Partitionsfilter für die Tabelle, wenn die Tabelle als partitionierte Tabelle erstellt wur- de. HCatalog-Filterung wird nur für Hive-Partitionsschlüssel mit dem Zeichenfolgetyp (string) unterstützt. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
Seite 9
Anmerkung: Die Operatoren !=, <> und LIKE scheinen in bestimmten Hadoop-Verteilun- gen nicht zu funktionieren. Hierbei handelt es sich um ein Kompatibilitätsproblem zwi- schen HCatalog und den betreffenden Verteilungen. HCatalog Field Mappings Zeigt die Zuordnung eines Elements in HCatalog zu einem Feld in der Datenquelle an. Klicken Sie auf Edit, um die Feldzuordnungen zu ändern.
Maße strukturiert wie Dateien mit Trennzeichen. Weitere Informationen finden Sie in „Einstellungen für semistrukturierte Dateitypen” auf Seite 9. Text Analytics-Dateityp Text Analytics-Dateien sind Dokumente (z. B. *.doc, *.pdf oder *.txt), die mit SPSS Text Analytics analy- siert werden können. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
Seite 11
Gibt die Zeichenfolge an, mit der eine neue Zeile definiert wird. Standardwert ist das Zeilenvor- schubzeichen "\n". SPSS Statistics-Dateityp SPSS Statistics-Dateien (*.sav, *.zsav) sind Binärdateien, die ein Datenmodell enthalten. Für diesen Datei- typ sind keine weiteren Einstellungen auf der Registerkarte Settings erforderlich. Typ für aufteilbare Binärformatdateien Gibt an, dass es sich beim Dateityp um eine aufteilbare Datei im Binärformat (*.asbf) handelt.
Seite 12
Zeichenfolgen in Hochkommas verdoppelt. Bei Angabe von No gibt es keine Möglichkeit, ein Anführungszeichen innerhalb einer Zeichenfolge in Anführungszeichen oder ein Hochkomma in- nerhalb einer Zeichenfolge in Hochkommas zu setzen. Der Standardwert ist Yes. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
Seite 13
Newlines can be escaped Gibt an, ob der Parser einen umgekehrten Schrägstrich gefolgt vom Buchstaben "n" oder "r" oder einem weiteren umgekehrten Schrägstrich als Zeilenvorschubzeichen, Rücklaufzeichen oder als umgekehrten Schrägstrich interpretiert. Wenn Zeilenumbrüche nicht durch ein Escapezeichen ent- wertet sind, werden diese Zeichenfolgen einfach als umgekehrter Schrägstrich gefolgt vom Buch- staben "n"...
Seite 14
Geben Sie einen regulären Ausdruck in das Textfeld Regexp ein. Add Field Capture Group Ermöglicht es Ihnen, den regulären Ausdruck zur späteren Verwendung zu speichern. Die gespei- cherte Erfassungsgruppe wird in der Dropdown-Liste Capture angezeigt. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
Seite 15
Der Regeleditor zeigt eine Vorschau der von dieser Regel aus dem ersten Datensatz extrahierten Daten an, nachdem alle vorherigen Regeln in der Regeltabelle angewendet wurden. Einstellungen für Excel-Dateitypen: Sie können die folgenden Einstellungen für Excel-Dateien angeben. Worksheet selection Wählt das Excel-Arbeitsblatt als zu verwendende Datenquelle aus. Geben Sie entweder einen nu- merischen Index (der Index des ersten Arbeitsblatts ist 0) oder den Namen des Arbeitsblatts an.
Seite 16
Sie die Standardeinstellung Field order matches data model verwenden. Wenn mehrere Dateien in der Datenquelle vorhanden sind und die Reihenfolge der Felder in den Dateien nicht identisch ist, müssen Sie eine bestimmte Feldreihenfolge (Specific field order) für das Parsen der Datei definieren. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
1. Sie können der geordneten Liste ein Feld hinzuzufügen, indem Sie den Feldnamen eingeben oder aus der vom Datenmodell bereitgestellten Liste auswählen. Sie können alle Felder im Datenmodell gleich- zeitig hinzufügen, indem Sie auf Add all klicken. Feldnamen werden der geordneten Liste nur ein einziges Mal hinzugefügt.
Familie eine unterschiedliche Anzahl Spalten aufweisen können. Die Werte aus einer Spaltenfamilie für jeden Schlüssel werden zusammen gespeichert. Cassandra-Tabellen können auf zwei Arten definiert werden: mit der traditionellen Cassandra-Befehlszei- lenschnittstelle (cassandra-cli) und mit der neuen CQL-Shell (csqlsh). IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
Seite 19
Verwenden Sie die folgende Syntax, um eine externe Apache Cassandra-Tabelle in Hive zu erstellen, wenn die Tabelle mit der traditionellen Befehlszeilenschnittstelle erstellt wurde. CREATE EXTERNAL TABLE <Hive-Tabellenname> (<Spaltenspezifikationen>) STORED BY ’org.apache.hadoop.hive.cassandra.CassandraStorageHandler’ WITH SERDEPROPERTIES("cassandra.cf.name" = "<Cassandra-Spaltenfamilie>", "cassandra.host"="<Cassandra-Host>","cassandra.port" = "<Cassandra-Port>") TBLPROPERTIES ("cassandra.ks.name" = "<Cassandra-Schlüsselbereich>"); Für die folgende CLI-Tabellendefinition beispielsweise create keyspace test with placement_strategy = ’org.apache.cassandra.locator.SimpleStrategy’...
Seite 20
Anmerkung: Wenn Ihre XML-Dateien mit Bz2-Komprimierung komprimiert werden, sollte com.ibm.spss.hive.serde2.xml.SplittableXmlInputFormat für INPUTFORMAT festgelegt werden. Wenn sie mit CMX-Komprimierung komprimiert werden, sollte com.ibm.spss.hive.serde2.xml.CmxXmlInputFormat festgelegt werden. Der folgende XML-Code beispielsweise... <records> <record customer_id="0000-JTALA"> <demographics> <gender>F</gender> IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
Seite 21
<creddebt>1.003392</creddebt> <othdebt>2.740608</othdebt> <default>0</default> </financial> </record> </records> würde durch die folgende Hive-DLL dargestellt werden: CREATE TABLE xml_bank(customer_id STRING, demographics map<Zeichenfolge,Zeichenfolge>, financial map<Zeichenfolge,Zeichenfolge>) ROW FORMAT SERDE ’com.ibm.spss.hive.serde2.xml.XmlSerDe’ WITH SERDEPROPERTIES ( "column.xpath.customer_id"="/record/@customer_id", "column.xpath.demographics"="/record/demographics/*", "column.xpath.financial"="/record/financial/*" STORED AS INPUTFORMAT ’com.ibm.spss.hive.serde2.xml.XmlInputFormat’ OUTPUTFORMAT ’org.apache.hadoop.hive.ql.io.IgnoreKeyTextOutputFormat’ TBLPROPERTIES ( "xmlinput.start"="<record customer", "xmlinput.end"="</record>"...
Seite 22
Zuordnung, Hive-DDL und Rohdaten In diesem Fall müssen Sie keine Zuordnung angeben, da standardmäßig der Name des Elements als Schlüssel und der Inhalt als Wert verwendet wird. result map<Zeichenfolge,Zeichenfolge> {"result":{"Eintrag1": "Wert1", "Eintrag2": "Wert2", "Eintrag3": "Wert3"}} IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
Sie stellen die Organisationsstruktur der höchsten Ebene bereit, die Dateien und Ordner ent- hält. Projekte können mit einzelnen Benutzern und Gruppen gemeinsam genutzt werden. Projektliste Die Hauptseite mit den Projekten enthält eine Liste mit Projekten, deren Mitglied der aktuelle Benutzer ist. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
Seite 25
– Autoren sind Vollmitglieder eines Projekts und können das Projekt sowie die darin enthalte- nen Ordner und Dateien ändern. Die Benutzer und Mitglieder dieser Gruppen haben ® Schreibzugriff (Analytic Server-Exportknoten) auf dieses Projekt, wenn sie über IBM SPSS Modeler eine Verbindung zu Analytic Server herstellen.
Seite 26
Klicken Sie auf Discard, um alle an einem gesperrten Projekt vorgenommenen Ände- rungen zu verwerfen und die zuletzt festgeschriebene Version wieder zum sichtbaren Status des Projekts zu machen. v Klicken Sie auf Delete Project, um die ausgewählte Version zu entfernen. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
Benutzermanagement Administratoren können die Rollen von Benutzern und Gruppen über die Seite Users verwalten. Der Inhaltsbereich ist in die ausblendbaren Abschnitte Details und Principals unterteilt. Details Name Ein nicht bearbeitbares Textfeld, in dem der Name des Nutzers angezeigt wird. Description Ein bearbeitbares Textfeld, in dem Sie einen erläuternden Text zum Nutzer angeben kön- nen.
Bei Namen werden führende und abschließende Leerzeichen ignoriert. v Die folgenden Zeichen sind in Namen ungültig: ~, #, %, &, *, {, }, \\, :, <, >, ?, /, |, ", \t, \r, \n IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
Kapitel 2. SPSS Modeler-Integration SPSS Modeler ist eine Data-Mining-Workbench, die über einen visuellen Ansatz für die Analyse verfügt. Jede einzelne Aktion in einem Job, vom Zugriff auf eine Datenquelle über die Zusammenführung von Datensätzen bis zur Ausgabe einer neuen Datei oder zur Erstellung eines Modells, wird durch einen Kno- ten im Erstellungsbereich dargestellt.
Seite 30
Zusammenführungsoperationen sind relativ langsam. Wenn in HDFS Speicherplatz ver- fügbar ist, ist es unter Umständen weniger zeitintensiv, wenn Sie Ihre Datenquellen einmal zusammenführen und die zusammengeführte Quelle in den folgenden Daten- strömen verwenden, anstatt die Datenquellen in jedem Datenstrom zusammenzufüh- ren. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
Seite 31
Anzahl an Datensätzen in den einzelnen Aufteilungen nicht "zu groß" ist, wobei die Definition von "zu groß" von der Leistungsstärke einzelner Knoten in Ihrem Hadoop-Cluster abhängt. Im Gegensatz dazu müssen Sie auch darauf bedacht Kapitel 2. SPSS Modeler-Integration...
Seite 32
Wenn ein Aufteilungsfeld vorhanden ist, unterscheiden sich Baummodelle, die lokal in Modeler erstellt wurden, geringfügig von Baummodellen, die von Analytic Server er- stellt wurden. Daher werden unterschiedliche Scores erzeugt. In beiden Fällen sind die IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
Export Ein Datenstrom kann mit einem Analytic Server-Quellenknoten beginnen und mit einem anderen Exportknoten als dem Analytic Server-Exportknoten enden, die Daten werden jedoch von HDFS in SPSS Modeler Server und schließlich an die Exportposition verschoben. Bewährte Verfahren Pushback in HCatalog/Hive Beim Arbeiten mit Daten in einer partitionierten Hive-Tabelle können Sie Ihren Modeler-Datenstrom so...
Seite 34
IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
Kapitel 3. Fehlerbehebung In diesem Abschnitt werden einige allgemeine Probleme bei der Verwendung sowie Wege zu deren Lö- sung beschrieben. Datenquellen Für partitionierte Spalten in HCatalog-Datenquellen definierte Filter werden nicht berücksichtigt. Dieses Problem tritt in einigen Versionen von Hive auf und kann in folgenden Situationen auftre- ten.
Seite 36
IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
Verweise in diesen Informationen auf Websites anderer Anbieter werden lediglich als Service für den Kunden bereitgestellt und stellen keinerlei Billigung des Inhalts dieser Websites dar. Das über diese Web- sites verfügbare Material ist nicht Bestandteil des Materials für dieses IBM Produkt. Die Verwendung die- ser Websites geschieht auf eigene Verantwortung.
Seite 39
Cell Broadband Engine wird unter Lizenz verwendet und ist eine Marke der Sony Computer Entertain- ment, Inc. in den USA und/oder anderen Ländern. Linear Tape-Open, LTO, das LTO-Logo, Ultrium und das Ultrium-Logo sind Marken von HP, der IBM Corporation und von Quantum in den USA und/oder anderen Ländern.
Seite 40
IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...