Herunterladen Inhalt Inhalt Diese Seite drucken

Werbung

IBM SPSS Analytic Server
Version 3.0.1
Benutzerhandbuch
IBM

Werbung

Inhaltsverzeichnis
loading

Inhaltszusammenfassung für IBM SPSS

  • Seite 1 IBM SPSS Analytic Server Version 3.0.1 Benutzerhandbuch...
  • Seite 2 „Bemerkungen” auf Seite 33 gelesen werden. Produktinformation Diese Ausgabe bezieht sich auf Version 3, Release 0, Modifikation 1 von IBM SPSS Analytic Server und alle nachfol- genden Releases und Modifikationen, bis dieser Hinweis in einer Neuausgabe geändert wird. Diese Veröffentlichung ist eine Übersetzung des Handbuchs IBM SPSS Analytic Server, Version 3.0.1, User's Guide,...
  • Seite 3: Inhaltsverzeichnis

    Inhaltsverzeichnis Kapitel 1. Analytic Server-Konsole . . . 1 Kapitel 2. SPSS Modeler-Integration . . 25 Datenquellen . Unterstützte Knoten . 25 Einstellungen (Dateidatenquellen) . Bewährte Verfahren. . 29 HCatalog-Feldzuordnungen . . 13 Verwenden von HCatalog-Datenquellen . . 14 Kapitel 3. Fehlerbehebung ..31 Vorschau und Metadaten (Datenquellen) .
  • Seite 4 IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 5: Kapitel 1. Analytic Server-Konsole

    - Wenn der Inhaltstyp ausgewählt wurde, kann er nicht mehr bearbeitet werden. - Sie können mehrere Datenquellen in einer Aktion importieren/exportieren. v Klicken Sie auf Delete, um die Datenquelle zu entfernen. Bei dieser Aktion bleiben alle Dateien, die der Datenquelle zugeordnet sind, intakt. © Copyright IBM Corp. 2010, 2016...
  • Seite 6 Name den Suchbegriff enthält. Wählen Sie Author oder Reader in der Dropdown-Liste aus, um die Rolle der Benutzer innerhalb der Datenquelle festzulegen. Klicken Sie auf Add member, um die Benutzer der Liste der Mitglieder hinzuzufügen. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 7 Nutzer, der entsprechenden Datenquelle oder dem entsprechenden Projekt (abhängig vom ausgewählten Modus) und dem entsprechenden Unterordner. Ange- nommen, Sie führen Folgendes aus: 1. Anmelden am Nutzer ibm 2. Erstellen einer Datenquelle fraudDetection 3. Auswählen des Datenquellemodus 4. Erstellen eines Unterordners historicalData 5.
  • Seite 8 Geben Sie den Namen einer Tabelle aus der Datenbank ein, die Sie verwenden wollen. Filter Der Partitionsfilter für die Tabelle, wenn die Tabelle als partitionierte Tabelle erstellt wur- de. HCatalog-Filterung wird nur für Hive-Partitionsschlüssel mit dem Zeichenfolgetyp (string) unterstützt. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 9 Anmerkung: Die Operatoren !=, <> und LIKE scheinen in bestimmten Hadoop-Verteilun- gen nicht zu funktionieren. Hierbei handelt es sich um ein Kompatibilitätsproblem zwi- schen HCatalog und den betreffenden Verteilungen. HCatalog Field Mappings Zeigt die Zuordnung eines Elements in HCatalog zu einem Feld in der Datenquelle an. Klicken Sie auf Edit, um die Feldzuordnungen zu ändern.
  • Seite 10: Einstellungen (Dateidatenquellen)

    Maße strukturiert wie Dateien mit Trennzeichen. Weitere Informationen finden Sie in „Einstellungen für semistrukturierte Dateitypen” auf Seite 9. Text Analytics-Dateityp Text Analytics-Dateien sind Dokumente (z. B. *.doc, *.pdf oder *.txt), die mit SPSS Text Analytics analy- siert werden können. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 11 Gibt die Zeichenfolge an, mit der eine neue Zeile definiert wird. Standardwert ist das Zeilenvor- schubzeichen "\n". SPSS Statistics-Dateityp SPSS Statistics-Dateien (*.sav, *.zsav) sind Binärdateien, die ein Datenmodell enthalten. Für diesen Datei- typ sind keine weiteren Einstellungen auf der Registerkarte Settings erforderlich. Typ für aufteilbare Binärformatdateien Gibt an, dass es sich beim Dateityp um eine aufteilbare Datei im Binärformat (*.asbf) handelt.
  • Seite 12 Zeichenfolgen in Hochkommas verdoppelt. Bei Angabe von No gibt es keine Möglichkeit, ein Anführungszeichen innerhalb einer Zeichenfolge in Anführungszeichen oder ein Hochkomma in- nerhalb einer Zeichenfolge in Hochkommas zu setzen. Der Standardwert ist Yes. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 13 Newlines can be escaped Gibt an, ob der Parser einen umgekehrten Schrägstrich gefolgt vom Buchstaben "n" oder "r" oder einem weiteren umgekehrten Schrägstrich als Zeilenvorschubzeichen, Rücklaufzeichen oder als umgekehrten Schrägstrich interpretiert. Wenn Zeilenumbrüche nicht durch ein Escapezeichen ent- wertet sind, werden diese Zeichenfolgen einfach als umgekehrter Schrägstrich gefolgt vom Buch- staben "n"...
  • Seite 14 Geben Sie einen regulären Ausdruck in das Textfeld Regexp ein. Add Field Capture Group Ermöglicht es Ihnen, den regulären Ausdruck zur späteren Verwendung zu speichern. Die gespei- cherte Erfassungsgruppe wird in der Dropdown-Liste Capture angezeigt. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 15 Der Regeleditor zeigt eine Vorschau der von dieser Regel aus dem ersten Datensatz extrahierten Daten an, nachdem alle vorherigen Regeln in der Regeltabelle angewendet wurden. Einstellungen für Excel-Dateitypen: Sie können die folgenden Einstellungen für Excel-Dateien angeben. Worksheet selection Wählt das Excel-Arbeitsblatt als zu verwendende Datenquelle aus. Geben Sie entweder einen nu- merischen Index (der Index des ersten Arbeitsblatts ist 0) oder den Namen des Arbeitsblatts an.
  • Seite 16 Sie die Standardeinstellung Field order matches data model verwenden. Wenn mehrere Dateien in der Datenquelle vorhanden sind und die Reihenfolge der Felder in den Dateien nicht identisch ist, müssen Sie eine bestimmte Feldreihenfolge (Specific field order) für das Parsen der Datei definieren. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 17: Hcatalog-Feldzuordnungen

    1. Sie können der geordneten Liste ein Feld hinzuzufügen, indem Sie den Feldnamen eingeben oder aus der vom Datenmodell bereitgestellten Liste auswählen. Sie können alle Felder im Datenmodell gleich- zeitig hinzufügen, indem Sie auf Add all klicken. Feldnamen werden der geordneten Liste nur ein einziges Mal hinzugefügt.
  • Seite 18: Verwenden Von Hcatalog-Datenquellen

    Familie eine unterschiedliche Anzahl Spalten aufweisen können. Die Werte aus einer Spaltenfamilie für jeden Schlüssel werden zusammen gespeichert. Cassandra-Tabellen können auf zwei Arten definiert werden: mit der traditionellen Cassandra-Befehlszei- lenschnittstelle (cassandra-cli) und mit der neuen CQL-Shell (csqlsh). IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 19 Verwenden Sie die folgende Syntax, um eine externe Apache Cassandra-Tabelle in Hive zu erstellen, wenn die Tabelle mit der traditionellen Befehlszeilenschnittstelle erstellt wurde. CREATE EXTERNAL TABLE <Hive-Tabellenname> (<Spaltenspezifikationen>) STORED BY ’org.apache.hadoop.hive.cassandra.CassandraStorageHandler’ WITH SERDEPROPERTIES("cassandra.cf.name" = "<Cassandra-Spaltenfamilie>", "cassandra.host"="<Cassandra-Host>","cassandra.port" = "<Cassandra-Port>") TBLPROPERTIES ("cassandra.ks.name" = "<Cassandra-Schlüsselbereich>"); Für die folgende CLI-Tabellendefinition beispielsweise create keyspace test with placement_strategy = ’org.apache.cassandra.locator.SimpleStrategy’...
  • Seite 20 Anmerkung: Wenn Ihre XML-Dateien mit Bz2-Komprimierung komprimiert werden, sollte com.ibm.spss.hive.serde2.xml.SplittableXmlInputFormat für INPUTFORMAT festgelegt werden. Wenn sie mit CMX-Komprimierung komprimiert werden, sollte com.ibm.spss.hive.serde2.xml.CmxXmlInputFormat festgelegt werden. Der folgende XML-Code beispielsweise... <records> <record customer_id="0000-JTALA"> <demographics> <gender>F</gender> IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 21 <creddebt>1.003392</creddebt> <othdebt>2.740608</othdebt> <default>0</default> </financial> </record> </records> würde durch die folgende Hive-DLL dargestellt werden: CREATE TABLE xml_bank(customer_id STRING, demographics map<Zeichenfolge,Zeichenfolge>, financial map<Zeichenfolge,Zeichenfolge>) ROW FORMAT SERDE ’com.ibm.spss.hive.serde2.xml.XmlSerDe’ WITH SERDEPROPERTIES ( "column.xpath.customer_id"="/record/@customer_id", "column.xpath.demographics"="/record/demographics/*", "column.xpath.financial"="/record/financial/*" STORED AS INPUTFORMAT ’com.ibm.spss.hive.serde2.xml.XmlInputFormat’ OUTPUTFORMAT ’org.apache.hadoop.hive.ql.io.IgnoreKeyTextOutputFormat’ TBLPROPERTIES ( "xmlinput.start"="<record customer", "xmlinput.end"="</record>"...
  • Seite 22 Zuordnung, Hive-DDL und Rohdaten In diesem Fall müssen Sie keine Zuordnung angeben, da standardmäßig der Name des Elements als Schlüssel und der Inhalt als Wert verwendet wird. result map<Zeichenfolge,Zeichenfolge> {"result":{"Eintrag1": "Wert1", "Eintrag2": "Wert2", "Eintrag3": "Wert3"}} IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 23: Vorschau Und Metadaten (Datenquellen)

    Attribut zu Elementinhalt Attributwert als Schlüssel und Elementinhalt als Wert verwenden. XML-Daten <entry name=”Schlüssel1”>Wert1</entry> <entry name=”Schlüssel2”>Wert2</entry> <entry name=”Schlüssel3”>Wert3</entry> Zuordnung, Hive-DDL und Rohdaten "xml.map.specification.entry"="@name->#content" result map<Zeichenfolge,Zeichenfolge> {"result":{"Schlüssel1": "Wert1", "Schlüssel2": "Wert2", "Schlüssel3": "Wert3"}} Attribut zu Attribut XML-Daten <entry name=”Schlüssel1” value=”Wert1”/> <entry name=”Schlüssel2” value=”Wert2”/> <entry name=”Schlüssel3”...
  • Seite 24: Projekte

    Sie stellen die Organisationsstruktur der höchsten Ebene bereit, die Dateien und Ordner ent- hält. Projekte können mit einzelnen Benutzern und Gruppen gemeinsam genutzt werden. Projektliste Die Hauptseite mit den Projekten enthält eine Liste mit Projekten, deren Mitglied der aktuelle Benutzer ist. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 25 – Autoren sind Vollmitglieder eines Projekts und können das Projekt sowie die darin enthalte- nen Ordner und Dateien ändern. Die Benutzer und Mitglieder dieser Gruppen haben ® Schreibzugriff (Analytic Server-Exportknoten) auf dieses Projekt, wenn sie über IBM SPSS Modeler eine Verbindung zu Analytic Server herstellen.
  • Seite 26 Klicken Sie auf Discard, um alle an einem gesperrten Projekt vorgenommenen Ände- rungen zu verwerfen und die zuletzt festgeschriebene Version wieder zum sichtbaren Status des Projekts zu machen. v Klicken Sie auf Delete Project, um die ausgewählte Version zu entfernen. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 27: Benutzermanagement

    Benutzermanagement Administratoren können die Rollen von Benutzern und Gruppen über die Seite Users verwalten. Der Inhaltsbereich ist in die ausblendbaren Abschnitte Details und Principals unterteilt. Details Name Ein nicht bearbeitbares Textfeld, in dem der Name des Nutzers angezeigt wird. Description Ein bearbeitbares Textfeld, in dem Sie einen erläuternden Text zum Nutzer angeben kön- nen.
  • Seite 28: Benennungsregeln

    Bei Namen werden führende und abschließende Leerzeichen ignoriert. v Die folgenden Zeichen sind in Namen ungültig: ~, #, %, &, *, {, }, \\, :, <, >, ?, /, |, ", \t, \r, \n IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 29: Kapitel 2. Spss Modeler-Integration

    Kapitel 2. SPSS Modeler-Integration SPSS Modeler ist eine Data-Mining-Workbench, die über einen visuellen Ansatz für die Analyse verfügt. Jede einzelne Aktion in einem Job, vom Zugriff auf eine Datenquelle über die Zusammenführung von Datensätzen bis zur Ausgabe einer neuen Datei oder zur Erstellung eines Modells, wird durch einen Kno- ten im Erstellungsbereich dargestellt.
  • Seite 30 Zusammenführungsoperationen sind relativ langsam. Wenn in HDFS Speicherplatz ver- fügbar ist, ist es unter Umständen weniger zeitintensiv, wenn Sie Ihre Datenquellen einmal zusammenführen und die zusammengeführte Quelle in den folgenden Daten- strömen verwenden, anstatt die Datenquellen in jedem Datenstrom zusammenzufüh- ren. IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 31 Anzahl an Datensätzen in den einzelnen Aufteilungen nicht "zu groß" ist, wobei die Definition von "zu groß" von der Leistungsstärke einzelner Knoten in Ihrem Hadoop-Cluster abhängt. Im Gegensatz dazu müssen Sie auch darauf bedacht Kapitel 2. SPSS Modeler-Integration...
  • Seite 32 Wenn ein Aufteilungsfeld vorhanden ist, unterscheiden sich Baummodelle, die lokal in Modeler erstellt wurden, geringfügig von Baummodellen, die von Analytic Server er- stellt wurden. Daher werden unterschiedliche Scores erzeugt. In beiden Fällen sind die IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 33: Bewährte Verfahren

    Export Ein Datenstrom kann mit einem Analytic Server-Quellenknoten beginnen und mit einem anderen Exportknoten als dem Analytic Server-Exportknoten enden, die Daten werden jedoch von HDFS in SPSS Modeler Server und schließlich an die Exportposition verschoben. Bewährte Verfahren Pushback in HCatalog/Hive Beim Arbeiten mit Daten in einer partitionierten Hive-Tabelle können Sie Ihren Modeler-Datenstrom so...
  • Seite 34 IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 35: Kapitel 3. Fehlerbehebung

    Kapitel 3. Fehlerbehebung In diesem Abschnitt werden einige allgemeine Probleme bei der Verwendung sowie Wege zu deren Lö- sung beschrieben. Datenquellen Für partitionierte Spalten in HCatalog-Datenquellen definierte Filter werden nicht berücksichtigt. Dieses Problem tritt in einigen Versionen von Hive auf und kann in folgenden Situationen auftre- ten.
  • Seite 36 IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 37: Bemerkungen

    Verweise in diesen Informationen auf Websites anderer Anbieter werden lediglich als Service für den Kunden bereitgestellt und stellen keinerlei Billigung des Inhalts dieser Websites dar. Das über diese Web- sites verfügbare Material ist nicht Bestandteil des Materials für dieses IBM Produkt. Die Verwendung die- ser Websites geschieht auf eigene Verantwortung.
  • Seite 38: Marken

    © Copyright IBM Corp. _Jahr/Jahre angeben_. Alle Rechte vorbehalten. Marken IBM, das IBM Logo und ibm.com sind Marken oder eingetragene Marken der IBM Corporation in den USA und/oder anderen Ländern. Weitere Produkt- und Servicenamen können Marken von IBM oder an- deren Unternehmen sein.
  • Seite 39 Cell Broadband Engine wird unter Lizenz verwendet und ist eine Marke der Sony Computer Entertain- ment, Inc. in den USA und/oder anderen Ländern. Linear Tape-Open, LTO, das LTO-Logo, Ultrium und das Ultrium-Logo sind Marken von HP, der IBM Corporation und von Quantum in den USA und/oder anderen Ländern.
  • Seite 40 IBM SPSS Analytic Server Version 3.0.1: Benutzerhandbuch...
  • Seite 42 IBM®...

Inhaltsverzeichnis