Menu Close

Data, Text und Web Mining (Vorlesung 1)

In der ersten Vorlesung von Data, Text und Web Mining haben wir uns mit dem Prozess des Knowledge Discovery in Databases sowie einer Einführung in die Praktikumswerkzeuge beschäftigt.

AnfangDataTextWebMining_K1_2016 – Seite 1
EndeDataTextWebMining_K1_2016 – Seite 26

Einleitung

Wie skalieren Werkzeuge der ersten und zweiten Generation?

  • Traditionelle Tools skalieren vertikal 
  • Tools der zweiten Generation skalieren horizontal (MapReduce hat limitierte Anwendungsmöglichkeiten)

Datenbereinigung & -integration

Wie kann man Wissen über Daten sammeln?

  • Es ist wichtig zu wissen, wofür die eingegebenen Daten stehen (sollen)
  • Daher sieht man sich die Eingabeformulare an

Woher stammen die Daten fürs Mining?

  • Die Daten der Datenanalyse kommen aus operativen Datenbanksystemen (DBS)
  • Die Erzeugung eines Data Warehouse ist optional (aufpassen, ob die Daten verwertbar sind)

Wie wird mit NULL-Values in Attributen bzw. Spalten umgegangen?

  • Attribute und Spalten werden als „Merkmal“ bezeichnet
  • Es gibt Algorithmen, die mit fehlenden Merkmalen (nicht) klarkommen (vorher bewusst machen und nachbessern)

Was ist Homonymie?

  • Bei der Homonymie steht derselbe sprachliche Ausdruck für verschiedene Begriffe
  • Beispiel: Bank (Sitzgelegenheit) und Bank (Geldinstitut)

Was ist Synonymie?

  • Bei der Synonymie stehen verschiedene sprachliche Ausdrücke für denselben Begriff
  • Beispiel: vertikal – senkrecht

Warum muss man Homonymie und Synonymie beachten?

  • Wenn Datensätze anhand von bestimmten Kriterien zusammengefügt oder verglichen werden sollen

Beispiel: Ungenaue Daten

  • Das Alter von juristischen und natürlichen Personen in einer gemeinsamen Spalte einer Datenbank

Datenselektion & -transformation

Worauf muss man achten?

  • Die Abhängigkeiten bestimmter Daten zueinander müssen bei der Selektion berücksichtigt werden

Data Mining

Wie funktioniert eine Klassifizierung?

  • Ein Teil der Daten wird auf vordefinierte Klassen zugeordnet
  • Dieser Prozess wird mithilfe von Trainingsdaten unterstützt
  • Üblicherweise gibt es nur zwei Klassen (binäres Ja/Nein)

Dimensionen eines Merkmalsraumes

  • Die Dimensionen entsprechen der Anzahl an Merkmale von den Datensätzen

Wie funktioniert Clustering?

  • Es wird eine Distanz für eine Dimension definiert, welche den erlaubten Abstand festlegt
  • Es sind beliebig viele Distanzen durch Distanzvektoren berechenbar, aber nur drei Dimensionen können visualisiert werden

Wie lange sind Modelle gültig?

  • Das kommt auf den Anwendungsfall an
  • Wenn ein Modell nicht mehr funktioniert kann ein Austausch notwendig werden

Evaluation & Visualisierung

Candlestick Chart

  • Negativer Tagesverlauf: Der Kerzenkörper ist schwarz, da der Schlusskurs unter dem Eröffnungskurs liegt
  • Positiver Tagesverlauf: Der Kerzenkörper ist weiß/rot, da der Schlusskurs oberhalb des Eröffnungskurses liegt
  • Wenn es weiße und rote Kerzen gibt, so stehen die roten Kerzen für einen negativen Tagesverlauf
Kursverläufe im Candlestick Chart

Was ist die Schulter-Kopf-Schulter-Formation und die Neckline?

[Die SKS-Formation ist ein bestimmtes Muster in einem Diagramm/Chart.] Sie wird gebildet, wenn es nach einem längeren Kursanstieg zu einem Hoch kommt. Dieses Hoch ist dann die linke Schulter. Es geht etwas runter und kommt dann zu einem erneuten Anstieg, der das letzte Hoch übertrifft. Das ist dann der Kopf. Es geht wieder Abwärts. Danach geht es wieder aufwärts etwa bis zur Höhe der ersten Schulter, es bildet sich die rechte Schulter. Wenn dann die sogenannte Nackenlinie [(Neckline)], eine Linie, die man durch die Tiefs zwischen den Schultern und dem Kopf ziehen kann, gebrochen wird, ist dies eine der verlässlichsten Chart- Formationen.http://www.investor-verlag.de/boersen-wissen/charttechnische-formationen/sks/

Skizze einer SKS-Formation mit Neckline

Übung

Warum ist die Berechnung des Medians standardmäßig deaktiviert?

  • Das Sortieren einer Sortieren von vielen Elementen ist zeitaufwändig und steigt signifikant mit jedem neuen Element
  • Im Gegensatz zum Mittelwert, dort muss nur jedes Element einmal durchlaufen und addiert werden
Operationen zur Bestimmung des Medians

Was ist der Modalwert?

  • Ausprägung des häufigsten Auftretens von mehreren Werten
Beispiel einer Modalwertliste

Praktikum

Hinweis zum Datensatz

  • Das „Menge“-Attribut kommt in unterschiedlichen Kontexten und unterschiedlicher Skalierung (mg, ml, etc.) vor

Hinweise zu den erzeugen Dateiformaten

  • Die Dateiendung .str~ gehört zu der Backup-Datei eines Streams
  • Diese Dateien sollen nicht abgegeben werden!

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahren Sie, wie Ihre Kommentardaten verarbeitet werden.

Index