Data, Text und Web Mining (Vorlesung 1)

In der ersten Vorlesung von Data, Text und Web Mining haben wir uns mit dem Prozess des Knowledge Discovery in Databases sowie einer Einführung in die Praktikumswerkzeuge beschäftigt.

Anfang	DataTextWebMining_K1_2016 – Seite 1
Ende	DataTextWebMining_K1_2016 – Seite 26

Einleitung

Wie skalieren Werkzeuge der ersten und zweiten Generation?

Traditionelle Tools skalieren vertikal
Tools der zweiten Generation skalieren horizontal (MapReduce hat limitierte Anwendungsmöglichkeiten)

Datenbereinigung & -integration

Wie kann man Wissen über Daten sammeln?

Es ist wichtig zu wissen, wofür die eingegebenen Daten stehen (sollen)
Daher sieht man sich die Eingabeformulare an

Woher stammen die Daten fürs Mining?

Die Daten der Datenanalyse kommen aus operativen Datenbanksystemen (DBS)
Die Erzeugung eines Data Warehouse ist optional (aufpassen, ob die Daten verwertbar sind)

Wie wird mit NULL-Values in Attributen bzw. Spalten umgegangen?

Attribute und Spalten werden als „Merkmal“ bezeichnet
Es gibt Algorithmen, die mit fehlenden Merkmalen (nicht) klarkommen (vorher bewusst machen und nachbessern)

Was ist Homonymie?

Bei der Homonymie steht derselbe sprachliche Ausdruck für verschiedene Begriffe
Beispiel: Bank (Sitzgelegenheit) und Bank (Geldinstitut)

Was ist Synonymie?

Bei der Synonymie stehen verschiedene sprachliche Ausdrücke für denselben Begriff
Beispiel: vertikal – senkrecht

Warum muss man Homonymie und Synonymie beachten?

Wenn Datensätze anhand von bestimmten Kriterien zusammengefügt oder verglichen werden sollen

Beispiel: Ungenaue Daten

Das Alter von juristischen und natürlichen Personen in einer gemeinsamen Spalte einer Datenbank

Datenselektion & -transformation

Worauf muss man achten?

Die Abhängigkeiten bestimmter Daten zueinander müssen bei der Selektion berücksichtigt werden

Data Mining

Wie funktioniert eine Klassifizierung?

Ein Teil der Daten wird auf vordefinierte Klassen zugeordnet
Dieser Prozess wird mithilfe von Trainingsdaten unterstützt
Üblicherweise gibt es nur zwei Klassen (binäres Ja/Nein)

Dimensionen eines Merkmalsraumes

Die Dimensionen entsprechen der Anzahl an Merkmale von den Datensätzen

Wie funktioniert Clustering?

Es wird eine Distanz für eine Dimension definiert, welche den erlaubten Abstand festlegt
Es sind beliebig viele Distanzen durch Distanzvektoren berechenbar, aber nur drei Dimensionen können visualisiert werden

Wie lange sind Modelle gültig?

Das kommt auf den Anwendungsfall an
Wenn ein Modell nicht mehr funktioniert kann ein Austausch notwendig werden

Evaluation & Visualisierung

Candlestick Chart

Negativer Tagesverlauf: Der Kerzenkörper ist schwarz, da der Schlusskurs unter dem Eröffnungskurs liegt
Positiver Tagesverlauf: Der Kerzenkörper ist weiß/rot, da der Schlusskurs oberhalb des Eröffnungskurses liegt
Wenn es weiße und rote Kerzen gibt, so stehen die roten Kerzen für einen negativen Tagesverlauf

Was ist die Schulter-Kopf-Schulter-Formation und die Neckline?

[Die SKS-Formation ist ein bestimmtes Muster in einem Diagramm/Chart.] Sie wird gebildet, wenn es nach einem längeren Kursanstieg zu einem Hoch kommt. Dieses Hoch ist dann die linke Schulter. Es geht etwas runter und kommt dann zu einem erneuten Anstieg, der das letzte Hoch übertrifft. Das ist dann der Kopf. Es geht wieder Abwärts. Danach geht es wieder aufwärts etwa bis zur Höhe der ersten Schulter, es bildet sich die rechte Schulter. Wenn dann die sogenannte Nackenlinie [(Neckline)], eine Linie, die man durch die Tiefs zwischen den Schultern und dem Kopf ziehen kann, gebrochen wird, ist dies eine der verlässlichsten Chart- Formationen.http://www.investor-verlag.de/boersen-wissen/charttechnische-formationen/sks/

Übung

Warum ist die Berechnung des Medians standardmäßig deaktiviert?

Das Sortieren einer Sortieren von vielen Elementen ist zeitaufwändig und steigt signifikant mit jedem neuen Element
Im Gegensatz zum Mittelwert, dort muss nur jedes Element einmal durchlaufen und addiert werden

Was ist der Modalwert?

Ausprägung des häufigsten Auftretens von mehreren Werten

Praktikum

Hinweis zum Datensatz

Das „Menge“-Attribut kommt in unterschiedlichen Kontexten und unterschiedlicher Skalierung (mg, ml, etc.) vor

Hinweise zu den erzeugen Dateiformaten

Die Dateiendung .str~ gehört zu der Backup-Datei eines Streams
Diese Dateien sollen nicht abgegeben werden!

Data, Text und Web Mining (Vorlesung 1)

Einleitung

Datenbereinigung & -integration

Datenselektion & -transformation

Data Mining

Evaluation & Visualisierung

Übung

Praktikum

Schreiben Sie einen Kommentar Antwort abbrechen

Navigation

Info

About