In der ersten Vorlesung von Data, Text und Web Mining haben wir uns mit dem Prozess des Knowledge Discovery in Databases sowie einer Einführung in die Praktikumswerkzeuge beschäftigt.
| Anfang | DataTextWebMining_K1_2016 – Seite 1 |
|---|---|
| Ende | DataTextWebMining_K1_2016 – Seite 26 |
Einleitung
Wie skalieren Werkzeuge der ersten und zweiten Generation?
- Traditionelle Tools skalieren vertikal
- Tools der zweiten Generation skalieren horizontal (MapReduce hat limitierte Anwendungsmöglichkeiten)
Datenbereinigung & -integration
Wie kann man Wissen über Daten sammeln?
- Es ist wichtig zu wissen, wofür die eingegebenen Daten stehen (sollen)
- Daher sieht man sich die Eingabeformulare an
Woher stammen die Daten fürs Mining?
- Die Daten der Datenanalyse kommen aus operativen Datenbanksystemen (DBS)
- Die Erzeugung eines Data Warehouse ist optional (aufpassen, ob die Daten verwertbar sind)
Wie wird mit NULL-Values in Attributen bzw. Spalten umgegangen?
- Attribute und Spalten werden als „Merkmal“ bezeichnet
- Es gibt Algorithmen, die mit fehlenden Merkmalen (nicht) klarkommen (vorher bewusst machen und nachbessern)
Was ist Homonymie?
- Bei der Homonymie steht derselbe sprachliche Ausdruck für verschiedene Begriffe
- Beispiel: Bank (Sitzgelegenheit) und Bank (Geldinstitut)
Was ist Synonymie?
- Bei der Synonymie stehen verschiedene sprachliche Ausdrücke für denselben Begriff
- Beispiel: vertikal – senkrecht
Warum muss man Homonymie und Synonymie beachten?
- Wenn Datensätze anhand von bestimmten Kriterien zusammengefügt oder verglichen werden sollen
Beispiel: Ungenaue Daten
- Das Alter von juristischen und natürlichen Personen in einer gemeinsamen Spalte einer Datenbank
Datenselektion & -transformation
Worauf muss man achten?
- Die Abhängigkeiten bestimmter Daten zueinander müssen bei der Selektion berücksichtigt werden
Data Mining
Wie funktioniert eine Klassifizierung?
- Ein Teil der Daten wird auf vordefinierte Klassen zugeordnet
- Dieser Prozess wird mithilfe von Trainingsdaten unterstützt
- Üblicherweise gibt es nur zwei Klassen (binäres Ja/Nein)
Dimensionen eines Merkmalsraumes
- Die Dimensionen entsprechen der Anzahl an Merkmale von den Datensätzen
Wie funktioniert Clustering?
- Es wird eine Distanz für eine Dimension definiert, welche den erlaubten Abstand festlegt
- Es sind beliebig viele Distanzen durch Distanzvektoren berechenbar, aber nur drei Dimensionen können visualisiert werden
Wie lange sind Modelle gültig?
- Das kommt auf den Anwendungsfall an
- Wenn ein Modell nicht mehr funktioniert kann ein Austausch notwendig werden
Evaluation & Visualisierung
Candlestick Chart
- Negativer Tagesverlauf: Der Kerzenkörper ist schwarz, da der Schlusskurs unter dem Eröffnungskurs liegt
- Positiver Tagesverlauf: Der Kerzenkörper ist weiß/rot, da der Schlusskurs oberhalb des Eröffnungskurses liegt
- Wenn es weiße und rote Kerzen gibt, so stehen die roten Kerzen für einen negativen Tagesverlauf

Was ist die Schulter-Kopf-Schulter-Formation und die Neckline?
[Die SKS-Formation ist ein bestimmtes Muster in einem Diagramm/Chart.] Sie wird gebildet, wenn es nach einem längeren Kursanstieg zu einem Hoch kommt. Dieses Hoch ist dann die linke Schulter. Es geht etwas runter und kommt dann zu einem erneuten Anstieg, der das letzte Hoch übertrifft. Das ist dann der Kopf. Es geht wieder Abwärts. Danach geht es wieder aufwärts etwa bis zur Höhe der ersten Schulter, es bildet sich die rechte Schulter. Wenn dann die sogenannte Nackenlinie [(Neckline)], eine Linie, die man durch die Tiefs zwischen den Schultern und dem Kopf ziehen kann, gebrochen wird, ist dies eine der verlässlichsten Chart- Formationen.http://www.investor-verlag.de/boersen-wissen/charttechnische-formationen/sks/

Übung
Warum ist die Berechnung des Medians standardmäßig deaktiviert?
- Das Sortieren einer Sortieren von vielen Elementen ist zeitaufwändig und steigt signifikant mit jedem neuen Element
- Im Gegensatz zum Mittelwert, dort muss nur jedes Element einmal durchlaufen und addiert werden

Was ist der Modalwert?
- Ausprägung des häufigsten Auftretens von mehreren Werten

Praktikum
Hinweis zum Datensatz
- Das „Menge“-Attribut kommt in unterschiedlichen Kontexten und unterschiedlicher Skalierung (mg, ml, etc.) vor
Hinweise zu den erzeugen Dateiformaten
- Die Dateiendung
.str~gehört zu der Backup-Datei eines Streams - Diese Dateien sollen nicht abgegeben werden!