Der K-nächste-Nachbarn-Algorithmus
1. Vorbereiten der Daten
- Öffne diese Datei in Excel:
Daten.csv
- Entscheide, welche Spalte die Labels enthält.
- Sortiere die Daten nach den Labels
- Stelle die Daten der Angestellten graphisch dar (x,y Diagramm).
- Füge die Daten der Minijobber hinzu (rechte Maustaste auf Diagramm, Daten auswählen, hinzufügen)
- Füge die Daten der Selbständigen hinzu.
- Füge eine Legende zum Diagramm hinzu.
2. Normalisierung der Daten
- Schreibe je eine Funktion zur Ermittlung von
-
Minimum der Altersdaten
-
Maximum der Altersdaten
-
Differenz max-min
-
Minimum der Gehaltesdaten
-
Maximum der Gehaltsdaten
-
Differenz max-min
- Schreibe eine Funktion mit der die Altersdaten auf den Wertebereich 0-1 normiert werden.
Verwende hierbei teilweise absolute Bezüge (Bsp.: C$5: relativ für Spalte C, absolut für Zeile 5).
- Schreibe die analoge Funktion zur Normierung der Gehaltsdaten.
- Stelle die normierten Daten wie oben graphisch dar.
3. Analyse der Daten
Analysiere die Daten nach folgenden Aspekten:
- Welcher Parameter (Alter, Monatseinkommen) eignet sich besser zur Klassifizierung der Daten?
- Gib es Ausreißer, d.h. besonders hohe oder besonders niedrige Daten?
- Wie stören diese Daten die Auswertung.
4. Festlegen von K
Um K automatisch festzulegen wird für alle gelabelten Daten untersucht, wie gut sie mit Hilfe ihrer k-nächsten Nachbarn bestimmt werden.
Es wird der k-Wert verwendet, bei dem die wenigsten Fehler auftreten.
K muss hierbei deutlich kleiner als die Gesamtzahl der Datenpunkte sein.
AB Festlegen von K