Der K-nächste-Nachbarn-Algorithmus

1. Vorbereiten der Daten

Öffne diese Datei in Excel: Daten.csv
Entscheide, welche Spalte die Labels enthält.
Sortiere die Daten nach den Labels
Stelle die Daten der Angestellten graphisch dar (x,y Diagramm).
Füge die Daten der Minijobber hinzu (rechte Maustaste auf Diagramm, Daten auswählen, hinzufügen)
Füge die Daten der Selbständigen hinzu.
Füge eine Legende zum Diagramm hinzu.

2. Normalisierung der Daten

Schreibe je eine Funktion zur Ermittlung von
1. Minimum der Altersdaten
2. Maximum der Altersdaten
3. Differenz max-min
4. Minimum der Gehaltesdaten
5. Maximum der Gehaltsdaten
6. Differenz max-min
Schreibe eine Funktion mit der die Altersdaten auf den Wertebereich 0-1 normiert werden.
Verwende hierbei teilweise absolute Bezüge (Bsp.: C$5: relativ für Spalte C, absolut für Zeile 5).
Schreibe die analoge Funktion zur Normierung der Gehaltsdaten.
Stelle die normierten Daten wie oben graphisch dar.

3. Analyse der Daten

Analysiere die Daten nach folgenden Aspekten:

Welcher Parameter (Alter, Monatseinkommen) eignet sich besser zur Klassifizierung der Daten?
Gibt es Ausreißer, d.h. besonders hohe oder besonders niedrige Daten?
Wie stören diese Daten die Auswertung.

4. Berechnen der Abstände zu einem neuen Punkt

Trage in die Tabelle einen neuen Datenpunkt mit Alter und Monatseinkommen ein.
Normiere diese Einträge mit der passenden Formel.
Erzeuge zwei neue Spalten:
1. Berechnung des Abstands des neuen Datenpunkts von jedem gelabelten Datenpunkt mit der Formel dAlter² + dMonatseinkommen²
2. Label des gelabelten Datenpunkts.

5. Markieren der 3 nächsten Nachbarn

Markiere die Spalte mit den Abstände und wähle über das Menü Bedingte Formatiereung die Regel, mit der die untersten 3 Abstände farbig markiert werden sollen.
Der neue Punkt bekommt das Label, das bei den meisten markierten Abständen steht.

Exkurs: Festlegen von K

Um K automatisch festzulegen wird für alle gelabelten Daten untersucht, wie gut sie mit Hilfe ihrer k-nächsten Nachbarn bestimmt werden.
Es wird der k-Wert verwendet, bei dem die wenigsten Fehler auftreten.
K muss hierbei deutlich kleiner als die Gesamtzahl der Datenpunkte sein.

AB Festlegen von K