Der K-nächste-Nachbarn-Algorithmus
1. Vorbereiten der Daten
- Öffne diese Datei in Excel:
Daten.csv
- Entscheide, welche Spalte die Labels enthält.
- Sortiere die Daten nach den Labels
- Stelle die Daten der Angestellten graphisch dar (x,y Diagramm).
- Füge die Daten der Minijobber hinzu (rechte Maustaste auf Diagramm, Daten auswählen, hinzufügen)
- Füge die Daten der Selbständigen hinzu.
- Füge eine Legende zum Diagramm hinzu.
2. Normalisierung der Daten
- Schreibe je eine Funktion zur Ermittlung von
-
Minimum der Altersdaten
-
Maximum der Altersdaten
-
Differenz max-min
-
Minimum der Gehaltesdaten
-
Maximum der Gehaltsdaten
-
Differenz max-min
- Schreibe eine Funktion mit der die Altersdaten auf den Wertebereich 0-1 normiert werden.
Verwende hierbei teilweise absolute Bezüge (Bsp.: C$5: relativ für Spalte C, absolut für Zeile 5).
- Schreibe die analoge Funktion zur Normierung der Gehaltsdaten.
- Stelle die normierten Daten wie oben graphisch dar.
3. Analyse der Daten
Analysiere die Daten nach folgenden Aspekten:
- Welcher Parameter (Alter, Monatseinkommen) eignet sich besser zur Klassifizierung der Daten?
- Gibt es Ausreißer, d.h. besonders hohe oder besonders niedrige Daten?
- Wie stören diese Daten die Auswertung.
4. Berechnen der Abstände zu einem neuen Punkt
- Trage in die Tabelle einen neuen Datenpunkt mit Alter und Monatseinkommen ein.
- Normiere diese Einträge mit der passenden Formel.
- Erzeuge zwei neue Spalten:
- Berechnung des Abstands des neuen Datenpunkts von jedem gelabelten Datenpunkt mit der Formel dAlter² + dMonatseinkommen²
- Label des gelabelten Datenpunkts.
5. Markieren der 3 nächsten Nachbarn
- Markiere die Spalte mit den Abstände und wähle über das Menü Bedingte Formatiereung die Regel, mit der die untersten 3 Abstände farbig markiert werden sollen.
- Der neue Punkt bekommt das Label, das bei den meisten markierten Abständen steht.
Exkurs: Festlegen von K
Um K automatisch festzulegen wird für alle gelabelten Daten untersucht, wie gut sie mit Hilfe ihrer k-nächsten Nachbarn bestimmt werden.
Es wird der k-Wert verwendet, bei dem die wenigsten Fehler auftreten.
K muss hierbei deutlich kleiner als die Gesamtzahl der Datenpunkte sein.
AB Festlegen von K