Der K-nächste-Nachbarn-Algorithmus

1. Vorbereiten der Daten

  1. Öffne diese Datei in Excel: Daten.csv
  2. Entscheide, welche Spalte die Labels enthält.
  3. Sortiere die Daten nach den Labels
  4. Stelle die Daten der Angestellten graphisch dar (x,y Diagramm).
  5. Füge die Daten der Minijobber hinzu (rechte Maustaste auf Diagramm, Daten auswählen, hinzufügen)
  6. Füge die Daten der Selbständigen hinzu.
  7. Füge eine Legende zum Diagramm hinzu.

2. Normalisierung der Daten

  1. Schreibe je eine Funktion zur Ermittlung von
    1. Minimum der Altersdaten

    2. Maximum der Altersdaten

    3. Differenz max-min

    4. Minimum der Gehaltesdaten

    5. Maximum der Gehaltsdaten

    6. Differenz max-min

  2. Schreibe eine Funktion mit der die Altersdaten auf den Wertebereich 0-1 normiert werden.
    Verwende hierbei teilweise absolute Bezüge (Bsp.: C$5: relativ für Spalte C, absolut für Zeile 5).
  3. Schreibe die analoge Funktion zur Normierung der Gehaltsdaten.
  4. Stelle die normierten Daten wie oben graphisch dar.

3. Analyse der Daten

Analysiere die Daten nach folgenden Aspekten:

  1. Welcher Parameter (Alter, Monatseinkommen) eignet sich besser zur Klassifizierung der Daten?
  2. Gib es Ausreißer, d.h. besonders hohe oder besonders niedrige Daten?
  3. Wie stören diese Daten die Auswertung.

4. Festlegen von K

Um K automatisch festzulegen wird für alle gelabelten Daten untersucht, wie gut sie mit Hilfe ihrer k-nächsten Nachbarn bestimmt werden.
Es wird der k-Wert verwendet, bei dem die wenigsten Fehler auftreten.
K muss hierbei deutlich kleiner als die Gesamtzahl der Datenpunkte sein.

AB Festlegen von K