# Entscheidungsbäume mit Python berechnen lassen
Dieses Jupyter-Notebook verwendet die gleichen Daten wie die Kids-Lernstrecke [Entscheide wie eine KI](https://www.inf-schule.de/kids/computerinalltag/entscheide-wie-eine-KI) auf inf-schule.de. Falls du diese Lernstrecke noch nicht kennst, dann arbeite sie vorher durch, um dich in die Thematik einzufinden. Anschließend kannst du dann mit diesem Notebook Entscheidungsbäume völlig automatisiert erstellen lassen.

## Was kann ich hier tun?
Dieses Notebook verwendet verschiedene **Python-Bibliotheken** zur Erstellung und Anzeige von Entscheidungsbäumen:
- **pandas**: Die Daten aus CSV-Dateien einlesen und sichten
- **sklearn**: Entscheidungsbäume zu den Daten berechnen
- **matplotlib**: Entscheidungsbäume grafisch darstellen

# Kapitel 1: Die Daten einlesen und sichten
Die folgenden Dateien stehen zum Einlesen zur Verfügung. Sie enthalten Daten von Lebensmitteln.
- **d14.csv**:   Daten von 14 ausgewählten Lebensmitteln
- **d28.csv**:   Daten von 28 ausgewählten Lebensmitteln
- **d55.csv**:   Daten von allen 55 Lebensmitteln


## Daten aus einer CSV-Datei einlesen

In [None]:
import pandas as pd
daten = pd.read_csv('d14.csv')  # Einlesen der Daten, hier kann man den Dateinamen anpassen.

## Ausgabe aller eingelesenen Daten

In [None]:
display(daten )

## Die Ausgabe auf bestimmte Attribute der Daten beschränken (Projektion)

<div style="padding: 5px; border: 5px solid #0077b6;">

### Aufgabe 1
Ergänze die Projektion um die Spalten für Zucker und Salz.

In [None]:
display(daten[['Name','Fett']]) # nur einzelne Spalten

## Die Ausgabe auf bestimmte Datensätze beschränken (Selektion)

<div style="padding: 5px; border: 5px solid #0077b6;">

### Aufgabe 2
Führe die einzelnen Programmzeilen aus, indem du das Kommentarzeichen am Anfang entfernst. Welche Daten werden jeweils ausgegeben? Halte deine Beobachtungen schriftlich fest.


In [None]:
#display(daten[daten.Label==0]) 
#display(daten[(daten.Label==0) & (daten.Fett<10)]) 
#display(daten[daten.Name=="Waffel"]) 

Ergebnisse bitte hierher

<div style="padding: 5px; border: 5px solid #0077b6;">

### Aufgabe 3
Gib alle gesunden Lebensmittel mit viel Eiweiss aus (>10).

In [None]:
# Lösung bitte hierher

## Die Ausgabe sortieren

<div style="padding: 5px; border: 5px solid #0077b6;">

### Aufgabe 4
Teste die Ausgaben und sortiere dann die Daten nach ihrem Zuckergehalt.

In [None]:
#display(daten.sort_values(by=['Fett'])) # Sortierung nach Attribut
#display(daten.sort_values(by=['Label','Fett'])) # Sortierung nach 2 Attributen

In [None]:
# Lösung bitte hierher

## Kombination der bisherigen Techniken
Projektion, Selektion und Sortierung können auch beliebig kombiniert werden.

<div style="padding: 5px; border: 5px solid #0077b6;">

### Aufgabe 5
Teste die beiden Ausgaben und finde heraus, welche Daten angezeigt werden! Halte deine Beobachtungen schriftlich fest.


In [None]:
#display(daten[['Name','Fett']][daten.Label==0 ]) 
#display(daten[['Name','Fett']][daten.Label==0 ].sort_values(by=['Name'])) 

Beobachtungen bitte hierher

<div style="padding: 5px; border: 5px solid #0077b6;">

**Aufgabe 6**  
Gib den Namen und den Zucker- und Fettgehalt aller Lebensmittel aus, die ungesund sind. Sortiere nach Fettgehalt!

In [None]:
# Lösung bitte hierher

# Kapitel 2: Den Entscheidungsbaum berechnen lassen und darstellen

In [None]:
import sklearn.tree
import matplotlib

## Parameter für die Entscheidungsfindung wählen
Für die Berechnung des Entscheidungsbaums müssen einige Vorgaben gemacht werden. Im Einzelnen musst du dem System folgende Informationen mitteilen:
- **Attribute**: Definiere, welche Eigenschaften der Lebensmittel zum Berechnen des Entscheidungsbaums verwendet werden sollen.
- **Zielkriterium**: Definiere, welche Eigenschaft durch den Baum entschieden werden soll.
- **Baumtiefe**: Definiere, welche Tiefe der Entscheidungsbaum maximal haben soll.

In [None]:
attribute  = ["Energie","Fett"]
zielkriterium = "Label"
baumtiefe = 2

## Berechnung des Entscheidungsbaums


In [None]:
baum = sklearn.tree.DecisionTreeClassifier(max_depth=baumtiefe) # Erzeugen des Baums
baum.fit( daten[attribute], daten[zielkriterium] )              # Berechnung des Baums

## Darstellung des Entscheidungsbaums
Für die Darstellung des Baums können verschiedene Optionen gewählt werden. Eine [Dokumentation der Parameter kann hier aufgerufen werden.](https://scikit-learn.org/stable/modules/generated/sklearn.tree.plot_tree.html)   

In [None]:
sklearn.tree.plot_tree( baum, feature_names=attribute, label="none", filled=True,
                        class_names=["ungesund","gesund"], impurity=False,
                        proportion=False, fontsize=8 )
matplotlib.pyplot.show()

<div style="padding: 5px; border: 5px solid #0077b6;">

### Aufgabe 7
- Verändere die Parameter **Attribute** und **Baumtiefe** und beobachte die Veränderungen im Entscheidungsbaum.
- Verändere die Darstellung des Entscheidungsbaums.


# Kapitel 3: Wie gut ist meine KI?
Die Daten der Lebensmittel aus der Berechnung (die Trainingsdaten) kann man nun in einem ersten Schritt zur Kontrolle verwenden, ob der berechnete Entscheidungsbaum gut funktioniert. Dazu testen wir für die einzelnen Datensätze nacheinander, ob sie mit dem Entscheidungsbaum richtig zugeordnet werden. Dies geschieht mit der Funktion **predict**.

## Die Funktion predict
Die Funktion bekommt einen Datensatz übergeben und gibt die Zuordnung zurück, die sich aus dem trainierten Entscheidungsbaum ergibt.

In [None]:
korrekt = 0
falsch = 0
for datensatz in daten.index:  #Schleife über alle Datensätze
    if( baum.predict(daten.loc[[datensatz]][attribute]) == (daten.loc[datensatz]['Label']) ):  # Vorhersage ist wie im Label hinterlegt?
        korrekt += 1
    else:
        falsch += 1
        print("Fehler bei", daten.loc[datensatz]['Name'])
gesamt = korrekt + falsch
print( "Anzahl falsch klassifiziert: ",  falsch, "(" , round(falsch/gesamt*100,2), "% )")  
print( "Anzahl korrekt klassifiziert: ", korrekt, "(" , round(korrekt/gesamt*100,2), "% )")  

## Verbesserung des Modells

<div style="padding: 5px; border: 5px solid #0077b6;">

### Aufgabe 8

Durchlaufe für die falsch eingeordneten Lebensmittel den Entscheidungsbaum oben von Hand und analysiere, warum sie falsch klassifiziert wurden. Passe anschließend die Parameter der Berechnung gezielt an, um die Fehlerzahl zu minimieren.



---
# Wie geht es weiter?
Du hast deinen Entscheidungsbaum auf dieser Seite für eine fest vorgegebene Zahl von Trainingsdaten optimiert. Das Ergebnis hängt dabei aber stark von den gewählten Beispielen ab. Getestet wurde der Baum zudem nur mit den Trainingsdaten.  

Im nächsten Schritt soll daher bei der Berechnung des Entscheidungsbaums die Auswahl und die Anzahl der Trainings- und Testdaten verändert werden können. Öffne dazu das Notebook im nächsten Kapitel...