Datenumstrukturierung für ein Kollaboratives Empfehlungssystem
Angenommen wir haben den folgenden Datensatz gegeben:
movieID | title | genres | year |
---|---|---|---|
1 | Forrest Gump | Comedy|Drama|Romance|War | 1994 |
2 | Hangover | Comedy|Crime | 2009 |
3 | Honig im Kopf | Comedy|Drama | 2014 |
4 | Joker | Crime|Drama|Thriller | 2019 |
5 | Titanic | Drama|Romance | 1997 |
6 | Wolf of Wall Street | Comedy|Crime|Drama | 2013 |
userId | movieId | rating |
---|---|---|
1 | 1 | 4 |
1 | 2 | 5 |
1 | 3 | 5 |
1 | 4 | 3 |
1 | 5 | 5 |
1 | 6 | 3 |
2 | 1 | 3 |
2 | 2 | 5 |
2 | 3 | 5 |
2 | 4 | 3 |
2 | 5 | 5 |
2 | 6 | 2 |
3 | 1 | 3 |
3 | 2 | 1 |
3 | 3 | 1 |
3 | 4 | 3 |
3 | 5 | 1 |
3 | 6 | 4 |
4 | 1 | 4 |
4 | 2 | 1 |
4 | 3 | 1 |
4 | 4 | 4 |
4 | 5 | 5 |
4 | 6 | 3 |
Um kollaborative Filmempfehlungen zu geben, werden Ähnlichkeiten zwischen Nutzern betrachtet. Dabei werden die Bewertungen für verschiedene Filme miteinander verglichen. Unser Ziel ist es, möglichst ähnliche Nutzer zu finden. Mögliche Fragen sind zum Beispiel:
- Welche Bewertungen hat der Film Wolf of Wallstreet bekommen?
- Welche Bewertungen hat der Film, dem Nutzer 1 die Bewertung 4 gegeben hat, von anderen Nutzern bekommen?
- Gibt es Nutzer, bei denen alle Filmbewertungen übereinstimmen, wenn sie beide eine Bewertung abgegeben haben?
userID | rating Film 1 | rating Film 2 | rating Film 3 | rating Film 4 | rating Film 5 | rating Film 6 |
---|---|---|---|---|---|---|
1 | 4 | 5 | 5 | 3 | 5 | 3 |
... | ... | ... | ... | ... | ... | ... |
Aufgabe 1- Tabellenschema vervollständigen
- Erläutere den Aufbau des Tabellenschemas. Für was stehen die einzelnen Tabelleneinträge?
- Vervollständige die Tabelle mit dem gegebenen Datensatz.
Aufgabe 2- Tabellenschema nutzen
- Finde mindestens 2 Abhängigkeiten der Nutzerbewertungen.
Betrachte dir Nutzer 2 und Nutzer 3 genauer.Betrachte dir die Filme 2 und 3 genauer. - Durch die Umwandlung in das Tabellenformat sind Informationen verloren gegangen. Gib zwei Beispielfragen an, die du anhand des Datensatzes beantworten kannst, mit Hilfe der Tabelle allerdings nicht mehr.
- Ein Nutzer 5 kommt hinzu. Dieser hat Film 1 mit 4, Film 2 mit 2, Film 4 mit 4 und Film 5 mit 2 Sternen bewertet. Prognostiziere die Bewertungen von Nutzer 5 für Film 3 und Film 6.
- Ein weiterer Film (movieId 7) wurde von Nutzer 1 mit 4, von Nutzer 3 mit 5 und von Nutzer 4 mit 2 Sternen bewertet. Prognostiziere die Bewertung von Nutzer 2 für Film 7.
- Diskutiere, von welchen Daten du mehr benötigen würdest, um deine kollaborativen Filmempfehlungen zu verbessern.
Aufgabe 3- Übertragen auf unseren Datensatz
Lade dir das
Führe den Code aus und diskutiere die Frage im Jupyter Notebook.
- Jupyter-Notebook für die Datenumstrukturierung Variante 1
- Jupyter-Notebook für die Datenumstrukturierung Variante 2
Führe den Code aus und diskutiere die Frage im Jupyter Notebook.