Kann Data Science die Einschaltquoten von NCAA Football TV vorhersagen?

Home » Kann Data Science die Einschaltquoten von NCAA Football TV vorhersagen?
Kann Data Science die Einschaltquoten von NCAA Football TV vorhersagen?

UNBEGRENZTE DATEN | VON JAMES KULICH | 6 MIN LESEN

Die diesjährige Football-Saison ist vorbei, aber sie lieferte einen guten Funken für ein interessantes Projekt, das Auswirkungen auf die Vorhersage von NCAA-Football-TV-Einschaltquoten haben könnte.

Der Autor des Projekts ist einer unserer Masterstudenten in Data Science an der Elmhurst University, Michael McComiskey. Während Mike derzeit in der IT arbeitet, hat er 25 Jahre in der Welt der College-Leichtathletik verbracht.

Mikes übergeordnetes Ziel war es, ein Tool zu entwickeln, mit dem ein Fernsehprogrammierer vorhersagen konnte, ob ein bestimmtes College-Football-Spiel aus Zuschauersicht ein „gutes“ Spiel sein würde. Mikes ursprüngliche Definition von „gut“ war jedes Spiel mit einem TV-Publikum, das mindestens zwei Standardabweichungen über dem Median für den betreffenden Zeitraum lag.

Ein kurzer Blick auf einige Daten und eine sorgfältige Überlegung, was ein Fernsehmanager tatsächlich nützlich finden könnte, führte Mike jedoch auf einen anderen Weg.

Finden Sie den Wert der Fußball-Zuschauerzahlen heraus

Zuerst die Daten:

Ein Balkendiagramm, das die Zuschauerzahlen des NCAA-Fußballfernsehens anzeigt.

Die rote Linie in der obigen Grafik stellt die mittlere Anzahl der Zuschauer der von Mike betrachteten Spiele dar, und die blaue Linie stellt das Zuschauerniveau dar, das zwei Standardabweichungen über diesem Median liegt.

Es gibt nicht viele High-End-Spiele und Sie brauchen kein Vorhersagemodell, um sie zu identifizieren. Die Netzwerke bieten bereits eine Abrechnung zur Hauptsendezeit für Festzeltspiele wie Ohio State vs. Michigan oder Auburn vs. Alabama an.

Das Potenzial für neue Werte liegt in der Auswahl weniger offensichtlicher Übereinstimmungen, die dennoch eine starke Anhängerschaft haben können. Mike konzentrierte seine Arbeit auf die Vorhersage von Wettbewerben, die zwischen der roten und der blauen Linie liegen würden, also solchen, die mehr von der mittleren Zuschauerzahl hatten, aber unter die Schwelle von zwei Standardabweichungen fielen.

Holen Sie sich die richtigen Daten und erhalten Sie die richtigen Daten

Mikes Kenntnisse auf diesem Gebiet führten ihn zu einer Reihe guter Datenquellen wie z Überwachung von Sportmedien und Sport Referenz. Wie es normalerweise der Fall ist, musste Mike viel Arbeit leisten, einschließlich der Entwicklung von benutzerdefiniertem Code, um die Daten zusammenzuführen und in eine verwendbare Form zu bringen.

Einige ursprünglich verfügbare Datenfelder umfassten Datum, Uhrzeit, Sendenetz, Heim- und Auswärtsteams, Konferenzzugehörigkeiten, AFP- und AP-Bewertungen, NCAA-Fußballfernsehbewertungen und die Anzahl der Zuschauer.

Die Rohdaten eigneten sich nicht gut für den Modellbau. Es war ein umfangreiches Feature-Engineering erforderlich, um neue Mengen zu erstellen, die die Geschichte in den Daten besser darstellen. Hier kam Mikes umfassende Domain-Erfahrung zum Tragen.

Mike erstellte neue Variablen, um wichtige Nuancen der beteiligten Matchups zu erfassen, z. B. ob ein Spiel mindestens einen Teilnehmer von den großen Konferenzen – Big Ten, Big 12, Pac-12, SEC – oder der Unterteilung der Fußballmeisterschaft hatte.

Andere neue Variablen erfassten Fälle, in denen beide Teilnehmer einer Power-Five-Konferenz (ACC, Big Ten, Big 12, Pac-12 oder SEC) angehörten, oder Fälle, in denen Teams der Unterteilung Football Bowl, aber keiner der A5-Konferenzen angehörten.

Andere neue Funktionen wurden entwickelt, um Ranking-Informationen detailliert genug zu erfassen, um nützlich zu sein (aber nicht detailliert genug, um Unordnung zu verursachen), wie z. B. Spiele in den Top 2, Top 5, Top 10, Top 15 und Top 25.

Ein dritter Satz neuer Funktionen konzentrierte sich auf Spielzeitfenster: früher Nachmittag, später Nachmittag, Hauptsendezeit oder Hauptsendezeit.

Die Ergebnisse

Mit diesen neuen Funktionen könnten nun Modelle entwickelt werden, um die Signale in den Daten zu erfassen. Mike nutzte die halbautomatischen Fähigkeiten von PyCaret und gelangte zu einer Sammlung von Kandidatenmodellen mit starken Leistungsmerkmalen.

Ein Maß für die Modellleistung ist die ROC-Kurve, die eine Vorstellung von der Gesamtleistung der Random-Rate-Modelle gibt. Je höher die ROC-Kurve eines Modells über der diagonalen Linie liegt, desto schneller trifft es Qualitätsvorhersagen.

Ein ROC-Kurvendiagramm.

Diese ROC-Kurven zeigen, dass Mikes Kandidatenmodelle durchweg eine hohe Vorhersagekraft aufweisen.

Tiefergehend identifizierten Mikes Modelle die relative Bedeutung der Variablen, die zum Generieren der Vorhersagen verwendet wurden. An der Spitze der Liste stand ein Match zwischen den 25 besten Schulen. SEC-Spiele zeigten ein größeres Potenzial, die Zielgruppenebene zu erreichen, als andere Konferenzspiele, obwohl andere große Konferenzrivalitäten einen positiven Einfluss hatten.

Interessanterweise war die Spielzeit keine wichtige Variable. Wer spielte, war wichtiger als wann sie spielten.

Als abschließenden Test wendete Mike sein ausgewähltes Gradient Boosting-Klassifikatormodell auf neue Daten mit bekannten Antworten an. Accuracy, Recall und Precision blieben alle hoch, wobei die Precision 78 % erreichte.

Verfeinern Sie das Modell

Wie immer gibt es Verbesserungsmöglichkeiten. Eine Richtung, die Mike vorschlägt, besteht darin, Teams mit weithin bekannten Namen zu kennzeichnen, um die Auswirkungen des Rufs auf die Zuschauerzahlen zu messen. Andere mögliche Einträge, die von Mike vorgeschlagen wurden, waren traditionelle Hit-Rekorde oder irgendeine Art von Love/Hate-Index, der von Zuschauern entwickelt wurde.

Es gibt viele laufende Diskussionen über zukünftige Richtungen für die Datenwissenschaft. Ein Punkt ausgedrückt durch Maria Korolow in seinem CIO-Blogbeitrag, So wissen Sie, wann KI die richtige Lösung istist, dass einfachere Methoden verwendet werden sollten, wenn sie effektiv sind, und leistungsfähigere KI-Ansätze für Situationen übrig bleiben, in denen sie zu einem wesentlich höheren Geschäftswert führen können.

Genau diesen Ansatz verfolgt Mike in seiner Arbeit, indem er sich auf das schwierige Problem der Auswahl von Spielen auf mittlerem Niveau konzentriert, die ein starkes Potenzial haben, das Interesse der Zuschauer zu wecken. Dieser Fokus auf die Durchführung wichtiger Projekte ist in der Tat unser Ansatz für unser gesamtes Master of Data Science-Programm an der Elmhurst University.

Als Ausbilder und Programmdirektor freue ich mich besonders, wenn Studenten wie Mike großartige Arbeit leisten.

Starten Sie Ihr Leidenschaftsprojekt an der Elmhurst University

Das Data Science and Analytics-Programm der Elmhurst University hilft Fachleuten, sich im Geschäft hervorzutun. In der Zwischenzeit ermöglicht Ihnen unser flexibles Online-Format, einen Master-Abschluss zu Ihren Bedingungen zu erwerben. Bereit, mehr zu erfahren? Füllen Sie das untenstehende Formular aus.