Zu den vielen guten Einführungen in Fehlerkorrekturmodelle gehört Kennedy (1992, S. 250–267). Wie Stuart Rosenthal betonte, unterscheidet sich unser ECM etwas von dem “” stilisierten ECM, das typischerweise von Makroökonomen geschätzt wird. Wir kehren zu diesem Punkt unten zurück. Die oberen Betawerte für unser Modell sind auf der linken Seite dargestellt. Überraschenderweise hat Roof Material einen übergroßen Einfluss auf das Ergebnis unseres Modells. Anscheinend sind diese spezifischen Hauseigenschaften entscheidend für die Erstellung eines genauen Modells. Nachbarschaft scheint auch eine sehr wirkungsvolle Kategorie zu sein. Wenn wir die Geigengrundstücke von Nachbarschaft im Vergleich zum Verkaufspreis betrachten, fällt auf, dass NoRidge, NridgeHt und StoneBr die höchste Preisspanne haben, mit den mit Abstand größten Höchstpreisen. Das spiegelt sich im Beta-Wert dieser drei Nachbarschaften wider, die im Vergleich zum Rest der Nachbarschaften die höchsten Beta-Werte aufweisen.

Das Diagramm, das wir oben verwendet haben, wird Streudiagramm, Streudiagramm genannt, hilft uns zu sehen, wie unsere Datenpunkte verstreut sind und in der Regel für zwei Variablen verwendet werden. Von der ersten Abbildung können wir sehen, dass mehr der Wohnbereich, mehr der Preis, obwohl die Daten auf eine bestimmte Preiszone konzentriert sind, aber von der Zahl können wir sehen, dass die Datenpunkte scheinen in linearer Richtung zu sein. Dank Streuung Plot können wir auch einige Unregelmäßigkeiten sehen, dass das Haus mit den höchsten Quadratmetern für sehr weniger verkauft wurde, vielleicht gibt es einen anderen Faktor oder wahrscheinlich müssen die Daten falsch sein. Die zweite Zahl sagt uns über die Lage der Häuser in Bezug auf Die Länge und es gibt uns eine ziemlich interessante Beobachtung, dass -122.2 bis -122.4 verkauft Häuser zu viel höheren Mengen. Die kreuzvalidierte Punktzahl für das Basismodell beträgt 81,9 % – ein ziemlich guter Prädiktor bisher. Mal sehen, wie wir das Modell verbessern können. Um die Überanpassung des Modells zu reduzieren, gibt es zwei gängige Regularisierungstechniken namens Lasso und Ridge (oder Tikhonov) Regularisierung. Beide Techniken verwenden Kreuzvalidierung, um die Beta-Werte des Regressionsmodells zu reduzieren, und tauschen einen niedrigeren r-Quadratwert für eine höhere Vorhersageleistung aus.

SKLearn verfügt über zwei integrierte Funktionen – LassoCV und RidgeCV, die die Anpassung an reguläre lineare Regressionsmodelle unterstützen. In einfachen Worten ein Modell in der Statistik, das uns hilft, die Zukunft basierend auf der früheren Beziehung von Variablen vorherzusagen. Wenn Sie also sehen, dass Ihr Streudiagramm Datenpunkte linear platziert hat, wissen Sie, dass Regression Ihnen helfen kann! Can A (1990) Die Messung der Nachbarschaftsdynamik in städtischen Hauspreisen.