探究Toilet与TotalPrice的关系
- #探究卫生间与总价的关系
- table(DATA$Toilet)
- 0 1 2 3 4 5 6 7 9
- 2 2142 470 116 74 26 7 2 0
- #这里将卫生间数为0、6和7的去掉
- DATA<-DATA[-(which(DATA$Toilet %in% "0")),]
- DATA<-DATA[-(which(DATA$Toilet %in% "6")),]
- DATA<-DATA[-(which(DATA$Toilet %in% "7")),]
- table(DATA$Toilet)
- 0 1 2 3 4 5 6 7 9
- 0 2142 470 116 74 26 0 0 0
- ggplot(DATA,aes(x=Toilet,y=TotalPrice))+geom_boxplot(col="red")

一般卧室数越多,卫生间数也越多,即卫生间数越多,总价越高。
探究Area与TotalPrice的关系
- ggplot(DATA, aes(x=Area, y=TotalPrice)) + geom_point(col='red')

这个完全符合住房面积越大,总价越高。
探究Towards与TotalPrice的关系
- ggplot(DATA,aes(x=Towards,y=TotalPrice))+geom_boxplot(col="red")

探究Floor与TotalPrice的关系
- ggplot(DATA,aes(x=Floor,y=TotalPrice))+geom_boxplot(col="red")

图中信息显示楼层一共只有1、2、3、地下的总价较高。
探究Decorate与TotalPrice的关系
- ggplot(DATA,aes(x=Decorate,y=TotalPrice))+geom_boxplot(col="red")

不同装修信息对总价影响较小。
04、模型建立
- fit <-lm(TotalPrice~Bedrooms+Halls+Toilet+Area+Towards+Floor+Decorate,data=DATA)
- summary(fit)
-
- Call:
- lm(formula = TotalPrice ~ Bedrooms + Halls + Toilet + Area +
- Towards + Floor + Decorate, data = DATA)
-
- Residuals:
- Min 1Q Median 3Q Max
- -1330.80 -103.49 -21.41 63.88 2961.59
-
- Coefficients:
- Estimate Std. Error t value Pr(>|t|)
- (Intercept) -112.7633 88.3010 -1.277 0.201697
- Bedrooms2 -43.5934 16.2533 -2.682 0.007359 **
- Bedrooms3 -82.6565 20.7641 -3.981 7.04e-05 ***
- Bedrooms4 -63.3096 34.9521 -1.811 0.070198 .
- Bedrooms5 79.0618 54.0763 1.462 0.143842
- Halls1 -5.0663 64.2764 -0.079 0.937182
- Halls2 -53.8905 65.4427 -0.823 0.410307
- Halls3 -303.9750 79.2280 -3.837 0.000127 ***
- Halls4 -528.5427 104.0849 -5.078 4.07e-07 ***
- Toilet2 112.9566 19.1171 5.909 3.87e-09 ***
- Toilet3 543.7304 38.8056 14.012 < 2e-16 ***
- Toilet4 735.1894 55.0977 13.343 < 2e-16 ***
- Toilet5 338.7906 84.2851 4.020 5.98e-05 ***
- Area 5.1091 0.1619 31.557 < 2e-16 ***
- Towards东北向 138.9088 79.3817 1.750 0.080248 .
- Towards东南向 187.1895 68.5388 2.731 0.006351 **
- Towards东西向 176.3055 65.8384 2.678 0.007453 **
- Towards东向 210.9435 73.2744 2.879 0.004022 **
- Towards南北向 75.7831 57.1199 1.327 0.184704
- Towards南向 60.1949 56.9678 1.057 0.290763
- Towards西北向 75.4326 71.1415 1.060 0.289091
- Towards西南向 169.8106 75.9626 2.235 0.025467 *
- Towards西向 234.0816 76.5585 3.058 0.002253 **
- Floor地下 -812.3578 63.3277 -12.828 < 2e-16 ***
- Floor高层 12.3525 14.2466 0.867 0.385991
- Floor共1层 -313.7278 52.1342 -6.018 2.00e-09 ***
- Floor共2层 -453.3692 41.6829 -10.877 < 2e-16 ***
- Floor共3层 -601.7032 44.3336 -13.572 < 2e-16 ***
- Floor共4层 -183.7866 36.3396 -5.057 4.52e-07 ***
- Floor共5层 -41.4184 25.7922 -1.606 0.108419
- Floor中层 -1.7223 13.5961 -0.127 0.899204
- Decorate简单装修 -63.1591 22.0584 -2.863 0.004224 **
- Decorate精装修 -49.3276 19.8544 -2.484 0.013033 *
- Decorate毛坯 -157.0299 24.3012 -6.462 1.22e-10 ***
- ---
- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
-
- Residual standard error: 265.5 on 2794 degrees of freedom
- Multiple R-squared: 0.6852, Adjusted R-squared: 0.6815
- F-statistic: 184.3 on 33 and 2794 DF, p-value: < 2.2e-16
模型的F检验拒绝原假设,说明建立的模型是显著的;Ajusted R-squared为0.6815,模型的拟合程度尚可接受。
作者:徐麟,知乎同名专栏作者,目前就职于上海唯品会产品技术中心,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据。 (编辑:武汉站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|