加入收藏 | 设为首页 | 会员中心 | 我要投稿 武汉站长网 (https://www.027zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

Python爬取北京二手房数据,分析北漂族买得起房吗? | 附完整源码

发布时间:2018-08-25 01:51:03 所属栏目:教程 来源:徐麟
导读:技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战 房价高是北漂们一直关心的话题,本文就对北京的二手房数据进行了分析。 本文主要分为两部分:Python爬取赶集网北京二手房数据,R对爬取的二手房房价做线性回归分析,适合刚刚接触Py

探究Toilet与TotalPrice的关系

  1. #探究卫生间与总价的关系 
  2. table(DATA$Toilet) 
  3.    0    1    2    3    4    5    6    7    9  
  4.    2 2142  470  116   74   26    7    2    0   
  5. #这里将卫生间数为0、6和7的去掉 
  6. DATA<-DATA[-(which(DATA$Toilet %in% "0")),] 
  7. DATA<-DATA[-(which(DATA$Toilet %in% "6")),] 
  8. DATA<-DATA[-(which(DATA$Toilet %in% "7")),] 
  9. table(DATA$Toilet) 
  10.    0    1    2    3    4    5    6    7    9  
  11.    0 2142  470  116   74   26    0    0    0  
  12. ggplot(DATA,aes(x=Toilet,y=TotalPrice))+geom_boxplot(col="red") 

Python爬取北京二手房数据,分析北漂族买得起房吗? | 附完整源码

一般卧室数越多,卫生间数也越多,即卫生间数越多,总价越高。

探究Area与TotalPrice的关系

  1. ggplot(DATA, aes(x=Area, y=TotalPrice)) + geom_point(col='red') 

Python爬取北京二手房数据,分析北漂族买得起房吗? | 附完整源码

这个完全符合住房面积越大,总价越高。

探究Towards与TotalPrice的关系

  1. ggplot(DATA,aes(x=Towards,y=TotalPrice))+geom_boxplot(col="red") 

Python爬取北京二手房数据,分析北漂族买得起房吗? | 附完整源码

探究Floor与TotalPrice的关系

  1. ggplot(DATA,aes(x=Floor,y=TotalPrice))+geom_boxplot(col="red") 

Python爬取北京二手房数据,分析北漂族买得起房吗? | 附完整源码

图中信息显示楼层一共只有1、2、3、地下的总价较高。

探究Decorate与TotalPrice的关系

  1. ggplot(DATA,aes(x=Decorate,y=TotalPrice))+geom_boxplot(col="red") 

Python爬取北京二手房数据,分析北漂族买得起房吗? | 附完整源码

不同装修信息对总价影响较小。

04、模型建立

  1. fit <-lm(TotalPrice~Bedrooms+Halls+Toilet+Area+Towards+Floor+Decorate,data=DATA) 
  2. summary(fit) 
  3.  
  4. Call: 
  5. lm(formula = TotalPrice ~ Bedrooms + Halls + Toilet + Area +  
  6.     Towards + Floor + Decorate, data = DATA) 
  7.  
  8. Residuals: 
  9.      Min       1Q   Median       3Q      Max  
  10. -1330.80  -103.49   -21.41    63.88  2961.59  
  11.  
  12. Coefficients: 
  13.                   Estimate Std. Error t value Pr(>|t|)     
  14. (Intercept)      -112.7633    88.3010  -1.277 0.201697     
  15. Bedrooms2         -43.5934    16.2533  -2.682 0.007359 **  
  16. Bedrooms3         -82.6565    20.7641  -3.981 7.04e-05 *** 
  17. Bedrooms4         -63.3096    34.9521  -1.811 0.070198 .   
  18. Bedrooms5          79.0618    54.0763   1.462 0.143842     
  19. Halls1             -5.0663    64.2764  -0.079 0.937182     
  20. Halls2            -53.8905    65.4427  -0.823 0.410307     
  21. Halls3           -303.9750    79.2280  -3.837 0.000127 *** 
  22. Halls4           -528.5427   104.0849  -5.078 4.07e-07 *** 
  23. Toilet2           112.9566    19.1171   5.909 3.87e-09 *** 
  24. Toilet3           543.7304    38.8056  14.012  < 2e-16 *** 
  25. Toilet4           735.1894    55.0977  13.343  < 2e-16 *** 
  26. Toilet5           338.7906    84.2851   4.020 5.98e-05 *** 
  27. Area                5.1091     0.1619  31.557  < 2e-16 *** 
  28. Towards东北向     138.9088    79.3817   1.750 0.080248 .   
  29. Towards东南向     187.1895    68.5388   2.731 0.006351 **  
  30. Towards东西向     176.3055    65.8384   2.678 0.007453 **  
  31. Towards东向       210.9435    73.2744   2.879 0.004022 **  
  32. Towards南北向      75.7831    57.1199   1.327 0.184704     
  33. Towards南向        60.1949    56.9678   1.057 0.290763     
  34. Towards西北向      75.4326    71.1415   1.060 0.289091     
  35. Towards西南向     169.8106    75.9626   2.235 0.025467 *   
  36. Towards西向       234.0816    76.5585   3.058 0.002253 **  
  37. Floor地下        -812.3578    63.3277 -12.828  < 2e-16 *** 
  38. Floor高层          12.3525    14.2466   0.867 0.385991     
  39. Floor共1层       -313.7278    52.1342  -6.018 2.00e-09 *** 
  40. Floor共2层       -453.3692    41.6829 -10.877  < 2e-16 *** 
  41. Floor共3层       -601.7032    44.3336 -13.572  < 2e-16 *** 
  42. Floor共4层       -183.7866    36.3396  -5.057 4.52e-07 *** 
  43. Floor共5层        -41.4184    25.7922  -1.606 0.108419     
  44. Floor中层          -1.7223    13.5961  -0.127 0.899204     
  45. Decorate简单装修  -63.1591    22.0584  -2.863 0.004224 **  
  46. Decorate精装修    -49.3276    19.8544  -2.484 0.013033 *   
  47. Decorate毛坯     -157.0299    24.3012  -6.462 1.22e-10 *** 
  48. --- 
  49. Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
  50.  
  51. Residual standard error: 265.5 on 2794 degrees of freedom 
  52. Multiple R-squared:  0.6852,    Adjusted R-squared:  0.6815  
  53. F-statistic: 184.3 on 33 and 2794 DF,  p-value: < 2.2e-16 

模型的F检验拒绝原假设,说明建立的模型是显著的;Ajusted R-squared为0.6815,模型的拟合程度尚可接受。

作者:徐麟,知乎同名专栏作者,目前就职于上海唯品会产品技术中心,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据。

(编辑:武汉站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读