Python爬取北京二手房数据，分析北漂族买得起房吗？ | 附完整源码

发布时间：2018-08-25 01:51:03 所属栏目：教程来源：徐麟

导读：技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战房价高是北漂们一直关心的话题，本文就对北京的二手房数据进行了分析。本文主要分为两部分：Python爬取赶集网北京二手房数据，R对爬取的二手房房价做线性回归分析，适合刚刚接触Py

Beautiful Soup爬取：

import requests 
import re 
from requests.exceptions import RequestException 
from bs4 import BeautifulSoup 
import csv 
import time 
 
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} 
 
def get_one_page(url): 
    try: 
        response = requests.get(url,headers = headers) 
        if response.status_code == 200: 
            return response.text 
        return None 
    except RequestException: 
        return None 
 
def parse_one_page(content): 
    try: 
        soup = BeautifulSoup(content,'html.parser') 
        items = soup.find('div',class_=re.compile('js-tips-list')) 
        for div in items.find_all('div',class_=re.compile('ershoufang-list')): 
            yield { 
                'Name':div.find('a',class_=re.compile('js-title')).text, 
                'Type': div.find('dd', class_=re.compile('size')).contents[1].text,#tag的 .contents 属性可以将tag的子节点以列表的方式输出 
                'Area':div.find('dd',class_=re.compile('size')).contents[5].text, 
                'Towards':div.find('dd',class_=re.compile('size')).contents[9].text, 
                'Floor':div.find('dd',class_=re.compile('size')).contents[13].text.replace('n',''), 
                'Decorate':div.find('dd',class_=re.compile('size')).contents[17].text, 
                'Address':div.find('span',class_=re.compile('area')).text.strip().replace(' ','').replace('n',''), 
                'TotalPrice':div.find('span',class_=re.compile('js-price')).text+div.find('span',class_=re.compile('yue')).text, 
                'Price':div.find('div',class_=re.compile('time')).text 
            } 
        #有一些二手房信息缺少部分信息，如：缺少装修信息，或者缺少楼层信息，这时候需要加个判断，不然爬取就会中断。 
        if div['Name', 'Type', 'Area', 'Towards', 'Floor', 'Decorate', 'Address', 'TotalPrice', 'Price'] == None: 
                return None 
    except Exception: 
        return None 
 
def main(): 
    for i in range(1,50): 
        url = 'http://bj.ganji.com/fang5/o{}/'.format(i) 
        content = get_one_page(url) 
        print('第{}页抓取完毕'.format(i)) 
        for div in parse_one_page(content): 
            print(div) 
        with open('Data.csv', 'a', newline='') as f:  # Data.csv 文件存储的路径,如果默认路径就直接写文件名即可。 
            fieldnames = ['Name', 'Type', 'Area', 'Towards', 'Floor', 'Decorate', 'Address', 'TotalPrice', 'Price'] 
            writer = csv.DictWriter(f, fieldnames=fieldnames) 
            writer.writeheader() 
            for item in parse_one_page(content): 
                writer.writerow(item) 
        time.sleep(3)#设置爬取频率，一开始我就是爬取的太猛，导致网页需要验证。 
 
if __name__=='__main__': 
    main()

正则爬取：我研究了好久，还是没有解决。

这一过程中容易遇见的问题有：

有一些房屋缺少部分信息，如缺少装修信息，这个时候需要加一个判断，如果不加判断，爬取就会自动终止(我在这里跌了很大的坑)。

（编辑：武汉站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/13

首页

尾页

wps自动生成目录,教您	无法访问,教您怎么解决
电脑32g内存条多少钱	e5800cpu怎么样 e5800