Python 小工具《豆瓣租房收集器》

【版本记录】

  • 2019-08-20 版本号0.0.4 :增加 “再来一次” 功能,如果没有搜索到合适的房源,可以直接重试,调整关键词,再来一次;

  • 2019-08-13 版本号0.0.3 :增加 “强力搜索” 特性,同一标题同时符合多关键词才会在结果中显示;

  • 2019-08-09 版本号0.0.2 :支持一次搜索多个关键词;

【需求背景】

来到上海,从未停止对中介的斗智斗勇,找到满意又便宜的房子简直是偶像剧才出现的桥段。豆瓣小组是跳过中介,节约中介费的主要手段,即使现今小组已经水化严重,但仍然是年轻人在选择平台时会考虑的方式,毕竟昂贵的中介费摆在那里。曾经出现的“豆瓣租房”小程序,让我眼前一亮。但很可惜,仅仅几个月就暂停服务。 就上海来看,豆瓣相关的租房小组就有几十个,发帖量也是惊人。如何在海量帖子里找到自己温暖的家,以及尽可能高效率得完成这项工作,是需要解决的问题。

【解决方案】

首先,我们解决信息筛选的问题。过滤多余信息,意味着花更少时间获得所需要的信息,愉悦身心又低碳环保; 其次,提升信息筛选的效率、质量。多关键词或许是个方法; 再次,如何让信息找我,这其实也是《即刻》的雏形。

在 Github 找到豆瓣爬虫的基础版本,我是在该版本的基础上进行修改和调整,使其支持多关键词搜索。

Gitlab 链接在此

运行该程序需要你的电脑安装 Python 及其相关组件,并将你想收集的豆瓣小组编号填入程序文件即可,运行过程中会要求输入关键词、搜索页面数量,其他的就交给💻完成吧。

效果如图

【其他】

聪明的你或许已经发现,这款爬虫不仅仅可以用来收集租房信息。是的,只要是想获取特定小组的特定关键词帖子,都可以通过修改程序达到目的。这,就是 Python 等易入门程序语言的特点。

【迭代方向】

  • “强搜索”功能,如果我想搜索 “杨浦”、“一室户”同时出现的帖子,该怎么办?(已完成)
  • 小组主题 支持搜索(产品洁癖)
  • 进阶功能:定时轮询,结果推送

相关链接:参考 github 相关项目

Some rights reserved
Except where otherwise noted, content on this page is licensed under a Creative Commons Attribution-NonCommercial 4.0 International license