D88娱乐用数据看北京二手房(一)区划与房价
发布时间: 2020-11-19

大抵从半个月前,叉鸽开端在知乎写文章。此中第一篇关于数据阐发的文章,就是对链家网的北京二手房数据停止简朴的阐发。那次数据阐发的目标,本来只是不想华侈测试本人编写的

  大抵从半个月前,叉鸽开端在知乎写文章。此中第一篇关于数据阐发的文章,就是对“链家”网的北京二手房数据停止简朴的阐发。那次数据阐发的目标,本来只是不想华侈测试本人编写的线程池时爬取的链家数据。因而在前次对“链家”网的北京二手房数据阐发时,不管是数据完好性、数据维度、数据洗濯水平,仍是可视化的质量都不高。可是当我给我北京的小同伴安利那篇文章的时分,各人都比力感爱好。以是我想对“链家”北京二手房的数据从头做愈加具体地阐发,接着也就有了这个系列文章。

  为了做这个系列的文章,D88首页我从头爬取了“链家”北京二手房数据。数据范围畴前次的13000+的混淆范例的数据进步到了21000+条一般室第数据(停止爬取时,链家北京二手房合计25000条数据,此中一般室第数占有23000+条,本次数据相称于包罗了此中91%的数据。)除此以外,本次爬取的数据维度也愈加片面。关于每条二手房数据,我提取了其以下图中各方面的数据:

  由于本次提取的信息比力片面,我才筹办将此次阐发做成一个系列。此中的每篇文章会从一个或多个相干的角度对北京二手房数据停止可视化阐发。

  房产的价钱常常受许多身分的影响:如户型、朝向、天文地位、年限等等。此中,天文地位与交通、周边设备等息息相干,因而,天文地位这些身分中比力主要的一点。那末,北京的房价与天文地位有甚么干系呢?我们来看上面这张图:

  在这张北京房价天文散布的全貌图中,我们能够看到北京房价大抵以故宫为中间辐射散布,越接近中间房价越高。接下来,我们拉近这幅图:

  能够看到在这幅图中,北京二手房的散布在中间比力集合而在5-6环处比力分离。假如认真察看,能够看出北京的二手房地位散布与地铁线路严密相干:

  从图中,我们能够看出北京较为中间的地区房价仍大抵呈辐射状散布。不外此中有几处较为集合的特高价房(120000元每平以上)的散布。如海淀区东部:

  图中绿色圈的地位险些一切二手房房价都在120000元每平以上。那末,这个地区的房价云云高耸的缘故原由是甚么呢?我们能够看一下这个地区都有哪些地标:

  我们在百度舆图中找到对应的地区。这片地区在五道口、中关村、上地、魏公村内,此中包罗了大大都的北京重点高校,如清华大学、北京大学、中国群众大学、北京师范大学、北京航空航天大学、北京邮电大学等等。而大学的从属中学、从属小学(以至从属幼儿园)也都在这些黉舍四周。因而,这里即是赫赫著名的“学区房”。同时,中关村作为中国的“硅谷”,有“微软亚研院”、新浪、朴直、同方、遐想等IT公司。总之,作为宇宙中间五道口,其房价固然高的一匹orz。

  按照爬取的二手房天文地位的形貌,我们能够提掏出这些房源地点的辖区。在链家的北京二手房数据中,各辖区的房价比比方图:

  从区划与房价的散布图中,我们能够看到西城、东城、海淀、向阳的高价房比例最高(第五名的丰台因为二手房房源少,从本图中没法可出精确结论)。这四个辖区也是北京中间的辖区,同时这四个辖区中的二手房险些没有每平方米低于40000元的屋子。这张图中是各辖区中的房价散布,那末全北京的高价房(每平方米100000元以上)的屋子散布又怎样呢?

  从饼图中,我们能够看到从高价房的数目上,还是这四个辖区的高价房数目占据绝对的劣势。此中海淀区与西城区、东城区与向阳区的高价房数目险些分歧,别离占30.74%、30.45%、19.47%、19.05%。除四个辖区以外,昌平区、石景山、丰台区的高价房数目合计不到0.3%,而剩下的9个辖区的高价房数目占比都小于0.01%。

  每一个人买房都想买“性价比”高的屋子。因而我零丁统计了每平方米价钱在500米、1000米、2000米范畴内最低的房源,其散布以下三张图:

  可以找出一个范畴内房价最低的屋子,也是房产数据阐发的很适用的功用。固然因为数据太多,我就不在这里将其逐个列出,这几天我会把这些“部分最低”的房源链领受拾整顿出来供给下载。

  此次区划与房价的阐发陈述到这里就完毕了。本文阐发的结论都是不言而喻但又很须要的结论。在本系列的接下来的文章中,叉鸽会从其他角度对北京二手房做更加深化的阐发。假如小同伴们对这个系列有甚么定见或倡议,欢送在批评区留言。在本文的媒介中,我贴出了本次爬取的数据维度,也欢送小同伴按照这些数据提出期望看到的方面的阐发。

3目录 4目录 6MU收录系统 8MU收录系统 9MU收录系统 12MU收录系统 13MU收录系统 14MU收录系统 15水族秒收录