python数据分析及可视化(房产数据) 您所在的位置:网站首页 安居客二手房python数据可视化 python数据分析及可视化(房产数据)

python数据分析及可视化(房产数据)

2024-06-02 06:08| 来源: 网络整理| 查看: 265

数据链接:https://pan.baidu.com/s/1I0w4129XYEW2Iwvc4rm1pA  提取码:hdc3 

提示:

数据是自己爬的,如果有小伙伴想看,我会再更新数据的爬虫部分。

目录

前言(数据来源)

一、数据处理

1.数据导入

 2.数据预处理

二、特征提取

1.数据标准化

2.LDA主题分类及模型优化

三、数据分析及可视化

1.kmeans聚类及模型调优

2.可视化(利用pycharts)

1.北京市房价最高的前10个小区

2.北京市及燕郊房价最低的前10个小区 

 3.北京市及周边各区小区房价均价

 4.北京都市圈各区域楼盘房价级别分布

 5.北京都市圈各区域楼盘热度级别分布

 6.评论热度分布(饼图,按行政区划分)

 7.热度级别树状图(按档次划分)

总结和后记

前言(数据来源)

房天下网站:https://newhouse.fang.com/house/s/b81-b91/

数据可视化小项目,自己杂糅的,希望对大家有帮助,有什么问题评论区留言~

一、数据处理 1.数据导入 import pandas as pd import numpy as np import warnings warnings.filterwarnings("ignore") df = pd.read_csv('北京小区数据信息.csv') df.head()

 2.数据预处理

把数据里面非北京地区的删了

(数据是网站根据北京用户需求推介的,我只想要北京和北京周边的)

df=df[-df.所在区.isin(['非北京周边','海阳城区','宝坻','秦皇岛','永清','涞水','怀来','天津','霸州','大厂','廊坊','涿州','固安','崇礼'])] df=df[-df.均价.isin(['价格待定元/㎡'])] 将数据处理一下,加入一些更有意义的列:

1. 北京各地区房产均价

房价数据有两类:xxx元/m^2,xxxx万元/套起;

先做xxx元/m^2的

estate_single = df[df['均价'].str.contains('元/㎡')] estate_single['均价'] = [int(i.split('元/㎡')[0]) for i in estate_single['均价']] estate_mean = estate_single[['所在区', '均价']].groupby('所在区').mean() estate_mean.reset_index(inplace=True) estate_mean

再来做xxxx万元/套起的数据

import re estate_tao = df[df['均价'].str.contains('套')].reset_index(drop=True) strinfo = re.compile('万元|/套|起') #去除中文字符 estate_tao['均价'] = estate_tao['均价'].apply(lambda x: strinfo.sub('',x)) estate_tao['均价']=estate_tao['均价'].astype(int) #把str型转为int

排个名看看

estate_tao['均价']=estate_tao['均价'].sort_index() estate_tao.head(10) #把以套为价格的房价排个名

把xxx万元/套的房价数据转为xxx元/m^2的,此步骤不够严谨,所以如果对数据要求高,建议直接把xxx万元/套的房价数据删除,只分析xxx元/m^2的数据就行

#由于房产是以套为单位显示价格,所以只能结合实际,人工评估价格 for i in range(127): if estate_tao['小区名称'][i]=='恒大丽宫': estate_tao['均价'][i] = estate_tao['均价'][i]*5#恒大丽宫面积极大 elif estate_tao['均价'][i]>=1500: estate_tao['均价'][i] = estate_tao['均价'][i]*30#例如圆明天颂户型较大,所以每平米更便宜一些 elif estate_tao['均价'][i]


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有