python数据分析及可视化(房产数据) | 您所在的位置:网站首页 › 安居客二手房python数据可视化 › python数据分析及可视化(房产数据) |
数据链接:https://pan.baidu.com/s/1I0w4129XYEW2Iwvc4rm1pA 提取码:hdc3 提示: 数据是自己爬的,如果有小伙伴想看,我会再更新数据的爬虫部分。 目录前言(数据来源) 一、数据处理 1.数据导入 2.数据预处理 二、特征提取 1.数据标准化 2.LDA主题分类及模型优化 三、数据分析及可视化 1.kmeans聚类及模型调优 2.可视化(利用pycharts) 1.北京市房价最高的前10个小区 2.北京市及燕郊房价最低的前10个小区 3.北京市及周边各区小区房价均价 4.北京都市圈各区域楼盘房价级别分布 5.北京都市圈各区域楼盘热度级别分布 6.评论热度分布(饼图,按行政区划分) 7.热度级别树状图(按档次划分) 总结和后记 前言(数据来源) 房天下网站:https://newhouse.fang.com/house/s/b81-b91/ 数据可视化小项目,自己杂糅的,希望对大家有帮助,有什么问题评论区留言~ 一、数据处理 1.数据导入 import pandas as pd import numpy as np import warnings warnings.filterwarnings("ignore") df = pd.read_csv('北京小区数据信息.csv') df.head() 2.数据预处理把数据里面非北京地区的删了 (数据是网站根据北京用户需求推介的,我只想要北京和北京周边的) df=df[-df.所在区.isin(['非北京周边','海阳城区','宝坻','秦皇岛','永清','涞水','怀来','天津','霸州','大厂','廊坊','涿州','固安','崇礼'])] df=df[-df.均价.isin(['价格待定元/㎡'])] 将数据处理一下,加入一些更有意义的列:1. 北京各地区房产均价 房价数据有两类:xxx元/m^2,xxxx万元/套起; 先做xxx元/m^2的 estate_single = df[df['均价'].str.contains('元/㎡')] estate_single['均价'] = [int(i.split('元/㎡')[0]) for i in estate_single['均价']] estate_mean = estate_single[['所在区', '均价']].groupby('所在区').mean() estate_mean.reset_index(inplace=True) estate_mean再来做xxxx万元/套起的数据 import re estate_tao = df[df['均价'].str.contains('套')].reset_index(drop=True) strinfo = re.compile('万元|/套|起') #去除中文字符 estate_tao['均价'] = estate_tao['均价'].apply(lambda x: strinfo.sub('',x)) estate_tao['均价']=estate_tao['均价'].astype(int) #把str型转为int排个名看看 estate_tao['均价']=estate_tao['均价'].sort_index() estate_tao.head(10) #把以套为价格的房价排个名把xxx万元/套的房价数据转为xxx元/m^2的,此步骤不够严谨,所以如果对数据要求高,建议直接把xxx万元/套的房价数据删除,只分析xxx元/m^2的数据就行 #由于房产是以套为单位显示价格,所以只能结合实际,人工评估价格 for i in range(127): if estate_tao['小区名称'][i]=='恒大丽宫': estate_tao['均价'][i] = estate_tao['均价'][i]*5#恒大丽宫面积极大 elif estate_tao['均价'][i]>=1500: estate_tao['均价'][i] = estate_tao['均价'][i]*30#例如圆明天颂户型较大,所以每平米更便宜一些 elif estate_tao['均价'][i] |
CopyRight 2018-2019 实验室设备网 版权所有 |