yushibing717

北京二手房信息数据分析及可视化笔趣看小说斗鱼直播房间直播动态数据采集王者荣耀小助手爬虫数据采集程序源代码

第1章概述. 3

1.1背景. 3

1.2项目简介. 4

第2章需求分析. 4

2.1 客户需求分析. 4

2.2 可行性分析. 4

2.2 性能需求分析. 5

第3章项目详细设计与实现. 5

3.1 总体设计. 5

3.2 爬虫具体实现. 5

3.3项目分析以及可视化实现. 7

第4章项目性能测试. 9

第5章总结与心得. 13

附录. 13

第1章概述

1.1背景

北京市是中华人民共和国首都、省级行政区、直辖市、国家中心城市、超大城市，国务院批复确定的中国政治中心、文化中心、国际交往中心、科技创新中心。

截至2018年，全市下辖16个区，总面积16410.54平方千米，2019年末，常住人口2153.6万人，城镇人口1865万人，城镇化率86.6%，常住外来人口达794.3万人。

2019年，全年实现地区生产总值35371.3亿元，按可比价格计算，比上年增长6.1%。其中，第一产业增加值113.7亿元，下降2.5%；第二产业增加值5715.1亿元，增长4.5%；第三产业增加值29542.5亿元，增长6.4%。三次产业构成由上年的0.4:16.5:83.1，变化为0.3:16.2:83.5。按常住人口计算，全市人均地区生产总值为16.4万元。

2019年，全市完成一般公共预算收入5817.1亿元，比上年增长0.5%。其中，增值税1820.9亿元，增长1.6%；企业所得税和个人所得税分别为1228.5亿元和544.2亿元，分别下降4.6%和25.3%。

2017年，北京市连续三年位居中国百强城市排行榜榜首。截至2016年底，北京政府性债务余额4052.80亿元（人民币）。

所以北京是人口极多的城市，房源极其紧张的城市，所以对于二手房的房源分析对于北京市的居住人口来说，是极其重要的。

二手房是已经在房地产交易中心备过案、完成初始登记和总登记的、再次上市进行交易的房产。它是相对开发商手里的商品房而言，是房地产产权交易三级市场的俗称。包括商品房、允许上市交易的二手公房（房改房）、解困房、拆迁房、自建房、经济适用房、限价房。

众所周知，发展二手房市场对于稳定住房价格，引导梯次消费，实现住房市场的健康发展具有重要的现实意义。但不可否认，二手房市场有效房源依旧供不应求，整体供求比例仅维持在1：4左右。

1.2项目简介

“贝壳找房”平台包含二手房、新房、租赁、家装等内容，定位于技术驱动的品质居住服务平台，开放优质资源和线上能力，聚合和赋能全行业的服务者，打造品质居住服务生态，为消费者提供包括二手房、新房、租赁等居住服务。

贝壳的底层价值观决定了外在的业务规则和核心能力。全面进行组织内部的使命、愿景、价值观建设，也是今年贝壳主要聚焦的重要事件之一，贝壳希望更加净化价值观选择。

贝壳是目前中国比较有名的找房网站，里面房源信息丰富可靠，所以本项目采取对贝壳网的房源信息进行爬取，然后利用python进行可视化分析，方便用户查看和获取房源信息。房源信息具体信息包括：

总建筑面积：指建设用地范围内所有建筑物地上及地下各层建筑面积总和；

建筑基底总面积：指建设用地范围内所有建筑物底层勒脚以上外围水平投影面积之和；

建筑用地总面积：指建筑或建筑群实际占用的土地面积,包括室外工程(如绿化、道路、停车场等)的面积,其形状和大小由建筑红线加以控制；

房屋地址、房产证号、房地产权利人；

房主或者联系人电话及看房时间、具体的户型朝向、房屋价格及可议程度；

第2章需求分析

2.1 客户需求分析

买房是人生中必不可少的一个阶段也是广大普通青年最为困扰的阶段，事业刚刚起步，没有家里的资金支持，那么二手房是一个很不错的选择。但是怎么从众多二手房中选取价格最低，优惠组合最棒的二手房呢。客户需要我们做的正是这一点，需要我们从众多的网站中爬取二手房的价格以及地理位置等众多重要信息，最后进行可视化分析，来告诉客户哪个网站以及哪个地方的二手房性价比最高，最值得买，将最直观、最清晰的数据摆在客户面前。

2.2 可行性分析

我们对多个二手房网站进行了信息分析，以及反爬虫措施分析，我们最终选定了贝壳二手房网进行用户需求的数据爬取以及分析，贝壳二手房网站的数据是最多、最全并且反爬虫措施并没有很严密。可以方便的进行数据的爬取并且其中的数据包括方面很全面，可以给客户提供非常全面的分析，例如：学区房、地理位置好、性价比高、优惠组合好、礼品多等一系列分析。

2.2 性能需求分析

在性能需求方面，在万级数据面前，我们的可视化可以很轻松的非常便捷以及迅速地分析出爬虫所爬取的数据。为用户提供最为便捷、清晰的图表分析。并且可以为用户定制需求，可以按照客户的需求来自定义图标，非常的方便便捷。在爬虫方面，我们的程序预留了接口，可以进行并行爬取数据，预计节省时间80%以上。

第3章项目详细设计与实现

3.1 总体设计

本项目是对贝壳北京二手房网站进行爬取分析，项目采用requests、bs4、xml爬取了'区/县','区域','小区','总价','单价','房屋户型','楼层','总面积','朝向','建筑结构','装修情况','交易权属','形式','是否满五','产权形式','是否有房本','小区均价','小区建成','总栋数'总共十种属性存储到csv格式的文件中进行存储。在数据分析以及可视化阶段采用pandas进行数据读入的处理，采用pyplot以及pyecharts进行数据分析以及可视化的实现。

3.2 爬虫具体实现

爬虫采用requests进行网页的访问操作，采用bs4进行网页内容获取，以及xml通过关键路径获取需要的内容信息。通过csv库将内容有序的保存到csv格式的文件当中供分析以及可视化使用。

具体实现如下图所示：

图3.1 requests初始化定义代码

图3.2 获取一级页面当中的二级页面链接代码

图3.3 通过关键路径获取二级页面的元素代码

图3.4 将获取到的信息保存到csv格式的表格中代码

图3.5 类的定义以及循环执行代码

3.3项目分析以及可视化实现

项目分析

为实现实现可视化，本项目使用pandas、matplotlib以及pyecharts模块。

pandas 是基于NumPy的一种工具，该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

Matplotlib 是一个 Python 的 2D绘图库，它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。

pyecharts是一个由百度开源的数据可视化，凭借着良好的交互性，精巧的图表设计，得到了众多开发者的认可。而 Python 是一门富有表达力的语言，很适合用于数据处理。

可视化实现

第一步：为了方便后面的数据处理和分析，首先第一步对数据进行预处理；

第二步：北京二手房各区、县房源分布信息；

第三步：北京二手房各区、县房屋均价分布信息；

第四步：北京二手房房屋户型情况；

第五步：使用pyecharts绘制楼层和房屋数量的饼图；

第4章项目性能测试

本项目运行良好，能够完整的爬取网页信息以及完成分析。

项目测试结果如下图所示：

先对北京整个区、县的房源数量信息进行分析，如下图所示：

图4.1 房源数量信息

对各区房源均价进行分析：

图4.2 房源数量信息房源均价

分析房屋户型情况，结果如下：

图4.3 分析房屋户型情况

分析房屋总价和总面积的关系图，使用散点图进行展示，结果如下：

图4.4 分析房屋总价和总面积的关系图

楼层和房源数量的饼图：

图4.5 楼层和房源数量的饼图

第5章总结与心得

通过设计对北京二手房信息数据分析及可视化展示，我较为全面的掌握了python的基本知识和编程技巧，并在开发过程中我的python开发能力得到了进一步的提高。

在开发过程中我学到了一些经验：系统分析的好坏将决定着的系统开发成功与否，一份好分析设计将是成功开发主要因素。我们在着手开发之前不要急于编程，先应有较长的时间去把分析做好，做好数据库设计工作，写出相关的开发文档等。然后再开始编写程序代码，这样做到每段代码心底都有数，有条不紊。

此外，我还觉得，我个人在这次设计中走了很多弯路。主要是因为平时很少接触软件开发工作，在应用方面缺乏经验，以后还需要更多的努力。

附录

爬虫代码：

import requests as req

from bs4 import BeautifulSoup as bs

import lxml

import pandas as pd

class House_Spider():

def __init__(self):

self.url = 'https://bj.ke.com/ershoufang/pg'

self.head={

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'

}

self.proxies = {

'http://':'222.73.144.63:80',

'https://':'222.73.144.63:80'

}

self.response = ''

self.url_list = []

self.data_list = []

def MainPage(self):

self.response = req.get(url = self.url, headers = self.head, proxies = self.proxies)

print("code-", self.response.status_code)

soup = bs(self.response.text, "html.parser")

# title = soup.title

# print(title)

home_list = soup.find(name="ul",attrs={"class":"sellListContent"}).find_all(name="li",attrs={"class":"clear"})

for i in range(len(home_list)):

self.url_list.append(home_list[i].a.attrs.get('href'))

def SecondPage(self, x):

url = self.url_list[x]

self.response = req.get(url=url, headers=self.head, proxies=self.proxies)

print("code-", self.response.status_code)

#### 这里如果用BeautifulSoup写我的手就废了

html = lxml.etree.HTML(self.response.text)

data_list = []

# 地址

home_location = html.xpath('//div[@data-component="overviewIntro"]//div[@class="content"]//div[@class="areaName"]/span[@class="info"]/a/text()')

data_list.append(home_location)

# 小区

local_name = html.xpath('//div[@data-component="overviewIntro"]//div[@class="content"]//div[@class="communityName"]/a/text()')

data_list.append(local_name[0])

# 总价格

total_price = html.xpath('//div[@data-component="overviewIntro"]//div[@class="content"]//div[@class="price "]/span[@class="total"]/text()')[0]

data_list.append(total_price)

# 单价

unit_price = html.xpath('//div[@data-component="overviewIntro"]//div[@class="content"]//div[@class="price "]//div[@class="unitPrice"]/span/text()')[0]

data_list.append(unit_price)

# 房屋基本信息

home_style = html.xpath('//div[@class="introContent"]//div[@class="base"]//div[@class="content"]/ul/li/text()')

data_list.append(home_style)

# 房屋交易属性信息

transaction_info = html.xpath('//div[@class="introContent"]//div[@class="transaction"]//div[@class="content"]/ul/li/text()')

for i in range(len(transaction_info)):

transaction_info[i] = transaction_info[i].replace(' ','').replace('\n','')

data_list.append(transaction_info)

# 小区均价

xiaoqu_price = html.xpath('//div[@class="xiaoquCard"]//div[@class="xiaoqu_main fl"]//span[@class="xiaoqu_main_info price_red"]/text()')

data_list.append(xiaoqu_price[0].replace(' ','').replace('\n',''))

# 小区建造时间

xiaoqu_built_time = html.xpath('//div[@class="xiaoquCard"]//div[@class="xiaoqu_main fl"]//span[@class="xiaoqu_main_info"]/text()')

data_list.append(xiaoqu_built_time[0].replace(' ','').replace('\n',''))

# 小区建筑类型

xiaoqu_built_style = html.xpath('//div[@class="xiaoquCard"]//div[@class="xiaoqu_main fl"]//span[@class="xiaoqu_main_info"]/text()')

data_list.append(xiaoqu_built_style[1].replace(' ','').replace('\n',''))

# 小区楼层总数

xiaoqu_total_ceng = html.xpath('//div[@class="xiaoquCard"]//div[@class="xiaoqu_main fl"]//span[@class="xiaoqu_main_info"]/text()')

data_list.append(xiaoqu_total_ceng[2].replace(' ','').replace('\n',''))

self.data_list.append(data_list)

def save_data(self, data):

data_frame = pd.DataFrame(data, columns=['小区位置','小区名称','房屋总价','房屋单价','房屋基本信息','房屋交易信息','小区均价','小区建造时间','小区房屋类型','小区层数'])

data_frame.to_csv('House_price_pk.csv', header=False, index=False, mode='a', encoding='utf_8_sig')

print(data_frame)

if __name__ == "__main__":

House = House_Spider()

for i in range(0, 100):

House.url = 'https://bj.ke.com/ershoufang/pg' + str(i) + '/'

House.MainPage()

print(len(House.url_list))

for i in range(len(House.url_list)):

House.SecondPage(i)

House.save_data(House.data_list)

可视化分析代码：

import pandas as pd

from matplotlib import pyplot as plt

from pyecharts.charts import Pie

from pyecharts import options as opts

columns = ['区/县','区域','小区','总价','单价','房屋户型','楼层','总面积','户型结构','套内面积','建筑类型','朝向',

'建筑结构','装修情况','梯户比例','供暖方式','配备电梯','产权年限','s','交易权属','u','形式','是否满五','产权形式',

'是否有房本','小区均价','小区建成','style','总栋数']

data = pd.read_excel(r"data.xlsx", names = columns)

data['装修情况'] = data.apply(lambda x:x['建筑类型'] if ('南北' in str(x['户型结构'])) else x['装修情况'],axis=1)

data['建筑结构'] = data.apply(lambda x:x['套内面积'] if ('南北' in str(x['户型结构'])) else x['建筑结构'],axis=1)

data['朝向'] = data.apply(lambda x:x['户型结构'] if ('南北' in str(x['户型结构'])) else x['朝向'],axis=1)

data['套内面积'] = data.apply(lambda x:'㎡' if ('南北' in str(x['户型结构'])) else x['套内面积'],axis=1)

data['装修情况'] = data.apply(lambda x:x['朝向'] if ('㎡' in str(x['户型结构'])) else x['装修情况'],axis=1)

data['建筑结构'] = data.apply(lambda x:x['建筑类型'] if ('㎡' in str(x['户型结构'])) else x['建筑结构'],axis=1)

data['朝向'] = data.apply(lambda x:x['套内面积'] if ('㎡' in str(x['户型结构'])) else x['朝向'],axis=1)

data['套内面积'] = data.apply(lambda x:'㎡' if ('㎡' in str(x['户型结构'])) else x['套内面积'],axis=1)

data['套内面积'] = data.apply(lambda x:'㎡' if ('暂无数据' in str(x['套内面积'])) else x['套内面积'],axis=1)

data['装修情况'] = data.apply(lambda x:x['装修情况'] if ('㎡' in str(x['套内面积'])) else x['建筑结构'],axis=1)

data['建筑结构'] = data.apply(lambda x:x['建筑结构'] if ('㎡' in str(x['套内面积'])) else x['朝向'],axis=1)

data['朝向'] = data.apply(lambda x:x['朝向'] if ('㎡' in str(x['套内面积'])) else x['建筑类型'],axis=1)

data['建筑类型'] = data.apply(lambda x:x['建筑类型'] if ('㎡' in str(x['套内面积'])) else x['套内面积'],axis=1)

data['套内面积'] = data.apply(lambda x:x['套内面积'] if ('㎡' in str(x['套内面积'])) else '无信息',axis=1)

data['装修情况'] = data.apply(lambda x:x['建筑结构'] if (('户') in str(x['装修情况'])) else x['装修情况'],axis=1)

data['建筑结构'] = data.apply(lambda x:x['朝向'] if (('户') in str(x['装修情况'])) else x['建筑结构'],axis=1)

data['朝向'] = data.apply(lambda x:x['建筑类型'] if (('户') in str(x['装修情况'])) else x['朝向'],axis=1)

data['建筑结构'] = data.apply(lambda x:x['朝向'] if ('结构' in str(x['朝向'])) else x['建筑结构'],axis=1)

data['朝向'] = data.apply(lambda x:x['建筑类型'] if ('结构' in str(x['朝向'])) else x['朝向'],axis=1)

data['总楼层'] = data.apply(lambda x:str(x[6])[3:].strip('(共').strip('层)'),axis=1)

data['楼层'] = data.apply(lambda x:str(x[6])[:3],axis=1)

data['总面积'] = data.apply(lambda x:str(x[7]).strip('㎡'),axis=1)

data['小区均价'] = data.apply(lambda x:str(x[-5]).strip('元/㎡\n').strip('\n'),axis=1)

data['小区建成'] = data.apply(lambda x:str(x[-4])[:4],axis=1)

data['总栋数'] = data.apply(lambda x:str(x[-2])[:-1],axis=1)

data.to_csv('after_deal_data.csv',encoding='utf_8_sig')

need_data = data[['区/县','区域','小区','总价','单价','房屋户型','楼层','总面积','朝向','建筑结构','装修情况','交易权属','形式','是否满五','产权形式','是否有房本','小区均价','小区建成','总栋数']]

need_data.head()

# print(data.head(10))

# print(need_data.head(10))

# 图表中文显示

plt.rcParams['font.sans-serif'] = ['SimHei'] # 步骤一（替换sans-serif字体）

plt.rcParams['axes.unicode_minus'] = False # 步骤二（解决坐标轴负数的负号显示问题）

fig, ax=plt.subplots()

# print(need_data.info())

# print(need_data.describe())

'''

各区县房源分布情况

北京二手房各区、县房源分布信息

'''

need_data['区/县'].value_counts().plot(kind='bar',color=['green','red','blue','grey','pink'],alpha=0.5)

x = need_data['区/县'].value_counts()

plt.title('北京二手房各区、县房源分布信息',fontsize=15)

plt.xlabel('区、县名称',fontsize=15)

plt.ylabel('房源数量',fontsize=15)

plt.grid(linestyle=":", color="r")

plt.xticks(rotation=60)

plt.legend()

plt.show()

'''

各区县房源均价分布情况

北京二手房各区、县房屋均价分布信息

'''

need_data.groupby('区/县').mean()['单价'].sort_values(ascending=True).plot(kind='barh',color=['r','g','y','b'],alpha=0.5)

plt.title('北京二手房各区、县房屋均价分布信息',fontsize=15)

plt.xlabel('房屋均价',fontsize=15)

plt.ylabel('区、县名称',fontsize=15)

plt.grid(linestyle=":", color="r")

plt.legend()

plt.show()

'''

各区县房源分布情况

北京二手房房屋户型情况

'''

need_data['房屋户型'].value_counts().plot(kind='bar',color=['green','red','blue','grey','pink'],alpha=0.5)

plt.title('北京二手房房屋户型情况',fontsize=15)

plt.xlabel('房屋户型',fontsize=15)

plt.ylabel('房源数量',fontsize=15)

plt.grid(linestyle=":", color="r")

plt.xticks(rotation=60)

plt.legend()

plt.show()

# print(need_data[need_data.房屋户型 == '5室2厅4卫'])

# 北京二手房总价最大、最小值及其房源信息

total_price_min = need_data['总价'].min()

total_price_min_room_info = need_data[need_data.总价==total_price_min]

# print('二手房总价最低价位为：\n{}'.format(total_price_min))

# print('二手房总价最低的房源信息为：\n{}'.format(total_price_min_room_info))

total_price_max = need_data['总价'].max()

total_price_max_room_info = need_data[need_data.总价==total_price_max]

# print('二手房总价最高价位为：\n{}'.format(total_price_max))

# print('二手房总价最低的房源信息为：\n{}'.format(total_price_max_room_info))

# 绘制总面积和总价的散点关系图

home_area = need_data['总面积'].apply(lambda x:float(x))

# print(home_area.head())

total_price = need_data['总价']

# print(total_price.head())

plt.scatter(home_area,total_price,s=3)

plt.title('北京二手房房屋户型情况',fontsize=15)

plt.xlabel('房屋面积',fontsize=15)

plt.ylabel('房源总价',fontsize=15)

plt.grid(linestyle=":", color="r")

plt.show()

# 分析面积大但是价格较低的房源

area_max = home_area.max()

area_max_room_info = need_data[home_area==area_max]

# print('二手房面积最大的房源信息为：\n{}'.format(area_max_room_info))

# 使用pyecharts绘制楼层和房屋数量的饼图

x = need_data['楼层'].value_counts()

y = ['高楼层', '低楼层', '中楼层', '地下室', '未知']

# print("x =", x)

# print("y =", y)

c = (

Pie()

.add("", [list(z) for z in zip(y, x)])

.set_colors(["blue", "green", "yellow", "red", "pink", "orange", "purple"])

.set_global_opts(title_opts=opts.TitleOpts(title="房源楼层分布图"))

.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))

.render("房源楼层分布图.html")

)

你可能感兴趣的:(数据分析,爬虫,数据挖掘)

【大数据分析】Spark SQL查询：使用SQL命令 sword_csdn Spark spark 数据分析 sql
对于使用关系型数据库或分布式数据库的用户可能更容易和更自然地使用SQL，比如Hive。在SparkSQL编写SQL命令时，它们将被转换为DataFrame上的操作。通过连接到Spark的Thrift服务器，它们可以通过标准的JDBC或ODBC协议从应用服务器连接到Spark。Spark支持两种SQL方言：SQL和HQL。Spark社区推荐的是HQL，因为HQL具有更丰富的功能。要使用HQL，需要使
编程语言難釋懷开发语言
在当今数字化的时代，编程语言作为人与计算机交流的桥梁，扮演着至关重要的角色。无论是开发一款手机应用、创建一个网站还是实现复杂的数据分析，选择合适的编程语言都是成功的关键之一。本文将带你走进编程语言的世界，探索它们的基本概念、类型以及如何根据项目需求选择最合适的工具。一、什么是编程语言？编程语言是一种用于编写计算机程序的形式化语言，它定义了一套规则和语法，让开发者能够指示计算机执行特定任务。编程语言
【R语言数据分析】基于R语言对中、美两国GDP分析（R语言大作业） m0_73866147 数据分析大数据 r语言
目录一、研究意义二、数据来源三、读取数据读取数据代码运行结果截图四、数据分析绘制箱线图建立箱线图代码运行结果截图五、建立回归模型建立回归模型代码运行结果截图有关于相关系数的计算与检验六、回归分析确定回归方程七、预测中国和美国未来的GDP值、预测中国的GDP赶超美国的时间数据可视化八、总结一、研究意义GDP作为衡量一个国家经济发展的重要指标，被赋予了非常重要的意义，深刻反映着当下经济发展的现状。中美
【全栈】SprintBoot+vue3迷你商城-细节解析（2）：分页杰九 vue.js spring boot java
【全栈】SprintBoot+vue3迷你商城-细节解析（2）：分页往期的文章都在这里啦，大家有兴趣可以看一下后端部分：【全栈】SprintBoot+vue3迷你商城（1）【全栈】SprintBoot+vue3迷你商城（2）【全栈】SprintBoot+vue3迷你商城-扩展：利用python爬虫爬取商品数据【全栈】SprintBoot+vue3迷你商城（3）【全栈】SprintBoot+vue3
面试基础--分布式任务调度系统设计方案 WeiLai1112 后端面试 java 后端架构中间件
分布式任务调度系统设计方案以下是一个基于实际项目经验设计的分布式任务调度系统方案，结合北京互联网大厂面试要求，涵盖架构图、调用关系图、设计图和数据流转时序图。1.系统概述分布式任务调度系统主要用于处理高并发、大规模的任务分发和执行场景。常见应用场景包括：异步任务处理（如邮件发送、消息通知）定时任务调度（如统计报表生成）分布式计算任务（如数据分析）本方案设计一个高可用、可扩展的分布式任务调度系统，包
主要空间数据挖掘方法 CodeYoung7 总结归纳数据挖掘地理信息
文章出自：http://blog.csdn.net/shaoz/article/details/6847925张新长马林兵等，《地理信息系统数据库》[M]，科学出版社，2005年2月第二章第二节空间数据空间数据挖掘是多学科和多种技术交叉综合的新领域，其挖掘方法以人工智能、专家系统、机器学习、数据库和统计等成熟技术为基础。下面介绍近年来出现的主要空间数据挖掘方法。1、空间分析方法利用GIS的各种空间
【MySQL】表空间丢失处理（Tablespace is missing for table 错误处理） m0_74824823 面试学习路线阿里巴巴 mysql 数据库
问题背景最近，我在运行一个基于Python爬虫的项目时，爬虫需要频繁与MySQL数据库交互。不幸的是，在数据爬取过程中，Windows系统突然强制更新并重启。这次意外中断导致MySQL数据库的三个表格（2022年、2023年和2024年的数据表）出现了“Tablespaceismissing”的错误。起初，我尝试了常规的CHECKTABLE和REPAIRTABLE方法，但这些都没有解决问题。最终，
【数据挖掘】ARFF格式与数据收集布鲁惠比寿数据挖掘数据挖掘人工智能
【数据挖掘】ARFF格式与数据收集三级目录1.ARFF格式与数据收集2.稀疏数据3.属性类型4.缺失值与不正确的值5.了解数据6.知识表达7.聚类机器学习算法训练数据挖掘分析数据共享与交换三级目录1.ARFF格式与数据收集ARFF（Attribute-RelationFileFormat）是一种用于存储数据集的文本文件格式，常用于机器学习和数据挖掘领域。它可以表示结构化数据，包括属性定义、关系信息
postgresql实时同步到mysql 数据库
应客户要求，需要同步数据到他们自己的数据库用于简单的数据分析，但这部分数据在postgresql，客户又不想再建pg，想直接同步到他们现有的mysql库，实时性倒是不要求。考虑到1、异构数据库同步2、只同步指定客户的行数据有之前同步到es的经验，同样使用了腾讯oceanus，其它工具没搞定客户库中创建表CREATETABLEtb_1(idbigintprimarykey,didbigint,gid
基于数据挖掘的股票预测系统 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1股票市场预测的挑战股票市场以其波动性和不可预测性而闻名。无数因素，从全球经济趋势到个别公司公告，都会影响股票价格。这使得准确预测股票价格极具挑战性，即使对经验丰富的投资者和金融分析师也是如此。1.2数据挖掘的兴起近年来，数据挖掘技术的出现为股票预测提供了新的可能性。数据挖掘是从大型数据集中提取有意义的模式和洞察力的过程。通过利用先进的算法和计算能力，数据挖掘可以揭示隐藏在海量金融
Python爬虫TLS dme. Python爬虫零基础入门爬虫 python
TLS指纹校验原理和绕过浏览器可以正常访问，但是用requests发送请求失败。后端是如何监测得呢？为什么浏览器可以返回结果，而requests模块不行呢？https://cn.investing.com/equities/amazon-com-inc-historical-data1.指纹校验案例1.1案例：ascii2dhttps://ascii2d.net/importrequestsres
python爬虫Selenium库详细教程_python爬虫之selenium库的使用详解嘻嘻哈哈学编程程序员 python 爬虫 selenium
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！2.2访问页面2.3查找元素2.3.1单个元素下面
淘宝/天猫店铺订单数据导出、销售报表设计与数据分析指南不会玩技术的技术girl API 数据分析人工智能数据库
在电商运营中，订单数据是店铺运营的核心资产之一。通过对订单数据的导出、整理和分析，商家可以更好地了解销售情况、优化运营策略、提升客户满意度，并制定科学的业务决策。本文将详细介绍淘宝/天猫店铺订单数据的导出方法、销售报表的设计思路以及数据分析的实用技巧，帮助电商从业者高效管理店铺数据。一、订单数据导出（一）手动导出订单数据淘宝和天猫平台提供了手动导出订单的功能，适用于数据量较小或临时性需求的场景。商
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
安心联车辆管理系统在汽车金融领域的应用安心联-车辆监控管理系统汽车金融人工智能
安心联车辆管理系统在汽车金融领域的应用主要体现在通过智能化监控与数据分析技术，提升金融风控能力、优化资产管理和降低运营风险。以下从核心功能、技术赋能和实际场景三个方面展开分析：一、核心功能适配金融场景车辆资产动态监控实时定位与电子围栏：系统基于北斗/GPS双模定位技术，可实时追踪车辆位置，并设置电子围栏限制车辆行驶区域。若车辆驶出授权范围（如贷款合同约定的使用区域），系统立即触发报警并留存轨迹证据
清华大学第四发《DeepSeek+DeepResearch 让科研像聊天一样简单》人工智能
当下科研领域，传统模式急需改变，清华大学第四版《DeepSeek+DeepResearch：让科研像聊天一样简单》全文一共86页，以下是文档的关键内容总结：一、智能组合优势DeepSeek与DeepResearch构建先进技术体系，有强大模型运算、智能数据处理和友好交互界面。模型在数据处理速度、精准度和泛化能力上远超传统模型。数据采集渠道广、处理快，能读取多种格式文件。数据分析深入，可视化直观，还
智能化工作流：探索顶尖工作流管理软件的核心优势团队协作工具
工作流管理软件是一种用于规划、执行和监控业务流程的软件应用程序。以下是关于工作流管理软件的详细介绍：一、定义与功能工作流管理软件旨在帮助团队和企业优化工作流程，提高工作效率。它通常包括任务分配、进度追踪、团队协作、自动化流程、数据分析等功能。通过这类软件，企业可以更好地管理内部流程，确保任务的顺利进行，并实时监控项目的进展情况。二、主要软件推荐板栗看板：可视化管理与团队协作的利器核心功能：板栗看板
数据挖掘十大经典算法详解（附原理解析与代码示例） IT程序媛-桃子华为认证数据挖掘算法经验分享华为
1.PageRank（链接分析）应用场景：搜索引擎排名、社交网络分析核心原理PageRank通过网页之间的链接关系计算网页的重要性，影响力大的网页排名更高。网页影响力=所有入链页面的加权影响力之和阻尼因子D（通常设为0.85）用于模拟用户随机访问网页的行为代码示例importnetworkxasnxG=nx.DiGraph()G.add_edges_from([("A","B"),("A","C"
Conda 常用命令全解析 melck conda
在Windows系统中，Conda是一款功能强大的包管理和环境管理工具，尤其对于数据分析、科学计算等场景有着重要的作用。本文将详细介绍Conda在Windows系统中的常用命令，帮助你高效地管理虚拟环境和软件包。一、环境管理命令1.1查看Conda版本conda--version该命令用于确认Conda是否成功安装以及查看其版本号。这对于确保Conda的兼容性和功能性非常重要。1.2创建新环境co
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
TCP 握手数据包分析 inquisiter tcp/ip 网络 linux
一、客户端数据分析：spu@spu:~/code/pcap$tcpdump-rclient_all.pcap-Xreadingfromfileclient_all.pcap,link-typeEN10MB(Ethernet)17:58:56.346748IP192.168.1.178.55814>192.168.1.117.socks:Flags[S],seq2615205588,win64240
2025年2月9日（数据分析_2） Mason Lin Python学习数据分析数据挖掘
散点图frommatplotlibimportpyplotaspltfrommatplotlibimportfont_manager#字体相关#字体font_path=r"C:\Windows\Fonts\msyh.ttc"my_font=font_manager.FontProperties(fname=font_path)x=list(range(31))x2=list(range(31,62
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
毕业论文如何降低AIGC率？ kexiaoya2013 AIGC 论文笔记论文阅读
在Deepseek爆火的当下，AI生成内容已经渗透到各个领域，包括论文写作。如果你的论文使用了AI工具辅助写作，那么，如何降低AIGC率呢？一、控制使用比例将AI工具用于辅助性任务，如文献检索、语法检查、词汇替换等，而非核心内容的生成。论文的研究方法、数据分析、结论等核心部分应尽量手动完成。完全依赖AI生成论文会导致AI率过高，而将AI用于辅助性任务则能有效降低AI率。二、采用不同模型不同AI模型
BP 神经网络在考古数据分析中的应用 fanxbl957 人工智能理论与实践神经网络数据分析人工智能
BP神经网络在考古数据分析中的应用摘要：本文深入探讨了BP神经网络在考古数据分析领域的应用。首先阐述了考古数据分析的重要性以及传统分析方法的局限性。随后详细介绍了BP神经网络的结构、原理与训练算法。通过丰富的代码示例展示了如何运用BP神经网络进行考古文物的分类鉴定、年代预测以及遗址空间分布分析等任务，涵盖数据预处理、网络构建、模型训练与评估等关键环节。分析了该应用的优势与局限性，并对其在考古数据分
市场波动中的数据分析与策略优化 QQ3990385023 数据分析区块链人工智能
市场波动中的数据分析与策略优化在市场交易中，价格的波动往往受到多种因素影响，包括资金流向、经济数据、政策调整等。如何利用数据分析优化交易策略，提升市场适应能力，是投资者需要重点关注的问题。借助科学的分析方法，结合技术指标，可以更精准地识别趋势，提高交易稳定性。一、市场数据分析的核心要素1.价格趋势分析市场价格的变动通常会形成一定的趋势，例如上涨趋势、震荡趋势或下跌趋势。通过均线（MA）等技术指标，
2024亚马逊数据分析！ KJYHS 数据分析数据挖掘
整体财务数据23净销售额：全年净销售额达6380亿美元，同比增长11%。净利润：全年净利润为592亿美元，较上年同期的304亿美元增长95%。经营活动现金流：经营活动现金流达1159亿美元，同比增加了36%。各业务板块数据AWS业务1第四季度营收：2024年第四季度，AWS业务实现营收288亿美元，同比增长19%；经营利润达106亿美元，同比增长34亿美元。广告业务5全年营收：2024年广告业务总
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><