CSDN资讯

爬取了 31502 条北京自如租房数据，看看是否居者有其屋？

作者 | 小狮子是LEO

责编 | 郭芮

自如友家作为北京租房的主要途径之一，租房数据都展示在官方网站之上，价格等房屋信息与网站数据一致，数据可信度较高、格式规整。因而选取自如友家官方网站作为租房数据的获取来源，分析自如友家的租房数据，可以一定程度上反映出北京的租房现状。

本文的具体思路如下：

首先使用爬虫获取租房数据，定时爬取自如官网8月9日到9月８日之间展示的合租信息，爬取间隔为每天一次。

然后使用Pandas对获取的数据进行数据清洗，去除数据中的无效及重复部分，最终获取租房数据的总数为31502条。

最后依据获取的租房数据对北京自如友家的房租价格、房屋数量、房屋分布、房屋属性等信息做定量分析，同时定性分析影响房屋价格的因素。

房租价格

1、总体价格

8月9日到9月8日30天内北京自如友家单个房间的平均房租为2781元，最低价格1030元，最高价格6830元，具体的价格分布如下。

由图可知自如合租的单个房间价格大多分布在2000元与3000元价格档位，其中2500元附近分布最为密集。

自如友家房的租金价格分为XX30、XX60、XX90三种，同一价格区间内三者数目依次递增，大多数房间定位的价格为XX90，图中分布较高的柱形均为XX90。

2、各区价格

为了能够客观地比较北京各个行政区域的租金价格差异，将北京各个行政区域的租金分布绘制成箱型图，X轴各行政区按照平均价格由高到低排列。由图可见北京平均房租价格最高的为西城区，平均价格为3504元，平均房租最低的为门头沟区，平均价格为1574元。

由箱型图大致可以看到各个行政区的房租分布情况，其中房租差距最大的为海淀区，房租差距最小的为门头沟区。

3、价格趋势

计算30天内每日的平均房租价格，绘制自如友家房租的价格趋势图如下。

8月9日自如网站所有合租房源均价为2763元，9月8日房租均价为2693元，30天之内大部分日期的房租平均价格位于2700元到2750元之间，最高价格为8月11日的2888元，最低价格为9月8日的2693元，总体而言房租价格稳定且呈略微下降的趋势。房租均价的下降可能与毕业季租房高峰结束有关。

房屋数量

本次总计获取的房租数据总数为31502条，而自如网站上展示的房源有部分处于已出租状态，因而一个月以内可以出租的房源应该小于这一数目。计算每日自如网站的租房信息条数并绘制每日在线房屋数量变化图如下。

30天内房屋数量最多的为9月8日的12223间，房屋数量最少的为8月11日的6113间，从8月12日开始自如网站的每日在线房屋数量一直处于上升状态，并且较之前的房屋数目有了非常大的提升，推测这可能与前一段时间北京市约谈有关。

房屋分布

1、分布热力图

七月份曾通过爬虫抓取自如的每一个租房页面获取房屋的详细信息，三次共获取租房信息14850条，其中包含了房屋的经纬度信息，以此为基础使用百度地图API绘制北京自如友家的房屋分布热力图如下。

由图中分布可以看出自如房屋分布最密集的部分有：回龙观、天通苑、望京、顺义（15号线末端）、通州（八通线与6号线末端）、丰台科技园（地铁首经贸与科怡路站周边）、罗庄东里、劲松、枣园、天宫院等。

2、各区比例

统计自如友家在各个行政区的房屋分布如下图所示。

分布数量最多的是朝阳区，占房屋总量的22.12％，分布数量最少的是门头沟区仅占房屋分布总量的1.16％。

3、小区分布

相对于行政区，小区的划分更加精细，能够反映除房屋自身属性以外的其它属性，如位置、交通、生活的便利程度等，因此根据统计数据分析自如各个小区的房屋分布情况，取前50名如下图所示，字体越大表示房屋数量越多。

可见龙冠冠华苑是八月北京自如友家房屋分布数量最多的小区。图中小区大多分布在热力图中的红色位置，能更确切地说明自如友家的房屋分布状况。

房屋属性

1、房屋面积

统计获取的所有房屋的面积如下，最小房屋面积为4.5平米，最大房屋面积为59.6平米，平均面积为12.86平方米，大部分的房屋分布在8平米到15平米之间，其中11.5平米左右与14.5平米左右房屋分布最为密集，推测两个峰值的出现可能次卧，主卧有关。

2、房屋类型

由房屋类型的分布图可知，自如友家绝大部分的出租房源为三居室，占据所有房源的62.56%，房间数目最多的为8居室占据所有房源的0.03%。

3、房屋朝向

统计所有房屋的朝向，可见自如房间的朝向总计有8种，其中南向卧室的比例最多，房屋朝向主要为南、北、东、西等比较正常朝向，但比较奇怪的朝向也占据了所有房屋的4.48%。

4、楼高分布

由自如房源的楼高分布图可知，自如友家所在的小区楼高最多的为6层，占据总数的28.99%，一般来讲6层楼高的多为比较老的小区。

房租价格定性分析

房租价格影响因素较多，并非简单的线性关系，很难定量得出房价与各影响因素的关系，因而下面定性地分析影响房租价格的各项因素。

首先由北京各地区房租分布的差异可知房屋位置是影响房租价格的主要因素，为分析除此之外影响房屋价格的其它因素，本文采用房屋数量最多的小区内所有的房源作对比分析。将房间的朝向、房间的面积，房间的价格绘制在同一张散点图中，红色的表示南向卧室，深蓝色的表示北向卧室。

如图所示南向房间价格总体高于北向卧室价格，可见房间朝向对于房租有一定的影响，南向卧室价格较高。

随着房屋面积的增加，房租成上升趋势，但二者并不成正比，一定范围内房间面积对房租价格影响不大，例如该小区15到20平米内南向房租价格基本无变化。

在散点图中南向房间12到15平米内价格聚集在两个1890与2190两个价格区间，产生此种差异的原因是因为房屋户型不同，2190的房屋基本都有阳台，1890的房屋基本没有阳台，因而是否带有阳台也是是影响房租价格的因素之一。

综上影响房租的因素除房屋位置外还包含，房屋朝向、房屋面积、房屋户型等。

代码实现

本文篇幅有限，无法展示所有代码，因而选取部分主要代码，重在表述实现思路。

1、数据获取

数据获取的思路是使用Python爬虫爬取自如友家网站的租房数据，具体方案如下：

使用selenium及PhantomJS模拟浏览器网站，不选取Chrome-headless的原因是PhantomJS可以更加方便的实现整个网页的截图。按行政区域爬取租房数据，主要代码如下：

1.def getinfo(Area,FileName):  
2.    print(Area)  
3.    print('开始网页get请求')  
4.    # 使用selenium通过PhantomJS来进行网络请求  
5.    driver = webdriver.PhantomJS()  
6.    driver.implicitly_wait(10)  
7.    driver.maximize_window()  
8.    driver.get(web_url)  
9.    search(driver, Area)  # 切换租房地点  
10.    url = ''  
11.    oldurl = ''  
12.    # 获取房屋信息的总页数  
13.    page = driver.find_element_by_css_selector('span.pagenum')  
14.    pagenum = page.text  
15.    pagenum = pagenum.replace('1/', '')  
16.    print(pagenum)  
17.    #页数小于五十不需做特殊处理  
18.    if pagenum != "50":  
19.        while True:  
20.            getonepageinfo(driver,Area,FileName)#获取一页的租房信息  
21.            try:#尝试翻页  
22.                nextbutton = driver.find_element_by_css_selector('a.next')  
23.                url = nextbutton.get_attribute('href')  
24.                if url == oldurl:  
25.                    break  
26.                oldurl = url  
27.                nowTime = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')  
28.                print(nowTime)  
29.                driver.get(url)  
30.            except:  
31.                print("ERROR!")  
32.                break  
33.    #页数大于五十为避免数据缺失按街道爬取数据  
34.    else:  
35.        BS = BeautifulSoup(driver.page_source, 'lxml')  
36.        Arealist = BS.find('ul', class_='clearfix filterList')  
37.        for area in Arealist.contents[3:-1:2]:  
38.            nameList = area.stripped_strings  
39.            areaName = list(nameList)[0]  
40.            littleAreaList = area.div.contents[3:-1:2]  
41.            #按街道爬取数据  
42.            for littleArea in littleAreaList:  
43.                if areaName == Area:  
44.                    print(littleArea.a.string)  
45.                    driver.get('http:' + littleArea.a.get('href'))  
46.                    while True:  
47.                        getonepageinfo(driver,Area,FileName)  
48.                        try:  
49.                            nextbutton = driver.find_element_by_css_selector('a.next')  
50.                            url = nextbutton.get_attribute('href')  
51.                            if url == oldurl:  
52.                                break  
53.                            oldurl = url  
54.                            nowTime = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')  
55.                            print(nowTime)  
56.                            driver.get(url)  
57.                        except:  
58.                            print("ERROR!")  
59.                            break  
    driver.quit()

使用BeautifulSoup解析HTML，获取名称、面积、楼层等房屋属性信息。自如网站的房屋租金为了防止爬取做了特殊处理，因而使用pytesseract识别截图中的价格信息，代码如下：

1.def getonepageinfo(driver,Area,FileName):  
2.    print(Area)  
3.    try:  
4.        #获取整个网页的截图  
5.        driver.save_screenshot('D:\\aaa\\shot'+Area+'.png')  
6.        BS = BeautifulSoup(driver.page_source, 'lxml')  
7.        houseList = BS.find_all('li', class_='clearfix')  
8.        rangles = []  
9.        RoomDetails = driver.find_elements_by_css_selector('li.clearfix')  
10.        #获取所有价格信息的位置  
11.        for RoomDetail in RoomDetails:  
12.            priceelement = RoomDetail.find_element_by_css_selector('p.price')  
13.            location = priceelement.location  
14.            size = priceelement.size  
15.            rangle = (int(location['x'] + 90), int(location['y']), int(location['x'] + 180),  
16.                      int(location['y'] + size['height']))  
17.            rangles.append(rangle)  
18.        HouseNo = 0  
19.        #获取房屋的详细属性  
20.        for house in houseList:  
21.            title = house.find('a', class_='t1').string#房屋名称  
22.            url = house.find('a', class_='t1')['href']#房屋url  
23.            i = Image.open('D:\\aaa\\shot'+Area+'.png')  # 打开截图  
24.            frame4 = i.crop(rangles[HouseNo])  # 使用Image的crop函数，从截图中再次截取我们需要的函数  
25.            frame4.save('D:\\aaa\\price'+Area+'.png')  
26.            price = pytesseract.image_to_string(Image.open('D:\\aaa\\price'+Area+'.png'))#房屋价格  
27.            detail = list(house.find('div', class_='detail').stripped_strings)  
28.            roomarea = detail[0]#房屋面积  
29.            floor = detail[2]#房屋楼层  
30.            type = detail[4]#房屋类型  
31.            roomlocation = Area  
32.            pagestr = roomlocation + ',' + title + ',' + url + ',' + price + ',' + roomarea + ',' + floor + ',' + type + '\n'  
33.            HouseNo = HouseNo + 1  
34.            try:  
35.                with open(FileName, 'a+') as f:  
36.                    f.write(pagestr)  
37.            except:  
38.                print('GET PRICE ERROR !')  
39.    except:  
        print('GET Room INFORMATION ERROR !')

2、数据清洗

由于爬取的数据存在重复数据及错误数据，因而本文使用Pandas做数据清洗，去除重复及错误部分。

1.column_names= ['district', 'name', 'url', 'price','area','floor','type']  
2.roomdataframehis  = pd.DataFrame(columns=column_names)  
3.  
4.print("try to convert file code..............\n")  
5.#首先读取原始文件去除不符合GBK编码的字符及价格不合理数据  
6.for file in os.listdir('D:\\ZIROOM\\ziroomdataprocess\\dirty'):  
7.    roomdata = pd.read_csv('D:\\ZIROOM\\ziroomdataprocess\\dirty\\' + file,names=column_names,encoding="ISO-8859-1",dtype = {'price' : str})  
8.    roomdataframe = pd.DataFrame(roomdata)  
9.    roomdataframe = roomdataframe.dropna()  # rmove na data  
10.    # 去掉价格不合理的所有房屋  
11.    allist = ['(§']  
12.    roomdataframe = roomdataframe[~roomdataframe['price'].isin(allist)]  # rmove incorrect data  
13.    roomdataframe.to_csv('D:\\ZIROOM\\ziroomdataprocess\\clean\\' + file, encoding="ISO-8859-1",index=False, header=False)  
14.print("try to clean data..............\n")  
15.for file in os.listdir('D:\\ZIROOM\\ziroomdataprocess\\clean'):  
16.    print(file)  
17.    roomdata  = pd.read_csv('D:\\ZIROOM\\ziroomdataprocess\\clean\\'+file,names = column_names,encoding="gbk",dtype = {'price' : str})  
18.    roomdataframe = pd.DataFrame(roomdata)  
19.    #去掉所有包含空值的数据  
20.    roomdataframe=roomdataframe.dropna()#rmove na data  
21.    #去掉所有不是合租的房源  
22.    roomdataframe=roomdataframe[roomdataframe['name'].str.contains('友家')]  
23.    #去掉所有不合理价格  
24.    roomdataframe = roomdataframe[(roomdataframe['price'].str.len()<5)&(roomdataframe['price'].str.isdigit())]  
25.    #处理住房面积  
26.    roomdataframe['area']= roomdataframe['area'].str.replace('约','')  
27.    roomdataframe['area']= roomdataframe['area'].str.replace('㎡', '')  
28.    roomdataframe['area']= roomdataframe['area'].astype(float)  
29.    roomdataframe= roomdataframe[(roomdataframe['area']<60)&(roomdataframe['area']>4)]  
30.    #去掉重复数据  
31.    roomdataframe.drop_duplicates(subset=['url'],keep='first',inplace=True)  
32.    #对房间类型进行前期处理  
33.    roomdataframe['type']=roomdataframe['type'].str[0]  
34.    #对数据进行排序  
35.    roomdataframe=roomdataframe.sort_values(by=['district','price'],axis = 0,ascending = True)  
36.    roomdataframe.to_csv('D:\\ZIROOM\\ziroomdataprocess\\clean\\'+file,encoding="gbk",index=False,header=False)

3、数据分析

数据分析部分使用百度地图API及pyecharts对数据进行可视化分析，由于绘制的图表较多，百度地图API以热力图作为例子，pyecharts以玫瑰饼图作为例子。

热力图：

1.import pandas as pd  
2.column_names= ['code','name','area','direction','price','lon','lat','district','url']  
3.roomdataframehis  = pd.DataFrame(columns=column_names)  
4.#读取HTML文件头  
5.fo = open("htmlheader", "r",encoding="utf-8")  
6.filehead = fo.read()  
7.#读取HTML文件位  
8.fo = open("htmlend", "r",encoding="utf-8")  
9.fileend = fo.read()  
10.#生成HTML中经纬度部分  
11.roomdata  = pd.read_csv('D:\\ZIROOM\\ziroomdataprocess\\all\\All.csv',index_col=False,names = column_names,encoding="gbk")  
12.roomdataframe = pd.DataFrame(roomdata)  
13.points =''  
14.for indexs in roomdataframe.index:  
15.    linedata = roomdataframe.loc[indexs]  
16.    points+='{'+'"lng":'+str(linedata['lon'])[0:9]+','+'"lat":'+str(linedata['lat'])+','+'"count":'+'5},\n'  
17.
18.fo = open('hot.html','w',encoding='utf-8')  
19.#生成热力图HTML文件  
20.fo.write(filehead)  
21.fo.write(points)  
22.fo.write(fileend)  
23.fo.close()

玫瑰饼图：

1.#绘制房屋类型玫瑰饼图  
2.type = []  
3.typenumber = []  
4.TypeMax = roomdataframe['type'].max()  
5.Type = 2  
6.while True:  
7.    roomdataframetmp = roomdataframe[roomdataframe['type']==Type]  
8.    type.append(str(Type)+'居室')  
9.    typenumber.append(len(roomdataframetmp['type']))  
10.    Type = Type +1  
11.    if Type>TypeMax:  
12.        break  
13.data = list(zip(type,typenumber))  
14.data.sort(key= lambda x:(x[1]),reverse=True)  
15.type = [x[0] for x in data]  
16.typenumber = [x[1] for x in data]  
17.typepie = Pie("房屋类型", title_pos='center', width=1800,height=900)  
18.typepie.add(  
19.    "房屋类型",  
20.    type,  
21.    typenumber,  
22.    is_random=False,  
23.    radius=[30, 75],  
24.    rosetype="area",  
25.    is_legend_show=False,  
26.    is_label_show=True,)  
27.typepie.render('typepie.html')

4、参考资料

Selenium文档：
https://selenium-python-zh.readthedocs.io/en/latest/
BeautifulSoup文档：
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
百度地图API文档：
http://lbsyun.baidu.com/index.php?title=jspopular
Pyecharts文档：
http://pyecharts.org/#/zh-cn/charts_configure

写在最后

自如友家的房租定价与北京市房租基本呈正相关，因而本次对自如友家八月份租房数据的分析，一定程度上可以作为北京租房市场的参考。

从七月份房租暴涨到八月份房租趋于稳定，相关部门的约谈与监管起到了非常重要的作用。希望在相关部门监管及民众的关注下，房屋租赁市场能够健康发展，使居者有其屋，在高房价的社会中给年轻人一丝喘息的机会。

作者：小狮子是LEO，苦逼软件工程师，业余Python爱好者。

声明：本文为作者独家原创投稿，未经允许请勿转载。

_“ 征稿啦_”

CSDN 公众号秉持着「与千万技术人共成长」理念，不仅以「极客头条」、「畅言」栏目在第一时间以技术人的独特视角描述技术人关心的行业焦点事件，更有「技术头条」专栏，深度解读行业内的热门技术与场景应用，让所有的开发者紧跟技术潮流，保持警醒的技术嗅觉，对行业趋势、技术有更为全面的认知。

如果你有优质的文章，或是行业热点事件、技术趋势的真知灼见，或是深度的应用实践、场景方案等的新见解，欢迎联系 CSDN 投稿，联系方式：微信（guorui_1118，请备注投稿+姓名+公司职位），邮箱（[email protected]）。

————— 推荐阅读 —————

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
谁家酒器最绝唱，藏在酒厂人未知？景阳冈酒厂先秦藏品大揭秘李虓酒评论
文/王赛时中国的酒器酒具历史久远，举世闻名。从北京的故宫博物院、中国国家博物馆，到世界各国的大型博物馆，都以能够收藏中国古代酒具而夸耀。但很少有人知道，在山东阳谷景阳冈酒厂，默默地收藏了两千件中国酒器。这些酒器，就封藏在景阳冈的酒道馆里。其中有一些青铜酒器，一睡就是三、四千年，堪称无声国宝，堪作无字史书！今天，我将引领诸位首先窥视一下景阳冈酒道馆的9件先秦藏品，你自己来说震撼不震撼。提示：这只是景
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
《人世间》南询yi
今日分享十点推文，《人世间》有感苏格拉底说：“天地只有三尺，而人在五尺开外，所以人人都要懂得低头。”深以为然。懂得低头，不是认输。而是于人世间找寻温存的成熟，于困境中寻觅柳暗花明的智慧，于争执中展示屈伸自如的格局。正如仰头不是骄傲，是要看见自己的天空；低头也不是认输，而是要看清自己的路。成大事者，不仅要抬头挺胸，还得低头看路。懂得低头，进退有度，不是认输，而是竭尽全力过好这一生。宫崎骏说过：“所有
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
万物难度不度己边度512
你好，陌生人！你是否有过迷茫，在别人的面前自己却不曾展示！你是否自己承担着所有的痛苦，却又笑对人生！你是否在很多时候想找人诉说，翻开手机却发现，手机里面空无一人！你是否有很多事情想做，最后却因你自己拖延，最后发现自己什么都做不了！对没有错，我的名字就叫你是否！不要怀疑！不要悲伤！我们的生活可是还有很到要继续的呢！还有很多那个人，很多地方我们都没有去过！所以我们已经没有退路了！那就继续向前吧！加油！
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

爬取了 31502 条北京自如租房数据，看看是否居者有其屋？

你可能感兴趣的:(爬取了 31502 条北京自如租房数据，看看是否居者有其屋？)