看不见的罗辑

全国地铁城市数据分析（python实现）

全国地铁城市数据分析（数据清洗+可视化分析)
一确定问题：
由题看出其属于开放问题，没有明确的目的（即可认为无题），其重点是让人发现问题（比如过程中分析时发现数据有哪些实在的问题就可以拿出来单独分析），了解数据处理，数据可视化
但是可以通过该问题比较系统的了解数据分析的过程（实际上这里重点是数据分析中的评估部分）

1.获取数据-采用爬虫访问百度地铁地图获取数据的方法

request+xpath爬虫:

得到url-http://map.amap.com/subway/index.html?&1100
发出请求得到响应对象-request模块
获取响应对象数据-使用text函数直接获取网页文本。有些数据为json字符串的形式，需要用到json转化
解析数据-使用xpath
持久化存储-在数据分析中一般将数据保存为csv格式,跟利于处理

在过程中使用了time模块-sleep函数防止网站宕机
主要的3个函数

#3个函数
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36 2345Explorer/10.11.0.20694'}
    

def get_city():#用于得到城市ID和城市名称
    url = 'http://map.amap.com/subway/index.html?&1100'
    time.sleep(2)
    res = requests.get(url=url, headers=headers)
    res.raise_for_status()
    res.encoding = res.apparent_encoding
    html = res.text
    Html = etree.HTML(html)
    # 城市列表
    res1 = Html.xpath('/html/body/div[1]/div[1]/div[1]/div[2]/div[1]/a')
    res2 = Html.xpath('/html/body/div[1]/div[1]/div[1]/div[2]/div[2]/div[2]/a')
    for i in res1:
        # 城市ID值
        ID = ''.join(i.xpath('.//@id'))  # 属性需要加上双斜杠
        # 城市拼音名
        cityname = ''.join(i.xpath('.//@cityname'))  # ./表示在当层目录下使用
        # 城市名
        name = ''.join(i.xpath('./text()'))
        get_message(ID, cityname, name)
        city_ID.update({name: ID})

    for i in res2:
        # 城市ID值
        ID = ''.join(i.xpath('.//@id'))
        # 城市拼音名
        cityname = ''.join(i.xpath('.//@cityname'))
        # 城市名
        name = ''.join(i.xpath('./text()'))
        # print(cityname)
        get_message(ID, cityname, name)

city_ID = {}

def get_message(ID, cityname, name):#用于得到城市的具体线路信息
    """
    地铁线路信息获取
    """
    url = 'http://map.amap.com/service/subway?_1555502190153&srhdata=' + ID + '_drw_' + cityname + '.json'
    # global end_list
    global stations
    # if end_list.get(cityname) == None:
    #     end_list[cityname] = []
    # end_list[cityname].setdefault([])
    response = requests.get(url=url, headers=headers)
    time.sleep(2)
    html = response.text
    # print(html)
    result = json.loads(html)
    for i in result['l']:
        for j in i['st']:
            # 判断是否含有地铁分线
            if len(i['la']) > 0:
                # print(name,cityname,j['sl'],j['poiid'], i['ln'] + '(' + i['la'] + ')', j['n'])
                with open('subway.csv', 'a+', encoding='utf-8') as f:
                    f.write(name + ',' + cityname + ',' + j['poiid'] + ',' + j['sl'] + ',' + i['ln'] + '(' + i[
                        'la'] + ')' + ',' + j['n'] + '\n')
                    f.close()
            else:
                # print(name,cityname,j['sl'],j['poiid'], i['ln'], j['n'])
                with open('subway.csv', 'a+', encoding='utf-8')as f:
                    f.write(
                        name + ',' + cityname + ',' + j['poiid'] + ',' + j['sl'] + ',' + i['ln'] + ',' + j['n'] + '\n')
                    f.close()
            # end_list[cityname].append(j['n'])
    print(name + '地铁站点爬取结束')
    f.close()

def get_district(df_data):#用于得到每个地铁站点的行政区
    url1 = 'https://www.youbianku.com/SearchResults?address='
    # response=requests.get(url=url1,headers=headers)
    # response.enconding='utf-8'
    # print(response.text)
    from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
    chrome_options = webdriver.ChromeOptions()
    desired_capabilities = DesiredCapabilities.CHROME
    desired_capabilities["pageLoadStrategy"] = "none"
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')
    driver = webdriver.Chrome(options=chrome_options,
                              executable_path=r'C:\Users\Dcnightmare\Desktop\chromedriver')
    list_city=[]
    last_text=''
    # driver.get(url='https://www.youbianku.com')
    for i in list(zip(df_data['站点城市'].values, df_data['地铁站点名称'])):
        driver.get(url=url1 + ''.join(list(i)))
        # driver.find_element_by_id('mySearchInput').send_keys(''.join(list(i)))
        # driver.find_element_by_id('mySearchButton').click()
        html_from_page = driver.page_source
        html = etree.HTML(html_from_page)
        try:
            text = html.xpath('//div[@class="mw-parser-output"]/div[1]//table//tr[2]/td/text()')[0]
            text = text.split('市')[1].split('区')[0] + '区'
        except Exception:
            driver.execute_script("window.stop()")
            list_city.append(last_text)
            continue
        if text=='区':
            list_city.append(last_text)
            continue
        last_text=text
        list_city.append(last_text)
    df_data['行政区']=list_city

2.有了初步数据之后,需要进一步将数据变为我们可以使用的数据

缺失值处理
(标准化,归一化,离散化…)这里没有使用因为这些数据处理都是用于分类,回归等任务中,而本文主要是对地铁站数据的简单分析
重复项处理

    import pandas as pd
    df_data = pd.read_csv('subway.csv', sep=',')  # 使用pd的好处可以使用行和列名进行数据访问
    print(df_data)
    # 缺失值处理：
    # 得到其读取到的行
    print('删除之前的行:',df_data.shape)
    # 得到所有的属性非空项
    print(df_data.info())
    # 得出其中没有缺失值的行
    # 重复数据处理
    # """删除完全重复的站点"""
    df_data_1 = df_data.drop_duplicates()  # 删除掉完全相同的行
    # 得到删除之后的行
    print('删除之后的行:',df_data_1.shape)

这得到的数据真的就是最终数据集了吗?
其实不然,如果仔细观察可以发现其中有很多的站点存在重复（即一个站可能是多条地铁线路站点的情况）,所以在考虑求一个城市总的站点数量时还需要去除其中的重复站点数量。

	number_sum=0#统计总的站点数量
    num_station_check = {}  # 用于检查多余情况
    num_station_old = {}#统计处理前的各城市站点数量
    num_station_new = {}  # 得到站点城市的地铁站点实际数量
    for p in zip(df_data_3['站点城市'], df_data_3['地铁站点名称']):
        (i, j) = p
        # 原始数据
        if num_station_old.get(i) == None:
            num_station_old[i] = 1
        else:
            num_station_old[i] += 1
        # 处理后的数据
        if num_station_check.get(p) == None:
            number_sum+=1
            if num_station_new.get(i) == None:
                num_station_new[i] = 1
            else:
                num_station_new[i] += 1
            num_station_check[p] = 1

到此数据集的准备工作就差不多了.

让我们来试试做最有意思的部分吧!

3.数据分析+可视化
每个人开始分析的入手角度不同,所以看个人

分析各个城市的站点数量,因为他是最直观的数据
分析城市的地铁站点在全国分布情况
分析各城市地铁站点在全国站点中的比率
分析各个城市的具体数据(内部行政区/市)

出于比较所以我还找了2020年的地铁站点数据,如果有兴趣也可这样做,不过很可能有错误项,比如2020某城市地铁数据量反而比2021年的高,不过找到这种情况之后可以通过自己再查新闻是否如此(还是挺有趣的)

这里主要通过的是pyecharts来进行的图表绘制,因为其数据可视化效果比较好,maltplotlib我用着不好使
一.分析各个城市的站点数量

		from pyecharts.charts import Bar
        from pyecharts import options as opts
        from pyecharts.charts import Line
        import pandas as pd
    
        attr = list(num_station_new.keys())
        v1 = list(num_station_new.values())#新2021站点数据，主要体现数据处理
        v2 = list(num_station_old.values())#旧2021站点数据
        v1_v2 = []  # 用于得到换乘站点占比，  主要体现数据分析
        # 解释：换乘占比越大其地铁线路越是密集，其地铁相对城市的规模也比较大，因为前期地铁是以向外拓宽为核心，一般都会尽量避免出现换乘站点，导致其资源浪费
        # 当然也不是绝对的，可能有所偏差，但是大方向是对的
        for i in range(0, len(v1)):
            v1_v2.append(round((v2[i] - v1[i]) / v1[i], 3))  # round用于保留数据的位数
        # print(('%.2f' %12.234456))#使用两个%也可以达到格式化数据的目的
    
        bar1 = (
            Bar(init_opts=opts.InitOpts(width="1700px", height="800px"))  # 注意添加默认参数时是在init_opts参数中设置
                .add_xaxis(attr)                    
                .add_yaxis('station_number_2021_new', v1, itemstyle_opts=opts.ItemStyleOpts(color='blue'),
                           label_opts=opts.LabelOpts(is_show=True, position='top', formatter="{c}",
                                                     color='black'))  # 显示数据标签
                .add_yaxis('station_number_2021_old', v2, itemstyle_opts=opts.ItemStyleOpts(color='green'),
                           label_opts=opts.LabelOpts(is_show=True, position='top', formatter="{c}",
                                                     color='blue'))  # 显示数据标签
                .add_yaxis('换乘站点占比', v1_v2, itemstyle_opts=opts.ItemStyleOpts(color='orange'),
                           label_opts=opts.LabelOpts(is_show=True, position='top', formatter="{c}",
                                                     color='green'))  # 显示数据标签
                .extend_axis(  # 设置次坐标轴
                yaxis=opts.AxisOpts(
                    name="换乘站点占比率",  # 次坐标轴名称
                    type_="value",  # 次坐标手类型
                    min_=0,  # 最小值
                    max_=50,  # 最大值
                    is_show=True,  # 是否显示
                    axisline_opts=opts.AxisLineOpts(is_show=False,  # y轴线不显示
                                                    linestyle_opts=opts.LineStyleOpts(color='#f6c065')),  # 设置线颜色, 字体颜色也变
                    axistick_opts=opts.AxisTickOpts(is_show=False),  # 刻度线不显示
                    axislabel_opts=opts.LabelOpts(formatter="{value}%"),  # 次坐标轴数据显示格式
                )
            )
    
                .set_global_opts(  # 对x轴标签，y轴，标题，图例的格式和类型进行修改
                # 图例默认放到 上中 位置
                xaxis_opts=opts.AxisOpts(
                    name='城市',
                    name_location='middle',
                    name_gap=30,  # 与x轴线的距离
                    # name_Rorate设置旋转角度
    
                    #                 x轴名称的格式配置
                    name_textstyle_opts=opts.TextStyleOpts(
                        font_family='Microsoft Yahei',
                        font_size=20,
                    ),
                    #                 坐标轴刻度配置项
                    axistick_opts=opts.AxisTickOpts(
                        is_show=True,
                        #                     is_show=False,  # 是否显示
                        is_inside=True,  # 刻度线是否在内侧
                    ),
                    #                 坐标轴线的配置
                    axisline_opts=opts.AxisLineOpts(
                        linestyle_opts=opts.LineStyleOpts(
                            width=1,
                            color='black',
                        )
                    ),
                    axislabel_opts=opts.LabelOpts(
                        rotate=40,
                        font_size=12,
                        font_family='Arial',
                        font_weight='bold'
                    ),
    
                ),
                yaxis_opts=opts.AxisOpts(
                    name='station_number',
                    name_location='middle',
                    name_gap=30,
                    name_textstyle_opts=opts.TextStyleOpts(
                        font_family='Times New Roman',
                        font_size=20,
                        color='black',
                        #                     font_weight='bolder',
                    ),
                    axistick_opts=opts.AxisTickOpts(
    
                        is_show=False,  # 是否显示
    
                        is_inside=True,  # 刻度线是否在内侧
                    ),
                    axislabel_opts=opts.LabelOpts(
                        font_size=12,
                        font_family='Times New Roman',
                        formatter="{value}"  # y轴显示方式以数据形式
                    ),
                    splitline_opts=opts.SplitLineOpts(is_show=True),  # y轴网格线
                    axisline_opts=opts.AxisLineOpts(is_show=False),  # y轴线
                ),
                title_opts=opts.TitleOpts(
                    title="城市地铁站点数量",  # 标题
                    title_textstyle_opts=opts.TextStyleOpts(font_size=20),  # 主标题字体大小
                    subtitle="hello_data_analysis",  # 副标题
                pos_left='6%'),
            toolbox_opts=opts.ToolboxOpts(is_show=True),
        )
    )
    bar1.render('bar_2021_and_2020.html')  # 将其输出为html文件
    #使用webbrowser模块直接打开网页
    import webbrowser
    webbrowser.open('bar_2021_and_2020.html')
    print("直方图分析结束!")

解释这里的一个数据-换乘站点占比,由其地铁站点实际分布的地图,我初步认为,在城市建立地铁的初期都是在扩大其覆盖区域,把居民区（郊区）和商业区（市中心）以及火车站、机场尽可能与客流量挂钩的地方等连接起来,很少会出现站点重合的现象导致其换乘点占比就比较小,所以如果换乘站点占比大,可以粗略估计其地铁的发展比较好,规模相对该城市规模而言也比较大,侧面反映了当地的经济发展水平比较高.当然还存在一些其他情况比如说考虑到地质结构，太容易塌陷的地方或者地震断裂带也是不行的.
来看结果:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210617155151880.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2EyODQzNjU=,size_16,color_FFFFFF,t_70

换乘站点占比:

从图中我们可以看到上海的换乘站点占比最高 ,然后查阅相关新闻时也发现上海的地铁发展确实是在大陆地铁发展排名靠前的,2020年其总行驶里程也是全国范围内最高的.不过其中有两个城市存在偏差,就是青岛和南昌,导致这个问题出现的原因,我推测像是在数量规模不大的时候其换乘站点占比就很高,很可能是因为当地的发展不平衡导致的.为验证结论先分析了青岛各个区的地铁数据和地铁线路


我们发现都是在沿海位置,通过后面的地图分析,其实就可以发现他的主要客流来源都比较集中,并且其城市并不太大导致其地铁链路主要集中在这些客流量大的地方,所以其换乘占比比较高
南昌类似也是这种情况
二.分析城市的地铁站点在全国分布情况
这里要说明的是:
因为绘制中国地图时需要其经纬度数据,而我们只有每个站点的经纬度数据,所以需要再从网站找到这些站点城市的经纬度数据
这里我们再次使用爬虫
url->https://www.d1xz.net/xp/jingwei/

#ur伪装
ity_provice={}#城市的provice
provice_city={}#provice中的城市
stations = []
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36 2345Explorer/10.11.0.20694'}
#
jinwei = {}  # 用于存放各大城市的主要经纬度

def get_jinwei(station_city):
    url = 'https://www.d1xz.net/xp/jingwei/'
    time.sleep(1)
    ans = requests.get(url=url, headers=headers)
    end = ans.text
    Html = etree.HTML(end)
    res = Html.xpath('//div[@class="inner_con_art"]/table//tr')
    for i in range(1, 5):
        res = Html.xpath('//div[@class="inner_con_art"]/table//tr[' + str(i) + ']/td')
        for j in res:
            res_end = j.xpath('./strong/a/@href')  # 紧接着之前的对象继续进行xpath操作
            # print(res_end)
            if len(res_end) != 0:
                name = j.xpath('./strong/a/text()')[0]
                url_end = 'https://www.d1xz.net/' + res_end[0]
                ans_1 = requests.get(url=url_end, headers=headers)
                end_1 = ans_1.text
                Html_1 = etree.HTML(end_1)
                res_1 = Html_1.xpath('//div[@class="inner_con_art"]/table//tr')
                for num_ in range(2, len(res_1)):
                    end_end = Html_1.xpath('//div[@class="inner_con_art"]/table//tr[' + str(num_) + ']/td/text()')
                    if end_end[0] in station_city:
                        provice_city.setdefault(name,[]).append(end_end[0])
                        city_provice.update({end_end[0]:name})
                    jinwei.update({end_end[0]: [end_end[1], end_end[2]]})
    city_provice.update({'香港':'香港'})
    provice_city.update({'香港':['香港']})
    jinwei.update({'香港': ['114.12', '22.26']})

得到各城市的经纬度数据之后就可以绘制地图了

#全国地图
	from pyecharts import options as opts
    from pyecharts.globals import ChartType
    data_yy=list(num_station_new.values())
    data_xx=list(num_station_new.keys())
    get_jinwei(data_xx)
    data=num_station_new
    provice={}
    for i in data_xx:
        provice.setdefault(city_provice[i],0)
        provice[city_provice[i]]+=data[i]
    from pyecharts import options as opts
    from pyecharts.charts import Map
    china_map = (
        Map(init_opts=opts.InitOpts(width="1530px", height="684px",theme=ThemeType.CHALK))
            .add("中国地铁", [list(z) for z in provice.items()], "china")
            .set_global_opts(
            title_opts=opts.TitleOpts(title="中国地铁数据"),
            visualmap_opts=opts.VisualMapOpts(max_=max(provice.values()), is_piecewise=True,textstyle_opts=opts.TextStyleOpts(color='write',font_size=20,font_family='Microsoft YaHei')),
        )
    )
  
    #地铁在各大城市的分布情况（从中国地图来看 3D）
    from pyecharts import options as opts
    from pyecharts.charts import Map3D
    from pyecharts.globals import ChartType
    from pyecharts.commons.utils import JsCode
    for i in num_station_new:
        jinwei[i].append(num_station_new[i])#添加城市的站点数量，也相当于加上高度
    example_data = [
        (p,jinwei[p]) for p in num_station_new.keys()]
    c = (
        Map3D(init_opts=opts.InitOpts(width="1500px", height="700px"))
            .add_schema(
            itemstyle_opts=opts.ItemStyleOpts(
                color="rgb(5,101,123)",
                opacity=1,
                border_width=0.8,
                border_color="rgb(62,215,213)",
            ),
            map3d_label=opts.Map3DLabelOpts(
                is_show=False,
                formatter=JsCode("function(data){return data.name + " " + data.value[2];}"),
            ),
            emphasis_label_opts=opts.LabelOpts(
                is_show=False,
                color="#fff",
                font_size=10,
                    background_color="rgba(0,23,11,0)",
            ),
            light_opts=opts.Map3DLightOpts(
                main_color="#fff",
                main_intensity=1.2,
                main_shadow_quality="high",
                is_main_shadow=False,
                main_beta=10,
                ambient_intensity=0.3,
            ),
        )
            .add(
            series_name="数据",
            data_pair=example_data,
            type_=ChartType.BAR3D,
            bar_size=1,
            shading="lambert",
            label_opts=opts.LabelOpts(
                is_show=False,
                formatter=JsCode("function(data){return data.name + ' ' + data.value[2];}"),
            ),
        )
            .set_global_opts(title_opts=opts.TitleOpts(title="城市数据"))
            .render("带有数据展示地图.html")
    )
    import webbrowser
    webbrowser.open('带有数据展示地图.html')
    print("地铁城市在中国分布分析结束!")

结果如下:

可以看出地铁城市的分布主要是一些沿海城市,而我们也知道沿海城市的经济发展相对其他城市要高出一截,也因为经济发展好,其流动人数也比较多.
查找原因后发现实际上不是城市想修地铁就可以修的,需要有高经济支持(一般都是GDP达到…才行)和人口数量的要求.
三.分析各城市地铁站点在全国站点中的比率
如果数量不好直接比较的话，那么通过数据所占百分比就可以较好的实现比较各个城市地铁站点数量

 station_proportion=[]
    for i in num_station_new.values():
        station_proportion.append(("%.2f" %(i/number_sum*100)))
    from pyecharts.charts import Pie
    import pyecharts.options as opts
    data_pie=tuple(zip(num_station_new.keys(),station_proportion))
    # print(data_pie)
    pie=(
        Pie(init_opts=opts.InitOpts(width="1600px", height="1000px"))
        .add(series_name='城市地铁站点占比',data_pair=data_pie,center=[600,600],label_opts=opts.LabelOpts(distance=30,is_show=True)
             ,tooltip_opts=opts.TooltipOpts(is_show=True),radius=None
             # ,rosetype='radius'
             # ,rosetype='area'
             )
    )
    pie.render('station_number_pie.html')
    import webbrowser
    webbrowser.open('station_number_pie.html')
    print('站点数据饼状图展示结束!')

结果如下：

四.分析各个城市的具体数据(内部行政区/市)
主要通过前面的3d中国地铁地图中的动态数据标签进行选择,借助selenium实现对页面动态数据的爬取,由爬取到的数据通过判断是否为含有多个地铁市的省中,如果是则通过弹出的窗口选择省地图还是市地图
主要就是show_city函数

  from pyecharts.charts import BMap
    from pyecharts.globals import BMapType, ChartType
    js = "window.open('{}','_blank');"
    def show_city(bro,city):#city使用字典型
        from pyecharts.globals import SymbolType, ThemeType
        from pyecharts import options as opts
        global num_station_new,jinwei,num_city_new,df_data_3
        station = []  # 每条路线初始化为空
        stations = []  # 城市初始化为空
        center_x=0
        center_y=0
        station_point=[]
        for i in city[1]:
            data_ = df_data_3[df_data_3.站点城市 == i].values  # 开始先对每条线路排了序
            center_x+=float(jinwei[i][0])
            center_y+=float(jinwei[i][1])
            for num, j in enumerate(data_):  # columns属性得到的迭代对象是列属性名 类似于字典中的keys,indexs得到的是行属性名一般是序号
                station.append([j[4], j[5], j[6]])
                station_point.append([j[4], j[5], j[6]])
                if num == len(data_) - 1 or data_[num + 1][6] != data_[num][6]:
                    stations.append(station)
                    station = []
        center_x/=len(city[1])
        center_y/=len(city[1])
        if len(city[1])!=1:
            Zoom=8
        else:
            Zoom=10
        map_b = (  # 不要异想天开认为可以将其拆开 然后每一条线赋值从而达到可以使用不同颜色添加不同的类型图的目的
            BMap(init_opts=opts.InitOpts(width="1500px", height="800px",theme=ThemeType.MACARONS))
                .add_schema(
                baidu_ak='ybGicIBt9c56brfI4alusbE8SfclQcjW',  # 百度地图开发应用appkey
                center=[center_x,center_y],  # 当前视角的中心点
                zoom=Zoom,  # 当前视角的缩放比例
                is_roam=True,  # 开启鼠标缩放和平移漫游
            )
                .add(
                series_name=city[0]+'地铁',
                type_=ChartType.LINES,  # 设置Geo图类型,(pyecharts库中负责地理坐标系的模块是Geo)
                # 如果是默认的 则为点型有参数symbol_size用于设置点的大小
                # data_pair=stations,  # 数据i项
                data_pair=stations,
                is_polyline=True,  # 是否是多段线，在画lines图情况下#
                linestyle_opts=opts.LineStyleOpts(color="blue", opacity=0.5, width=1.5),  # 线样式配置项
                effect_opts=opts.EffectOpts(
                    symbol=SymbolType.ROUND_RECT, symbol_size=3, color="red"
                )
            )
                .set_global_opts(title_opts=opts.TitleOpts(title=city[0]+"的地铁线路"),
                                 tooltip_opts=opts.TooltipOpts(is_show=True))
                .add_control_panel(
                maptype_control_opts=opts.BMapTypeControlOpts(type_=BMapType.MAPTYPE_CONTROL_HORIZONTAL),  # 切换地图类型的控件
                scale_control_opts=opts.BMapScaleControlOpts(),  # 比例尺控件
                overview_map_opts=opts.BMapOverviewMapControlOpts(is_open=True),  # 添加缩略地图
                navigation_control_opts=opts.BMapNavigationControlOpts()  # 地图的平移缩放控件
            )
                # .add_coordinate_json(json_file='json.json')
                .set_series_opts(effect_opts=opts.EffectOpts(is_show=True, color='red'))
                .render(city[0]+'地铁线路图.html')
        )
        # print('ok1')
        # # map_b.render(city[0]+'.html')
        # # bro.execute_script(js.format(city[0]+'.html'))

        data_yy = list(num_station_new.values())
        data = num_station_new
        station_sum = 0
        df_x=[]
        df_y=[]
        from collections import Counter
        for i in city[1]:
            station_sum += data[i]
            count = dict(Counter(num_city_new[i]))
            df_x+=list(count.keys())
            df_y+=list(count.values())
        data_xy=tuple(zip(df_x,df_y))
        data_xy=sorted(data_xy,key=lambda x:x[1],reverse=True)
        data_xy=dict(data_xy)

        from pyecharts import options as opts
        from pyecharts.charts import Map
        #每个城市单独的分布地图
        if len(city[1])!=1:
            df_city_x=[i+'市' for i in city[1]]
            df_city_y = [num_station_new[i] for i in city[1]]
            show_city = (
                    Map(init_opts=opts.InitOpts(width="1700px", height="760px",theme=ThemeType.CHALK))
                    .add(city[0], [list(z) for z in zip(df_city_x,df_city_y)],maptype=city[0])
                    .set_global_opts(
                    title_opts=opts.TitleOpts(title=city[0]+"地铁数据",title_textstyle_opts=opts.TextStyleOpts(font_size=20)),
                visualmap_opts=opts.VisualMapOpts(max_=max(df_city_y),is_piecewise=True,range_color=["lightskyblue", "yellow", "orangered"], range_text=["High", "Low"],textstyle_opts=opts.TextStyleOpts(color='write', font_size=20,
                                                                                        font_family='Microsoft YaHei'))
                    ,legend_opts=opts.LegendOpts(is_show=False)
                )
            )
            show_pie=(
                Pie(init_opts=opts.InitOpts(width="200px", height="200px",theme=ThemeType.DARK))
                    .add(
                    city[0]+"各城市地铁占比",
                    data_pair=[list(i) for i in zip(df_city_x,df_city_y)],
                    radius=["20%", "30%"],
                    center=[1200, 450],
                    label_opts=opts.LabelOpts(
                        position="outside",
                        formatter="{a|{a}}{abg|}\n{hr|}\n {b|{b}: }{c}  {per|{d}%}  ",
                        background_color="#eee",
                        border_color="#aaa",
                        border_width=1,
                        border_radius=4,
                        rich={
                            "a": {"color": "#999", "lineHeight": 22, "align": "center"},
                            "abg": {
                                "backgroundColor": "#e3e3e3",
                                "width": "100%",
                                "align": "right",
                                "height": 22,
                                "borderRadius": [4, 4, 0, 0],
                            },
                            "hr": {
                                "borderColor": "blue",
                                "width": "100%",
                                "borderWidth": 0.5,
                                "height": 0,
                            },
                            "b": {"fontSize": 16, "lineHeight": 33},
                            "per": {
                                "color": "#eee",
                                "backgroundColor": "#334455",
                                "padding": [2, 4],
                                "borderRadius": 2,
                            },
                        },
                    ),
                )
                 .set_global_opts(legend_opts=opts.LegendOpts(is_show=True))
              )
        else:
            show_city = (
                Map(init_opts=opts.InitOpts(width="1700px", height="760px", theme=ThemeType.DARK))
                    .add(city[0], [list(z) for z in zip(df_x, df_y)], maptype=city[0])
                    .set_global_opts(
                    title_opts=opts.TitleOpts(title=city[0]+"地铁数据"),
                    visualmap_opts=opts.VisualMapOpts(max_=max(df_y), is_piecewise=True,range_color=["lightskyblue", "yellow", "orangered"], range_text=["High", "Low"],
                                                      textstyle_opts=opts.TextStyleOpts(color='write', font_size=20,
                                                                                        font_family='Microsoft YaHei'))
                    , legend_opts=opts.LegendOpts(is_show=False)
                )
            )
            data_pie_y=[round(i / sum(df_y)*100, 2) for i in df_y]
            show_pie = (
                Pie(init_opts=opts.InitOpts(width="1530px", height="684px",theme=ThemeType.CHALK))
                    .add(
                    city[0] + "各区地铁占比",
                    data_pair=[list(i) for i in zip(df_x, df_y)],
                    radius=["40%", "60%"],
                    center=[1200, 450],
                    label_opts=opts.LabelOpts(
                       is_show=True, position="inside",color='black'
                    ),
                )
            .set_global_opts(legend_opts=opts.LegendOpts(is_show=False),title_opts=opts.TitleOpts(title=city[0]+"各区地铁站点占比",pos_top='top',pos_right='10%',title_textstyle_opts=opts.TextStyleOpts(color='purple')))
            .set_series_opts(
            tooltip_opts=opts.TooltipOpts(
                trigger="item", formatter="{a} 
{b}: {c} ({d}%)"
            ),
            # label_opts=opts.LabelOpts(formatter="{b}: {c}")
        )
        )
        from pyecharts import options as opts
        from pyecharts.charts import Liquid
        from pyecharts.commons.utils import JsCode
        liquid = (
                Liquid(init_opts=opts.InitOpts(width="200px", height="200px",theme=ThemeType.CHALK))
                .add(city[0]+'占比',[round(station_sum/sum(data_yy),4),1-round(station_sum/sum(data_yy),4)],center=[1200,450],shape=SymbolType.ARROW,label_opts=opts.LabelOpts(
                font_size=40,
                formatter=JsCode(
                    """function (param) {
                        return (Math.floor(param.value * 10000) / 100) + '%';
                    }"""
                ),
                position="inside",
            ),
        )
                .set_global_opts(title_opts=opts.TitleOpts(title=city[0]+"地铁站点在全国占比",pos_top='top',pos_right='10%',title_textstyle_opts=opts.TextStyleOpts(color='purple')))
        )
        from pyecharts import options as opts
        from pyecharts.charts import Funnel
        if len(df_y) > 15:
            copy_y = list(data_xy.values())[:15]
            copy_x = list(data_xy.keys())[:15]
        else:
            copy_y = list(data_xy.values())
            copy_x = list(data_xy.keys())
        loudou = (
            Funnel(init_opts=opts.InitOpts(width="1530px", height="684px", theme=ThemeType.CHALK))
                .add(
                city[0] + "地铁",
                [list(z) for z in zip(copy_x, copy_y)],
                label_opts=opts.LabelOpts(position="inside"),
            )
                .set_global_opts(legend_opts=opts.LegendOpts(is_show=True),
                                 visualmap_opts=opts.VisualMapOpts(is_show=True, type_='color', max_=max(df_y),is_piecewise=True,textstyle_opts=opts.TextStyleOpts(color='write',font_size=15,font_family='Microsoft YaHei')),
                                 title_opts=opts.TitleOpts(title=city[0]+'地铁分析',title_textstyle_opts=opts.TextStyleOpts(font_size=20)))
        )
        from pyecharts.charts import Bar
        show_bar=(
            Bar(init_opts=opts.InitOpts(width="1700px", height="760px", theme=ThemeType.CHALK))  # 注意添加默认参数时是在init_opts参数中设置
                .add_xaxis(copy_x)
                .add_yaxis('2021'+city[0]+'地铁分布', copy_y, itemstyle_opts=opts.ItemStyleOpts(color='blue'),
                           label_opts=opts.LabelOpts(is_show=True, position='top', formatter="{c}",
                                                     color='Magenta4'))  # 显示数据标签
                .set_global_opts(  # 对x轴标签，y轴，标题，图例的格式和类型进行修改
                # datazoom_opts=opts.DataZoomOpts(is_show=True),
                visualmap_opts=opts.VisualMapOpts(is_show=True, type_='color', max_=max(df_y),is_piecewise=True,textstyle_opts=opts.TextStyleOpts(color='write',font_size=15,font_family='Microsoft YaHei')),
                xaxis_opts=opts.AxisOpts(
                    name='City',
                    name_location='middle',
                    name_gap=30,  # 与x轴线的距离
                    # name_Rorate设置旋转角度

                    #                 x轴名称的格式配置
                    name_textstyle_opts=opts.TextStyleOpts(
                        font_family='Microsoft Yahei',
                        font_size=20,
                    ),
                    #                 坐标轴刻度配置项
                    axistick_opts=opts.AxisTickOpts(
                        is_show=True,
                        #                     is_show=False,  # 是否显示
                        is_inside=True,  # 刻度线是否在内侧
                    ),
                    #                 坐标轴线的配置
                    axisline_opts=opts.AxisLineOpts(
                        linestyle_opts=opts.LineStyleOpts(
                            width=1,
                            color='black',
                        )
                    ),
                    axislabel_opts=opts.LabelOpts(
                        rotate=40,
                        font_size=12,
                        font_family='Arial',
                        font_weight='bold'
                    ),
                ),
                yaxis_opts=opts.AxisOpts(
                    name='station_number',
                    name_location='middle',
                    name_gap=30,
                    name_textstyle_opts=opts.TextStyleOpts(
                        font_family='Times New Roman',
                        font_size=20,
                        color='black',
                        #                     font_weight='bolder',
                    ),
                    axistick_opts=opts.AxisTickOpts(

                        is_show=False,  # 是否显示

                        is_inside=True,  # 刻度线是否在内侧
                    ),
                    axislabel_opts=opts.LabelOpts(
                        font_size=12,
                        font_family='Times New Roman',
                        formatter="{value}"  # y轴显示方式以数据形式
                    ),
                    splitline_opts=opts.SplitLineOpts(is_show=True),  # y轴网格线
                    axisline_opts=opts.AxisLineOpts(is_show=False),  # y轴线
                ),
                title_opts=opts.TitleOpts(
                    title=city[0]+"地铁站点数量",  # 标题
                    title_textstyle_opts=opts.TextStyleOpts(font_size=20),  # 主标题字体大小
                    ),
            )
        )
        from pyecharts.charts import Grid
        from pyecharts.globals import SymbolType, ThemeType
        grid1 = (
            Grid(init_opts=opts.InitOpts(width="1530px", height="684px", theme=ThemeType.CHALK))
                .add(show_city, grid_opts=opts.GridOpts(pos_bottom='50%', pos_right='left'))
                .add(show_pie, grid_opts=opts.GridOpts(pos_bottom='50%', pos_left='55%'))
            # .add(liquid, grid_opts=opts.GridOpts(pos_top='60%', pos_right='50%',width='100px',height='100px'))
        )
        grid2=(
            Grid(init_opts=opts.InitOpts(width="1530px", height="684px", theme=ThemeType.CHALK))
                .add(show_bar, grid_opts=opts.GridOpts(pos_right='55%'))
                # .add(loudou,grid_opts=opts.GridOpts(pos_left='80%'))
                .add(liquid,grid_opts=opts.GridOpts())
        )
        # print('ok5')
        from pyecharts.charts import Tab
        show_tab=(
            Tab()
            .add(grid2, city[0]+'地铁数量情况')
            .add(loudou,city[0]+'地铁(<=15)')
            .add(grid1, city[0]+'地铁分布情况')
        )
        show_tab.render(city[0] + '.html')
        bro.execute_script(js.format(city[0] + '.html'))
        bro.execute_script(js.format(city[0]+'地铁线路图' + '.html'))
        bro.switch_to.window(bro.window_handles[0])

结果如下:
成都市数据



江苏省的数据:(其他省同理)

主要还是说明了其地铁规模和分布情况
4.总结：
本次项目实际的分析比较少，主要是站点和其城市的分析，比较表层，没有深入。比如数据集其实可以加入不同年份的数据进行比较，或者加入不同城市的地铁带来的收入，不同城市人们对地铁的满意度，等等数据内容，出于网上资源有限所以没有能找到可用数据。本数据集更多侧重在可视化上，实际的原因分析比较少。

你可能感兴趣的:(数据分析,selenium,python,数据分析,爬虫,pyecharts)

Python列表与元组的深度剖析 jijihusong006 程序 python windows 开发语言
Python列表与元组的深度剖析：从底层实现到应用场景的全方位对比一、核心差异概览Python教程https://pan.quark.cn/s/7cefe3163f45传送代资料库https://link3.cc/aa99特性列表(List)元组(Tuple)可变性可变(Mutable)不可变(Immutable)语法表示方括号[]圆括号()内存占用较大(动态数组结构)较小(静态数组结构)哈希支持
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Python常用的库讲解（易懂版）不辉放弃 python 开发语言
NumPy：用于科学计算的基础库，提供多维数组对象、各种派生对象和对数组执行操作的工具。importnumpyasnp#创建一个numpy数组arr=np.array([1,2,3,4,5])print(arr)Pandas：数据处理库，提供数据结构和数据分析工具，特别适合处理结构化数据。importpandasaspd#创建一个Pandas数据帧df=pd.DataFrame({'A':[1,2
Python零基础通关教程（二）：列表、字典与函数详解（附生活化案例）中意可口可乐 python 开发语言 windows python列表
一、前情回顾与学习路线第一篇重点复习：✅变量与数据类型✅条件判断✅循环结构本篇新知识地图：graphLRA[基础语法]-->B[列表]A-->C[字典]B-->D[函数进阶]C-->D二、列表(List)：你的数据收纳盒1.列表是什么？现实比喻：像超市购物车，可以随时添加/取出商品代码定义：用方括号[]包裹，元素用逗号分隔#创建购物车列表cart=["苹果","牛奶","面包"]print("购物
ERROR: No matching distribution found for tf-estimator-nightly==2.8.0.dev2021122109 小九在学习 python 开发语言
ERROR:Ignoredthefollowingversionsthatrequireadifferentpythonversion:1.14.0Requires-Python>=3.10;1.14.0rc1Requires-Python>=3.10;1.14.0rc2Requires-Python>=3.10ERROR:Couldnotfindaversionthatsatisfiesther
Spring Boot 整合 Elasticsearch 实践：从入门到上手遇见伯灵说 mysql Spring elasticsearch jenkins springboot
引言Elasticsearch是一个开源的分布式搜索引擎，广泛用于日志分析、搜索引擎、数据分析等场景。本文将带你通过一步步的教程，在SpringBoot项目中整合Elasticsearch，轻松实现数据存储与查询。1.创建SpringBoot项目首先，你需要创建一个SpringBoot项目。如果你还没有创建，可以使用SpringInitializr快速生成一个项目。在生成项目时，确保选择了以下依赖
PyArmor：一个超级厉害的 Python 库！一只蜗牛儿 python 开发语言
在Python的世界里，如何保护我们的代码不被轻易盗用或者破解，一直是开发者们关注的问题。尤其是在发布软件时，如何有效防止源代码泄漏或者被逆向工程分析，成为了一个重要课题。PyArmor作为一款强大的Python加密工具，能够帮助开发者对Python源代码进行加密保护，防止非法复制和破解。本文将全面介绍PyArmor，并通过代码示例展示如何使用它对Python脚本进行加密、打包和保护。1.PyAr
使用AI python实现将前端angularjs工程转换成vue工程案例银行金融科技前端人工智能 python
以下是一个结合Python和AI技术实现AngularJS到Vue工程迁移的完整案例，包含关键转换策略和代码实现：案例背景目标：将使用AngularJS1.x的电商后台管理系统转换为Vue3工程，主要转换以下部分：模板语法控制器逻辑服务依赖路由配置状态管理原始AngularJS代码片段：javascript//app.jsangular.module('app',['ui.router']).co
python反爬虫处理--处理验证码（Tesseract 库）的安装与使用范哥来了 python 爬虫开发语言
处理验证码是反爬虫策略中常见的挑战之一。在Python中，可以采用多种方法来解决这一问题，具体取决于验证码的类型（如文本、图像或滑块验证等）。以下是一些常用的解决方案：对于简单的文字或数字验证码：如果网站使用的是相对简单的验证码形式，您可以尝试使用OCR(OpticalCharacterRecognition,光学字符识别)技术来自动识别这些验证码。Python中有一个叫做Tesseract的库，
python爬虫 Selenium库安装与使用范哥来了 python 爬虫 selenium
Selenium是一个强大的自动化测试工具，它也可以用来进行网页抓取。与传统的请求库（如requests）不同，Selenium可以模拟真实用户的行为，比如点击按钮、填写表单等，这对于那些依赖于JavaScript动态加载内容的网站来说非常有用。安装Selenium首先确保你的环境中已经安装了Python和pip。然后通过pip安装Selenium：pipinstallselenium如果你使用的
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
python 游戏开发cocos2d库安装与使用范哥来了 python cocos2d 开发语言
Cocos2d-x是一个广泛使用的开源游戏开发框架，支持多种编程语言，包括Python。对于Python开发者来说，通常使用的是Cocos2d-py或者更现代的Cocos2d-x的Python绑定版本。这里我将指导你如何安装和开始使用Cocos2d-py。安装步骤安装Python：确保你的系统上已经安装了Python3.x版本。你可以从Python官方网站下载最新版的Python。安装pip：pi
第十天-字符串：编程世界的文本基石大橙子房 ai python java
在编程的广阔领域中，字符串是极为重要的数据类型，它就像一座桥梁，连接着人类的自然语言和计算机能够理解与处理的数字信息。下面，让我们深入探索字符串的世界。一、字符串简介字符串是由零个或多个字符组成的有序序列，它在程序中用于表示文本信息。在Python语言环境下，创建字符串简洁直观，例如：str="HelloWorld"。这里，str作为字符串变量名，就如同给一个装着文本内容的盒子贴上了标签；Hell
使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
【python】可变、不可变数据类型 qianx77 python python numpy 开发语言
文章目录python可变、不可变数据类型一、什么是可变和不可变的数据类型？二、不可变类型1.数字2.字符3.元组三、可变类型4.列表需要注意的点5.集合5.字典6.补充-深拷贝和浅拷贝总结python可变、不可变数据类型用于记录python数据类型python我个人常用的数据就是数字、字符串、元组、列表、集合、字典，分为可变类型和不可变类型。一、什么是可变和不可变的数据类型？可变就是说在相同内存地
python orm框架sqlalchemy_Python的ORM框架SQLAlchemy入门教程 weixin_39758041 python orm框架sqlalchemy
SQLAlchemy的核心理念是，SQL数据库查询的数量级和特性关键于目标结合；而目标结合的抽象性又关键于表和行。一安裝SQLAlchemy编码以下:pipinstallsqlalchemy导进要是没有出错则安裝取得成功编码以下:importsqlalchemysqlalchemy.__version__‘0.9.1’二应用sqlalchemy对数据库操作1.界定元信息内容，关联到模块编码以下:(
python gridfs_【已解决】用Python去连接本地mongoDB去用GridFS保存文件 weixin_39622225 python gridfs
折腾：期间，命令行方式的mongofiles去putgetdeletedelete_id等，已经基本上搞清楚了。接着就是去用Python代码，通过driver：的方式，调用API，去保存数据了。pythonmongodbgridfs需要先安装：pymongo就是这些API了。通过：发现，对于此处：➜英语资源mongod--versiondbversionv3.6.3gitversion:9586e
【Go基础】Go入门与实践资源帖小超人冲鸭 golang 开发语言后端
看到好的持续更新……Go系统教程从语法讲起：李文周博客七天快速上手项目Go测试驱动开发博客孔令飞项目开发实战课程，孔令飞图文教程《Go语言高级编程》书籍Go算法刷题模板Go实战项目KV系统crawlab分布式爬虫平台seaweedfs分布式文件系统Cloudreve云盘系统gfast后台管理系统（基于GoFrame）alist多存储文件列表（基于Gin、React）Yearning开源SQL审核平
Python 中的特殊注释及字符存储机制 svtvtvt python 开发语言 pycharm 数据结构
目录一、Python特殊注释及其作用1.'#!/usr/bin/python'（Shebang2.'#-*-coding:utf-8-*-'（字符编码声明）3.其他特殊注释二、Python中字符的存储机制1.计算机的最小存储单元2.常见字符编码方案3.Python中字符的存储三、中文乱码的原因及解决方法1.源文件的编码与Python的编码不一致2.编码与解码不一致3.终端或控制台编码问题4.操作系
Python的ORM框架SQLAlchemy入门教程 searchwang
SQLAlchemy是python操作数据库的一个库。能够进行orm映射，SQLAlchemy“采用简单的Python语言，为高效和高性能的数据库访问设计，实现了完整的企业级持久模型”SQLAlchemy的理念是，SQL数据库的量级和性能重要于对象集合；而对象集合的抽象又重要于表和行。一安装SQLAlchemy复制代码代码如下:pipinstallsqlalchemy导入如果没有报错则安装成功复制
【python】pathlib模块 m 宽 python
#!/usr/bin/envpython#coding:utf-8#In[2]:frompathlibimportPath#In[3]:#创建路径c_path=Path("C:/")print(c_path)#In[4]:#当前目录cwd=Path.cwd()print(cwd)#In[5]:#用户目录Path.home()#In[6]:#父目录cwd.parent#In[7]:#子目录fpath
斗地主老是输？一起用Python做个AI出牌器！姬姬姬姬姬姬 python 人工智能
前言最近在网上看到一个有意思的开源项目，基于快手团队开发的开源AI斗地主——DouZero做的一个“成熟”的AI，项目开源地址【https://github.com/tianqiraf/DouZero_For_HappyDouDiZhu–tianqiraf】。今天我们就一起来学习下是如何制作一个基于DouZero的出牌器，看看AI是如何来帮助斗地主的！一、核心功能设计首先这款出牌器是基于DouZe
深入解析Java跨平台原理 KBkongbaiKB java 开发语言
一、操作系统屏障的本质挑战源代码编译方式直接编译为机器码Windows的可执行文件.exeLinux的可执行文件.elfmacOS的可执行文件.machJava独特的中间格式字节码文件.classJVM虚拟机1.1传统语言的平台困局语言类型编译方式执行依赖跨平台能力C/C++直接生成机器码特定操作系统❌不可直接移植Python解释型执行Python解释器✅但性能较低Java字节码中间件JVM虚拟机
Python中的可变类型和不可变类型 svtvtvt python 开发语言
在Python中，数据类型可以分为可变类型（mutable）和不可变类型（immutable）。理解这两种类型的区别和特性对于编写高效、易于维护的代码至关重要。在本篇文章中，我们将详细探讨这两类数据类型的定义、行为以及它们之间的差异。目录一、概述二、不可变类型（ImmutableTypes）1.int（整数）2.float（浮点数）3.str（字符串）4.tuple（元组）5.frozenset（
python：一次简单的爬虫 wstkqzl python 爬虫开发语言
importrequestsimportparselimporttimefromparselimportSelector#第一章链接https://www.qu04.cc/book/45808/2.html#第二章链接https://www.qu04.cc/book/45808/3.html#小说目录：https://www.qu04.cc/book/45808/url="https://www.
pip install速度慢怎么解决滴答滴答滴嗒滴 pip python
如果您发现使用pipinstall安装Python包的速度很慢，可以尝试以下方法来解决：（1）更换镜像源：您可以使用国内的镜像源，通常国内镜像源的速度更快。例如，清华大学、阿里云、网易等都提供了Python镜像源。您可以通过在终端中运行以下命令来更改镜像源：pipconfigsetglobal.index-urlhttps://pypi.tuna.tsinghua.edu.cn/simple或者p
使用multiprocessing实现进程间共享内存培根芝士 Python python
在Python中，可以使用多种方法来实现几个进程之间的通信。简单消息传递：使用multiprocessing.Queue或multiprocessing.Pipe。共享简单数据：使用multiprocessing.Value或multiprocessing.Array。共享复杂数据：使用multiprocessing.Manager。进程间信号控制：使用multiprocessing.Event。
Python 机器学习基础之学习基础环境搭建仙魁XAN Python 机器学习基础+实战案例 python 学习开发语言机器学习 machine learning
Python机器学习基础之学习基础环境搭建目录Python机器学习基础之学习基础环境搭建一、简单介绍二、什么是机器学习三、python环境的搭建1、Python安装包下载2、这里以下载Python3.10.9为例3、安装Python3.10.94、检验python是否安装成功，win+R快捷打开运行，输入cmd，打开cmd四、Pycharm环境搭建1、下载Pycharm安装包2、安装Pycharm
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa