南下孤笙

Python高级应用程序设计任务

主题：Python招聘信息爬取与分析

1 设计方案

1.1 方案概述

近年来，随着大数据分析的火热，人工智能受到了追捧，技术创新可谓是精彩纷呈，而Python语言凭借其健全的分析库和易上手的语言特性使得越来越多的人去学习，同时也有很多人想从事Python相关的工作。那么学习python究竟需要掌握什么知识，如今python就业情况到底何，这就是本次主题式爬虫所研究的问题。

对于提出的问题，本次主题式爬虫的实现思路如下：

1．首先对拉勾网的python相关的招聘信息进行爬取。而拉勾网作为一家服务于互联网行业的垂直招聘网站，其招聘信息的数量及真实性都十分有优势，因此本次的数据来源选择拉勾网。

2．其次将爬取的数据使用python进行读取，清洗。统计薪资，工作地点，学历要求等信息。

3．最后将数据进行可视化。可视化分为两个部分，第一部分是基本统计信息用直方图，折线图等统计图表来展现。第二部分是相关职位工作内容和要求的文本分析生成词云图。

对于上述的主题式爬虫的实现思路，技术难点如下：

1．在数据采集上，不同的网站对于爬虫有着不同的限制，而拉勾网爬虫在实际的数据采集上会出现限制ip访问，输入验证码等情况。因此采集大量数据需要解决反爬虫问题。

2．在数据分析上，采集的信息可能是文本信息，所有需要处理成能够统计的数据。

1.2 数据概述

本次爬虫需要爬取拉勾网的列表页和详情页，列表页爬取职位的名称，薪资，工作地点，详情页链接等信息。而列表页则爬取职位描述信息。列表页如图1-1所示，详情页如图1-2所示。

图1-1 职位列表信息

图1-2 职位详情信息

爬取数据的特征和网页的源数据保持一致，如薪资15k-25k，存储为字符串形式的15k-25k，后续做分析时再进行处理。

2 页面结构特征分析

2.1 页面结构特征

职位列表页面每页展示15条岗位信息。通过点击翻页按钮发现其url会发生变化，因此可以通过构造url来爬取更多信息。单个列表页面的html源码如图2-1所示。通过分析源码可以发现

标签为单个职位信息所在的节点。

图2-1 列表页部分源码

详情页可以通过列表页所包含的链接进入，详情页我们只需提取职位描述信息。其页面源码图2-2所示。即某个
标签包含整个职位描述信息。

图2-2 详情页部分源码

2.2 页面解析

通过对网页的结构进行分析后，我们可以解析页面，提取所需信息。关于页面解析的方法，我们选择了xpath来解析，无论是谷歌浏览器还是python都支持xpath。

在python中，我们可以引入第三方模块lxml来支持xpath，通过调用xpath.HTML方法将爬取的网页转化成节点树的形式，然后再依次对各个节点进行解析

2.3 网页节点分析

首先程序需要能够遍历所有的职位列表，如图2-3所示，只需找到

这个节点。在python中通过for循环则可以遍历所有的职位。

图2-3 节点分析

其次是对于某个职位的相关字段的查找，只需查看相关字段的节点的基本属性，如职位薪资所在的节点为，那么则可以通过标签名+类名直接定位到该节点。其他节点的查找方法类似，如果定位有多个，则加上其父节点来限制

图2-4 薪资所在节点解析

最后是对详情页数据所在的节点进行查找，如图2-5所示，每个

标签都列出了一条信息，最终需要将所有的信息拼接成一条完整的信息。

图2-5 详情页节点查找

3 程序设计

3.1 数据抓取与采集

第一步，发送请求获取数据。

使用python的requests模块发送get请求，get请求需要设置请求头和请求体，其中请求头设置如图3-1所示。请求体直接附加到url后

图3-1 设置请求头

由于拉勾网对于访问有ip限制，因此在爬取数据的过程中，如果返回的页面不正确则需要重新获取，并且降低访问次数或者使用代理ip，为了提高爬虫效率，程序使用代理ip来爬取数据，具体设置如图3-2所示

图3-2 请求数据代码

第二步，解析数据。

将发送请求后返回的html数据进行解析，使用xpath进行解析。职位列表数据解析如图3-3所示，详情页职位描述如图3-4所示。

图3-3列表页解析代码

图3-4 详情页解析代码

最后一步，存储数据。

将爬取解析后的数据存入csv文件中

图3-5 存储数据代码

运行结果如下:

图3-5 程序运行过程截图

图3-6 储存数据结果

3.2 数据清洗和处理

使用python的pandas读取数据并对原始数据进行清洗。如字段要求：经验3-5年 / 本科，处理成经验要求和学历要求。代码如图3-7所示：

图3-7 数据处理代码

处理后数据结果如图3-8所示：

图3-8 清洗后数据截图

3.3 文本分析

本次文本分析主要是针对python的工作描述进行分析，得出python岗位所需要的技能有哪些，工作内容主要是什么。本次文本分析流程为：先读取数据，去除空数据；使用jieba进行分词，统计词频；最后使用wordcloud可视化画出词云图。

读取并处理数据代码如下：

图3-9 读取数据代码

使用jieba进行分词，并且去掉停用词：

图3-10 分词代码

将词语及词频使用wordcloud画出词云图。

图3-11 画出词云图代码

词云图如图所示：

图3-12 词云图结果

3.4 数据分析及可视化

我们爬取的数据有：岗位名称，工作城市，薪资，学历，经验等。那么可以分析哪些城市工资水平最高，职位的平均工资，学历要求，经验要求的分布等。

首先使用pandas读取数据并进行基本处理。将薪资数据转换成数字类型以便于后续的计算。

图3-13 数据处理代码

然后对数据进行统计分析，可以得出各个城市工资的均值等统计数据，可用于后续的可视化。

图3-14 统计分析代码

最后将统计分析得到的数据进行可视化。

图3-15数据可视化代码

最终可视化的结果如下所示，从工资上看，一线城市薪资较高，并且平均薪资随着工作经验的增长而增长。从学历要求来看，一般企业都把门槛设置在本科层面。

图3-16 可视化结果

3.5 数据持久化

本次分析结果主要是图片的形式，因此只需将图片保存到本地文件中即可。相关代码如图3- 17所示。

图3-17 数据持久化代码

3.6 程序代码

1、爬虫代码

import requests
import pandas as pd
from lxml import etree
import time
import random
import ssl

class LaGou(object):
    def __init__(self,ip):
        self.USER_AGENTS = [
            "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
            "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
            "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
            "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
            "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
            "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
            "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
            "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5"
        ]
        self.headers = {

            'user-agent': random.choice(self.USER_AGENTS),
        }
        self.iplist = ip
    def getHtml(self, url):
        #代理ip用户名及密码
        username = '1312998155'
        password = '1l4kuqz2'
        # context = ssl.context = ssl._create_unverified_context()
        if not self.iplist:
            self.iplist = getIp()
        ip = self.iplist[0]

        #构建代理
        self.proxy = {
            "https": "https://%(user)s:%(pwd)s@%(proxy)s/" % {'user': username, 'pwd': password, 'proxy': ip},
        }
        #发送请求
        req = requests.get(url, headers=self.headers,proxies=self.proxy)
        print(len(req.text))
        print(url)
        #当被限制ip时重新请求
        if len(req.text)< 3000 or '欢迎进入拉勾验证系统，请进行验证' in req.text:
            print('aaa')
            self.iplist.pop(0)
            html = self.getHtml(url)
            return html
        else:
            return req.text

    def parseListHtml(self, html):
        html_obj = etree.HTML(html)
        alldata = html_obj.xpath('//li[@class="con_list_item default_list"]')
        resdata = []

        # nextpage_url = html_obj.xpath('//div[@class="pager_container"]/a[last()]/@href')
        # if not nextpage_url:
        #     return
        # print(nextpage_url)
        for onedata in alldata:
            link = onedata.xpath('./div[@class="list_item_top"]//a[@class="position_link"]/@href')
            if link:
                link = link[0]
            else:
                link =''

            name = onedata.xpath('./div[@class="list_item_top"]//a[@class="position_link"]/h3/text()')
            if name:
                name = name[0]
            else:
                name = ''
            work_addr = onedata.xpath('./div[@class="list_item_top"]//em/text()')
            if work_addr:
                work_addr = work_addr[0]
            else:
                work_addr = ''
            salary = onedata.xpath('./div[@class="list_item_top"]//span[@class="money"]/text()')
            if salary:
                salary = salary[0]
            else:
                salary = ''

            requirement = onedata.xpath('./div[@class="list_item_top"]//div[@class="li_b_l"]/text()')
            if requirement:
                requirement = requirement[-1].strip()
            else:
                requirement = ''
            if link:
                html = self.getHtml(link)
                detail_data = self.parsedetailHtml(html)
            else:
                detail_data = ''

            resdata.append(','.join([name,work_addr,salary,requirement,detail_data]))
            print(name,work_addr,salary,requirement,detail_data)
        return resdata
    def parsedetailHtml(self,html):
        html_obj = etree.HTML(html)
        detail_info = html_obj.xpath('//div[@class="job-detail"]/p/text()')
        detail_info = ''.join(detail_info)
        detail_info = detail_info.replace(',','，')
        return detail_info
    def toCsv(self, data):
        with open('lagou_new22.csv', 'a+', encoding='utf-8') as f:
            for astr in data:
                # print(astr)
                f.write(astr)
                f.write('\n')

def getIp():
    url = 'http://dps.kdlapi.com/api/getdps/?orderid=907657111091795&num=4&pt=1&sep=1'
    response = requests.get(url)
    proxy = response.text.split('\r\n')
    return proxy

def start():
    # base_url = 'https://www.lagou.com/zhaopin/Python/1/?filterOption=1&sid=d13058b7da4f464aa97f378c85bd01c5'
    base_url = 'https://www.lagou.com/zhaopin/Python/'
    i = 3
    ip = getIp()
    print(ip)
    l = LaGou(ip)
    while i<=5:
        url = base_url+str(i)+'/?filterOption='+str(i)
        print(url)

        html = l.getHtml(url)
        data = l.parseListHtml(html)



        print(data)

        l.toCsv(data)
        i += 1

if __name__ == '__main__':
    start()

2、数据清洗

import numpy as np
import pandas as pd
data_lagou=pd.read_csv('./lagou_new.csv',sep=',',encoding ='gbk')

#处理工作城市 【深圳·科技园】-> 深圳
city = data_lagou['城市'].values
for i in range(len(city)):
    city[i] = city[i].split('·')[0].strip()
print(city)
data_lagou['城市'] = city

#处理要求，得到经验要求和学历要求
experience = []
education = []
requirement = data_lagou['要求'].values
for i in range(len(requirement)):
    req = requirement[i].split('/')
    if len(req) == 2:
        experience.append(req[0].strip())
        education.append(req[1].strip())

    else:
        experience.append('null')
        education.append('null')
print(experience,education)
data_lagou['经验'] = experience
data_lagou['学历'] = education

tocsv_data = data_lagou[['岗位','城市','薪资','经验','学历','工作描述']]
tocsv_data.to_csv('lagou_dataclean.csv',index=False)

3、文本分析代码

#!/usr/bin/env python
# coding: utf-8

# ### 导入分析模块

# In[1]:


import pandas as pd
import numpy as np
import jieba  
from wordcloud import WordCloud 
from wordcloud import STOPWORDS 
from PIL import Image 
import matplotlib.pyplot as plt 


# ### 读取数据并处理

# In[5]:


#读取
data_details=pd.read_csv('./lagou_dataclean.csv',sep=',',encoding ='gbk')
print(data_details.shape)
#去除空值
data_details = data_details.loc[~(data_details['工作描述'].isnull())]
#转成列表形式
data_jobdes=data_details['工作描述'].tolist()


# In[6]:


words=[]
for content in data_jobdes:
    #分词
    seg=jieba.lcut(content)
    
    #去除停用词
    for word in seg:
        if word=='\n'or len(word)<=1:
            continue
        elif word in STOPWORDS:
            continue
        else:
            words.append(word.lower())


# In[7]:


#统计词频
word_clean = pd.DataFrame({'word_clean':words})
words_count=word_clean.groupby(by=['word_clean'])['word_clean'].count().to_frame()
words_count.rename(columns={'word_clean':'counts'},inplace=True)
word_count_sort=words_count.reset_index().sort_values(by=['counts'],ascending=False)
word_freq_dict={}
for i in word_count_sort.values:
    word_freq_dict[i[0]]=i[1]


# In[8]:


plt.rcParams['figure.figsize']=(15,30) #设置画布大小
#绘制词云的基本参数
my_cloud=WordCloud(
font_path='C:/Windows/Fonts/simkai.ttf',  #字体格式
width=200,
height=400,
background_color='white',
scale=32
)
cloud_pic=my_cloud.fit_words(word_freq_dict)
#显示词云
plt.imshow(cloud_pic,interpolation='bilinear') #设置图像清晰度
plt.axis('off')
plt.savefig(r'./cat_wordcloud.jpg')
plt.show()

4、数据分析及可视化代码

#!/usr/bin/env python
# coding: utf-8

# In[1]:


import numpy as np
import pandas as pd
import re
from matplotlib import pyplot as plt


# ### 数据读取与处理

# In[2]:


data_lagou=pd.read_csv('./lagou_dataclean.csv',sep=',',encoding ='gbk')
data_lagou.head()


# In[3]:


salary_mean = []
#将范围设置为均值
for i in range(data_lagou.shape[0]):
    s = re.findall('\d+',data_lagou['薪资'][i])
    if len(s) == 2:
        salary_mean.append((float(s[0])+float(s[1]))/2)
    else:
        salary_mean.append(0)


# In[4]:


#处理异常值
data_lagou['平均薪资'] = salary_mean
data_lagou = data_lagou[data_lagou['平均薪资'] !=0]


# ### 数据统计及可视化

# In[5]:


#按城市统计薪资，并取出top10
high_salary = data_lagou.groupby(by=['城市'])['平均薪资'].mean().sort_values(ascending=False)[0:10]

#按工作经验统计平均薪资
experience = data_lagou.groupby(by=['经验'])['平均薪资'].mean().sort_values(ascending=False)
print(experience)

#统计学历要求统计岗位数量
edu = data_lagou.groupby(by=['学历'])['学历'].count().sort_values(ascending=False)


# In[12]:


#显示中文
#可视化学历
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.title('各最低学历要求岗位数量占比')
plt.pie(edu,labels=edu.index.tolist(),autopct='%1.1f%%')
plt.savefig('./各最低学历要求岗位数量占比.jpg',dpi=300)
plt.show()

#可视化各工作经验要求薪资
plt.figure(figsize=(10, 6.5))
plt.bar(x=experience.index.tolist(),height=experience,width=0.4)
plt.title('各工作经验的平均薪资')
plt.ylabel('岗位薪资(k)')
plt.savefig('./各工作经验的平均薪资.jpg',dpi=300)
plt.show()

#可视化城市薪资top5
#画柱状图
plt.bar(x=high_salary.index.tolist(),height=high_salary,width=0.4)
plt.title('城市平均薪资top10')
plt.ylabel('平均薪资(k)')
plt.ylim([10,25])
plt.savefig('./城市平均薪资top10.jpg',dpi=300)
plt.show()

4 结论

通过对python岗位的分析可以得出以下结论：

在文本分析上，从词云图可以发现：经验，开发，能力，学习等词出现的频率较高，可以得出我们在在找python相关的工作时要突出展现自身的能力，经验，开发水平等。而这方面薄弱的同学应该去提示相关能力。

在工资，学历等字段的统计分析，可以得出python岗位，工作时间越长，平均薪资越高。而高薪岗位主要集中在东莞，北京，上海等较发达的城市。从学历方面来看，大部分企业将学历门槛设置为本科。

通过这次主题式的爬虫设计及分析，从结果来看基本符合预期，也符合实际情况。从爬取数据来看，数据比较完整，后续可以提高数据量，从而使结果更具有说服力。对于个人而言也熟悉了许多python相关知识，对于数据爬取和分析的流程也更加明确了。

附录

1 爬虫代码
 

import requests

import pandas as pd

from lxml import etree

import time

import random

import ssl

 

class LaGou(object):

    def __init__(self,ip):

        self.USER_AGENTS = [

            "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",

            "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",

            "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",

            "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",

            "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",

            "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",

            "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",

            "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5"

        ]

        self.headers = {

 

            'user-agent': random.choice(self.USER_AGENTS),

        }

        self.iplist = ip

    def getHtml(self, url):

        #代理ip用户名及密码

        username = '1312998155'

        password = '1l4kuqz2'

        # context = ssl.context = ssl._create_unverified_context()

        if not self.iplist:

            self.iplist = getIp()

        ip = self.iplist[0]

 

        #构建代理

        self.proxy = {

            "https": "https://%(user)s:%(pwd)s@%(proxy)s/" % {'user': username, 'pwd': password, 'proxy': ip},

        }

        #发送请求

        req = requests.get(url, headers=self.headers,proxies=self.proxy)

        print(len(req.text))

        print(url)

        #当被限制ip时重新请求

        if len(req.text)< 3000 or '欢迎进入拉勾验证系统，请进行验证' in req.text:

            print('aaa')

            self.iplist.pop(0)

            html = self.getHtml(url)

            return html

        else:

            return req.text

 

    def parseListHtml(self, html):

        html_obj = etree.HTML(html)

        alldata = html_obj.xpath('//li[@class="con_list_item default_list"]')

        resdata = []

 

        # nextpage_url = html_obj.xpath('//div[@class="pager_container"]/a[last()]/@href')

        # if not nextpage_url:

        #     return

        # print(nextpage_url)

        for onedata in alldata:

            link = onedata.xpath('./div[@class="list_item_top"]//a[@class="position_link"]/@href')

            if link:

                link = link[0]

            else:

                link =''

 

            name = onedata.xpath('./div[@class="list_item_top"]//a[@class="position_link"]/h3/text()')

            if name:

                name = name[0]

            else:

                name = ''

            work_addr = onedata.xpath('./div[@class="list_item_top"]//em/text()')

            if work_addr:

                work_addr = work_addr[0]

            else:

                work_addr = ''

            salary = onedata.xpath('./div[@class="list_item_top"]//span[@class="money"]/text()')

            if salary:

                salary = salary[0]

            else:

                salary = ''

 

            requirement = onedata.xpath('./div[@class="list_item_top"]//div[@class="li_b_l"]/text()')

            if requirement:

                requirement = requirement[-1].strip()

            else:

                requirement = ''

            if link:

                html = self.getHtml(link)

                detail_data = self.parsedetailHtml(html)

            else:

                detail_data = ''

 

            resdata.append(','.join([name,work_addr,salary,requirement,detail_data]))

            print(name,work_addr,salary,requirement,detail_data)

        return resdata

    def parsedetailHtml(self,html):

        html_obj = etree.HTML(html)

        detail_info = html_obj.xpath('//div[@class="job-detail"]/p/text()')

        detail_info = ''.join(detail_info)

        detail_info = detail_info.replace(',','，')

        return detail_info

    def toCsv(self, data):

        with open('lagou_new22.csv', 'a+', encoding='utf-8') as f:

            for astr in data:

                # print(astr)

                f.write(astr)

                f.write('\n')

 

def getIp():

    url = 'http://dps.kdlapi.com/api/getdps/?orderid=907657111091795&num=4&pt=1&sep=1'

    response = requests.get(url)

    proxy = response.text.split('\r\n')

    return proxy

 

def start():

    # base_url = 'https://www.lagou.com/zhaopin/Python/1/?filterOption=1&sid=d13058b7da4f464aa97f378c85bd01c5'

    base_url = 'https://www.lagou.com/zhaopin/Python/'

    i = 3

    ip = getIp()

    print(ip)

    l = LaGou(ip)

    while i<=5:

        url = base_url+str(i)+'/?filterOption='+str(i)

        print(url)

 

        html = l.getHtml(url)

        data = l.parseListHtml(html)

 

 

 

        print(data)

 

        l.toCsv(data)

        i += 1

 

if __name__ == '__main__':

    start()

 

2 数据清洗代码
import numpy as np

import pandas as pd

data_lagou=pd.read_csv('./lagou_new.csv',sep=',',encoding ='gbk')

 

#处理工作城市 【深圳·科技园】-> 深圳

city = data_lagou['城市'].values

for i in range(len(city)):

    city[i] = city[i].split('·')[0].strip()

print(city)

data_lagou['城市'] = city

 

#处理要求，得到经验要求和学历要求

experience = []

education = []

requirement = data_lagou['要求'].values

for i in range(len(requirement)):

    req = requirement[i].split('/')

    if len(req) == 2:

        experience.append(req[0].strip())

        education.append(req[1].strip())

 

    else:

        experience.append('null')

        education.append('null')

print(experience,education)

data_lagou['经验'] = experience

data_lagou['学历'] = education

 

tocsv_data = data_lagou[['岗位','城市','薪资','经验','学历','工作描述']]

tocsv_data.to_csv('lagou_dataclean.csv',index=False)

3 文本分析代码
#!/usr/bin/env python

# coding: utf-8

 

# ### 导入分析模块

 

# In[1]:

 

 

import pandas as pd

import numpy as np

import jieba 

from wordcloud import WordCloud

from wordcloud import STOPWORDS

from PIL import Image

import matplotlib.pyplot as plt

 

 

# ### 读取数据并处理

 

# In[5]:

 

 

#读取

data_details=pd.read_csv('./lagou_dataclean.csv',sep=',',encoding ='gbk')

print(data_details.shape)

#去除空值

data_details = data_details.loc[~(data_details['工作描述'].isnull())]

#转成列表形式

data_jobdes=data_details['工作描述'].tolist()

 

 

# In[6]:

 

 

words=[]

for content in data_jobdes:

    #分词

    seg=jieba.lcut(content)

   

    #去除停用词

    for word in seg:

        if word=='\n'or len(word)<=1:

            continue

        elif word in STOPWORDS:

            continue

        else:

            words.append(word.lower())

 

 

# In[7]:

 

 

#统计词频

word_clean = pd.DataFrame({'word_clean':words})

words_count=word_clean.groupby(by=['word_clean'])['word_clean'].count().to_frame()

words_count.rename(columns={'word_clean':'counts'},inplace=True)

word_count_sort=words_count.reset_index().sort_values(by=['counts'],ascending=False)

word_freq_dict={}

for i in word_count_sort.values:

    word_freq_dict[i[0]]=i[1]

 

 

# In[8]:

 

 

plt.rcParams['figure.figsize']=(15,30) #设置画布大小

#绘制词云的基本参数

my_cloud=WordCloud(

font_path='C:/Windows/Fonts/simkai.ttf',  #字体格式

width=200,

height=400,

background_color='white',

scale=32

)

cloud_pic=my_cloud.fit_words(word_freq_dict)

#显示词云

plt.imshow(cloud_pic,interpolation='bilinear') #设置图像清晰度

plt.axis('off')

plt.savefig(r'./cat_wordcloud.jpg')

plt.show()

4 数据分析及可视化代码
#!/usr/bin/env python

# coding: utf-8

 

# In[1]:

 

 

import numpy as np

import pandas as pd

import re

from matplotlib import pyplot as plt

 

 

# ### 数据读取与处理

 

# In[2]:

 

 

data_lagou=pd.read_csv('./lagou_dataclean.csv',sep=',',encoding ='gbk')

data_lagou.head()

 

 

# In[3]:

 

 

salary_mean = []

#将范围设置为均值

for i in range(data_lagou.shape[0]):

    s = re.findall('\d+',data_lagou['薪资'][i])

    if len(s) == 2:

        salary_mean.append((float(s[0])+float(s[1]))/2)

    else:

        salary_mean.append(0)

 

 

# In[4]:

 

 

#处理异常值

data_lagou['平均薪资'] = salary_mean

data_lagou = data_lagou[data_lagou['平均薪资'] !=0]

 

 

# ### 数据统计及可视化

 

# In[5]:

 

 

#按城市统计薪资，并取出top10

high_salary = data_lagou.groupby(by=['城市'])['平均薪资'].mean().sort_values(ascending=False)[0:10]

 

#按工作经验统计平均薪资

experience = data_lagou.groupby(by=['经验'])['平均薪资'].mean().sort_values(ascending=False)

print(experience)

 

#统计学历要求统计岗位数量

edu = data_lagou.groupby(by=['学历'])['学历'].count().sort_values(ascending=False)

 

 

# In[12]:

 

 

#显示中文

#可视化学历

plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']

plt.title('各最低学历要求岗位数量占比')

plt.pie(edu,labels=edu.index.tolist(),autopct='%1.1f%%')

plt.savefig('./各最低学历要求岗位数量占比.jpg',dpi=300)

plt.show()

 

#可视化各工作经验要求薪资

plt.figure(figsize=(10, 6.5))

plt.bar(x=experience.index.tolist(),height=experience,width=0.4)

plt.title('各工作经验的平均薪资')

plt.ylabel('岗位薪资(k)')

plt.savefig('./各工作经验的平均薪资.jpg',dpi=300)

plt.show()

 

#可视化城市薪资top5

#画柱状图

plt.bar(x=high_salary.index.tolist(),height=high_salary,width=0.4)

plt.title('城市平均薪资top10')

plt.ylabel('平均薪资(k)')

plt.ylim([10,25])

plt.savefig('./城市平均薪资top10.jpg',dpi=300)

plt.show()

View Code

你可能感兴趣的:(Python高级应用程序设计任务)

【经典算法】LeetCode 66. 加一(Java/C/Python3实现含注释说明,简单) 天天学长爱编程 LeetCode 算法 leetcode
题目描述给定一个由整数组成的非空数组所表示的非负整数，在该数的基础上加一。最高位数字存放在数组的首位，数组中每个元素只存储单个数字。你可以假设除了整数0之外，这个整数不会以零开头。示例1:输入:[1,2,3]输出:[1,2,4]解释:输入数组表示数字123。示例2:输入:[4,3,2,1]输出:[4,3,2,2]解释:输入数组表示数字4321。思路及实现方式一：反转数组后逐位相加思路首先，将数组反
【LGR-196-Div.4】洛谷入门赛 #26 题A - H 详细题解--优化思路简洁代码(C++,Python语言描述) 多思考少编码洛谷入门赛题解算法 c++python 开发语言
前言:觉得这个比赛很有意思的，都是暴力题，涉及一些细节，难度比较适合刚学编程语言的，可以很好的锻炼基础还有手速，最后两题也是比较有意思，之后也准备更新atc的比赛题解和洛谷的一些高质量比赛题解（算法网瘾就是想参加各种比赛）如果觉得有帮助，或者觉得我写的好，可以点个赞或关注，也可以看看我的一些其他文章，我之后也会更新一些基础算法详细解释比赛链接:【LGR-196-Div.4】洛谷入门赛#26-洛谷|
程序代码篇---Python日志输出 Ronin-Lotus 程序代码篇 python 学习数据挖掘模块测试性能优化安全架构人机交互
文章目录前言Python日志输出python的logging日志库模块（一）日志级别：1.DEBUG2.INFO3.WARNING4.ERROR5.CRITICAL（二）logging模块中四个核心组成组件1.Logger2.Handler3.Formatter4.Level5.实例6.RotatingFileHandler日志处理器总结前言本文仅仅简单介绍了Python中日志输出管理。Pytho
python，如何设置和读取文件的路径，详细版资源存储库算法笔记 python 开发语言
目录python，如何设置和读取文件的路径，详细版1.路径的基本概念2.设置路径手动指定路径使用os和pathlib模块1.使用os.path2.使用pathlib3.文件读取和写入文本文件的读取文本文件的写入逐行读取4.检查文件和目录是否存在5.获取和设置当前工作目录6.处理跨平台路径总结python，如何设置和读取文件的路径，详细版在Python中，设置和读取文件路径是一个常见任务。以下是详细
Python 获取字典的值：全面指南 egzosn python java 服务器前端 linux
字典(dict)是Python中一个强大的数据结构，用于存储键值对。无论是处理JSON数据，还是设计复杂的配置文件，字典都无处不在。本文将全面介绍在Python中获取字典值的各种方法，通过多个详细的代码示例，帮助你掌握如何在不同场景下灵活操作字典。一、字典基础知识在Python中，字典使用花括号{}定义，其键必须是不可变的(如字符串、数字或元组)，值可以是任意类型。以下是一个简单的字典示例：登录后
简单线性插值去马赛克算法的Python实现大DA_辉 ISP图像处理_python python 计算机视觉人工智能
在图像处理领域中，去马赛克（Demosaicing）是一项关键技术，用于从单色彩滤波阵列（CFA）图像恢复全彩图像。本文将介绍一种简单的线性插值去马赛克算法，并将其从MATLAB代码转换为Python代码。最终结果将展示如何从Bayer格式的图像数据恢复出RGB全彩图像。什么是马赛克图像？马赛克图像是一种通过在传感器上覆盖彩色滤光片阵列（CFA）生成的单通道图像。最常见的CFA模式是Bayer模式
SCALA学习手册.pdf(JasonSwartz) zxfxghfd scala 学习 pdf
书:python33com(<----web)Scala概述：“Scala是‘可扩展语言’（SCAlableLanguage）的缩写，于2003年创建，为JVM平台上的函数式编程以及面向对象编程提供一个高性能开发环境。”值与变量：“值（val）是不可变、有类型的存储单元；变量（var）是可变、有类型的存储单元。”数据类型与转换：“Scala支持多种数据类型，包括Byte、Short、Int、Lon
numpy1.19.4与python3.9版本冲突解决 weixin_47154407
numpy1.19.4与python3.9版本冲突解决一、问题分析runtimeError:packagefailstopassasanitycheck解决方法如下：解决一：使用python3.9和numpy1.19.4时会发生此错误，卸载numpy1.19.4并安装1.19.3,即可解决此问题使用pipuninstallnumpy再安装numpy1.19.3版本即可，使用如下命令卸载命令：pip
成功解决：ssl报错：pip is configured with locations that require TLS/SSL, however the ssl module in Python i 兰若姐姐安装教程报错解决工具使用专栏 ssl pip python
1、下载安装openssl#执行下载命令sudowgetwgethttps://www.openssl.org/source/openssl-3.0.7.tar.gz#解压tar-zxvfopenssl-3.0.7
tf.function-＞ AttributeError: ‘double‘ object has no attribute ‘shape‘ 乔宇同学学习tensorflow
跑tensorflow时出现的bug,不使用tf.function没问题，一旦挂上装饰符，就报错，报错内容如下：Traceback(mostrecentcalllast):File"D:\Anaconda3\envs\tensorflow2\lib\site-packages\tensorflow_core\python\eager\function.py",line111,in_make_inp
GAN在图像增强中的应用实战指南码字仙子
本文还有配套的精品资源，点击获取简介：图像增强技术通过算法改善图像质量，GAN作为一种生成对抗网络，在此领域具有重要应用。通过生成器和判别器的对抗性训练，GAN可以生成逼真图像、修复低质量图像、扩增数据集并进行风格迁移。本项目将介绍如何使用Python及其相关库实现GAN图像增强，包括模型的构建、训练和评估。通过项目案例学习，你可以掌握GAN在图像增强中的实际应用，提高图像处理和深度学习的技能。1
pythonnumpy库离线安装_linux Python2.7 离线安装pip、numpy、scipy、sklearn等 weixin_39974932
服务器是离线的，只能离线安装安装pip1.先安装setuptools下载地址：https://pypi.python.org/pypi/setuptools#downloads将下载后的文件解压，进入到解压后的文件所在的目录执行命令：pythonsetup.pyinstall2安装pip下载地址：https://pypi.python.org/pypi/pip#downloads将下载后的文件解压
【Python机器学习】无监督学习——K-均值聚类算法 zhangbin_237 Python机器学习机器学习算法 python kmeans k-means 均值算法
聚类是一种无监督的学习，它将相似的对象归到同一簇中，它有点像全自动分类。聚类方法几乎可以应用于所有的对象，簇内的对象越相似，聚类的效果越好。K-均值聚类算法就是一种典型的聚类算法，之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。簇识别给出聚类结果的含义，假定有一些数据，现在将相似数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在
python3.9安装numpy+mky_windows下python 3.9 Numpy scipy和matlabplot的安装教程详解 Madmoiselle.may
学习python过程中想使用python的matlabplot绘图功能，遇到了一大批问题，然后一路过关斩将，最终安装成功，实为不易，发帖留念。1首先打开cmdwin+r2pip安装pip3install--usernumpyscipymatplotlib–user选项可以设置只安装在当前的用户下，而不是写入到系统目录。默认情况使用国外线路，国外太慢，我们使用清华的镜像就可以:pip3install
【端到端模型】 W Y 端到端模型 CNN
什么是端到端模型？端到端模型就像是一个超级智能的黑盒子。想象你要完成一个任务，比如把一张写着字的图片变成电脑里能编辑的文字（这是光学字符识别的任务）。传统的做法可能是先人工分析图片，找到文字的轮廓、笔画这些特征，然后用别的方法把这些特征转变成文字。但是端到端模型很厉害，你直接把图片丢进这个黑盒子，它自己就知道怎么从图片里的原始信息（一堆像素点）直接输出最后你想要的文字，中间不需要你去操心怎么提取特
黑客常备十大编程语言，每一个都不容易学，但每一个又很有用一秋的编程笔记 Python 编程计算机科技数据库 sql 爬虫 python 自动化编程语言
文章目录1、C语言2、Python3、SQL4、Javascript5、PHP6、C++编程7、JAVA8、Ruby9、Perl10、BashPython学习资源分享1、Python所有方向的学习路线2、学习软件3、精品书籍4、入门学习视频5、实战案例6、清华编程大佬出品《漫画看学Python》7、Python副业兼职与全职路线一定要注意，您选择的编程将在很大程度上取决于您要定位的系统类型和计划使
基于Keystone架构的DSP 方克明 TI-DSP 基于Keystone架构 DSP
一、keystone架构组成部分1）.全新的C66x定点/浮点内核：速度高达1.25GHz的高性能DSP内核，单个器件上可实现最高320GMAC和160GFLOP定点及浮点整合性能，整合多个DSP，节省板级空间，降低成本和电源需求。2）.可配置协处理器：用于减轻系统微处理器的特定处理任务。3）.层级存储器：重点讲述。4）.TeraNet交换结构：芯片内部总线矩阵。5）.多内核导航器（Multico
关于python装numpy这些 danpengxie python numpy
弄了2个版本的，2.7和最新的3.6版本。步骤是一样的,每次要的二进制文件http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy找准了二进制文件，其下载在python的script文件夹下.然后命令截个图怕忘了（乖乖下载二进制文件，不要pipinstall.反正一会pip直接install，一会用二进制装会错的）现在装了2版本用py-2和py-3去调用
学习笔记040——如何定时备份服务器中的数据库？上下求索. MySQL Linux mysql 服务器
目录1、编写备份脚本：2、创建crontab定时任务需求前景：Ubuntu系统的服务器中，需要定时备份MySQL数据库中的数据。确保数据能够得到安全保障。我的方法：1、写一个备份数据库的脚本2、利用Ubuntu的crontab每日定时执行脚本。下面是我的实现方式：1、编写备份脚本：#!/bin/bash#设置数据库名，用户和密码DB_NAME="数据库名"DB_USER="账号"DB_PASSWO
Python连接券商API有哪些步骤？需要掌握哪些关键技术与知识？股票程序化交易接口量化交易股票API接口 Python股票量化交易 python 券商api 连接步骤关键技术股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>API的概念与功能API即应用程序接口，券商API是券商提供给外部开发者的接口。它就像是一座桥梁，使得外部程序能够与券商的交易系统进行交互。通过这个接口，可以获取市场数据，如股票价格、成交量等信息，还能够进行交易操作，像下单买卖股票等
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
python 安装scipy Half0pen linux machine learning
之前安装pybrain,fann2要用到scipy,numpy但是用pip并没有安装成功sudoapt-getinstallpython-numpypython-scipypython-matplotlib安装成功==
Node与Java后台对比旭氏美术馆 Nodejs 服务端并发编程多线程 node.js java
高并发场景下的对比：nodejs具有单线程、非阻塞IO、事件循环/驱动的特点，所以在高并发场景下，线程占用cup处理资源，cup不用等待IO的处理过程，而是不停的的发起异步请求，在异步处理结束后继续下一步异步任务。所以不会出现线程阻塞。如图1所示。优势：cpu利用率较高，因为cpu不用等待IO，而时一直在发起异步请求。不足：单个线程崩溃后，所以任务都无法进行，而多线程并发场景下，某个线程崩溃，不影
【Python学习】科学计算工具包SciPy-安装配置墨夶 Python学习资料 python 学习 scipy
SciPy安装与配置指南SciPy是一个基于Python的科学计算库，广泛应用于数学、科学和工程领域。它建立在NumPy库的基础上，提供了丰富的数学和科学计算工具。本文将详细介绍如何在不同环境下安装和配置SciPy。1.前提条件在安装SciPy之前，确保你的系统已经安装了Python和pip。你可以通过以下命令检查Python是否已经安装：python--version如果输出类似于Python3
Python 3.9 兼容的 NumPy 版本 Distantfbc python numpy
了解与Python3.9兼容的NumPy版本。根据搜索结果，以下是一些与Python3.9兼容的NumPy版本：NumPy1.21.1：这是一个与Python3.9兼容的NumPy版本。您可以通过运行以下命令来安装这个版本的NumPy：pipinstallnumpy==1.21.1NumPy1.26.0：根据版本对应关系表，NumPy1.26.0兼容Python3.9到Python3.12。您可以
【python】成功解决AttributeError: ‘Tuple’ object has no attribute ‘shape’ 云天徽上 python运行报错解决记录 python 开发语言 pandas 机器学习 numpy sklearn
成功解决AttributeError:‘Tuple’对象没有属性‘shape’在Python的编程中，尤其是当我们使用如NumPy或Pandas等科学计算和数据处理库时，经常会遇到各种属性错误（AttributeError）。其中，“AttributeError:‘Tuple’对象没有属性‘shape’”是一个常见的错误，它通常意味着我们试图在一个元组（Tuple）对象上调用一个它并不拥有的方法或
已解决RNING: pip is configured with locations that require TLS/SSL, however the ssl module in Python I'mAlex pip ssl python
pip升级报错：WARNING:pipisconfiguredwithlocationsthatrequireTLS/SSL,howeverthesslmoduleinPythonisnotavailable.Lookinginindexes:https://pypi.tuna.tsinghua.edu.cn/simpleRequirementalreadysatisfied:pipine:\an
学习笔记081——如何备份服务器中MySQL数据库数据？上下求索. MySQL Linux 数据库学习笔记
方法：可以通过编写sh脚本的方式，结合Linux中的crontab定时任务来实现定时备份数据的功能。sh脚本如下：#!/bin/bash#要备份的数据库DB_NAME="wms"#数据库账号DB_USER="root"#数据库密码DB_PASSWORD="123456"#数据备份存放目录BACKUP_DIR="/home/htl/backup"mkdir-p$BACKUP_DIR#备份文件名BAC
Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题 Loving_enjoy 论文深度学习计算机视觉人工智能
###Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题####引言在金融领域中，欺诈检测是一项至关重要的任务。然而，欺诈交易数据往往呈现出正负样本极度不平衡的特点，这给机器学习模型的训练带来了挑战。传统的分类算法在面对这种不平衡数据时，往往会导致模型对多数类（正常交易）过拟合，而对少数类（欺诈交易）的识别能力较差。为了解决这个问题，生成对抗网络（GAN）提供了一种有效的手
大数据学习（五）：如何使用 Livy提交spark批量任务--转载 zuoseve01 livy
Livy是一个开源的REST接口，用于与Spark进行交互，它同时支持提交执行代码段和完整的程序。Livy封装了spark-submit并支持远端执行。启动服务器执行以下命令，启动livy服务器。./bin/livy-server这里假设spark使用yarn模式，所以所有文件路径都默认位于HDFS中。如果是本地开发模式的话，直接使用本地文件即可（注意必须配置livy.conf文件，设置livy.
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag