樱枳~

python爬虫系列——拉勾网

小白入门——拉勾网的爬取与分析

文章目录

小白入门——拉勾网的爬取与分析
实现的内容
准备工作
分析拉勾网
存储数据
拉沟数据爬取与存储完整代码
拉勾网爬取及数据存储截图
拉勾网爬取错误解决
邮件发送
邮箱发送效果展示
数据分析与画图
数据画图效果图
个人总结

实现的内容

我的拉勾网爬取实现了四个部分：

根据特定城市（可为全国）及职位搜索有关工作信息
信息存到excel中通过邮箱发送给多个人
信息存到csv中展示及绘图分析
爬取的信息进行数据分析

准备工作

需要导入的库函数：

requests库：用于网络请求
json库：用于解码JSON对象，如果请求成功则数据解析为字典
lxml库：用里面的etree中的xpath爬取详细界面的信息
time库：爬取一个网页的界面后需要休息一下
xlsxwriter库：用里面的BookWriter对象创建sheet把爬取的内容存到excel中
pandas库：用里面的DataFrame数据结构把爬取的内容存为csv或者excel,方便展示及绘图
matplotlib库中的pylab及pyplot库：pylab用于中文的显示，pyplot用于绘制柱状图，饼图，直方图等
wordcloud库：用于绘制工作薪资的词云
jieba库：把字符串剪切为单词
pyecharts：用于绘制全国地图及城市地图岗位的分布
这些第三方库都可以直接在cmd命令行用

pip install xxx  导入

或者直接到http://www.lfd.uci.edu/~gohlke/pythonlibs/
下载需要的库后 pip install 路径+刚才下载的包名，然后再复制到python的lib文件夹下面

分析拉勾网

首先进入拉勾网网页界面，搜索python，我们就可以看到很多与python有关的职位


然后我们右击–>查看网页源代码，然后

任意复制有关工作，在刚才网页源代码界面ctrl+F然后ctrl+v搜索该职位
emmm~~发现没有该职位信息

说明职位信息并不是我们在请求那个网页的url时候一起返回过来的，而是通过ajax请求另一个接口，请求回来后再通过json把信息装在我们请求的那个url界面

那么我们开始分析数据是从哪里来的：
F12后刷新网页，可获取当前请求页面的所有信息，然后我们搜索一下json，可以看到一个positionAjax.json

展开后可以清楚的看到：

继续展开：

可以清楚的看到我们要爬取的所有内容

然后我们来看一下Headers

那么我们就可以开始写代码了

import requests

def request_list_page():
    url = 'https://www.lagou.com/jobs/positionAjax.json?city=%E6%88%90%E9%83%BD&needAddtionalResult=false'
    headers = {
        'Cookie': '_ga=GA1.2.2101330740.1538397506; user_trace_token=20181001203828-e5f6c644-c576-11e8-a884-525400f775ce; LGUID=20181001203828-e5f6ca9b-c576-11e8-a884-525400f775ce; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%22166bd8c1893be-05de032d74790c-8383268-1327104-166bd8c18941dc%22%2C%22%24device_id%22%3A%22166bd8c1893be-05de032d74790c-8383268-1327104-166bd8c18941dc%22%7D; index_location_city=%E6%88%90%E9%83%BD; LG_LOGIN_USER_ID=84b4472d8a08799f4a267d9036e1bbd17060526c54974cf38f7355f84eceea94; showExpriedIndex=1; showExpriedCompanyHome=1; showExpriedMyPublish=1; hasDeliver=0; WEBTJ-ID=20181201104916-16767ab926c193-0369c48aea69e8-8383268-1327104-16767ab926dc9; _gid=GA1.2.584755814.1543632557; LGSID=20181201104918-b294f2cc-f513-11e8-8850-525400f775ce; _putrc=4C83FA4867F6CC19123F89F2B170EADC; JSESSIONID=ABAAABAAADEAAFI17A098919E7E1868242B81BDB95A0C0D; login=true; unick=%E7%8E%8B%E4%BA%91%E5%80%A9; _gat=1; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1543632557,1543633278,1543634699,1543634962; gate_login_token=645b9ef09fbb80ea283a99868ede6b367404ca7a3f8a661bc32d75e0edbb4faa; TG-TRACK-CODE=index_navigation; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1543634987; LGRID=20181201112948-5adc2724-f519-11e8-8ca7-5254005c3644; SEARCH_ID=c4709190d9844b1883a0b566c5c467e9',
        'Referer': 'https://www.lagou.com/jobs/list_python?city=%E6%88%90%E9%83%BD&cl=false&fromSearch=true&labelWords=&suginput=',
        'Origin': 'https: // www.lagou.com',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
        'X-Anit-Forge-Code': '0',
        'X-Anit-Forge-Token': 'None',
        'X-Requested-With': 'XMLHttpRequest'
    }
    data = {
        'first': 'false',
        'pn': '1',
        'kd': 'python'
    }
    response = requests.post(url,headers=headers,data=data)
    print(response.json())

def main():
    request_list_page()

if __name__=='__main__':
    main()

可以看出我们的结果和response结果一样，说明第一页内容获取成功！！！
值得注意的是拉勾网反爬虫很厉害，所以我们尽量把headers中的所有内容都复制进去，比如我有此就只复制了User-Agent及Reference

import requests

def request_list_page():
    url = 'https://www.lagou.com/jobs/positionAjax.json?city=%E6%88%90%E9%83%BD&needAddtionalResult=false'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
       'Referer': 'https://www.lagou.com/jobs/list_python?city=%E6%88%90%E9%83%BD&cl=false&fromSearch=true&labelWords=&suginput='
    }
    data = {
        'first': 'false',
        'pn': '1',
        'kd': 'python'
    }
    response = requests.post(url,headers=headers,data=data)
    print(response.json())

def main():
    request_list_page()

if __name__=='__main__':
    main()

就会显示下面内容,emmm…其实不是操作频繁，就是拉勾的反爬虫机制

所以我们每次请求3页，4页我们就修改pn就可以了，然后first直接全部修改为false，因为如果我们从第二页回到第一页的话，那么第一页也就是false了，第一页

呜呜呜呜~~直接这个样子一次性爬取是有问题的，就是因为这个原因，我的ip号被拉沟网拉进了黑名单，花了我整整10个人民币才解放出来，5555555…如下图：

因为for循环走的很快，基本1s就会发送好几个请求，所以请求的太快拉沟网就会提示我们操作的太频繁，所以我们请求一个页面后要稍微停一下。

要爬取所有页面我们首先要知道总共的页数：

在preview中我们可以知道他的总职位的个数及每一页都只有15个职位，所以直接用totalCount/15向上取整就可以得到总页数，值得注意的是，拉勾网最多只显示30页的招聘信息，所以代码如下：

def get_page_num(counts):
    nums=math.ceil(counts/15)
    if(nums>30):
        return 30
    else:
        return nums

好了，现在我们就可以开始爬取职位的详细页面了

在这个界面我们就可以爬取公司名，公司简称，公司规模，融资阶段，城市，区域，职位名称，职位链接，工作经验，学历要求，薪资，职位福利就都可以爬取了，但这个界面没有职位诱惑等信息，所以我们需要跳转到每个职位的详细界面，然后我们看到这个界面的第0个里面的positionID为5151256

然后我们点进拉勾网界面的第一个招聘工作

所以我们找详细界面就通过positonID来跳转

成功爬取

所以现在我们进入详细页面，F12

好了，到这里你就可以根据自己心情随意爬取啦，嘿嘿嘿嘿嘿。。。可以用etree.xpath通过class=job_bt然后text()来简单获取职位描述

存储数据

数据存到excel中：
（1）先在D盘创建一个名为caogao的文件夹，引入与excel有关的头文件xlsxwriter先在D盘创建一个名为caogao的文件夹，引入与excel有关的头文件xlsxwriter
（2）创建一个Workbook对象
（3）用add_worksheet()添加一个sheet
（4）用write_row或write_colum往sheet中添加数据
（5）关闭掉sheet

import xlsxwriter
def save_excel(file_name):  # 将抓取到的招聘信息存储到excel当中
    job = xlsxwriter.Workbook(r'D:\caogao\%s.xls' % file_name)
    tmp = job.add_worksheet()
    row_num = len(fin_result)
    for i in range(1, row_num):
        if i == 1:
            tag_pos = 'A%s' % i
            tmp.write_row(tag_pos, tag_name)
        else:
            con_pos = 'A%s' % i
            content = fin_result[i - 1]  # -1是因为被表格的表头所占
            tmp.write_row(con_pos, content)
    job.close()

存到csv中：直接用pandas中的DataFrame（DataFrame就是一个表格型数据结构），然后df.to_csv就可以把数据存在csv中了，当然也可以直接用df.to_excel把数据存到excel中，和上面那种用xlswriter.Workbook实例来add_worksheet()方法来创建一个sheet方法，用pandas更方便啦，一步到位，还不用关闭sheet对象哦。
到这里数据爬取就算完成啦（但我的爬取界面是默认为成都），那么如果我想要爬取输入的城市的对应工作职位呢？

from urllib.parse import quote
a='成都'
print(quote(a))

通过这个代码我们就可以把用户输入的中文转换为编码并且传给请求头的url中。到这里，我们就可以根据不同城市请求不同的工作职位的信息啦~~

拉沟数据爬取与存储完整代码

from urllib.parse import quote
import requests
from  lxml import etree
import math
import time
import xlsxwriter
import pandas as pd

tag_name = ['公司名称', '公司简称','公司规模','融资阶段','城市','区域','职位名称','职位链接', '工作经验', '学历要求','兼职/全职' ,'薪资','职位福利','职位详述']
fin_result = [[] for i in range(30)]

headers = {
    'Cookie': '_ga=GA1.2.2101330740.1538397506; user_trace_token=20181001203828-e5f6c644-c576-11e8-a884-525400f775ce; LGUID=20181001203828-e5f6ca9b-c576-11e8-a884-525400f775ce; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%22166bd8c1893be-05de032d74790c-8383268-1327104-166bd8c18941dc%22%2C%22%24device_id%22%3A%22166bd8c1893be-05de032d74790c-8383268-1327104-166bd8c18941dc%22%7D; index_location_city=%E6%88%90%E9%83%BD; LG_LOGIN_USER_ID=84b4472d8a08799f4a267d9036e1bbd17060526c54974cf38f7355f84eceea94; showExpriedIndex=1; showExpriedCompanyHome=1; showExpriedMyPublish=1; hasDeliver=0; WEBTJ-ID=20181201104916-16767ab926c193-0369c48aea69e8-8383268-1327104-16767ab926dc9; _gid=GA1.2.584755814.1543632557; LGSID=20181201104918-b294f2cc-f513-11e8-8850-525400f775ce; _putrc=4C83FA4867F6CC19123F89F2B170EADC; JSESSIONID=ABAAABAAADEAAFI17A098919E7E1868242B81BDB95A0C0D; login=true; unick=%E7%8E%8B%E4%BA%91%E5%80%A9; _gat=1; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1543632557,1543633278,1543634699,1543634962; gate_login_token=645b9ef09fbb80ea283a99868ede6b367404ca7a3f8a661bc32d75e0edbb4faa; TG-TRACK-CODE=index_navigation; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1543634987; LGRID=20181201112948-5adc2724-f519-11e8-8ca7-5254005c3644; SEARCH_ID=c4709190d9844b1883a0b566c5c467e9',
    'Referer': 'https://www.lagou.com/jobs/list_python?city=%E6%88%90%E9%83%BD&cl=false&fromSearch=true&labelWords=&suginput=',
    'Origin': 'https: // www.lagou.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
    'X-Anit-Forge-Code': '0',
    'X-Anit-Forge-Token': 'None',
    'X-Requested-With': 'XMLHttpRequest'
}

def request_list_page(city_name,keyword,num):
    city_code=quote(city_name)
    if(city_name=='全国'):
        url='https://www.lagou.com/jobs/positionAjax.json?px=default&needAddtionalResult=false'
    else:
    url='https://www.lagou.com/jobs/positionAjax.json?px=default&city=%s&needAddtionalResult=false'%city_code
    # print(url)
    data={
        'first':'false',
        'pn':num,
        'kd':keyword
    }
    response=requests.post(url,headers=headers,data=data)
    response.raise_for_status()
    response.encoding='utf-8'
    result=response.json()
    # print(result.text)
    return result

def get_page_num(counts):
    nums=math.ceil(counts/15)
    if(nums>30):
        return 30
    else:
        return nums

def get_page_info(city,keyword,num):
    job = xlsxwriter.Workbook(r'D:\caogao\%s.xls' % keyword)
    tmp=job.add_worksheet()
    tmp.write_row('A1',tag_name)
    ind = 2
    total_inf=[]
    for x in range(1,num+1):
        page=request_list_page(city,keyword,x)
        positions = page['content']['positionResult']['result']
        page_info_list=[]
        for position in positions:
            page_info = []
            page_info.append(position['companyFullName'])
            page_info.append(position['companyShortName'])
            page_info.append(position['companySize'])
            page_info.append(position['financeStage'])
            page_info.append(position['city'])
            page_info.append(position['district'])
            page_info.append(position['positionName'])
            position_id = position['positionId']
            position_url = 'https://www.lagou.com/jobs/%s.html' % position_id
            page_info.append(position_url)
            page_info.append(position['workYear'])
            page_info.append(position['education'])
            page_info.append(position['jobNature'])
            page_info.append(position['salary'])
            page_info.append(position['positionAdvantage'])
            page_info.append(position_detail(position_url))
            con_pos='A%s'%ind
            tmp.write_row(con_pos,page_info)
            ind+=1
            page_info_list.append(page_info)
            time.sleep(1)
        if(x==4):
            break
        print("第{}页已经抓取完成".format(x))
        total_inf += page_info_list
        time.sleep(4)
    df = pd.DataFrame(data=total_inf,columns=tag_name)
    df.to_excel(city+'_'+keyword+'.xls')
    df.to_csv(city+'_'+keyword+'.csv',index=False)
    print("已保存为csv文件")
    job.close()

def position_detail(url):
    response=requests.get(url,headers=headers)
    text=response.text
    html=etree.HTML(text)
    desc="".join(html.xpath("//dd[@class='job_bt']//text()")).strip()
    return desc

if __name__ == '__main__':
    city=input("请输入你要查找的城市：")
    keyword = input('请输入您要搜索的语言类型：')
    page_1=request_list_page(city,keyword,1)
    total_page = page_1['content']['positionResult']['totalCount']
    num = get_page_num(total_page)
    print("共找到：{}条招聘信息，显示为{}页".format(total_page, num))
    result=get_page_info(city,keyword,num)

拉勾网爬取及数据存储截图

拉勾网爬取错误解决

拉勾网有反爬虫机制，所以我们一定要有一个请求头，如果怕出错和不知道应该拿去头中的那些内容，就把Headers中的所有内容写在请求头中。不然会报下面错误：
请求每个界面和工作的时候必须time.sleep几秒，因为for循环走的很快，每秒都会发送好几个请求，所以请求的太快拉沟网就会提示我们操作的太频繁，和上图一样。这一个一定要注意，如果这样不暂停请求你的IP可能会被拉黑。当你发现你连拉勾网的网页都进不去的时候，恭喜你，被拉勾网拉黑了，那么你现在就只能去淘宝花费10RMB买个代理IP或者等候拉勾网心情好的时候把你放出来。。。
用DateFrame中的df.read_csv时，读取的csv文件名不能含有中文，否则会报错：

如果非要含中文，就必须用df=pd.read_csv(open(csv文件名,‘rb’),encoding=‘utf-8’)

邮件发送

说到图片发送简直是一把辛酸泪啊，从头弄到尾，整整历经了2个星期，基本把邮件发送各部分的错误都挨个犯完了，55555。。。。

首先发送邮件方要设置一个授权码，我是用的163邮箱
我用的是第三方SMTP服务规则发送的邮件，所有遵循他的规则。
（1）第三方SMTP服务需要host：163邮箱的为：smtp.163.com；需要user：就是我们邮箱发件方的账号；需要密码：授权码；接收方：接受方的邮件
（2）邮件正文：message[‘From’]，message[‘TO’],message[‘Subject’]三者缺一不可
（3）邮件正文内容：用attach
（4）带附件：设置MIMEMultipart为mixed,加入你的附件的类型和附件，然后attach就可以了
（5）最后就连接发送邮件

import smtplib
from email.mime.text import MIMEText
from email.mime.multipart import MIMEMultipart
from email.header import Header

sender = '[email protected]'
#发送给一个邮箱
receiver='[email protected]'
#接受邮件，可设置为你的QQ邮箱或者其他邮箱，多接收方
receivers = ['xxx','xxx'] 
# 第三方 SMTP 服务
mail_host = 'smtp.163.com'
mail_user = '[email protected]'
mail_pass = 'xxxxxxxxxxx'
to_mail = ['xxx', 'xxx']

# 创建一个带附件的实例
message = MIMEMultipart('mixed')
message['From'] = '[email protected]'
#接收方为一个
# message['To'] = 'xxx'
#接收方为多人
message['To'] = ','.join(to_mail)
subject = 'hello'
# message['Subject'] = Header(subject, 'utf-8')

# 邮件正文内容
message.attach(MIMEText('信息', 'plain', 'utf-8'))

# 构造附件1，传送当前目录下的 hello.txt 文件
att1 = MIMEText(open('hello.txt', 'rb').read(), 'base64', 'utf-8')
att1["Content-Type"] = 'application/octet-stream'
# 这里的filename可以任意写，写什么名字，邮件中显示什么名字
att1["Content-Disposition"] = 'attachment; filename="hello.txt"'
message.attach(att1)

smtpObj = smtplib.SMTP()
smtpObj.connect(mail_host, 25)  # 25 为 SMTP 端口号
smtpObj.ehlo()
smtpObj.starttls()
smtpObj.login(mail_user, mail_pass)
smtpObj.sendmail(message['From'], 
#发送给多分
message['To'].split(','), message.as_string())
#发送给一方
# smtpObj.sendmail(message['From'], message['To'], message.as_string())
print("邮件发送成功")

3.来说说辛酸史，邮件发送过程中各种错误：
（1）message['from']与message['to']这两个中不能直接写[email protected]这种形式，不然一直报错554：发件人和收件人信息不匹配。比如把qq邮箱前面的qq名字一起加上去,如下第二张图。然后

smtp.sendmail('[email protected]', '[email protected]', msg.as_string())

必须和

msg['From'] = '[email protected]'
msg['To'] = '[email protected]'

内容对应相同

（2）主机强迫关闭了一个现有的连接

这时你需要在邮件登录前加上两句：

smtpObj.ehlo()
smtpObj.starttls()

（3）还是554，但是这个就是邮件中包含了某些信息被当做垃圾邮件处理了。特别注意的是我们的主题

message['Subject']

绝对不能为test，不然会一直554到死，呜呜呜呜~~
（4）553邮件发送方没有开始授权
（5）最气人的一点，感觉自己代码完全没错误了，但是还是554，我的心里毫无波折，甚至还有点想笑。。。听别人说用手机开热点就好了，然后自己开开心心用手机连上了热点，结果还是554,好吧，我能怎么办，我也很无奈啊。然后又找了一个星期，老师也被我烦了很多遍，好吧，还是没错误。好气哦，但是不能放弃啊，最后，我灵机一动，让室友给我开了一个wifi，然后，邮箱就发出去了，what???好吧，我只能说服自己是上天嫉妒我的美貌，然后为期两个星期的邮件终于发送出去了。。。所以，当你感觉自己完全没有错误的时候，让小伙伴给你开个wifi吧。

邮箱发送效果展示

qq邮箱接收方效果展示：

163邮箱接收方效果：

数据分析与画图

数据清洗
（1）求工作薪资的时候要把实习的数据项去掉，用平均工资表示工资区间
（2）画中国地图的时候，有些city为国外，要提前去除

展现matplotlib及wordcloud强大的时候到了
（1）用pandas读取存在csv中的数据
（2）由于csv文件内的数据是字符串形式，所以我们先用正则表达式将字符串转化为列表，再取区间的均值
（3）用matplotlib中的pylab的hist绘制直方图，用pie绘制饼图
（4）用jieba模块将字符串分割为单词，再用WordCloud加载词云

数据画图代码

import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
import matplotlib.pylab as mpl
from pyecharts import Map,Geo

def data_analysis(city,position):
    #使matplotlib模块能显示中文
    mpl.rcParams['font.sans-serif']=['SimHei']  # 指定默认字体
    mpl.rcParams['axes.unicode_minus']=False # 解决保存图像是负号'-'显示为方块的问题
    #读取数据
    str=city+'_'+position+'.csv'
    print(str)
    # df=pd.read_csv(str)
    df=pd.read_csv(open(str,'rb'),encoding='utf-8')
    # df=pd.read_csv('php.csv',encoding='utf-8')
    # #数据清洗，剔除实习岗位
    df.drop(df[df['职位名称'].str.contains('实习')].index,inplace=True)
    # print("=" * 40)
    # print(df.describe())
    # print("=" * 40)
    # 由于CSV文件内的数据是字符串形式,先用正则表达式将字符串转化为列表,再取区间的均值
    pattern = '\d+'
    df['工作年限'] = df['工作经验'].str.findall(pattern)
    avg_work_year = []
    for i in df['工作年限']:
        # 如果工作经验为'不限'或'应届毕业生',那么匹配值为空,工作年限为0
        if len(i) == 0:
            avg_work_year.append("不限")
            # 如果匹配值为一个数值,那么返回该数值
        elif len(i) == 1:
            avg_work_year.append(int(''.join(i)))
            # 如果匹配值为一个区间,那么取平均值
        else:
            num_list = [int(j) for j in i]
            avg_year = sum(num_list) / 2
            #num_temp=num_list[0]+'-'+num_list[1]
            #print(num_temp)
            avg_work_year.append(avg_year)

    df['经验'] = avg_work_year
    count = df['工作经验'].value_counts()
    plt.pie(count, labels=count.keys(), labeldistance=1.4, autopct='%2.2f%%')
    plt.axis('equal')  # 使饼图为正圆形
    plt.legend(loc='upper left', bbox_to_anchor=(-0.1, 1))
    plt.savefig('pie_chart.jpg')
    plt.show()


    # 将字符串转化为列表,再取区间的前25%，比较贴近现实
    df['salary'] = df['薪资'].str.findall(pattern)
    avg_salary = []
    for k in df['salary']:
        int_list = [int(n) for n in k]
        if(len(int_list)==1):
            avg_wage=int_list[0]
        else:
            avg_wage = int_list[0] + (int_list[1] - int_list[0]) / 4
        # avg_wage2=(int_list[0]+int_list[1])/2
        avg_salary.append(avg_wage)
    df['月工资']=avg_salary
    # 将清洗后的数据保存,以便检查
    df.to_csv('draft.csv', index=False)
    #描述职位
    print('php工资描述:\n{}'.format(df['月工资'].describe()))
    # 绘制频率直方图并保存
    plt.hist(df['月工资'], bins=12)
    plt.xlabel('工资 (千元)')
    plt.ylabel('频数')
    plt.title("工资直方图")
    plt.savefig('salary_histogram.jpg')
    plt.show()
    # 绘制饼图并保存
    count = df['区域'].value_counts()
    plt.pie(count, labels=count.keys(), labeldistance=1.4, autopct='%2.2f%%')
    plt.axis('equal')  # 使饼图为正圆形
    plt.legend(loc='upper left', bbox_to_anchor=(-0.1, 1))
    plt.savefig('pie_chart.jpg')
    plt.show()
    # 省地图  数据必须是省内放入城市名
    map2 = Map("{}{}分布".format(city,position), city, width=1200, height=600)
    data=df['区域'].value_counts()
    citys=list(data.index)
    values=list(data[data.index])
    print("="*40)
    print(citys)
    print(values)
    map2.add(city, citys, values, visual_range=[1, 4], maptype=city, is_visualmap=True, visual_text_color='#000')
    # map2.show_config()
    map2.render(path="04-02{}{}职位分布图.html".format(city,position))

    # 绘制词云,将职位福利中的字符串汇总
    text = ''
    for line in df['职位福利']:
        text += line
        # 使用jieba模块将字符串分割为单词列表
    cut_text = ' '.join(jieba.cut(text))
    # print(cut_text)
    color_mask = plt.imread('boy2.jpg')  # 设置背景图
    print('加载图片成功！')
    cloud = WordCloud(
        font_path='xingkai.ttf',
        background_color='white',
        mask=color_mask,
        max_words=1000,
        max_font_size=100,
    )

    word_cloud = cloud.generate(cut_text)
    # 保存词云图片
    word_cloud.to_file('word_cloud.jpg')
    plt.imshow(word_cloud)
    plt.axis('off')
    plt.show()

def data_analysis_all(city,position):
    # 使matplotlib模块能显示中文
    mpl.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
    mpl.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题
    str = city + '_' + position + '.csv'
    # df=pd.read_csv(str)
    df = pd.read_csv(open(str, 'rb'), encoding='utf-8')
    df['salary'] = df['薪资'].str.findall("\d+")
    avg_salary = []
    for k in df['salary']:
        int_list = [int(n) for n in k]
        if(len(int_list)==1):
            avg_wage=int_list[0]
        else:
            avg_wage = int_list[0] + (int_list[1] - int_list[0]) / 4
        # avg_wage2=(int_list[0]+int_list[1])/2
        avg_salary.append(avg_wage)
    df['月工资']=avg_salary
    group_by_city = df.groupby(['城市'])['月工资']
    # print(group_by_city)
    list_salary=[]
    list_city=[]
    for group in group_by_city:
        salarys=group[1].values
        sum=0
        for k in salarys:
            sum+=k
        list_salary.append(sum/len(group[1]))
        list_city.append(group[0])
    print(list_salary)
    # plt.bar(list_city[0:20],list_salary[0:20],width=0.3,facecolor='blue', edgecolor='white')
    # plt.bar( list_city[0:20], list_salary[0:20],width=0.3, facecolor='blue', edgecolor='white')
    plt.barh(list_city, list_salary,facecolor='lightskyblue', edgecolor='white')
    plt.savefig('101全国城市工资')
    plt.show()
    # 工资柱状图
    data = df['薪资'].value_counts()
    print("=" * 40)
    attr = list(data.index)
    values = list(data[attr])
    attr=attr[0:11]
    values=values[0:11]
    print(attr)
    print(values)
    plt.bar(attr, values, width=0.5, facecolor='lightskyblue', edgecolor='white', label='全国前十{}工资'.format(position))
    plt.legend(loc='upper right')
    plt.grid(axis=1)
    plt.show()
    # 学历折线图
    data = df['学历要求'].value_counts()
    print(data)
    plt.plot(data)
    plt.show()
    #数据清洗
    df.drop(df[df['城市'].str.contains('海外')].index, inplace=True)
    data=df['城市'].value_counts()
    # 绘制饼图并保存
    print(data.keys())
    plt.pie(data, labels=data.keys(), labeldistance=1.4, autopct='%2.2f%%')
    plt.axis('equal')  # 使饼图为正圆形
    plt.legend(loc='upper left', bbox_to_anchor=(-0.1, 1))
    plt.savefig('04全国工作分布pie_char.jpg')
    plt.show()
    attr=list(data.index)
    print("=" * 40)
    value = list(data[data.index])
    print(attr)
    geo=Geo('全国城市{}工作数分析'.format(position),'制作人：王云倩',title_color="#fff", title_pos="center", width=1200, height=600,background_color='#404a59')
    print(value)

    geo.add("", attr, value, visual_range=[0, 10], type='effectScatter', visual_text_color="#fff", symbol_size=15,
            is_visualmap=True, is_roam=False)
    # geo.add("", attr, value, visual_range=[0, 10], type='heatmap', visual_text_color="#fff", symbol_size=15,is_visualmap=True, is_roam=False)
    geo.render(path="102拉沟职位全国{}分布图.html".format(position))

if __name__ == '__main__':
    city = input("请输入你要分析的城市：")
    position = input("请输入你要分析的职位名称：")
    if(city=='全国'):
        data_analysis_all(city,position)
    else:
       data_analysis(city,position)

数据画图效果图

工作经验饼图

个人总结

这次拉勾网的爬取收获也颇多，也挺心累的，特别是邮件发送，搞得自己差点崩溃，该查的资料都查了，百度看了很多人的分析，但就是没有一个可以解决自己的问题。不过也挺开心的，学到了很多，数据分析方面感觉自己还差很多，不怎么会，都是看着别人的学的，不过最后可以画出一个帅哥的词云看着超级开心呢，然后还有画图，数据清理等也弄得我脑袋痛，不过最后看到画面展示，感觉挺有成就的，总算没有辜负自己的付出。嘿嘿嘿~~就算小白入门吧，希望自己以后可以更上一层楼，Fighting，python，请多指教啦！

你可能感兴趣的:(python爬虫)

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
python爬虫(5)之CSDN It is a deal️ 小项目 python json 爬虫
CSDN的爬虫相对于doubatop250更加简单，一般只需要title和url即可下面是相关的代码：#爬虫之csdn#分析urlhttps://www.csdn.net/api/articles?type=more&category=python&shown_offset=0（firstpage）#https://www.csdn.net/api/articles?type=more&categ
Python——爬虫星和月 python
当编写一个Python爬虫时，你可以使用BeautifulSoup库来解析网页内容，使用requests库来获取网页的HTML代码。下面是一个简单的示例，演示了如何获取并解析网页内容：importrequestsfrombs4importBeautifulSoup#发送HTTP请求获取网页内容url='https://www.example.com'#要爬取的网页的URLresponse=requ
基于Python爬虫四川成都二手房数据可视化系统设计与实现(Django框架) 研究背景与意义、国内外研究现状_django商品房数据分析论文(1) 莫莫Android开发信息可视化 python 爬虫
3.国外研究现状在国外，二手房数据可视化也是一个热门的研究领域。以美国为例，有很多公司和网站提供了专门的二手房数据可视化工具，如Zillow、Redfin等。这些工具通常提供房价趋势图、房价分布图、房源信息等功能，帮助用户更好地了解房市动态。综上所述，虽然国内外在二手房数据可视化方面已经有了一些研究成果，但对于四川成都地区的二手房市场还没有相关的研究和可视化系统。因此，本研究旨在设计并实现一个基于
python requests下载网页_python爬虫 requests-html的使用 weixin_39600319 python requests下载网页
一介绍Python上有一个非常著名的HTTP库——requests，相信大家都听说过，用过的人都说非常爽！现在requests库的作者又发布了一个新库，叫做requests-html，看名字也能猜出来，这是一个解析HTML的库，具备requests的功能以外，还新增了一些更加强大的功能，用起来比requests更爽！接下来我们来介绍一下它吧。#官网解释'''Thislibraryintendsto
解决“Python中 pip不是内部或外部命令，也不是可运行的程序或批处理文件”的方法。 གཡུ ། Python 常规问题 python pip 机器学习自然语言处理
解决‘Python中pip不是内部或外部命令，也不是可运行的程序或批处理文件。’的方法1、pip是什么？pip是一个以Python计算机程序语言写成的软件包管理系统，他可以安装和管理软件包，另外不少的软件包也可以在“Python软件包索引”中找到。它可以通过cmd（命令提示符）非常方便地下载和管理Python第三方库，比如，Python爬虫中常见的requests库等。但是我们在使用cmd运行pi
python爬虫的urlib知识梳理卑微小鹿爬虫
1:urlib.request.urlopen发送请求getpost网络超时timeout=0.1网络请求模拟一个浏览器所发送的网络请求创建requestrequest头信息➕host/IP➕验证➕请求方式cookice客户返回响应数据所留下来的标记代理ipUrlib.request.proxyhander字典类型异常处理codereasonhearders拆分URLurlpaseurlsplit
Python爬虫入门实战：抓取CSDN博客文章 A Bug's Code Journey 爬虫 python
一、前言在大数据时代，网络上充斥着海量的信息，而爬虫技术就是解锁这些信息宝库的钥匙。Python，以其简洁易读的语法和强大的库支持，成为编写爬虫的首选语言。本篇博客将从零开始，带你一步步构建一个简单的Python爬虫，抓取CSDN博客的文章标题和链接。二、环境准备在开始之前，确保你的环境中安装了Python和以下必要的库：1.requests：用于发送HTTP请求2.BeautifulSoup：用
Python爬虫——Selenium方法爬取LOL页面张小生180 python 爬虫 selenium
文章目录Selenium介绍用Selenium方法爬取LOL每个英雄的图片及名字Selenium介绍Selenium是一个用于自动化Web应用程序测试的工具，但它同样可以被用来进行网页数据的抓取（爬虫）。Selenium通过模拟用户在浏览器中的操作（如点击、输入、滚动等）来与网页交互，并可以捕获网页的渲染结果，这对于需要JavaScript渲染的网页特别有用。安装Selenium首先，你需要安装S
Python爬虫如何搞定动态Cookie？小白也能学会！图灵学者 python精华 python 爬虫 github
目录1、动态Cookie基础1.1Cookie与Session的区别1.2动态Cookie生成原理2、requests.Session方法2.1Session对象保持2.2处理登录与Cookie刷新2.3长连接与状态保持策略3、Selenium结合ChromeDriver实战3.1安装配置Selenium3.2动态抓取&处理Cookie4、requests-Session结合Selenium技巧4
Python爬虫基础知识板栗妖怪 python 爬虫开发语言
(未完成)爬虫概念爬虫用于爬取数据，又称之为数据采集程序爬取数据来源于网络，网络中数据可以是有web服务器、数据库服务器、索引库、大数据等等提供爬取数据是公开的、非盈利。python爬虫使用python编写的爬虫脚本可以完成定时、定量、指定目标的数据爬取。主要使用多（单）线程/进程、网络请求库、数据解析、数据储存、任务调度等相关技术。爬虫和web后端服务关系爬虫使用网络请求库，相当于客户端请求，w
python爬虫处理滑块验证_python selenium爬虫滑块验证用户6731453637 python爬虫处理滑块验证
importrandomimporttimefromPILimportImagefromioimportBytesIOimportrequestsasrqfrombs4importBeautifulSoupasbsfromseleniumimportwebdriverfromselenium.webdriverimportActionChainsfromselenium.webdriverimpo
如何用python爬取股票数据选股_用python爬取股票数据 weixin_39752087
获取数据是数据分析中必不可少的一部分，而网络爬虫是是获取数据的一个重要渠道之一。鉴于此，我拾起了Python这把利器，开启了网络爬虫之路。本篇使用的版本为python3.5，意在抓取证券之星上当天所有A股数据。程序主要分为三个部分：网页源码的获取、所需内容的提取、所得结果的整理。一、网页源码的获取很多人喜欢用python爬虫的原因之一就是它容易上手。只需以下几行代码既可抓取大部分网页的源码。imp
Python爬虫基础总结醉蕤 Python python 爬虫
活动地址：CSDN21天学习挑战赛学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。学习日记目录学习日记一、关于爬虫1、爬虫的概念2、爬虫的优点3、爬虫的分类4、重要提醒5、反爬和反反爬机制6、协议7、常用请求头和常用的请求方法8、常见的响应状态码9、url的详解二、爬虫基本流程三、可能需要的库四、小例1、requests请求网页2、python解析网页源码（使用Be
2024年最新初面蚂蚁金服，Python爬虫实战：爬取股票信息(1)，面试题解析已整理成文档怎么办 imtokenmax合约众筹 2024年程序员学习 python 爬虫开发语言
收集整理了一份《2024年最新Python全套学习资料》免费送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来如果你需要这些资料，可以添加V无偿获取：hxbc188（备注666）正文首先要爬取股票数据
Python怎么去抓取公众号的文章？Python爬虫爬取微信公众号方法快乐星球没有乐 python 爬虫微信
很多小伙伴在学习了爬虫之后都能够使用它去抓取一些网页上的数据了，但是最近有小伙伴问我微信公众号上的文章要怎么去抓取出来。那这一篇文章将会以实际的代码示例来介绍如何去使用python爬虫抓取微信公众号的文章。1.下载wkhtmltopdf1这个应用程序，它可以将HTML格式的数据转换成PDF格式的。2.打开python编辑器，新建一个python项目命名为wxgzhPDF并在里面创建一个空白的pyt
Python爬虫——使用JSON库解析JSON数据_爬虫json解析 Java老杨程序员 python 爬虫 json
文章目录1如何在网页中获取JSON数据？2Python内置的JSON库这几天在琢磨爬取动态网页，发现需要爬取js内容，虽然说最后还是没有用上JSON库进行解析，不过笔记写的都写了，就发出来记录一下吧。1如何在网页中获取JSON数据？打开一个具有动态渲染的网页，按F12打开浏览器开发工具，点击“网络”，再刷新一下网页，观察是否有新的数据包。发现有js后缀的文件，这就是我们想要的json数据了。2Py
Python100个库分享第16个—sqlparse(SQL解析器) 一晌小贪欢 Python100个库分享 sql python 爬虫开发语言 python学习 python爬虫
目录专栏导读库的介绍库的安装1、解析SQL语句2、格式化SQL语句3、提取表名4、分割多条SQL语句实际应用代码参考：总结专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅此外还有python基础
python web自动化 gaoguide2015 自动化脚本 web html
1.python爬虫之模拟登陆csdn(登录、cookie)http://blog.csdn.net/yanggd1987/article/details/52127436?locationNum=32、xml解析：Python网页解析：BeautifulSoup与lxml.html方式对比（xpath）lxml库速度快，功能强大，推荐。http://blog.sina.com.cn/s/blog
Python爬虫-小某书达人榜单写python的鑫哥爬虫实战进阶 python 爬虫开发语言 cookie requests
前言本文是该专栏的第35篇，后面会持续分享python爬虫干货知识，记得关注。本文案例来介绍某平台达人榜单，值得注意的是，在开始之前，需要提前登录，否则榜单无法拿到。废话不多说，下面跟着笔者直接往下看正文。正文目标：aHR0cHM6Ly9keS5odWl0dW4uY29tL2FwcC8jL2FwcC9kYXNoYm9hcmQ=（注：使用base64自行解码）需求：红薯版-达人榜单打开页面之后，先点
【Python爬虫实战】：二手房数据爬取 3344什么都不是 python pandas 数据分析
文章目录系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言万维网上有着无数的网页，包含着海量的信息，无孔不入、森罗万象。但很多时候，无论出于数据分析或产品需求，我们需要从某些网站，提取出我们感兴趣、有价值的内容，但是纵然是进化到21世纪的人类，依然只有两只手，一双眼，不可能去每一个网页去点去看，然后再复制粘贴。所以我们需要一种能自动获取网页内容并可以按照指定规则提取
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
2024年Python爬虫：爬取招聘网站系列 - 前程无忧 2401_84562659 程序员 python 爬虫开发语言
importpprint#格式化输出模块importcsv#保存csv数据算了，我直接贴代码吧，流程都写清楚了，我把注释也标上了。兄弟们在学习的时候没有人解答和好的学习资料教程就很痛苦，解答或者其它教程都在这了电子书、视频都有！对应视频教程：【Python爬虫】招聘网站实战合集第一弹：爬取前程无忧，零基础也能学会！f=open(‘python招聘数据1.csv’,mode=‘a’,encoding
2024年Python最新Python爬虫入门教程30：爬取拉勾网招聘数据信息(1) 2401_84584609 程序员 python 爬虫信息可视化
Python爬虫入门教程23：A站视频的爬取，解密m3u8视频格式Python爬虫入门教程24：下载某网站付费文档保存PDFPython爬虫入门教程25：绕过JS加密参数，实现批量下载抖某音无水印视频内容Python爬虫入门教程26：快手视频网站数据内容下载Python爬虫入门教程27：爬取某电商平台数据内容并做数据可视化Python爬虫入门教程28：爬取微博热搜榜并做动态数据展示Python爬虫
python爬虫面试真题及答案_Python面试题爬虫篇(附答案) 朴少 python爬虫面试真题及答案
0|1第一部分必答题注意：第31题1分，其他题均每题3分。1，了解哪些基于爬虫相关的模块？-网络请求：urllib，requests，aiohttp-数据解析：re，xpath，bs4，pyquery-selenium-js逆向：pyexcJs2，常见的数据解析方式？-re、lxml、bs43，列举在爬虫过程中遇到的哪些比较难的反爬机制？-动态加载的数据-动态变化的请求参数-js加密-代理-coo
2024年Python最全Python爬虫实战：爬取股票信息_python 获取a股所有代码(1) 2401_84585339 程序员 python 爬虫 windows
doc=PyQuery(r.text)list=[]#获取所有section中a节点，并进行迭代foriindoc('.stockTablea').items():try:href=i.attr.hreflist.append(re.findall(r"\d{6}",href)[0])except:continuelist=[item.lower()foriteminlist]#将爬取信息转换小写
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D