憧憬少

python爬虫学习笔记2模拟登录与数据库

前言

为了加入学校里面一个技术小组，我接受了写一个爬取学校网站通知公告的任务。这个任务比以前写的爬虫更难的地方在于，需要模拟登录才能获得页面，以及将得到的数据存入数据库。

本文按照日期来记录我完成任务的过程，然后再整理一遍全部代码。读者可以通过下方传送门去我个人博客阅读，这样通过侧栏目录跳转阅读。不介绍库的安装。

对爬取的网站地址等内容进行了一些“打码处理”。

个人博客传送门：

爬虫学习笔记1一个简易爬虫
爬虫学习笔记2模拟登录与数据库

转载声明

关于参考链接： 本文用到的其他博客的链接都以（我自己对内容的概括或者文章原标题-来源网站-作者名）的格式给出，关于作者名，只有博客作者自己明确声明为“原创”，我才会加上作者名。引用的文章内容我会放在来源链接的下方。

关于本文：我发一下链接都注明出处了，如果想转载，也请这样做。作者憧憬少，链接的话看浏览器地址栏。

任务介绍

爬取信息门户新闻并且存入数据库。

首先分解任务：

实现爬取综合新闻页面的公开新闻存入markdown文件中(190303完成)
将数据存到数据库（190304完成）
学习模拟登录（190305到190307完成）
爬取信息门户新闻（190308完成）
（进阶）将代码进行封装、优化（目前未封装）
（进阶）动态更新（目前未着手）

过程记录

190303 周日

练习爬取公开页面

我的第一个爬虫是在2月多的时候在家写的，那个只是个简单的爬虫，目标是公开的页面，不需要模拟登录，也不需要存储到数据库，直接存到txt文件中。

先爬取学校官网的综合新闻页面复习一下。

首先讲一下我的思路：

由于新闻和公告页面通常是有一个目录页面的，也就是包含子页面的链接，在目录的子页面内才是正文内容。

假设这一页目录有三个新闻，就像是下面：

新闻目录
- 新闻一
- 新闻二
- 新闻三
- 点击查看下一页

这样的结构。

如果要写一个爬虫函数来爬取所有新闻页面，那么就要从目录着手。目录中含有前往别的新闻页面的链接，所以可以在目录页获取本页所有新闻的链接，遍历所有链接并提取新闻内容。

至于翻页也可以这样做到，“下一页”按钮也是一个链接，可以通过这个链接获取到下一页的内容。翻页部分原理比较简单，我是先攻克其他难关，把它留到最后写的。

提取单页面新闻

首先是提取单个页面的新闻。向目标url发出访问请求：

import requests
def getNews(url):
    '''
    提取页面的新闻与图片并存储为markdown文件
    :param url: 要爬取的目标网页url
    :return: 无
    '''
    #发送请求
    r=requests.get(url)#r为response对象
    html=r.text#r.text是请求的网页的内容
    print(html)

编码问题

这里遇到了第一个问题，提取到的页面有乱码。

解决方法：先获取响应对象的二进制响应内容，然后将其编码为utf8

参考链接：

python中response.text与response.content的区别-CSDN

requests.content返回的是二进制响应内容

而requests.text则是根据网页的响应来猜测编码

UNICODE,GBK,UTF-8区别（一个比较好的编码的教程，便于理解编码的概念）-博客园
Python解决抓取内容乱码问题（decode和encode解码）-CSDN-浅然_

字符串在Python内部的表示是unicode编码，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode(‘gb2312’)，表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode(‘utf-8’)，表示将unicode编码的字符串str2转换成utf-8编码。

修改代码为：

#发送请求
r=requests.get(url)
html=r.content#获取二进制字节流
html=html.decode('utf-8')#转换为utf8编码（该网页使用的是utf8编码）

解析网页（bs4）

一开始我和之前一样使用正则表达式来提取，但是不够熟悉，总是写不出匹配的上的正则表达式。还是使用另一个东西——BeautifulSoup库

具体如何使用请查看其他教程，本文只说我自己用到的部分。

参考链接：

Python爬虫常用的几种数据提取方式-CSDN-凯里潇
零基础入门python3爬虫-bilibili（里面的视频p11）
beautifulsoup（基本选择器，标准选择器，css选择器）-CSDN-Halosec_Wei（基本上是上面一个b站链接的文字版，不知道是不是同一个人）
beautifulsoup详细教程-脚本之家
beautifulsoup基本用法总结-CSDN-kikay

BeautifulSoup是Python的一个库，最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理，全部页面转变为字典或者数组，相对于正则表达式的方式，可以大大简化处理过程。

我目前的理解是，这个BeautifulSoup库需要用到其他html解析库，可以使用python自带的，也可以安装第三方库，其他的库就像功能扩展插件一样，没有的话它自己也能解析。我安装了名为lxml的解析库。

查看源代码，找到网页中有关新闻的代码，手动将其格式化之后如下（内容不重要，省略）：

<h1 class="arti-title">标题省略h1>
<p class="arti-metas">
    <span class="arti-update">发布时间：2019-01-23span>
    <span class="arti-update1">作者：xxspan>
    <span class="arti-update2">来源：xxxspan>
p>

<div class="entry">
  <article class="read">
     <div id="content">
         <div class='wp_articlecontent'>
             <p>新闻前言省略
             p>
             <p><br />p>
             <p>新闻内容省略
             p>
             <p>
             <img width="556" height="320" align="bottom" src="url省略" border="0">
             p>
             <p style="text-align:right;">（审稿：xx  网络编辑：xx）
             p>
         div>
      div>
   article>
div>

接着上面的代码：

#解析html
soup=BeautifulSoup(html,"lxml")#返回已解析的对象

#获取标题
title=soup.find('h1',class_='arti-title').string
#获取时间
update=soup.find('span',class_='arti-update').string
#获取正文标签
content=soup.find('div',class_='wp_articlecontent')

提取图片

我打算将新闻保存到markdown文件中，提取新闻中的图片的链接的地址，这样在md文件中就能显示出图片了。

#获取图片链接
base='学校官网url，用于和img标签中的相对地址拼接成绝对地址'
imgsTag=content.find_all('img')
imgsUrl=[]
for img in imgsTag:
    imgsUrl.append(base+img['src'])#拼接成完整的url
    img.extract()#删除图片标签

删除多余标签

#删除多余标签
for p in content.find_all('p',{'style':"text-align:center;"}):
    p.extract()
p=content.find('p', {'style': "text-align:right;"})
if(p!=None):
    p.extract()

保存到文件

# 拼接成字符串
#后来知道这样的提取方式其实不能完全提取到所有内容
fileContent=''
for i in content.contents:#遍历正文内容的所有子标签
    if(i.string!=None):#如果子标签里面有内容
        #print(i.string)#调试
        fileContent+=i.string#基本只剩下p标签了
        fileContent+='\n\n'
        
#保存到md文件
with open('data.md','w') as fout:
    fout.write(fileContent)

代码总览

import requests
from bs4 import BeautifulSoup#第4个版本改名bs4而不是全名那么长了
def getNews(url):
    '''
    提取页面的新闻与图片并存储为markdown文件
    :param url: 要爬取的目标网页url
    :return: 无
    '''
    #发出请求
    r=requests.get(url)
    html=r.content
    html=html.decode('utf-8')#转换编码
    #解析html
    soup=BeautifulSoup(html,"lxml")
    content=soup.article

    #获取标题
    title=soup.find('h1',class_='arti-title').string
    #获取时间
    update=soup.find('span',class_='arti-update').string
    #获取正文
    content=soup.find('div',class_='wp_articlecontent')
    #获取图片链接
    base='http://xxxxx.xxx'#学校官网url，用于和img标签中的相对地址拼接成绝对地址
    imgsTag=content.find_all('img')
    imgsUrl=[]
    for img in imgsTag:
        imgsUrl.append(base+img['src'])#拼接成完整的url
        img.extract()#删除图片标签
    #删除多余标签
    for p in content.find_all('p',{'style':"text-align:center;"}):
        p.extract()
    p=content.find('p', {'style': "text-align:right;"})
    if(p!=None):
        p.extract()
    # 拼接成字符串
    fileContent=''
    for i in content.contents:
        if(i.string!=None):
            #print(i.string)#调试
            fileContent+=i.string
            fileContent+='\n\n'


    with open('data.md','w') as fout:
        fout.write(fileContent)

提取多页面新闻

原理在上面说了，提取完单页基本上就完成了。

import requests
from bs4 import BeautifulSoup
def getNewsContents(url):
    '''
    爬取目录页面链接到的页面
    :param url: 新闻目录页面的url
    :return: 无
    '''
    #获取网页内容
    r=requests.get(url)#以get方式访问
    html=r.content
    html=html.decode('utf-8')
    #获取每篇新闻的链接
    base='http://xxxxx.xxx'#学校官网url，用于和相对地址拼接成绝对地址
    soup=BeautifulSoup(html,'lxml')
    for page_url in soup.find_all('a',class_='column-news-item'):
        page_url=base+'/'+page_url['href']
        print(page_url)
        getNews(page_url)#调用提取单页函数

day1进度

实现爬取长安大学综合新闻页面的公开新闻存入markdown文件中
复习了requests库的使用
学习了BeautifulSoup4库的基本使用

190304 周一

这一天主要是将前一天爬取的数据存入数据库。

将数据存入数据库

安装MySQL数据库

参考链接：

零基础入门python3爬虫-bilibili（里面的视频p4）

使用MySQL Workbench

MySQL Workbench是一个可视化工具，安装MySQL的时候自带（我安装的是最新版的），在安装目录找到它的exe然后加个快捷方式在桌面，可以方便地查看数据和执行SQL查询指令，具体使用方法可以问度娘。我现在也不是很会。

我创建的数据库名为news，里面创建了一个数据表chdnews。

连接数据库

和大多数数据库一样，MySQL是C/S模式的，也就是客户端（client）/服务端（server）模式的。数据库有可能在远程服务器上。想要使用数据库，就需要连接到数据库。

python中要使用数据库需要一个pymysql库。

下面是连接的代码：

import pymysql
#连接数据库
db = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='root', db='news', charset='utf8')

这个连接函数看参数名就可以看出含义了。

host：主机ip，127.0.0.1是回传地址，指本机。也就是连接本电脑的MySQL的意思
port：端口号，用来和ip一起指定需要使用数据库的软件。在安装的时候会让你设置，默认3306
user&passwd：用户名和密码，在安装的时候已经设置好了
db：你要连接的数据库的名字。一台电脑上可以有很多数据库，数据库里面可以有很多数据表。
charset：字符编码

插入数据

接着可以准备一个游标，游标大概是一个用于存储结果集开头地址的指针吧，我是这么理解的。在我学了更多数据库知识后可能会更新这一部分。

#创建游标
cursor = db.cursor()

接着执行SQL的插入语句：

#插入
cursor.execute("insert into chdnews(`title`,`article`) values('{0}','{1}')".format(title,fileContent))#此处变量为上文代码中的变量

这里的SQL语句是这样的：

insert into 数据表名(字段名1，字段名2) values(值1，值2)

后面的format函数是python的格式化函数，将变量的值加入到字符串中对应位置。

最后提交：

#提交更改
db.commit()

接着打开workbench，就会发现已经存入数据库了。（你得把代码放在上面提取单页新闻的函数那里，放在保存到文件的那部分代码那儿）

day2进度

下载并安装MySQL以及MySQL Workbench
使用pymysql库进行数据库的连接，实现了把第一天得到的数据存入数据库

190305 周二

初步了解模拟登录

最后的任务需要爬取登录后才能查看的页面，于是我去搜索了很多博客，只放一部分对我有帮助的链接。

参考链接：

模拟登录CSDN-博客园
模拟登录github-博客园

首先查看一下需要的登录数据：

打开登录网页，用F12打开开发者工具，选择network（网络）选项卡
登录你的账号，此时控制台会显示一大堆请求与响应，找到以post方式发送的请求，一般排在第一个
那里会显示几个栏目，找到Form Data（表单数据），这个里面是你填写登录表单之后使用POST方式发送给服务端的内容。这里面除了自己填写的账号密码之外还有一些东西，比如下图的lt,dllt,execution,_eventId,rmShown这些都是在表单的隐藏域中，查看登录页面的源代码是可以看的到的。这些隐藏起来的东西是为了检验你是否是从浏览器进来的，只要获取到这些东西，再加上头部信息，就能伪装成浏览器了
至于头部信息，在下图也可以看到我折叠起来的几个栏目，有一个是Request Headers，这是我们在点击登录按钮时发送的POST请求信息的信息头。将里面的User-Agent给复制到你代码里面存在一个字典里面等会用
把头部信息和表单数据都看一下，准备一下

[外链图片转存失败(img-0xIVpQvD-1568113919185)(https://HaneChiri.github.io/blog_images/article/spider_f12_form_data.png)]

#登录前的准备
login_url = 'http://xxxx.xxx'#登录页面的url
#头部信息
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
    #加上后面这些会后悔的，别加。
    'Host':'xx.xx.xx.xx',
    'Referer':'http://xxx.xxx?xxx=http://xxx.xx',
    'Origin':'http://xxx.xxx.xx'
}
#登录用的数据
login_data={
        'username': '你的账号',
        'password': '你的密码',
        'btn':'',
        'lt': LT-790162-J9kW2aEFsK3ihu4AzXcovdsJy6cYBM1552123884047-D1Nx-cas，
    #实际上lt并不能这样写上去，下文会解释。这里记录我自己的错误
        'dllt': 'userNamePasswordLogin',
        'execution': 'e1s1',
        '_eventId': 'submit',
        'rmShown': 1
    }

数据准备好之后就开始登录，使用的是requests的另一个方法——post。

向服务器发出请求（request）的方式有get和post，查看html源代码的时候在表单标签处可以看到表单提交的方法。如：

<form id="casLoginForm" method="post">

像这样写html代码会让浏览器在你按下登录按钮的时候以post的方式提交表单，也就是以post的方式向服务器发起request，将form data发送过去。

post方法的好处是在发送过程中会隐藏你的表单数据，不会被直接看到；

而前面使用过的get方法，会把你的表单数据加在url后面，网址后边以问号开头，以&连接的就是发送过去的参数。

涉及登录用post比较好，以免轻易泄露密码。

#以post方式发出登录请求
r=requests.post(login_url,headers=headers,data=login_data)

按理来说应该可以了呀，为什么不行？仍然得到登录页面。在这一天我折腾了很久，没有得到答案。

不过在找资料时却学到了其他的一些知识，关于cookie和session。

cookie和session

我目前的理解（如果不对欢迎留言）：

http是无状态协议，两次访问都是独立的，不会保存状态信息。也就是你来过一次，下次再来的时候网站还是当你第一次来。那么怎么知道你来过，从而给你还原之前的数据呢？就有人想出cookie和session两种方式。

cookie（直译：小甜饼）是服务端（网站服务器）收到客户端（你电脑）的request（请求）的时候和response（响应）一起发给客户端的数据。客户端把它存在文件里面，并在下一次访问这个网站时将cookie随着request一起发送过去，这样服务端就会知道你就是之前来过的那个人了。cookie存储在客户端。

客户端发送request
服务端发送response附带一个cookie（一串数据）
客户端第二次访问时把cookie复制一份一起发过去
服务端看到你的cookie就知道你是谁了

session（会话）是在服务端内存中保存的一个数据结构，一旦有客户端来访问，那么就给这个客户端创建一个新的session在服务端的内存，并将它的session ID随着response发回给客户端。客户端第二次访问时，会将被分配的SID随着request一起发过来，服务端在这边验证SID之后就会知道你来过。session存储在服务端。

客户端发送request
服务端发送response并在自己这边创建一个session（一堆数据）并发送一个session ID给客户端
客户端第二次访问时把session ID一起发过去
服务端看到你的session ID就知道你是谁了

不过这俩是用来保持登录的，我还没登录成功想这个干啥？请看下一天。

day3进度

初步了解cookie和session的概念
了解如何使用chrome浏览器的控制台查看post表单信息
尝试使用requests的post方法模拟登录，失败，返回登录页面

190306 周三

表单校验码（非验证码）

怎么弄都不成功，都跳回登录页面。我只好去询问组长这是为什么。

原来我没发现表单校验码会变的！

一直没注意啊啊啊啊啊啊！

我没有认真比对过两次打开的乱码不一样，看结尾一样就以为一样了。其中的lt这个域每次打开网页都是不一样的，随机出的！

既然知道了问题，就好解决了。

#获取登录校验码
html=requests.post(login_url,headers=headers).text
soup=BeautifulSoup(html,'lxml')
lt=soup.find('input',{'name':'lt'})['value']
dllt=soup.find('input',{'name':'dllt'})['value']
execution = soup.find('input', {'name': 'execution'})['value']
_eventId = soup.find('input', {'name': '_eventId'})['value']
rmShown = soup.find('input', {'name': 'rmShown'})['value']
login_data={
    'username': input("请输入学号："),
    'password': input("请输入密码："),
    'btn':'',
    'lt': lt,
    'dllt': dllt,
    'execution': execution,
    '_eventId': _eventId,
    'rmShown': rmShown
}

为了保险，我把其他的表单域也给解析赋值给变量了。

不过仍然无法登陆成功，而是进入了一个诡异的页面:


<html>
<head>
<title>Welcome to nginx!title>
<style>
    body {
        width: 35em;
        margin: 0 auto;
        font-family: Tahoma, Verdana, Arial, sans-serif;
    }
style>
head>
<body>
<h1>Welcome to nginx!h1>
<p>If you see this page, the nginx web server is successfully installed and
working. Further configuration is required.p>

<p>For online documentation and support please refer to
<a href="http://nginx.org/">nginx.orga>.<br/>
Commercial support is available at
<a href="http://nginx.com/">nginx.coma>.p>

<p><em>Thank you for using nginx.em>p>
body>
html>

确实有进展，但是这是啥？nginx？查了一下是一个高性能的HTTP和反向代理服务器，但是和我现在登录有什么关系呢？（黑人问号.jpg）

利用session保持校验码

即使登录成功，还有一个问题无法解决，那就是我获取校验码的request和登录用的request是两次不同的访问请求呀，这样校验码又会变化。

我想起了前一天看到的session，这玩意不就能让服务端记住我？（cookie试了一下，保存下来的是空的文件不知道怎么回事）

于是新建一个会话：

#新建会话
session=requests.session()

在获取校验码的时候改成使用session变量来发起请求：

#获取登录校验码
html=session.post(login_url,headers=headers).text

这里的session是在客户端创建的，并不是服务端那个，我想它可能存储的是服务端发送过来的session ID吧。

同理在正式发送请求时这样：

#登录
r=session.post(login_url,headers=headers,data=login_data)

这样就能让服务端知道我是刚刚获取校验码的那个小伙汁：D

在这一天我没有办法验证是否有效，不过在之后我验证了这个方法的成功性。

day4进度

知道了原来有个每次会变化的校验码“lt”，找到了跳转回登录页面的原因。使用Beautifulsoup来获取每次的校验码，不过仍然没有解决无法登录的问题
使用session对象来保证获取校验码和登录时是同一个会话，未验证

190307 周四

多余的头部信息

我终于发现了问题所在！！！！！

headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36',
    #'Host':'xxx.xxx.xxx.xxx',
    #'Referer':'http://xxx.xxx.xxx.xxx...',#不详细打码了
    #'Origin':'http://xxx.xxx.xxxx'
    #去掉多余的头信息才成功登录！！！！！卡了很久没想到是因为这个
}

头部信息写多了，我只保留了User-Agent之后成功登录了，你们能体会到我当时有多开心吗！

我将成为~~新世界的卡密~~小组里面最快完成的人！

解决了这个问题，剩下的就特别简单了。

当时我有一个下午的时间，于是我将进度迅速推进。

爬取通知公告

设登录页面为pageA，登录之后的页面跳转到pageB，而pageB有一个按钮跳转到pageC，这个pageC就是day1的时候的目录页面，里面有着pageC1、pageC2、pageC3……等页面的链接，而这个pageC最后面还有个按钮用于跳转到目录的下一页，也就是pageC?pageIndex=2，还有137页公告栏目录。

没有什么新的东西，和day1说的爬取方式差不多，只是页面正文的格式和day1的新闻不太一样。核心结构如下，我省略了很多：

<html>
 <body>
  <div class="bulletin-content" id="bulletin-contentpe65">
   <p style=";background: white">
    <a name="_GoBack">
    a>
    <span style="font-size: 20px;font-family: 仿宋">
     校属各单位：
    span>
   p>
   <p>
    <br/>
   p>
  div>
 body>
html>

大概就是一个

标签里面放一个或多个标签，而这里面可能还会嵌套几个标签，里面才有内容，而两个内部的之间还可能有内容。

这要怎么解析？

在尝试了很多方案之后，我终于百度到一个函数：

tag.get_text()#提取名为tag的bs4标签的内部的所有文字

参考链接：

BeautifulSoup获取标签中包含的文字-CSDN-niewzh（正是这个博客解决了我的问题）
BeautifulSoup中的.text方法和get_text()方法的区别-CSDN

解决方案：

#获取正文内容
html=session.post(url,headers=headers).text
soup=BeautifulSoup(html,'lxml')

article=soup.find('div',class_='bulletin-content')
news_content=''
for p in article.find_all('p'):
    if p.span!=None:#如果p含有一层span
        text=str(p.get_text()).strip()#获取内容并去除多余空格
        news_content+=text+'\n'

接着我就把爬下来的东西存到数据库里面去了。弄完之后得去赶作业了，这一天的时间用完了。

day5进度

1.找到无法登录且跳转到未知页面的原因是头部信息加了多余的值，解决之后成功登录到信息门户，实现模拟登陆
2.利用之前爬取单个页面到文件的方法，用beautifulsoup解析并保存内容到文件
3.存入MySQL数据库中
4.还差爬取多页目录的功能，预计明天完成。整理代码后可提交

190308 周五

整理代码

要用到的库

import requests
import re
from bs4 import BeautifulSoup
import pymysql

get_bulletin

def get_bulletin(page_count):
    '''
    目录有多页，从第一页开始获取，往后获取page_count页的目录，并读取目录指向的所有公告
    :param page_count: 要爬取的目录页面的数量
    :return: 无
    '''
    para={
        'pageIndex':1,
        'pageSize':'',
        '.pmn':'view',
        '.ia':'false',
        'action':'bulletinsMoreView',
        'search':'true',
        'groupid':'all',
        '.pen':'pe65'
    }
    catalogue_url='http://xxx.xxx.xxx.cn/detach.portal'#未加参数的公告目录页url
    session = login()  # 获取已登录的session
    for i in range(1,page_count+1):
        para['pageIndex']=i#设置公告当前页的索引

        # 从目录页获取公告页面链接
        html = session.post(catalogue_url,params=para).text
        soup = BeautifulSoup(html, 'lxml')
        rss_title = soup.find_all('a', class_='rss-title')
        #将得到的链接与标题组装成字典
        bulletin_dict = {}
        for url in rss_title:
            bulletin_title = str(url.span.string).strip()
            bulletin_url = 'http://xxx.xx.xx.cn/' + url['href']
            bulletin_dict.setdefault(bulletin_title, bulletin_url)#添加一条公告记录

        #保存公告到数据库
        for bulletin_title, bulletin_url in bulletin_dict.items():
            #saveInTXT(bulletin_url, session, bulletin_title)#这个是保存到txt文件的函数，用于测试
            saveInDB(news_url, session, news_title)

login

def login():
    """
    登录并返回已经登录的会话
    :return: 已经登录的会话（session）
    """
    #设置
    login_url = 'http://xxx.xx.xx.cn/authserver/login?service=http%3A%2F%2F%2F'
    headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
    }
    #新建会话
    session=requests.session()

    #获取登录校验码
    html=session.post(login_url,headers=headers).text
    soup=BeautifulSoup(html,'lxml')
    lt=soup.find('input',{'name':'lt'})['value']
    dllt=soup.find('input',{'name':'dllt'})['value']
    execution = soup.find('input', {'name': 'execution'})['value']
    _eventId = soup.find('input', {'name': '_eventId'})['value']
    rmShown = soup.find('input', {'name': 'rmShown'})['value']
    login_data={
        'username': input("请输入学号："),
        'password': input("请输入密码："),
        'btn':'',
        'lt': lt,
        'dllt': dllt,
        'execution': execution,
        '_eventId': _eventId,
        'rmShown': rmShown
    }

    #登录
    response=session.post(login_url,headers=headers,data=login_data)
    if response.url=='http://xxx.xx.xx.cn/':
        print('登录成功！')

    return session

saveInTXT

def saveInTXT(url, session, title):
    '''
    获取单个公告页面的公告并保存到txt
    :param url: 要获取的页面的url
    :param session:已经登录的会话
    :param title:公告标题
    :return:无
    '''

    #将标题转换为可以作为文件名字的形式
    reg = r'[\/:*?"<>|]'
    title = re.sub(reg, "", title)

    path='bullet\\' + title+'.txt'#保存在py文件目录下的bulletin文件夹内，以txt格式保存
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
    }
    '''
    #测试代码，从文件读取手动获取的公告html页面，单机测试
    with open('new.txt','r',encoding='utf8') as fin:
        html=fin.read()
    '''
    html=session.post(url,headers=headers).text
    soup=BeautifulSoup(html,'lxml')
    #print(soup.prettify())
    bulletin_content=soup.find('div', class_='bulletin-content')

    bulletin_content= ''
    for p in bulletin_content.find_all('p'):
        if p.span!=None:#如果p含有一层span
            text=str(p.get_text()).strip()
            bulletin_content+= text + '\n'

    with open(path,'w',encoding='utf8') as fout:
        fout.write(bulletin_content)

    print('“{}”成功保存到{}'.format(title,path))

saveInDB

def saveInDB(url, session, title):
    '''
    获取单个公告页面的公告并保存到txt
    :param url: 要获取的页面的url
    :param session:已经登录的会话
    :param title:公告标题
    :return:无
    '''
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
    }

    html=session.post(url,headers=headers).text
    soup=BeautifulSoup(html,'lxml')
    bulletin_content=soup.find('div', class_='bulletin-content')

    bulletin_content= ''
    for p in bulletin_content.find_all('p'):
        if p.span!=None:#如果p含有一层span
            text=str(p.get_text()).strip()
            bulletin_content+= text + '\n'

    #保存到数据库
    db = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='root', db='news', charset='utf8')
    cursor = db.cursor()
    cursor.execute("insert into chdnews(`title`,`content`) values('{0}','{1}')".format(title, bulletin_content))
    db.commit()

    print('已经成功保存公告到数据库：“{}”'.format(title))

调用

#调用
get_bulletin(10)#爬取10页公告

暂时没有将其通用化，直接将网址写死在函数里面了。

day6进度

通过调整服务门户的url中的参数来获取通知公告的每一个目录页的url，从而爬取所有公告
将学习中写的测试代码重新构造整理，添加函数注释，提交任务

你可能感兴趣的:(学习笔记,python,spider)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

python爬虫学习笔记2模拟登录与数据库

前言

转载声明

任务介绍

过程记录

190303 周日

练习爬取公开页面

提取单页面新闻

编码问题

解析网页（bs4）

提取图片

删除多余标签

保存到文件

代码总览

提取多页面新闻

day1进度

190304 周一

将数据存入数据库

安装MySQL数据库

使用MySQL Workbench

连接数据库

插入数据

day2进度

190305 周二

初步了解模拟登录

cookie和session

day3进度

190306 周三

表单校验码（非验证码）

利用session保持校验码

day4进度

190307 周四

多余的头部信息

爬取通知公告

day5进度

190308 周五

更多的目录页

整理代码

get_bulletin

login

saveInTXT

saveInDB

调用

day6进度

你可能感兴趣的:(学习笔记,python,spider)