代码骑士

保姆级爬虫零基础一条龙式教程（超详细）

一、准备工作：

1、网页分析：

进入目标网页，按下键盘F12，必须要认识图中画圈的部分。

箭头：

这个小箭头非常实用，点击后，在正常网页中点击哪个部分，代码区高光就会找到相应的代码。

Element：

包含网页源码，很多数据都从这里获得。

NetWork：

网络工作记录，按下图顺序点击，会得到很多响应信息。比如：请求头(Header)信息、Cookie、User-Agent等等，作用下面说。

2、环境配置：

需要提前下载好，这部分下载去网上搜就行，这里不做过多描述。

python包安装：

bs4->BeautifulSoup（用于网页解析，获取数据）

re->正则表达式进行文字匹配

urllib.request,urllib.error->指定URL获取网页数据

xlwt->进行Excel操作

sqlite3->进行数据库操作#本教程面向编程零基础不会涉及数据库操作，这个可以不下

（后面还会用到一些其他的，看到再说）

二、构建流程：

四个模块：获取-解析-保存-可视化。后面都会写相应的函数。

1、获取网页数据

首先获取网页数据，想要获取网页数据，就要向目标网页发出请求，请求的方式有很多种，python爬虫最常用的有两种Get和Post，这里主要介绍一下这两种请求怎么使用。

这是我们测试请求方式的网站：

httpbin.orghttp://httpbin.org/

打开点击HTTP Methods：

选择一种测试方式：

首先我们来做一个Get请求：

import urllib.request as ur

res = ur.urlopen("http://httpbin.org/get")
print(res.read().decode('utf-8'))

非常简单使用的请求方式，平时只要加入一个请求头就可以了，不需要数据包等参数。

我们再来看一下Post请求怎么做：

post请求需要我们封装好一个字典形式的数据包并解码成二进制的格式传递给要访问的网页，同时在网址后面要有 /post 标识，然后将数据包传入，代码如下：

import urllib.request as ur
import urllib.parse as up

data = bytes(up.urlencode({"hello":"world"}),encoding="utf-8")#字典封装数据包解码成2进制
res = ur.urlopen("http://httpbin.org/post",data=data)#使用post请求
print(res.read().decode('utf-8'))

那么，这种请求发出去都包含什么信息呢？我们来运行上述代码来看一下：

上图就是网站接收到的你发出的请求，也就是你的数据信息。非常尴尬的是，你的代理直接写的就是python-urllib，这无疑就是在对你访问的网页进行挑衅，“我就是爬虫，我就是来爬你的！”这样做无疑是非常愚蠢的，一般包容性强的网站可不会理会你，但是如果遇到强势一点的网站，那么迎接你的肯定就是：418或者403。

所以我们通常要对爬虫进行伪装，也就是用浏览器的身份去爬取信息而不是python。稍后我们会讲如何伪装，先别急，先看看其他操作。

超时处理：

import urllib.request as ur

res = ur.urlopen("http://httpbin.org/get",timeout=0.01)
print(res.read().decode('utf-8'))

如果响应时间超过timeout就代表程序没有响应，这时会报错。然后我们进行超时处理。

*这里timeOut设置成0.01是为了测试超时效果

import urllib.request as ur
import urllib.error

try:
    res = ur.urlopen("http://httpbin.org/get",timeout=0.01)
    print(res.read().decode('utf-8'))
except urllib.error.URLError as e:
    print("Time Out!")

查看状态码：

import urllib.request as ur
import urllib.error

res = ur.urlopen("http://douban.com")
print(res.status)

提示418，证明你的爬虫身份暴露了。

输出网页头：

import urllib.request as ur
import urllib.error

res = ur.urlopen("http://baidu.com")
print(res.getheaders())

比对一下：

无差别。

上面这些示例主要想说明：requset的功能是十分强大的，它所获取的信息是你能在网页上找到的所有信息。

获取部分信息：

import urllib.request as ur
import urllib.error

res = ur.urlopen("http://www.baidu.com")
#print(res.getheaders());
print(res.getheader("Set-Cookie"))

由此可见Request函数貌似可以访问网页上的所有信息这样我们也就可以获取网页代理的信息，通过这个代理就可以对爬虫进行伪装，防止被网站发现了。

伪装爬虫——模拟网页代理：

首先，找到我们浏览器的代理信息：

F12 -- NetWork -- Header -- User-Agent

1、复制粘贴到代码中封装成键值对。

如果封装一个代理还是会被发现是爬虫，那就多封装几个信息加强对网站的迷惑性。

通常还会使用：Remote Address等等。

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36"}

2、设置请求方式：(get可以不用写/get)

req = ur.Request(url = url,data=data,headers = headers,method="POST")

3、读取网页源码：

import urllib.request as ur
import urllib.error as ue
import urllib.parse as up

url = "http://httpbin.org/post"

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36"}

data = bytes(up.urlencode({'name':'eric'}),encoding='utf-8')
req = ur.Request(url = url,data=data,headers = headers,method="POST")
res = ur.urlopen(req)
print(res.read().decode("utf-8"))

输出结果：

妈妈再也不用担心我的爬虫被发现啦！

下面再用get请求的方式访问一下刚刚被发现的网站：

import urllib.request as ur
import urllib.error as ue
import urllib.parse as up

url = "https://douban.com"

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36"}

req = ur.Request(url = url,headers = headers)
res = ur.urlopen(req)
print(res.read().decode("utf-8"))

成功打入对方内部，是获取信息的第一步。

下面进行获取数据：

示例网址：豆瓣电影 Top 250

（1）得到一个指定页面信息

import urllib.request as ur
import urllib.error as ue
import urllib.parse as up

#得到一个指定的URL内容

def askURL(url):
    #模拟请求头
    header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36"}
    #保存网页信息的字符串
    html=""
    #请求网页信息
    req = ur.Request(url,headers=header)
    try:
        res = ur.urlopen(req)
        html=res.read().decode("utf-8")
        print(html)
    except ue.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

if __name__ == "__main__":
    url = "https://movie.douban.com/top250?end=249&filter="
    askURL(url)
    print(1)

用循环获取多个页面信息：

import urllib.request as ur
import urllib.error as ue
import urllib.parse as up

#得到一个指定的URL内容
def askURL(url):
    #模拟请求头
    header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36"}
    #保存网页信息的字符串
    html=""
    #请求网页信息
    req = ur.Request(url,headers=header)
    try:
        res = ur.urlopen(req)
        html=res.read().decode("utf-8")
        print(html)
    except ue.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html

#爬取网页
def getData(url):
    dataList = []
    for i in range(0,10):#调用获取页面信息函数10次250条
        url = url+str(i*25)#左闭右开
        html = askURL(url)#保存获取到的网页源码
        #逐一解析



if __name__ == "__main__":
    url = "https://movie.douban.com/top250?start="
    #1、爬取网页
    dataList = getData(url)
    savepath = ".\\豆瓣电影Top250.xls"

2、解析网页数据

解析网页数据常用的库就是BeautifulSoup

示例：百度一下，你就知道

(1)、获取网页Tag（标签）：

import urllib.request as ur
from bs4 import BeautifulSoup

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

print(html.title)
print(html.a)

print(type(html.title))
print(type(html.a))

print("标签及其内容：默认是第一个找到的")

输出：

(2)获取NavigableString（标签里的内容）：

以字符串形式：

import urllib.request as ur
from bs4 import BeautifulSoup

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

print(html.title)
print(html.title.string)

输出：

获取标签的内容以字典形式：

import urllib.request as ur
from bs4 import BeautifulSoup

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

print(html.a)
print(html.a.attrs)

输出：

（3）获取BeautifulSoup（整个网易文档）：

import urllib.request as ur
from bs4 import BeautifulSoup

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

print(html)
print(type(html))

输出：

（4）获取Comment（注释：特殊的NavigableString输出内容不包含字符串）：

import urllib.request as ur
from bs4 import BeautifulSoup

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

print(html.a.string)

输出：

(5)遍历BeautifulSoup：

我们什么时候用遍历这个词？通常是用在一组可连续查找的数据结构中对吧，比如列表、树等等。在我们的beautifulsoup中获取的内容也都是存在列表中的，如下：

import urllib.request as ur
from bs4 import BeautifulSoup

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

print(html.body.contents)

输出：

既然是列表，那么我们就可以用下标来找其中的某一个固定元素：

import urllib.request as ur
from bs4 import BeautifulSoup

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

print(html.body.contents[0])

除了content以外，还有更多的获取子节点的方法：

BeautifulSoup——搜索

上面讲的是一种遍历方法，把获取的文件内容（结点）放在容器（生成器）中然后遍历找到某一个想要获取的信息（元素）。

接下来介绍一种更加实用且便捷的方式，通过搜索来到自己想要的内容。

（1）find_all()

字符串过滤：会找到与字符串完全匹配的内容。

import urllib.request as ur
from bs4 import BeautifulSoup

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.find_all("a")
print(t_list)

(2)正则表达式搜索：使用search（）方法来匹配内容

import urllib.request as ur
from bs4 import BeautifulSoup
import re


url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.find_all(re.compile("a"))
print(t_list)

这次输出的内容明显和上次的不同，因为在使用正则表达式时要按照符合正则表达式的内容进行查找，而不是单独去找一个带“a”的字符串。

但是相同点是，查找的范围都是标签，字符串查找“a”是找Tag就是a的标签

正则表达式查找“a”是找Tag中带有a的标签。

（3）方法：传入一个函数，根据函数来搜索。

import urllib.request as ur
from bs4 import BeautifulSoup
import re

def name_is_exists(tag):
    return tag.has_attr("name")

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.find_all(name_is_exists)

print(t_list)

查找所有带有name的标签。

（4）kwargs（参数）搜索

查找标签中带有id=head的字段。

import urllib.request as ur
from bs4 import BeautifulSoup
import re

def name_is_exists(tag):
    return tag.has_attr("name")

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.find_all(id = "head")

print(t_list)

查找一段带有这个超链接的字段。

mport urllib.request as ur
from bs4 import BeautifulSoup
import re

def name_is_exists(tag):
    return tag.has_attr("name")

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.find_all(href = "http://news.baidu.com")

print(t_list)

（5）text 文本参数

获取文本内容

import urllib.request as ur
from bs4 import BeautifulSoup
import re

def name_is_exists(tag):
    return tag.has_attr("name")

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.find_all(text = "hao123" )

for i in t_list:
    print(i)

还可以用列表去查找文本

import urllib.request as ur
from bs4 import BeautifulSoup
import re

def name_is_exists(tag):
    return tag.has_attr("name")

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.find_all(text = ["hao123","新闻","视频"] )

for i in t_list:
    print(i)

import urllib.request as ur
from bs4 import BeautifulSoup
import re

def name_is_exists(tag):
    return tag.has_attr("name")

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.find_all(text = re.compile("\d") )#用正则表达查找带有特定内容的文本字符串

for i in t_list:
    print(i)

（6）limit 参数

限定查找个数。

import urllib.request as ur
from bs4 import BeautifulSoup
import re

def name_is_exists(tag):
    return tag.has_attr("name")

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.find_all("a",limit=3)

for i in t_list:
    print(i)

(7)css选择器

通过标签查找

import urllib.request as ur
from bs4 import BeautifulSoup
import re

def name_is_exists(tag):
    return tag.has_attr("name")

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.select("title")

for i in t_list:
    print(i)

（8）通过类名查找

import urllib.request as ur
from bs4 import BeautifulSoup
import re

def name_is_exists(tag):
    return tag.has_attr("name")

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.select(".mnav")

for i in t_list:
    print(i)

（9）通过id查找

import urllib.request as ur
from bs4 import BeautifulSoup
import re

def name_is_exists(tag):
    return tag.has_attr("name")

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.select("#u1")

for i in t_list:
    print(i)

（10）通过属性查找

import urllib.request as ur
from bs4 import BeautifulSoup
import re

def name_is_exists(tag):
    return tag.has_attr("name")

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.select("a[class = 'text-color']")

for i in t_list:
    print(i)

（11）通过子标签查找

import urllib.request as ur
from bs4 import BeautifulSoup
import re

def name_is_exists(tag):
    return tag.has_attr("name")

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.select("div>div")

for i in t_list:
    print(i)

（12）通过兄弟标签查找

import urllib.request as ur
from bs4 import BeautifulSoup
import re

def name_is_exists(tag):
    return tag.has_attr("name")

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.select("div~div")

for i in t_list:
    print(i)

（13）通过下标查找文本

import urllib.request as ur
from bs4 import BeautifulSoup
import re

def name_is_exists(tag):
    return tag.has_attr("name")

url = ur.urlopen("https://baidu.com")

html = BeautifulSoup(url,'html.parser')

t_list = html.select("div~div")

print(t_list[1].get_text())

正则表达式——Re库

举个例子：

字符串的匹配测试：

import re

slist=["aaa","AA","ACA","AAA","CAB"]#等待校验的字符串列表

bat = re.compile("AA")#定义正则表达式

for i in slist:
    res = bat.search(i)#搜索与之匹配的字符串
    print(res)

上述匹配也可以简写：

import re

bat = re.compile("AA")#定义正则表达式

m = re.search("AA","ABCAA");

print(m)

findall（）与正则表达式结合

将符合规则的字符存入列表。

import re

print(re.findall("[A-Z]","sdsaASDSAdfdsSasdSda"));

sub（）函数（替换）

import re

print(re.sub("a","A","sdsaASDSAdfdsSasdSda"));#所有a被A替换

建议在正则表达式中，被比较的对象前面加上 r 避免转义字符被误用

a = r"\asdas\'"

正则提取

找到肖申克的救赎代码信息：

对内容进行正则提取：

#创建正则表达式
#影片链接
findLink=re.compile(r'')#(.*?):.*：任意字符出现多次 ?:前面的元组内容出现仅出现一次
#影片图片
findImagSrc=re.compile(r'(.*)')
#评分
findRating = re.compile(r'(.*)')
#评价人数
findJudge = re.compile(r'(\d)*人评价')
#找到概况
findInq = re.compile(r'(.*)')
#相关内容
findBd = re.compile(r'(.*)
',re.S)

标签解析

将爬取数据存入列表

import urllib.request as ur
import urllib.error as ue
import urllib.parse as up
from bs4 import BeautifulSoup
import re

#得到一个指定的URL内容
def askURL(url):
    #模拟请求头
    header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.44"}
    #保存网页信息的字符串
    html=""
    #请求网页信息
    req = ur.Request(url,headers=header)
    try:
        res = ur.urlopen(req)
        html=res.read().decode("utf-8")
        #print(html)
    except ue.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html

#创建正则表达式
#影片链接
findLink=re.compile(r'')#(.*?):.*：任意字符出现多次 ?:前面的元组内容出现仅出现一次
#影片图片
findImagSrc=re.compile(r'(.*)')
#评分
findRating = re.compile(r'(.*)')
#评价人数
findJudge = re.compile(r'(\d)*人评价')
#找到概况
findInq = re.compile(r'(.*)')
#相关内容
findBd = re.compile(r'(.*?)',re.S)

#爬取网页
def getData(url):
    dataList = []
    for i in range(0,1):#调用获取页面信息函数10次250条
        url = url+str(i*25)#左闭右开
        html = askURL(url)#保存获取到的网页源码
        #逐一解析
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):#查找比较好的字符串放入列表
            #print(item) 测试：查看电影item全部信息
            data = [] #保存一部电影的所有信息
            item = str(item)
             #影片详情链接
            Link = re.findall(findLink,item)[0]#re库用来通过正则表达式查找指定字符串，0表示只要第一次找到的
            data.append(Link)
            ImgSrc = re.findall(findImagSrc,item)[0]
            data.append(ImgSrc)
            Title = re.findall(findTitle,item)#区分中英文
            if len(Title)==2:
                ctitle=Title[0]
                data.append(ctitle)
                otitle = Title[1].replace("/","")#去掉无关符号
                data.append(otitle)#添加外国名
            else:
                data.append(Title[0])
                data.append(' ')#表中留空
            Rating = re.findall(findRating,item)[0]
            data.append(Rating)
            Judge = re.findall(findJudge,item)[0]
            data.append(Judge)
            Inq = re.findall(findInq,item)
            if len(Inq)!=0:
                Inq=Inq[0].replace("。","")#去掉句号
                data.append(Inq)
            else:
                data.append(" ")#表留空
            Bd = re.findall(findBd,item)[0]
            Bd = re.sub('(\s+)?'," ",Bd)#去掉

            Bd = re.sub('/'," ",Bd)#去掉/
            data.append(Bd.strip())#去掉前后空格
            dataList.append(data)#把处理好的一部电影信息放入dataList
        print(dataList)
        return dataList

if __name__ == "__main__":
    url = "https://movie.douban.com/top250?start="
    #1、爬取网页
    dataList = getData(url)
    savepath = ".\\豆瓣电影Top250.xls"

3、保存数据

保存数据到Excel

四步保存法：

创建表

创建子表

写入数据

保存数据

import xlwt

workbook = xlwt.Workbook(encoding="utf-8")#创建workbook对象
worksheet = workbook.add_sheet('sheet1')#创建工作表
worksheet.write(0,0,'hello')#0行0列存入内容hello
workbook.save('student.xls')#保存数据

实例：用python在excel中打印九九乘法表：

import xlwt

workbook = xlwt.Workbook(encoding="utf-8")#创建workbook对象
worksheet = workbook.add_sheet('sheet1')#创建工作表
for k in range(1,10):
    for i in range(1,10):
        if i<=k:
            worksheet.write(k-1,i-1,str(i*k))#0行0列存入内容hello
workbook.save('student.xls')#保存数据

完善之前的代码：

import urllib.request as ur
import urllib.error as ue
import urllib.parse as up
from bs4 import BeautifulSoup
import re
import xlwt

#创建正则表达式
#影片链接
findLink=re.compile(r'')#(.*?):.*：任意字符出现多次 ?:前面的元组内容出现仅出现一次
#影片图片
findImagSrc=re.compile(r'(.*)')
#评分
findRating = re.compile(r'(.*)')
#评价人数
findJudge = re.compile(r'(\d*)人评价')
#找到概况
findInq = re.compile(r'(.*)')
#相关内容
findBd = re.compile(r'(.*?)',re.S)


def main():
    baseurl = "https://movie.douban.com/top250?start="
    datalist = getData(baseurl)
    savepath = "douban.xls"
    saveData(datalist,savepath)

#得到一个指定的URL内容
def askURL(url):
    #模拟请求头
    header = {"Remote Address":"140.143.177.206:443","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36"}
    #保存网页信息的字符串
    html=""
    #请求网页信息
    req = ur.Request(url,headers=header)
    try:
        res = ur.urlopen(req)
        html=res.read().decode("utf-8")
        #print(html)
    except ue.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html

#爬取网页
def getData(baseurl):
    dataList = []#用来存储网页信息
    for i in range(0,10):#调用获取页面信息函数10次250条
        url = baseurl+str(i*25)#左闭右开
        html = askURL(url)#保存获取到的网页源码
        #逐一解析
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):#查找比较好的字符串放入列表
            #print(item) 测试：查看电影item全部信息
            data = [] #保存一部电影的所有信息
            item = str(item)
             #影片详情链接
            Link = re.findall(findLink,item)[0]#re库用来通过正则表达式查找指定字符串，0表示只要第一次找到的
            data.append(Link)
            ImagSrc = re.findall(findImagSrc,item)[0]
            data.append(ImagSrc)
            Title = re.findall(findTitle,item)#区分中英文
            if len(Title)==2:
                ctitle=Title[0]
                data.append(ctitle)
                otitle = Title[1].replace("/","")#去掉无关符号
                data.append(otitle)#添加外国名
            else:
                data.append(Title[0])
                data.append(' ')#表中留空
            Rating = re.findall(findRating,item)[0]
            data.append(Rating)
            Judge = re.findall(findJudge,item)[0]
            data.append(Judge)
            Inq = re.findall(findInq,item)
            if len(Inq)!=0:
                Inq=Inq[0].replace("。","")#去掉句号
                data.append(Inq)
            else:
                data.append(" ")#表留空
            Bd = re.findall(findBd,item)[0]
            Bd = re.sub('(\s+)?'," ",Bd)#去掉

            Bd = re.sub('/'," ",Bd)#去掉/
            data.append(Bd.strip())#去掉前后空格
            dataList.append(data)#把处理好的一部电影信息放入dataList

    return dataList

def saveData(datalist,savepath):
    print("saving")
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)#创建workbook对象
    sheet = book.add_sheet('豆瓣电影Top',cell_overwrite_ok=True)#创建工作表
    col=("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
    for i in range(0,8):
        sheet.write(0,i,col[i])#列名
    for i in range(0,250):
        print("第%d条"%i)
        data = datalist[i]
        for j in range(0,8):#数据
            sheet.write(i+1,j,data[j]) #保存
    book.save(savepath)#保存


if __name__ == "__main__":
    main()
    print("爬取成功！")

符合预期效果。

4、数据可视化

制作词云：

掩图：

词图：

环境配置：

import jieba#分词
from matplotlib import pyplot as plt#绘图数据可视化
from wordcloud import WordCloud#词云
from PIL import Image#图像处理
import numpy as np#矩阵运算
import pandas as  pd
import re

示例：

import jieba#分词
from matplotlib import pyplot as plt#绘图数据可视化
from wordcloud import WordCloud#词云
from PIL import Image#图像处理
import numpy as np#矩阵运算
import pandas as  pd
import re

data = pd.read_excel('douban.xls')#打开Excel文件
data_cy = data.copy()#不影响原数据所以拷贝一份
#print(data.iloc[0:4,:2])#从x开始到第y行的前x列
#print(data.iloc[[0],[2,3]])#第0行的2、3列
list=[]
for i in range(0,250):
    datas = data.iloc[[i],[2]]#获取名字
    datas = str(datas).strip()
    datas = re.sub(r"影片中文名\n\d*","",datas)
    datas = str(datas).strip()#再去掉一次空格
    list.append(datas)

#print(list)#得到影片名字的列表

#获取所有文字
text=""
for item in list:
    text+=item
#print(text)

#分词
cut = jieba.cut(text)
string = " ".join(cut)
print(string)#1220

img = Image.open("kobe.jpg")
img_=np.array(img)
wc=WordCloud(
    mask=img_,
    background_color='white',
    font_path='msyh.ttc'
    )

wc.generate_from_text(string)

fig = plt.figure(1)
plt.imshow(wc)
plt.axis('off')
plt.savefig("D:\代码文件夹\VS代码\PythonApplication30\PythonApplication30\wc.jpg")

你可能感兴趣的:(Python数据分析,爬虫)

Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Python数据分析与可视化程序媛小果 python python 数据分析开发语言
Python数据分析与可视化在数据驱动的商业世界中，数据分析和可视化成为了理解复杂数据集、做出明智决策的关键工具。Python，作为一种功能强大且易于学习的编程语言，提供了丰富的库和框架，使得数据分析和可视化变得简单高效。本文将探讨Python在数据分析和可视化中的应用，包括数据预处理、分析、以及如何通过可视化工具将数据洞察转化为可操作的策略。1.数据分析的重要性数据分析是提取数据中有用信息的过程
Selenium使用指南程序员杰哥 selenium 测试工具 python 测试用例职场和发展程序人生功能测试
概述selenium是网页应用中最流行的自动化测试工具，可以用来做自动化测试或者浏览器爬虫等。官网地址为：相对于另外一款web自动化测试工具QTP来说有如下优点：免费开源轻量级，不同语言只需要一个体积很小的依赖包支持多种系统，包括Windows，Mac，Linux支持多种浏览器，包括Chrome，FireFox，IE，safari，opera等支持多语言，包括Java，C，python，c#等主流
基于Python的搜索引擎的设计与实现 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
搜索引擎,Python,爬虫,自然语言处理,信息检索,索引,算法,数据库1.背景介绍在信息爆炸的时代，海量数据无处不在，高效地获取所需信息变得至关重要。搜索引擎作为信息获取的桥梁，扮演着不可或缺的角色。传统的搜索引擎往往依赖于庞大的服务器集群和复杂的算法，对资源消耗较大，且难以满足个性化搜索需求。基于Python的搜索引擎设计，则凭借Python语言的易学易用、丰富的第三方库和强大的社区支持，为开
python进程数上限_python 多进程数量对爬虫程序的影响 weixin_39759995 python进程数上限
1.首先看一下python多进程的优点和缺点多进程优点：1.稳定性好：多进程的优点是稳定性好，一个子进程崩溃了，不会影响主进程以及其余进程。基于这个特性，常常会用多进程来实现守护服务器的功能。然而多线程不足之处在于，任何一个线程崩溃都可能造成整个进程的崩溃，因为它们共享了进程的内存资源池。2.能充分利用多核cpu：由于python设计之初，没预料到多核cpu能够得到现在的发展，只考虑到了单核cpu
python爬虫--安装XPath Helper S903784597 python 爬虫开发语言
给chrome浏览器安装xpath插件。-从网盘下载xpath的插件文件链接：https://pan.baidu.com/s/1B85d5cLDyAz1xUQqmL3uug?pwd=3306提取码：3306-在chrome中输入chrome://extensions/打开扩展程序。-将从百度网盘中下载的xpath.zip文件直接拖到浏览器的扩展程序页面中-得到chrome插件，将插件开关开启，并且
使用Python爬虫实时监控行业新闻案例海拥✘ python 爬虫开发语言
目录背景环境准备请求网页数据解析网页数据定时任务综合代码使用代理IP提升稳定性运行截图与完整代码总结在互联网时代，新闻的实时性和时效性变得尤为重要。很多行业、技术、商业等领域的新闻都可以为公司或者个人发展提供有价值的信息。如果你有一项需求是要实时监控某个行业的新闻，自动化抓取并定期输出这些新闻，Python爬虫可以帮你轻松实现这一目标。本文将通过一个案例，带你一步一步实现一个简单的Python爬虫
Python爬虫-猫眼电影的影院数据写python的鑫哥爬虫案例1000讲 python 爬虫猫眼电影电影院数据采集
前言本文是该专栏的第46篇，后面会持续分享python爬虫干货知识，记得关注。本文笔者以猫眼电影为例子，获取猫眼的影院相关数据。废话不多说，具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。接下来，跟着笔者直接往下看正文详细内容。（附带完整代码）正文地址：aHR0cHM6Ly93d3cubWFveWFuLmNvbS8=目标：获取猫眼电影的影院数据1.项目场景介绍老规矩，我们还是通过接码
Python从0到100（四）：Python中的运算符介绍(补充) 是Dream呀 python java 数据库
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python从0到100（三十五）：beautifulsoup的学习是Dream呀 Dream的茶话会 python beautifulsoup 学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python分布式爬虫去重_Python分布式爬虫(三) - 爬虫基础知识 weixin_39997311 python分布式爬虫去重
0相关源码1技术选型爬虫能做什么1.1scrapyVSrequests+beautifulsoup做爬虫的时候，经常都会听到scrapyVSrequests+beautifulsoup的组合在本次分布式爬虫实现中只用scrapy而不用后者的原因是：requests和beautifulsoup都是库，scrapy是一个框架框架中可以应用requests等，可以集合很多第三方库基于twisted(异步
Scrapy分布式爬虫系统 ivwdcwso 开发运维 scrapy 分布式爬虫 python 开发
一、概述在这篇博文中,我们将介绍如何使用Docker来部署Scrapy分布式爬虫系统,包括Scrapyd、Logparser和Scrapyweb三个核心组件。这种部署方式适用于Scrapy项目和Scrapy-Redis分布式爬虫项目。需要安装的组件:Scrapyd-服务端,用于运行打包后的爬虫代码,所有爬虫机器都需要安装。Logparser-服务端,用于解析爬虫日志,配合Scrapyweb进行实时
使用Python抓取新闻媒体网站的最新头条与相关内容：深入的爬虫开发与数据分析实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫数据分析数据挖掘人工智能开发语言
引言在互联网时代，新闻媒体网站是人们获取信息和了解世界的重要渠道。随着新闻的即时更新，获取最新头条并进行数据分析成为许多行业领域（如媒体、广告、舆情监测等）的重要需求。通过抓取新闻媒体网站的内容，我们不仅能获取各类新闻文章，还能为后续的数据分析、情感分析、舆情监控等提供基础数据。本篇博客将详细讲解如何使用Python编写一个爬虫，抓取新闻媒体网站的最新头条及其相关内容。我们将使用最新的技术栈，包括
Python爬虫实战：获取笔趣阁图书信息，并做数据分析 ylfhpy 爬虫 python 爬虫数据分析
注意：以下内容仅供技术研究，请遵守目标网站的robots.txt规定，控制请求频率避免对目标服务器造成过大压力！1.环境准备与反爬策略pythonimportrequestsfrombs4importBeautifulSoupimportpandasaspdimportreimporttimeimportrandomfromfake_useragentimportUserAgent#需安装：pip
python数据分析一周速成1.先从查询开始吧噼里啪啦噼酷啪Q 数据分析 python 数据分析 CDA
写在前面众所周知，20%的知识点可以覆盖80%的使用场景。时间就是生命~~咱主打一个“用最小的成本，收获最大化”！有它了不仅不怕excel卡顿，还能实现懒人神器——办公自动化，你喝茶他干活，鼠标自由咯！快跟我来，感受一周速成的效率~~首先，安装python+编辑器（cmd下载和anaconda一个效果嗷）：下载python：来官网DownloadPython|Python.org（建议用3.8~3
如何利用Python爬虫获取淘宝分类详情：实战案例指南数据小爬虫@ python 爬虫开发语言
在电商领域，淘宝作为中国最大的电商平台之一，其分类详情数据对于市场分析、竞争策略制定以及电商运营优化具有极高的价值。通过Python爬虫技术，我们可以高效地获取这些数据，为电商从业者提供强大的数据支持。本文将详细介绍如何利用Python编写爬虫程序，快速获取淘宝分类详情数据。一、准备工作（一）环境搭建确保你的开发环境中已经安装了以下必要的库：requests：用于发送HTTP请求。Beautifu
Python 爬虫功能介绍 chengxuyuan1213_ python 爬虫网络爬虫
在当今互联网信息爆炸的时代，数据的获取与分析成为了各行各业不可或缺的一部分。Python，作为一种简洁、易读且功能强大的编程语言，凭借其丰富的库和框架，在数据抓取（即网络爬虫）领域展现了极大的优势。本文旨在介绍Python爬虫的基础功能，帮助初学者快速入门，理解爬虫的基本工作原理及常用技术。一、什么是网络爬虫网络爬虫（WebCrawler），又称网络蜘蛛（WebSpider）或网络机器人（WebR
Python爬虫+数据分析：京东商品评论数据接口代码逐梦人爬虫技能晋升路线 python 爬虫数据分析
一、引言在电商领域，商品评论数据蕴含着丰富的信息，如消费者的满意度、产品的优缺点等。京东作为国内知名的电商平台，其商品评论数据对于商家进行市场调研、改进产品，以及消费者了解商品真实情况都具有重要价值。通过获取京东商品评论数据接口，我们可以方便、高效地获取这些有价值的信息，为后续的数据分析和决策提供支持。二、接口概述需要说明的是，京东并没有公开免费的商品评论数据接口供开发者随意使用。如果要获取京东商
python爬虫多线程原理代码逐梦人爬虫技能晋升路线 python 爬虫开发语言
多线程爬虫原理与优势在Python爬虫中，多线程是一种提升爬取效率的有效技术。在传统的单线程爬虫里，每次只能处理一个请求，只有等当前请求完成（包括发送请求、等待响应、解析数据）之后，才能开始下一个请求。而多线程爬虫可以让多个请求同时进行，在等待某个请求响应的时间里，CPU可以去处理其他请求，充分利用了CPU时间，大大提高了爬取效率。多线程爬虫的实现步骤1.引入必要的库importrequestsi
Python爬虫+数据分析：淘宝商品评论页面数据代码逐梦人爬虫技能晋升路线 python 爬虫数据分析
一、引言在电商平台中，商品评论包含了大量消费者的反馈信息，这些信息对于商家了解产品优缺点、改进服务，以及消费者做出购买决策都具有重要价值。淘宝作为国内知名的电商平台，其商品评论页面的数据蕴含着丰富的信息。通过Python爬虫技术获取这些数据，并运用数据分析方法进行处理和解读，可以挖掘出有价值的商业洞察。然而，需要注意的是，淘宝有严格的反爬机制，在进行爬虫操作时要遵守相关法律法规和平台规则，避免过度
Python网络爬虫-WebSocket数据抓取程序小勇 faiss 爬虫 python 网络协议 websocket 开发语言
目录前言1、WebSocket请求的分析通常涉及以下几个方面：2、利用WebSocket爬取数据总结最后，创作不易！非常感谢大家的关注、点赞、评论啦！谢谢三连哦！好人好运连连，学习进步！工作顺利哦！博主介绍：✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神，答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战，
流行编程语言全解析：优势、应用与短板 a小胡哦 python java c++c语言 javascript swift r语言
Python：优势Python以其简洁、易读的语法闻名，新手能快速上手。丰富的库和框架，能极大地提高开发效率。适用领域数据科学与分析：处理和分析大规模数据集，进行数据可视化。典型示例：Google用Python进行数据分析，处理海量数据以支持各种业务决策。机器学习与人工智能：构建和训练模型。典型示例：OpenAI在很多人工智能项目中广泛使用Python，如GPT系列模型的研发。网络爬虫：轻松从网页
052_爬虫_爬虫相关概念（引用《尚硅谷Python爬虫教程（小）小白零基础速通》052章）一个有趣的昵称 python 爬虫开发语言
爬虫解释：通过程序，根据url（http://taobao.com）进行网页的爬取获取有用的信息实用程序模拟浏览器，去向服务发送请求，获取响应信息爬虫的核心爬取网页：爬取整个网页包含了网页中所的内容解析数据：将网页中得到的数据进行解析难点：爬虫和但爬虫之间的博弈爬虫的类型实例通用爬虫百度，360，Google，搜狗等搜索引擎功能访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务robot
尚硅谷爬虫note007 CSDNy666999 爬虫
一、urllib—异常1.urllib.error.HTTPError2.urllib.error.URLError#_*_coding:utf-8_*_#@Time:2025/2/1411:33#@Author:20250206-里奥#@File:demo26_异常#@Project:PythonProject10-14importurllib.requestimporturllib.error
【Python爬虫(15)】从0到1：Python爬虫实战攻克电商网站动态数据堡垒奔跑吧邓邓子 Python爬虫 python 爬虫开发语言电商网站动态数据
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、准备工作2.1环境搭建2.2目标电商网站分析三、攻克登
字节跳动后端或大数据基础知识面试题及参考答案（2万字长文）大模型大数据攻城狮大数据大厂面试数据结构算法 leetcode
目录Redis的数据类型Redis数据类型的底层数据结构三次握手、四次挥手Redis持久化机制购物车为什么用Redis存，是永久存储吗MySQL的InnoDB索引数据结构哪些SQL的关键字会让索引失效队列、栈、数组、链表有什么不同讲讲爬虫的构成爬虫抓到的数据不清洗吗？不去重吗？对爬虫的更多了解Linux进程间通信机制进程和线程的区别线程私有的数据讲一下堆排序，每次调整的时间复杂度？堆排序是稳定的吗
爬虫快速上手之正则表达式总结 Athena945 python 正则表达式正则表达式 python
目录一、正则表达式二、查找相关方法三、re.Match类的使用四、re.compile()方法的使用五、正则修饰符六、标点符号的特殊意义七、字母的特殊含义八、正则替换九、贪婪模式和非贪婪模式十、正则表达式小结一、正则表达式1、概念正则表达式是一个特殊的字符序列，通常被用来检索、替换那些符合某个模式（规则）的文本；在python中需要通过正则表达式对字符串进行匹配的时候，可以使用re模块实现全部的正
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的