solodom

crawler(2)

设置代理
异常处理
Cookies
图片爬虫实战
re.findall()
链接爬虫
糗事百科爬虫

设置代理

from urllib import request


def use_proxy(proxy_adrr,url):
    """
    this function use a proxy to open a webpage

    args:
        proxy_adrr: string, proxy address
        url: string, url to open 

    return:
        data: the data of the webpage
    """
    # 设置一个ProxyHandler对象
    proxy=request.ProxyHandler({'http':proxy_adrr})
    # 建立一个含有ProxyHandler和HTTPHandler的opener
    own_opener=request.build_opener(proxy,request.HTTPHandler)
    # 安装全局opener
    request.install_opener(own_opener)
    data=request.urlopen(url).read().decode('utf-8')
    return data


proxy_adrr="183.47.40.35:8088"  # 找验证时间较短的代理ip，成功率比较高
url='http://www.baidu.com'
data=use_proxy(proxy_adrr,url)
print(len(data))

异常处理

from urllib import request
from urllib import error


try:
    data=request.urlopen('http://blog.csdn.net').read()
    hf=open(r'D:\pythoncode\crawler\test.html','wb')
    hf.write(data)
    hf.close()
except error.URLError as e:
    # print(e.code) URLerror 没有code
    print(e.reason)

Cookies

from urllib import request, parse
from http import cookiejar


url='http://bbs.chinaunix.net/member.php?mod=logging&action=login&action=login&loginsubmit=yes&loginhash=L768q'
# encode the post data
postdata=parse.urlencode({
    'username':'weisuen',
    'password':'aA123456'
}).encode('utf-8')

# request object
req=request.Request(url,postdata)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36')
# 创建cookiejar对象
cjar=cookiejar.CookieJar()
# 使用HTTPCookieProcessor创建cookie处理器，并以其为参数构建opener对象
opener=request.build_opener(request.HTTPCookieProcessor(cjar))
# 全局安装opener
request.install_opener(opener)
file=opener.open(req)
data=file.read()
hf=open(r'D:\pythoncode\crawler\cookie1.html','wb')
hf.write(data)
hf.close()
url2='http://bbs.chinaunix.net'
data2=request.urlopen(url2).read()
hf2=open(r'D:\pythoncode\crawler\cookie2.html','wb')
hf2.write(data2)
hf.close()

图片爬虫实战

爬取京东手机类商品的全部图片

首页：https://list.jd.com/list.html?cat=9987,653,655
第二页： https://list.jd.com/list.html?cat=9987,653,655&page=2&sort=sort_rank_asc&trans=1&JL=6_0_0#J_main
第三页：https://list.jd.com/list.html?cat=9987,653,655&page=3&sort=sort_rank_asc&trans=1&JL=6_0_0#J_main

可以发现页数的获取是通过url给定的，所以要用get方法，而页数的关键字段是page，page的值对应了相应的页数。

import re
from urllib import request,error


def crawl(url,page):
    """
    this function craw the images given the url and the page of the web

    args:
        page: int , the number of webpage you want to craw
        url； the start url of the webpage
    """
    # craw the source code of the webpage
    html_source=request.urlopen(url).read()
    # change the code to string
    html_sourcestr=str(html_source)
    # 选取要爬取得代码段
    pattern1=''
    result1=re.compile(pattern1).findall(html_sourcestr)
    paragraph=result1[0]
    fh=open(r'D:\pythoncode\crawler\jingdongpic\image\1.html','w')
    fh.write(paragraph)
    fh.close()
    # 在代码段中选取要爬取的图片链接,正则表达式中（）代表提取匹配字符
    pattern2=''
    imagelist=re.compile(pattern2).findall(paragraph)
    fh1=open(r'D:\pythoncode\crawler\jingdongpic\image\2.html','w')
    for image in imagelist:
        fh1.write(image+'\n')
    fh1.close()
    x=1
    for image in imagelist:
        image_file='D:/pythoncode/crawler/jingdongpic/image/'+str(page)+str(x)+'.jpg'
        image_url='http://'+image
        try:
            request.urlretrieve(image_url,filename=image_file)
        except error.URLError as e :
            if hasattr(e,'code'):
                print(e.code)
                x+=1
            elif hasattr(e,'reason'):
                print(e.reason)
                x+=1
        x+=1

        
url='https://list.jd.com/list.html?cat=9987,653,655&page='+str(1)
crawl(url,1)

程序运行后发现只能下载10张图片，经过对网页源代码的分析，发现源代码中关于image的链接除了 img width=“220” height=“220” data-img=“1” src="//img14.360buyimg.com/n7/jfs/t13441/73/1250191369/239632/8b94bbc6/5a1d1e2dN6ba9aac4.jpg" 这种形式之外，还有 img width=“220” height=“220” data-img=“1” data-lazy-img="//img10.360buyimg.com/n7/jfs/t1/3405/18/3537/69901/5b997c0aE5dc8ed9f/a2c208410ae84d1f.jpg" ，同时还有png格式的图片，所以上面这个程序中关于提取图片链接的正则表达式就不能全部涵盖了，下面的程序主要改进了链接的提取

import re
from urllib import request,error


def crawl(url,page):
    """
    this function craw the images given the url and the page of the web

    args:
        page: int , the number of webpage you want to craw
        url； the start url of the webpage
    """
    # craw the source code of the webpage
    html_source=request.urlopen(url).read()
    # change the code to string
    html_sourcestr=str(html_source)
    # 选取要爬取得代码段
    pattern1=''
    result1=re.compile(pattern1).findall(html_sourcestr)
    paragraph=result1[0]
    fh=open(r'D:\pythoncode\crawler\jingdongpic\image\1.html','w')
    fh.write(paragraph)
    fh.close()
    # 在代码段中选取要爬取的图片链接,正则表达式中（）代表提取匹配字符
    pattern2=''
    imagelist=re.compile(pattern2).findall(paragraph)
    return imagelist


url='https://list.jd.com/list.html?cat=9987,653,655&page='+str(1)
a=crawl(url,1)

['src="//img14.360buyimg.com/n7/jfs/t1/204/12/2599/82133/5b963c1aEd9fa390e/970adadd473ff485.jpg"',
 'src="//img13.360buyimg.com/n7/jfs/t19912/33/927199229/297549/8c269ff0/5b0fca0fN8d5600df.jpg"',
 'src="//img10.360buyimg.com/n7/jfs/t28618/324/444877994/238412/bda83f0c/5bf3c4feN776b598c.jpg"',
 'src="//img14.360buyimg.com/n7/jfs/t13441/73/1250191369/239632/8b94bbc6/5a1d1e2dN6ba9aac4.jpg"',
 'src="//img12.360buyimg.com/n7/jfs/t21415/332/642302956/189613/778f2021/5b13cd6cN8e12d4aa.jpg"',
 'src="//img13.360buyimg.com/n7/jfs/t26038/101/1750775983/176935/5976cd0b/5bbc6e6fN5216f959.jpg"',
 'src="//img10.360buyimg.com/n7/jfs/t18157/222/1822300674/231514/6c179af8/5ad87390N086a3c91.jpg"',
 'src="//img11.360buyimg.com/n7/jfs/t22330/332/515182850/188708/3dbe80f8/5b0fbaabN3229c7a3.jpg"',
 'src="//img11.360buyimg.com/n7/jfs/t25954/134/1930444050/488286/31587d0d/5bbf1fc9N3ced3749.jpg"',
 'src="//img14.360buyimg.com/n7/jfs/t18052/318/2334327001/256076/23da5f45/5af13917Naca6cb3d.jpg"',
 'data-lazy-img="//img10.360buyimg.com/n7/jfs/t1/3405/18/3537/69901/5b997c0aE5dc8ed9f/a2c208410ae84d1f.jpg"',
 'data-lazy-img="//img13.360buyimg.com/n7/jfs/t10675/253/1344769770/66891/92d54ca4/59df2e7fN86c99a27.jpg"',
 'data-lazy-img="//img11.360buyimg.com/n7/jfs/t20638/302/805235103/272149/fdafea5c/5b17a2ceN24d043fc.jpg"',
 'data-lazy-img="//img13.360buyimg.com/n7/jfs/t1/3/15/4536/138660/5b997bf8Ed72ebce7/819dcf182d743897.jpg"',
 'data-lazy-img="//img10.360buyimg.com/n7/jfs/t20305/259/1209609364/193755/a3940552/5b21ce25N131ce626.jpg"',
 'data-lazy-img="//img11.360buyimg.com/n7/jfs/t18010/178/1266475805/124462/64f61c52/5ac1f20cN7196beba.jpg"',
 'data-lazy-img="//img11.360buyimg.com/n7/jfs/t10387/284/1763459074/210785/bf836347/59e5bd29N7bdd3d97.jpg"',
 'data-lazy-img="//img11.360buyimg.com/n7/jfs/t24202/21/1240414017/266807/216c76b7/5b5705a1N6a12c28c.jpg"',
 'data-lazy-img="//img14.360buyimg.com/n7/jfs/t23653/202/1047354722/252149/77642e5a/5b4ee1a1Nb44ade36.jpg"',
 'data-lazy-img="//img13.360buyimg.com/n7/jfs/t22099/97/2250481418/237159/c4a1502d/5b4edfdcN5a7d6faf.jpg"',
 'data-lazy-img="//img12.360buyimg.com/n7/jfs/t7582/66/3048380492/71753/acde79b5/59b85824N836bb714.jpg"',
 'data-lazy-img="//img12.360buyimg.com/n7/jfs/t13354/123/2593801762/295225/2595fcdd/5a433a4aN0ff580a8.jpg"',
 'data-lazy-img="//img13.360buyimg.com/n7/jfs/t8284/363/1326459580/71585/6d3e8013/59b857f2N6ca75622.jpg"',
 'data-lazy-img="//img14.360buyimg.com/n7/jfs/t19786/94/1948790595/190301/ad172397/5adfe50bNd5907d0b.jpg"',
 'data-lazy-img="//img12.360buyimg.com/n7/jfs/t25696/183/1719981196/90401/bcf6106c/5bbac3c5N8b0bd22b.jpg"',
 'data-lazy-img="//img10.360buyimg.com/n7/jfs/t17689/292/1247919821/159809/1c87eb05/5ac1eae4Nce7c8b00.jpg"',
 'data-lazy-img="//img13.360buyimg.com/n7/jfs/t27112/273/1423275096/265013/d92b3181/5be3cb5bN334c8048.jpg"',
 'data-lazy-img="//img11.360buyimg.com/n7/jfs/t20212/346/2286611589/200381/b60dd7b9/5b4ee328Ne725d6fc.jpg"',
 'data-lazy-img="//img11.360buyimg.com/n7/jfs/t1/2533/19/5800/382950/5ba0b1b7Eb550a26e/934ebb6f3f60e2e6.jpg"',
 'data-lazy-img="//img14.360buyimg.com/n7/jfs/t25582/259/1942499054/80811/1fd3432/5bc06426Nc4199ba0.jpg"',
 'data-lazy-img="//img14.360buyimg.com/n7/jfs/t1/1867/31/11716/401006/5bd072f8E6db292ab/f3610e2e816ade0f.jpg"',
 'data-lazy-img="//img14.360buyimg.com/n7/jfs/t17665/190/2499640910/209789/1b439bbd/5afc0ae1N4f34d0fc.jpg"',
 'data-lazy-img="//img14.360buyimg.com/n7/jfs/t1/1156/8/14017/123589/5bd9a4e8E7dbd4a15/70fbbccdf8811111.jpg"',
 'data-lazy-img="//img12.360buyimg.com/n7/jfs/t21043/186/220467895/46630/3417464c/5b0517ccN295c6fdb.jpg"',
 'data-lazy-img="//img13.360buyimg.com/n7/jfs/t11986/295/1484411523/155164/77795126/5a01503cN19d7f1a0.jpg"',
 'data-lazy-img="//img10.360buyimg.com/n7/jfs/t16717/31/854833223/219683/1b8fbfc/5aaa70efNeb070fc3.jpg"',
 'data-lazy-img="//img10.360buyimg.com/n7/jfs/t1/2617/6/6143/237736/5ba1f42aE71124526/e242e3e39ec95d66.jpg"',
 'data-lazy-img="//img14.360buyimg.com/n7/jfs/t16471/32/126289826/309262/39215dc0/5a28b69bN33aaea8a.jpg"',
 'data-lazy-img="//img11.360buyimg.com/n7/jfs/t13804/159/2066981344/272858/5b9f4558/5a31f5e4N284ce5e1.jpg"',
 'data-lazy-img="//img12.360buyimg.com/n7/jfs/t1/1717/22/4137/189715/5b9b62e1E14bd7f03/c522c2da3c36757a.jpg"',
 'data-lazy-img="//img10.360buyimg.com/n7/jfs/t20140/279/2633113298/113707/57d9da77/5b6018c5N6f80495e.jpg"',
 'data-lazy-img="//img12.360buyimg.com/n7/jfs/t2302/16/135479564/94882/c76da045/55f0e877N3c24faa3.jpg"',
 'data-lazy-img="//img13.360buyimg.com/n7/jfs/t10414/363/1280355182/335902/18c2b152/59ded64fNfdb4e9da.jpg"',
 'data-lazy-img="//img14.360buyimg.com/n7/jfs/t25792/215/1911566869/331199/4e1aa140/5bbf1d23N3a4d87c5.jpg"',
 'data-lazy-img="//img14.360buyimg.com/n7/jfs/t18961/90/1109264753/173069/676b99ad/5abc8d2dNa4cc5eac.jpg"',
 'data-lazy-img="//img12.360buyimg.com/n7/jfs/t11944/171/322678362/177635/eb2192c2/59ed5428N909f5413.jpg"',
 'data-lazy-img="//img13.360buyimg.com/n7/jfs/t19495/246/1066578963/107836/c4ca2c64/5ab9bd0cNbd131502.jpg"',
 'data-lazy-img="//img10.360buyimg.com/n7/jfs/t1/21439/25/1397/189754/5c11d0bcE1fa5da35/6150196ac0af97d1.jpg"',
 'data-lazy-img="//img11.360buyimg.com/n7/jfs/t23221/165/1717864732/343200/7b196311/5b681275Nc5761208.jpg"',
 'data-lazy-img="//img14.360buyimg.com/n7/jfs/t25012/345/1827676978/130853/65940865/5bbc6efaNeb227f0b.jpg"',
 'data-lazy-img="//img12.360buyimg.com/n7/jfs/t6010/111/3843138696/73795/bf58700d/5959ab7fN154e56b4.jpg"',
 'data-lazy-img="//img11.360buyimg.com/n7/jfs/t1/2066/29/11643/417926/5bd01e90E38456795/44e8b7c92e33d359.png"',
 'data-lazy-img="//img14.360buyimg.com/n7/jfs/t1/9453/29/1482/225086/5bce9b03Edbefa238/cea9291c7ac7ea8b.jpg"',
 'data-lazy-img="//img13.360buyimg.com/n7/jfs/t20791/100/326176350/239528/dc43767c/5b0a0d77Nffab2525.jpg"',
 'data-lazy-img="//img10.360buyimg.com/n7/jfs/t26620/265/1399858770/131831/54ef50d4/5bc84703Nf58c2318.jpg"',
 'data-lazy-img="//img12.360buyimg.com/n7/jfs/t20599/138/1457715454/457274/4b6036d8/5b29e865Na93d71b3.jpg"',
 'data-lazy-img="//img11.360buyimg.com/n7/jfs/t21328/105/1076382804/333037/61eecec8/5b1f9bfeN2ebc92eb.jpg"',
 'data-lazy-img="//img12.360buyimg.com/n7/jfs/t1/4934/27/2920/428072/5b97bb0cEd0234aa9/ce434747f50912a9.jpg"',
 'data-lazy-img="//img13.360buyimg.com/n7/jfs/t1/5064/31/3461/142209/5b997c0eE8b26d23e/8788a4743af36f36.jpg"',
 'data-lazy-img="//img13.360buyimg.com/n7/jfs/t29710/357/506891612/310414/cfab2c50/5bf6115dN34a25dd8.jpg"']

len(a)

经过测试，网站第一页的所有60张图片的链接已经爬取下来，接下来需要通过下面的方法对这些链接进行加工，使其可用：

'data-lazy-img="//img13.360buyimg.com/n7/jfs/t29710/357/506891612/310414/cfab2c50/5bf6115dN34a25dd8.jpg"'.lstrip('data-lazy-img="').rstrip('"')

'//img13.360buyimg.com/n7/jfs/t29710/357/506891612/310414/cfab2c50/5bf6115dN34a25dd8.jpg'

import re
from urllib import request,error


def crawl(url,page):
    """
    this function craw the images given the url and the page of the web

    args:
        page: int , the number of webpage you want to craw
        url； the start url of the webpage
    """
    # craw the source code of the webpage
    html_source=request.urlopen(url).read()
    # change the code to string，the source code crawled from the webpage is binary code
    html_sourcestr=str(html_source)
    # 选取要爬取得代码段
    pattern1=''
    result1=re.compile(pattern1).findall(html_sourcestr)
    paragraph=result1[0]
    fh=open(r'D:\pythoncode\crawler\jingdongpic\image\1.txt','w')
    fh.write(paragraph)
    fh.close()
    # 在代码段中选取要爬取的图片链接,正则表达式中（）代表提取匹配字符
    pattern2=''
    imagelist=re.compile(pattern2).findall(paragraph)
    image_url_list=[]
    for image in imagelist:
        # find() 没找到返回-1
        if image.find('src')==-1:
            image_url=image.lstrip('data-lazy-img="').rstrip('"')
        else:
            image_url=image.lstrip('src="').rstrip('"')
        image_url_list.append(image_url)
    fh1=open(r'D:\pythoncode\crawler\jingdongpic\image\2.txt','w')
    for image in image_url_list:
        fh1.write(image+'\n')
    fh1.close()
    x=1
    for image in image_url_list:
        image_file='D:/pythoncode/crawler/jingdongpic/image/'+str(page)+str(x)+'.jpg'
        image_url='http:'+image
        try:
            request.urlretrieve(image_url,filename=image_file)
        except error.URLError as e :
            if hasattr(e,'code'):
                print(e.code)
                x+=1
            elif hasattr(e,'reason'):
                print(e.reason)
                x+=1
        x+=1
    print('there are {} pictures in page {}'.format(x-1,i))


for i in range (1,3):
    url='https://list.jd.com/list.html?cat=9987,653,655&page='+str(i)
    crawl(url,i)

there are 60 pictures in page 1
there are 60 pictures in page 2

re.findall()

Return all non-overlapping matches of pattern in string, as a list of strings. The string is scanned
left-to-right, and matches are returned in the order found. If one or more groups are present in the
pattern, return a list of groups; this will be a list of tuples if the pattern has more than one group.
Empty matches are included in the result.

import re
pattern='m="(bp(y|c)thon)"'
string='abbn="aphp"cjhdm="bpython"_y,abbn="aphp"cjhdm="bpcthon"_y'
result=re.compile(pattern).findall(string)
result

[('bpython', 'y'), ('bpcthon', 'c')]

import re
string='https://blog.csdn.net/CSDNedu/article/details/85118920'
pattern='(https?://[^\s)";]+\.(\w|/)*)'
result=re.compile(pattern).findall(string)
result

[('https://blog.csdn.net/CSDNedu/article/details/85118920', '0')]

链接爬虫

from urllib import request
import re


def getlink(url):
    # 模拟浏览器
    headers=('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36')
    opener=request.build_opener()
    opener.addheaders=[headers]
    # 将opener安装为全局
    request.install_opener(opener)
    file=request.urlopen(url)
    data=str(file.read())
    # 建立链接正则表达式
    pattern='(https?://[^\s)";]+\.(\w|/)*)'
    link=re.compile(pattern).findall(data)
    # 去掉重复元素
    link_list=list(set(link))
    return link_list


url='https://blog.csdn.net/'
link_list=getlink(url)
for link in link_list:
    print(link[0])

https://blog.csdn.net/sD7O95O/article/details/81351586
https://avatar.csdn.net/5/9/8/1_rlnlo2pnefx9c.jpg
https://blog.csdn.net/DP29syM41zyGndVF
http://gitbook.cn/gitchat/activity/5a52e91f5881a96df9f4c02c\r\ngitchat2:http://gitbook.cn/gi...
https://blog.csdn.net/gitchat/article/details/82971479
https://csdnimg.cn/feed/20181224/aa620a1c10fc30a6e5cd5bdbecf8dc0d.png
https://avatar.csdn.net/4/E/4/1_csdnedu.jpg
https://gitbook.cn/gitchat/column/5c0e149eedba1b683458fd5f
https://blog.csdn.net/poem_qianmo/article/details/82731058
https://avatar.csdn.net/D/3/E/1_dp29sym41zygndvf.jpg
https://blog.csdn.net/beliefer/article/details/84998806
https://csdnimg.cn/feed/20181009/7f80d8ea9896099cf92ae677c414c182.png
https://csdnimg.cn/feed/20181011/8b06ac0790a5812087e0af0bc143baf2.png
https://blog.csdn.net/dog250/article/details/82812235
https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/81463851
https://blog.csdn.net/Jmilk
https://csdnimg.cn/feed/20181008/fd5673e4591d508ab7cac672d9e4031c.jpg
https://blog.csdn.net/DP29syM41zyGndVF/article/details/81463793
https://blog.csdn.net/turingbooks/article/details/82995901
https://avatar.csdn.net/7/0/0/1_hhtnan.jpg
https://csdnimg.cn/feed/20181218/4251c768c0e226f157024bfab37b80eb.png
https://csdnimg.cn/feed/20181217/34f4e4b478b98b796a4ab9d5b7024e1d.png
https://csdnimg.cn/feed/20181212/dc27662fe77eddc41c8b157a2e877b40.png
https://blog.csdn.net/DP29syM41zyGndVF/article/details/79990390
https://blog.csdn.net/Java_3y/article/details/82107339
https://blog.csdn.net/DP29syM41zyGndVF/article/details/79990392
https://blog.csdn.net/sunhuaqiang1/article/details/84991520
https://blog.csdn.net/blogdevteam
https://csdnimg.cn/feed/20181217/6e600a03da64bdd60ab485ec3d0f220b.png
https://gitbook.cn/gitchat/column/5ad56a79af8f2f35290f6535
https://csdnimg.cn/feed/20181219/d122a78ef6080af6c94e31063ea6833a.jpg
https://csdnimg.cn/feed/20181212/614e91fd3d235087bcb9e9cc0112ad28.png
https://blog.csdn.net/DP29syM41zyGndVF/article/details/79990372
https://csdnimg.cn/feed/20181218/b46fb2bb97e59d8fedfe1e3bf8e9f2b7.png
http://blog.csdn.net/experts/rule.html
https://blog.csdn.net/blogdevteam/article/details/85164747
https://csdnimg.cn/feed/20181224/37ec7f54dcc8bd84317786cc0b17fd04.png
https://avatar.csdn.net/5/A/F/1_bulprezht1imln4n.jpg
https://blog.csdn.net/CSDNedu
https://avatar.csdn.net/0/D/F/1_sd7o95o.jpg
https://avatar.csdn.net/8/C/E/1_blogdevteam.jpg
https://blog.csdn.net/BULpreZHt1ImlN4N
https://mp.csdn.net/blogmove
https://blog.csdn.net/
https://avatar.csdn.net/C/E/8/1_m2l0zgssvc7r69efdtj.jpg
https://blog.csdn.net/Androidlushangderen/article/details/85058701
https://blog.csdn.net/dog250/article/details/82892267
https://blog.csdn.net/silentwolfyh/article/details/82865579
https://blog.csdn.net/M2l0ZgSsVc7r69eFdTj/article/details/81295203
https://csdnimg.cn/feed/20181212/0786a45d51381df4ae86a3aa785c673d.jpg
https://blog.csdn.net/DP29syM41zyGndVF/article/details/79990339
https://blog.csdn.net/weixin_43430036/article/details/84944372
https://blog.csdn.net/yH0VLDe8VG8ep9VGe
https://csdnimg.cn/feed/20181008/e79279eca0fda46dbfaf319988130033.png
https://csdnimg.cn/feed/20181008/5b7db67ced3b56af839f8b6d85d076a5.jpg
https://avatar.csdn.net/9/D/5/1_jmilk.jpg
http://blog.csdn.net
https://avatar.csdn.net/D/7/D/1_u010870518.jpg
https://blog.csdn.net/mydo/article/details/85200002
https://blog.csdn.net/u010870518
https://csdnimg.cn/feed/20181213/c062c89e428ac9185f1854ee1ea344bd.jpg
https://blog.csdn.net/rlnLo2pNEfx9c/article/details/81295280
https://csdnimg.cn/feed/20181008/64f9e39fd53627fb1b867775a7d6a754.jpg
https://blog.csdn.net/M2l0ZgSsVc7r69eFdTj/article/details/81351371
https://csdnimg.cn/feed/20181224/6c30d429c93965633153d5f663f7a4fe.jpg
https://blog.csdn.net/y80gDg1/article/details/81463731
https://blog.csdn.net/wireless_com/article/details/85003784
https://gitbook.cn/gitchat/column/5ad70dea9a722231b25ddbf8
https://csdnimg.cn/feed/20181224/e7ac7007511d4eefafc26a4253c700e2.png
https://avatar.csdn.net/9/D/E/1_yh0vlde8vg8ep9vge.jpg
https://blog.csdn.net/liumiaocn/article/details/82696501
https://blog.csdn.net/M2l0ZgSsVc7r69eFdTj
https://blog.csdn.net/BULpreZHt1ImlN4N/article/details/81463791
https://blog.csdn.net/HHTNAN
https://csdnimg.cn/feed/20181217/2b530756eedc57f1e57271e1b0fa332c.png
https://csdnimg.cn/feed/20181008/affb704967f5200cddf09dc2ffe8835a.jpg
https://blog.csdn.net/buptgshengod/article/details/85061059
https://blockchain.csdn.net
https://ads.csdn.net/js/async_new.js
https://blog.csdn.net/rlnLo2pNEfx9c
https://blog.csdn.net/y80gDg1
https://blog.csdn.net/u012999985/article/details/80877671
https://avatar.csdn.net/C/A/C/1_y80gdg1.jpg
https://blog.csdn.net/sD7O95O
https://blog.csdn.net/CSDNedu/article/details/85118920
https://blog.csdn.net/qq_34829447/article/details/85042697

糗事百科爬虫

（1）分析网页规律，构造网址变量，利用for循环实现多页内容的爬取。
（2）构建函数getcontent，爬取单个网页的内容，包含两个部分：一部分是对应用户，另一部分是该用户发表的内容。其实现过程：首先模拟浏览器访问该网页内容，针对用户和内容的源代码规律，用beautifulsuop进行匹配提取，将提取出来的内容进行循环处理。
（3）用for循环，多次调用getcontent爬取多个网页。

from urllib import request
import re
from bs4 import BeautifulSoup


def getcontent(url):
    # 模拟浏览器
    headers=('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36')
    opener=request.build_opener()
    opener.addheaders=[headers]
    # 安装全局opener
    request.install_opener(opener)
    # 爬取回的源代码是二进制代码，需要字符串化
    data=request.urlopen(url).read().decode('utf-8')
    # 设置beautifulsoup对象，参数为文件与解析器
    soup=BeautifulSoup(data,'html.parser')
    # return a list of h2 tags 
    usertag_list=soup.find_all('h2')
    user_list=[]
    # .string return the according tag's contents
    for user in usertag_list:
        # string属性只能返回单节点的字符串，如果内容中含有
,需要用get_text()
        user_str=user.string
        # 去点字符串前后的‘\n’,strip返回新字符串，字符串不能更改，所有字符串方法都要返回新的字符串
        user_str=user_str.strip('\n')
        user_list.append(user_str)
    # return a list of span tags with class attribute being 'content'
    contenttag_list=soup.find_all('div',class_='content') 
    content_list=[]
    for content in contenttag_list:
        # 内容中含有
,不能用string属性，需要用get_text()
        # 用.来获取子节点
        content_str=content.span.get_text()
        content_str=content_str.strip('\n')
        content_list.append(content_str)
    for i in range(1,len(user_list)+1):
        print('用户{}{}发表的内容是:\n{}'.format(str(i),user_list[i-1],content_list[i-1]))


base_url='https://www.qiushibaike.com/text/page/'
for i in range (1,3):
    url=base_url+str(i)
    print('第{}页：'.format(str(i)))
    getcontent(url)

第1页：
用户1晴～风发表的内容是:
凌晨一点半一个人走在巷子里，脚下的树叶上都是冰渣子。一脚踩上去，发出一阵一阵咔嚓声。身后不远处传来高跟鞋的声音，脚步有点凌乱，凭经验感觉这人喝的不少。泥鳅站在旁边的黑暗里，想要看看到底是女装大佬还是酒吧出来的妖艳贱货，或许还能捡点福利。几分钟后一道的身影总算出现在泥鳅的视线里。性～感，妖～娆长发，满足了泥鳅的一切幻想。泥鳅从黑暗走出来对妹子说这么晚一个人不安全，我送你回家吧。妹子点点头笑了笑轻轻的把头靠在了泥鳅肩头。说我叫庞香。泥鳅大惊撒腿就跑，卧槽。。。
用户2空城旧梦她与伞发表的内容是:
老板家有两个女儿，他有心要我入赘他家。昨天去他家，见到了他两个女儿。大女儿身高腿长胸却略平，小女儿身材娇小却有一副傲人的胸。他大女儿热情走到我面前说:“我很高～高兴认识你！”还故意把高字拉长音。他小女儿把大胸一挺，微笑着说:“我挺～挺开心认识你！”挺字也故意拉长音。这特么让我怎么选啊……
用户3胖香发表的内容是:
...
第2页：
用户1无书斋主发表的内容是:
和老婆回家的时间，遇见隔壁栋一堂客。这货问画画:今天圣诞节，正哥给你买什么了？你看我老公给我买的衣服、包包、化妆品，说着冲画画扬起手中的袋子……我赶忙接话:嫂子，你又不是不知道，我哪有你家老李厉害，衣服是夏奈尔还是范思哲的呀？包包LV的吧？化妆品是兰蔻吧？今天中午我看见老李买的，有钱就是好……说完，我拉起画画走了……她在打电话:老李，你给老娘送这垃圾货……
用户2我是煮茶发表的内容是:
一个宝妈来健身房健身塑型，要练一组哑铃推举的动作，女教练跟她说做完，今晚 胸 部可能会很酸，可以用热水敷一下。那宝妈说：“没事，那宝宝今晚有酸奶可以喝！有益宝宝肠道健康...”我当时在练深蹲，扛着杠铃一下子气息不稳，差点整成内伤...
用户3那谁一期一会发表的内容是:
...

自由职业态 2017/12/15 jojovicky
比较适合我个人成长与发展期。为什么这么说，从小，家庭给予我相对自由的成长空间，长大后在学业与职业上也是给予自由。除了商科专业是家长提供建议外，其它专业是建立在个人兴趣与需要基础上。这是自己成为自由职业态与心态的由来。在各专业中不仅结识了同学朋友甚至成为今天的合作小伙伴。这也是奠定了自由职业态的基石。曾经为了平衡家庭孩子以及工作，我选择了进入学校当一名老师，特此感谢我的老板（伯乐）和先生以及家人给予
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
相约2021，带着期待行走在希望的田野上，去发现更多的美漫步走天涯
曾经觉得，2021年还是有点遥远，可是不知不觉之间已经开启了2021年的序幕，从幕后走到了台前，昨天所有的成就、失落、迷茫都已经成为了过往，2020年所有的一切，都变成了回忆，2021年的开端，我们对它抱有很高的期待。坐在电脑桌前，整理着有些杂乱的思路，我对未来的期盼太多，以至于半天时间都没有理清头绪，从家庭到事业，然后到学习（个人成长）方面，都有着非同一般的畅想，强迫自己停止胡思乱想，用实际行动
2023-01-08 d8f93a389a3c
走进心时代马上一年了，这一年中上了三次线上实操班和三次导师班课，六月份上了一次线下导师班。如果要问实操班和导师班有什么不同，有哪些不一样的收获？我的感觉是实操班更多的是方法，遇到问题可以直接拿来用的，是技术层面的。导师班是修个人成长的、向内的、寻根问底的，解决我们为什么会在生活中遇到的这样那样的问题，原因出在哪里。通过一次次的学习，改变我的认知，又重建了认知，打破了固有思维的墙，窗户纸层层的被捅破
100个基本，明确自己的目标石小沫_
最近在读日本作家松浦弥太郎写的《100个基本》这本书，其中作者解释“100个基本”是为了让自己明白的事，是对自己展开的思考，是为了整理自己的思路而存在的。这是为了个人成长、学习，为了更像自己，而应该恪守的人生信条。重要的事情，想要遵守的规则，我想每个人都有，但这些内容其实是很模糊的，难以用言语表述。如果能一条条地认真思考如何用言语表达它们，也能借此更好地认识自身。“基本”可以关涉任何事――计划、目
2021年8月7号反思日记 37c089910fbe
一，健康今天甜品吃的多咯……导致最近体重55kg下不来咯。跳健身操的精神也不如之前咯，我就在想：奥运健将是多么了不起！十几年如一日的练习同一个项目。我才跳操几天就觉得很乏味咯。二，个人成长继续看《给教师的100条建议》，确实收获很多，其实都建议新老师培训上岗的时候，人手一本，这样边培训边学习！其实每天都有听书《丰乳肥臀》，这样的方式对于我这个家庭主妇也非常合适，但是听书建议听小说类，其他类别不是那
2021周复盘（2021.2.14-2021.2.21）雁飞鸿
本周完成事项1、家庭生活：带着两宝晒太阳，本周步行5000米3次，每晚带着小宝给大宝讲故事。小宝的干性湿疹每天两次的保湿有好转，每日辅食，独立给小宝洗澡一次，给公婆多接触二宝的时间，与公婆和谐相处。2、个人健康：产后恢复训练营每日坚持打卡；坚持每晚11：30上床睡觉。3、个人成长：写作训练营每日坚持，写《当我遇见一个人》读书笔记，快速阅读《培养孩子的习惯》。翻看《爱的五种语言》和连岳爱问。5、财富
三月第一次复盘：熟能生巧，前提是多练习微笑爱读书
文/微笑《刻意练习》里说：如果你没有进步，并不是因为你缺少天赋，而是因为你没有用正确的方法练习。一、个人成长1.焦虑引发的慌乱虽然有着本职工作，却在空闲之余。要给其他忙碌的部门帮忙。不是打包盒饭，就是去食堂开餐。看似简单又轻松的工作却也暗藏玄机。对于职场小白的我，在一无所知的情况下，就被拉去实战中操作。紧张夹杂着兴奋，却在多次尝试中以失败而告终。而我本就是急性子，手上的动作不熟练，遇到人多赶时间的
《终身成长》学习笔记二王世鹏
上一篇文章介绍了成长型思维的概念和与个人成长的关系，这篇文章将介绍成长思维模式在不同领域的体现。1、体育冠军的思维模式在体育界，很多人都相信天赋。他们会说，某某天生就是个运动员，所以他才能取得辉煌。但事实却并非如此，相关研究表明：成长型思维模式者认为，成功来源于学习、努力和自我提高，挫折能给人以动力、经验和教训，让你变得更，这也是冠军运动员的共性。案例：著名篮球明星迈克尔·乔丹许多人只知道乔丹是体
如何设计黄金8年的个人成长路径多元化思维小山
—导读：如何设计黄金8年的个人成长路径1.宏观指引-锁定大方向不动摇关注单位时间价值+主动定价权（提升个人单位时间并拥有主动定价权，直至你可以挤身同龄阶段人群的top10%-20%）小山的时间价值：36000元/年；3000元/月；100元/日；6.25元/时判断：是否有主动定价权：无（通过出售单份时间来获取收入）单位时间价值是直线增长还是曲线增长：直线增长，但不稳定性，或工作年限越长，直线下降。
坚持写日记第98天漫步奋斗路
今天听了一个从业三十多年的一个老师对个人成长之路的分享，他也是半路子出来，1985年开始做咨询，后来经过了许多系统的学习，终于摆脱了半路子的情况，他说：慢就是快，学习是马拉松，不是百米赛，也说到了现在的各种流派太多，其实是市场觉得哪些流派好，就主推许多流派，导致许多新入门的咨询师就去盲目的学习，其实要适合自己的才好，还要根据自己的兴趣，个性特征，许多因素来决定，这也导致了许多学员花了大量的金钱，学
解锁生活密码，AI答案之书解决复杂难题 ChatMoneyAI 人工智能 ai
本文由ChatMoney团队出品介绍说明“答案之书智能体”是您贴心的智慧伙伴，随时准备为您解答生活中的种种困惑。无论您在工作中遭遇瓶颈，还是在情感世界里迷失方向，亦或是对个人成长感到迷茫，它都能倾听您的心声，并给予准确且富有启发的回应。它并非简单地给出答案，而是深入理解您问题的本质，运用丰富的知识和严密的逻辑，为您提供独到的见解。其回答简洁清晰，语言温暖而富有感染力，就像一位亲切的朋友在您身边为您
Redis 进阶知识：看完绝对可以提升你的Redis技能 Java爱好狂. java 后端 redis
提到Redis，也许大家第一印象是：高性能的K-V缓存。其除了缓存业务上的热点数据还能做队列以及分布式锁。可大部分的我们在使用的时候也许都是公司封装好的Redis，对于整个Redis的集群以及内部核心实现一知半解。只专注业务开发，那久而久之，在个人成长上变得帮组甚少。最明显的就是当业务量级上来后，在极端情况下，许多问题暴露出来，如果没有对Redis的底层有深入的了解，很难快速定位并解决问题Redi
x-ray社区版简单使用教程一只迷茫的汪工具爬虫 web安全
下载地址https://github.com/chaitin/xray注意：xray不开源，直接下载构建的二进制文件即可证书生成./xray_windows_amd64genca使用方法1，使用基础爬虫爬取并对爬虫爬取的链接进行漏洞扫描（xray的基础爬虫不能处理js渲染的页面）./xray_windows_amd64webscan--basic-crawlerhttp://example.com
剽悍老铁：我从未想过，自己能得到这么多荣誉洛柒姑娘
作者：希贝我是希贝，今年31岁，居住在重庆。之前的我：是专注个人成长领域、拥有8年培训实战经验的培训师；是帮助上百位来访者梳理人生规划的生涯规划师；是和学生一起做公众号短视频、开直播玩抖音的互联网营销导师。8年培训师生涯，我在世界500强待过，也进过创业公司，一直做企业内训，却又想在本职工作外去探寻更多出路。2019年，我考取了生涯规划师证书，成为一名生涯规划师（副业），为上百位用户提供咨询服务。
nginx过滤爬虫访问梓沂 nginx 爬虫运维
思路来自ai：Nginx可以通过多种方式来限制爬虫的行为：1.**User-Agent限制**：可以通过检查HTTP请求的User-Agent头部来识别并限制某些爬虫。例如，可以在Nginx配置文件中使用`if`语句来检查User-Agent，并使用`return`指令拒绝特定的User-Agent。```nginxif($http_user_agent~*(BadCrawler|AnotherB
幸福婚姻家庭21天个人成长第9天晨语妈妈
今天的主题联结童年，或许童年不快乐，但我们现在可以和过去和解，真正能体会到一个人的成长，跟你自己的选择有关系，因为这个世界没有谁能帮助到你，只有你自己愿意改变！经常听到身边有些说处理不好夫妻关系，不知道如何教育孩子？所以持续学习，成长好自己！是送给自己的最好礼物，也是送给孩子的最好礼物，宽恕别人就是放过自己，我愿意改变自己，成长自己，加油
程序员如何平衡日常编码工作与提升式学习？--编程之路：平衡与成长的艺术青云交教学 java学习学习高效编码习惯与时间管理技巧提升式学习的策略职业发展与个人成长的和谐共生编程教会你如何思考--比尔盖茨 Java学习方法时间管理
目录引言：正文：方向一：高效编码习惯与时间管理技巧方向二：提升式学习的策略方向三：职业发展与个人成长的和谐共生结束语：引言：在当今科技飞速发展的时代，编程已成为一项至关重要的技能。正如比尔·盖茨所说：“编程教会你如何思考。”对于程序员来说，如何在繁忙的日常编码工作中不断提升自己，实现职业发展与个人成长的双赢，是一个极具挑战性的问题。例如，谷歌的搜索引擎算法就是一个经典的编程案例，它通过高效的算法和
喂饱问题，饿死机会山里阿辉
喂饱问题，饿死机会，短短八个字，可以完美的形容我这几年的活法，证实了这几年个人成长的缓慢。这几年的工作，产品投入到项目贼多，基本都是在忙着解决问题，回答疑问，解决方案的探讨等，很少有时间或者精力去筹划未来，规划未来，很少有时间投入到提升自我，所以成长的步伐缓慢。这种工作状态，其实对个人来说是很不利的，每天都是在解决问题，都把精力投到解决问题上，对自身能力的提升没有实质的帮助，广度也不够。其实反思当
追根朔源，透过课堂看本质——《百分数的认识》教学反思依_雯
昨天上了一节《百分数的认识》，上周已经酝酿了教学思路，教学设计的一次次修改完善，甚至于在上课前的一个小时，在想教学思路的时候，猛然觉得某个环节可以再修改，立马提笔改动；上课前的半个小时，我再次地修改了课件。对于自己的这些行为，我是这样解释的：更多的是我在不断地完善自我！我认为，这是一个人成长的必经之路，是在肯定自己和否定自己中坚定自己的信念，不断充实自我——追求自己要达到的，坚持自己要完成的。我在
成年人通透法则 _心希_
不知不觉，新的一年已经开始了。这是《成年人通透法则》系列的第三篇，这个系列重在个人成长，自我提升，人性博弈方面。推出这个系列，也是想分享个人的一些浅薄经验和想法，希望能对大家带来一些收获，或是一种看问题的新角度。一，人生再难，不要让自己活成了笑话。有人总是说，为什么道理都懂，可就是过不好这一生？答案是道理都懂，但明知道那是错误，却明知故犯，做不到少犯错误或不犯错误。明知道不能说的秘密不能随便说，还
《决策，好与坏》:选择没有最好，只有更好懒羊羊六一
每个人成长过程，就是一个选择的过程，小到上幼儿园，大到找工作，找对象，做生意，投资等等，不是自己选择就是父母替自己选择，每次选择好与坏都关乎到你下一步遇到的人和事。拿找对象来说，找一位贤妻良母，家庭和睦，子孙孝顺，而娶错妻子，会使兄弟失和，夫妻反目。做生意投资，方向对了，生意蒸蒸日上；方向错了，一败涂地。那么你的选择是好是坏。此刻你不妨看一下《决策，好与坏》。本书对我们决策背后的复杂机理进行了细致
《迭代：让情商和见识成为你最大的底气》7 小圆圈圈
第二章节个人成长：找到正确精进的通道“一个人真正变老的3个标志”如下：1、对新鲜事物失去了好奇心；并不是只有小孩子才有好奇心的特权，每一个热爱生活，热爱工作，热爱自己的都有一颗敏锐的眼睛。因为热爱，所以认真观察身边的一切。当一个人缺乏对新兴事物的兴趣时，他可能已经乏味可陈或是被生活弄得焦头烂额了，新世界的大门也就对他关闭了。2、停止了自我成长；我有两个自我成长段1，参加工作后，专业技能突飞猛进；2
爬虫入门教程：爬虫概述会三十六变的猫爬虫爬虫 python 大数据
在数字化时代，数据已经成为我们生活和工作中不可或缺的一部分。而如何高效、准确地获取这些数据，成为了许多领域面临的共同问题。今天，我们就来一起探讨一下爬虫技术，这个能够自动从互联网上抓取信息的神奇工具。一、什么是爬虫简单来说，爬虫（WebCrawler）是一种按照一定规则，自动抓取互联网信息的程序或者脚本。它通过模拟人类浏览器的行为，向目标网站发送请求，然后解析并提取返回的数据。这些数据可以是网页的
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
如何破除学习怪圈，不再焦虑聚焦专注？紫水晶_a66f
今晚的议题是经常感觉自己欠缺很多能力，如何破除学习怪圈，不再焦虑，提高聚焦专注力？这个议题好像说到了我的心里，2020年我买了很多书，学习了很多课程，报了很多课程，有时只是学了，却没有用出来。我也意识到这一点，所以要聚焦，一直想找到自己的天赋本心，终极奋斗目标！所以说2021个人成长是我最想破的局，也是很多人都存在的问题，因此我认真聆听冬月老师的高能拆解。她首先通过三联问了解大目标，小目标，具体的
心理咨询师成长的六个方面韩焕玲
心理咨询师成长需要在六个方面下功夫：“学”、“做”、“研”、“教”、“写”以及个人成长。好的教学，不仅仅让学员学习到知识，还要让他形成学习模式和习惯。不仅仅知道了是什么，还要有为什么的研究思维。不仅仅可以做出来，还可以说出来，更可以写出来。当然，更重要的还是这个人要成长，你是谁，比你会什么技术更重要。这就是韦志中心理学网校的魅力和内涵。
【来年展望】思考空间
。。。。。。每日宜忌必定因人而异一概而论只会误人子弟来年运程一切吉凶旺衰不是说你是说年的趋势流月流日都是客观状态对号入座要看自己八字。。。。。。贰零贰壹下元八运属寅利于东方源源创新朝气不要冲动坚守乐观初心蓄势待发积极做好准备岁次辛丑整体状态为养突破在望继续耕耘钻研。。。。。。如无迷津别叫大师指点随便看看等于白费天机相信别人不如依靠自己个人成长必须努力学习人生目标当由自己决定格局运道就是你的使命。。
由“世界网红”李子柒引发对家庭教育的思考（下）熙熹mm
上周007的作业，我写了由李子柒引发对家庭教育的思考，我说：“由李子柒的成功，我联想到现代家庭教育对个人成长的影响！教育的原点是生活，一切教育都应该回归生活。教育即生活，生活即教育，教育不该脱离生活。李子柒不只是一个“世界网红”，更是一种“文化”。”上周，因为写作篇幅较小，我对家庭教育的看法写得很少，但是我的思考绝不只有那些，这周我想继续写这个主题。01.家庭教育的重要性说到这个话题，人人都知道家
兴成长，不断成长——2019个人成长规划长白157宋健
图片发自App从踏上教师这个工作岗位至今已经21年了。多年的工作经历使我成为一个传统意义上的老教师。所谓“老”意味着熟悉课堂教学的每一个环节，了解每个阶段儿童的心理特点，对完成教学任务更加游刃有余，但正因为如此也会造成一种不需要再学习，“吃老本”就可以了。俗话说“凡事预则立，不预则废”。为了更好适应新课改的需要，培养出高素质的人才，圆满的完成好教学任务，我运用专业发展的理论结合自身的实际情况，结合
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地