python利用线程池抓取页面

import socket


def threaded_method():
    sock = socket.socket()
    sock.connect(('xkcd.com', 80))
    request = 'GET /353/ HTTP/1.0\r\nHost: xkcd.com\r\n\r\n'
    sock.send(request.encode('ascii'))
    response = b''
    chunk = sock.recv(4096)
    while chunk:
        response += chunk
        chunk = sock.recv(4096)

    print(response)

threaded_method()


s.socket()创建套接字

s.connect()连接到address处的套接字。一般格式为元组(hostname,port),连接错误则返回socket.error。80端口是为超文本传输协议开放的,当然连接80啦

s.recv(),参数格式s.recv(bufsize[,flag]),接收tcp套接字数据并返回字符串。bufsize指定要接收的最大数据量

s.send(string[,flag]),发送tcp数据,将string中的内容发送到连接到的套接字,返回值是要发送的数据数量。该数量可能小于string的字节大小

string.encode()编码字符串,这个都懂的

上述代码域名可以替换为任意主机域名的说。基础内容就这些

代码出处:500 lines or less

 

转载于:https://www.cnblogs.com/bitch1319453/p/6566038.html

你可能感兴趣的:(python利用线程池抓取页面)