cool line

scrapy爬虫项目--------http://v.hao123.baidu.com网站的爬取(内附：没有进行可视化的项目报告...........的链接地址)

继上一篇的博客scrapy准备工作完成后，今天正式开始scrapy的爬虫项目
ps：先看上一篇博客

scrapy项目----------爬取hao123影视

一、分析各文件含义

---->所有的init.py文件

无实意，内部没有内容，主要用于同一目录下的文件间的互相调用，下面的‘代码实现’中会提到！

---->dao包是手动添加的，里面的文件主要用于与数据库连接

–>basedao.py文件，连接数据库的万金油文件，可直接使用，与pymysql.json文件联用。

–>jobpositiondao.py文件，主要用于创建主要表和详情表（扩展，添加其他方法，sql语句（select），在showstatistics.py文件中可实现，而不存入数据库中），用basedao.py里的方法。

–>pymysql.json文件，连接数据库的具体信息，端口，密码，用户名，ip之类的，只需要改改内容即可。

–>taskdao.py文件，主要用于创建任务表，用basedao.py里的方法。

---->spiders包是自动生成的

–>jobspider.py文件是主程序文件，信息爬取的代码写在此文件里

---->底层steamcopy包

–>items.py文件，是保存爬取到的数据的容器，使用方法与字典类似，将定义字典items，将各key值（要爬取的数据名）通过scrapy.Field()定义。

–>middlewares.py文件，自动生成的，不需要改，在settings.py文件中打开，后面设置代理头的时候还需要将原端口关闭，设置新的。（settings.py文件中详解）

–>mysqlpipelines.py文件，通道，用于将爬取的数据存入数据库，大体结构复制的pipelines.py文件，在settings.py文件中打开pipelines的开关，添加此文件。（settings.py文件中详解）

–>pipelines.py文件，通道，将数据通过控制台输出，可直接看，在settings.py文件中打开。

–>rotateuseragent.py文件，创建动态代理列表，随机选取列表中的用户代理头部信息，伪装请求，防止被封ip，手动添加（可直接使用）

–>settings.py文件，项目的设置文件，内部含已定义的，打开，该添加的添加。（第一步就应该先配置此文件）

---->外层steamcopy包

–>jobspider.log文件，日志文件，将日志信息打印在此，需要在settings.py文件中设置

–>scrapy.cfg文件，项目的配置文件，主要用于连接settings.py文件和主程序文件，是自动生成的，不需要修改。

–>showstatistics.py文件，手动添加的，实现某sql语句，sql语句是在jobpositiondao.py文件中定义的某方法，直接调用可输出。（不进入数据库，可以不写）

–>startspider.py文件，是爬虫启动脚本，设置完后就不用在cmd输入scrapy crawl jobspider来启动了。

二、各文件代码实现

---->basedao.py

import pymysql
import json
import os

class basedao():    #dao:database access object的缩写，主要用于数据库方面的代码应用

    def __init__(self, configFile='pymysql.json'):
        self.__connection = None
        self.__cursor = None
        self.__config = json.load(open(os.path.dirname(__file__) + os.sep + configFile, 'r'))  # 通过json配置获得数据的连接配置信息（地址用相对的）
        print(self.__config)
        pass

    # 专门用来获取数据库连接的函数方法
    def getConnection(self):
        if self.__connection:                #如果有连接对象
            return self.__connection         #直接返回连接对象，
        try:
            self.__connection = pymysql.connect(**self.__config)#不然，创建新的连接对象
            return self.__connection
        except pymysql.MySQLError as e:
            print("Exception:"+str(e))
            pass
        pass

    #用于执行sql语句的通用方法(增删改查)   #sql注入的问题
    def execute(self,sql,params):
        try:
            self.__cursor = self.getConnection().cursor()
            result = self.__cursor.execute(sql,params)
            return result
            #print(result)    查的话，需要输出，其他的result是int整数(是修改成功的条数)
        except (pymysql.MySQLError,pymysql.DatabaseError,Exception)as e:
            print("出现数据库访问异常" + str(e))
            self.rollback()    #回滚
            pass
        pass
    #一般在select的sql语句时用
    def fetch(self):
        if self.__cursor:
            return self.__cursor.fetchall()
        pass

    #提交事务，每个sql语句都需要提交然后运行，紧接着close
    def commit(self):
        if self.__connection:
            self.__connection.commit()
        pass
    #回滚，出错的话就返回之前的状态
    def rollback(self):
        if self.__connection:
            self.__connection.rollback()
        pass
    #获取最后一行的id标识（用于主要表与详情表的1对1关系）
    def getLastRowId(self):
        if self.__cursor:
            return self.__cursor.lastrowid
        pass
    #关闭（只要打开了就需要关闭，否则很快数据库就会报错）
    def close(self):
        if self.__cursor:
            self.__cursor.close()
        if self.__connection:
            self.__connection.close()
    pass

---->pymysql.json

{"host":"127.0.0.1","user" : "root","password" : "root","database" : "db_web_steam","port": 3306,"charset" : "utf8"}
//自动登陆数据库，
//分别是  ip地址、用户名、密码、数据库名、端口、语言
//直接用的话：需要改  host(默认127.0.0.1)   user    password    database（定义的数据库名，建数据库时注意保持一致）     port（默认都是3306）   charset（不能有‘-’）

---->taskdao.py

from .basedao import basedao     #调用同一目录下的basedao类，以便于用里面的方法

class TaskDao(basedao):    #继承父类才可以调用各种方法

    def create(self, params):
        sql = "insert into task (task_title, task_url) values (%s, %s)"        #sql语句，创建任务表
        result = self.execute(sql, params)
        lastRowId = self.getLastRowId()
        self.commit()   #提交
        self.close()    #关闭
        return result, lastRowId
        pass
    pass

---->jobpositiondao.py

from .basedao import basedao       #  . '点'  代表当前文件夹

#定义一个操作电影数据的数据库访问类
class steamdao(basedao):    #继承basedao.py,直接调用已封装好的方法
    def __init__(self):
        super().__init__()    #用super调用父类的init方法
        pass

    #向数据库插入电影信息
    def create(self,params):
        sql = "insert into steam(steamname,steamtime,steamweb,steamnote,taskid,steamplayer) values(%s,%s,%s,%s,%s,%s)"     #创建主表
        result = self.execute(sql,params)
        lastRowId = self.getLastRowId()
        self.commit()
        return result,lastRowId

    def createdetail(self,params):
        sql = "insert into detail(detail_desciption,detail_positionid) values(%s,%s)"     #该表与主表1对1，可以不建，建的话，通过lastrowid同步，以免信息错误
        result = self.execute(sql,params)
        self.commit()
        return result
        pass

    def PositionClassify(self):          #在showstatistics.py中调用该方法返回对应的数据内容，查找不用新建表
        sql = "select t1.steamname,t2.task_title,t1.steamnote,t1.taskid from task t2 left join steam t1 on t1.taskid = t2.task_id order by t1.steamnote desc"
        result = self.execute(sql,params=None)
        self.commit()
        return self.fetch()       #查找用fench方法
        pass

    pass

---->startspider.py

#此脚本是爬虫启动脚本     不用在cmd输入scrapy crawl jobspider

from scrapy.cmdline import execute
from scrapy_steam草稿.steamcopy.steamcopy.dao.taskdao import TaskDao      #调用任务表
#启动爬虫
td = TaskDao()
result,taskid = td.create(('日本电影','http://v.hao123.baidu.com/v/search?channel=movie&area=%E6%97%A5%E6%9C%AC&pn=1'))
if result:
    execute(['scrapy','crawl','jobspider',
             '-a','start_urls=http://v.hao123.baidu.com/v/search?channel=movie&area=%E6%97%A5%E6%9C%AC&pn=1',
             '-a','taskid=' + str(taskid)
             ])
    pass

result,taskid = td.create(('印度电影','http://v.hao123.baidu.com/v/search?channel=movie&area=%E5%8D%B0%E5%BA%A6&pn=1'))
if result:
    execute(['scrapy','crawl','jobspider',
             '-a','start_urls=http://v.hao123.baidu.com/v/search?channel=movie&area=%E5%8D%B0%E5%BA%A6&pn=1',
             '-a','taskid=' + str(taskid)
             ])
    pass


'''
                         用线程启动程序
# coding:utf-8
import threading

# 在项目外用脚本启动爬虫
from twisted.internet import reactor
from scrapy.crawler import CrawlerRunner
from scrapy.settings import Settings

# 配置文件在这里手动实现
def runSpider():
    settings = Settings({

        'SPIDER_MODULES': ['jobspiders.spiders'],
        'ROBOTSTXT_OBEY': False,
        'SPIDER_MIDDLEWARES': {
        'jobspiders.middlewares.JobspidersSpiderMiddleware': 543},
        # 启用pipelines组件
        'ITEM_PIPELINES': {
            'jobspiders.pipelinesmysql.JobspidersPipeline': 400, },
        'DOWNLOADER_MIDDLEWARES': {
            'jobspiders.middlewares.JobspidersDownloaderMiddleware': 543,
            'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,  # 这一行是取消框架自带的useragent
            'jobspiders.rotateuseragent.RotateUserAgentMiddleware': 400 },
        'CONCURRENT_REQUESTS': 1,  #
        'DOWNLOAD_DELAY': 5        #

    })

    runner = CrawlerRunner(settings)    # 通过程序对爬虫进行设置
    d = runner.crawl('jobsspider')      # 启动爬虫
    d.addBoth(lambda _: reactor.stop())
    reactor.run()
    return 0

def spiderThread():
    # 启动线程执行爬虫程序
    threading.Thread(target=runSpider())

if __name__ == '__main__':
    spiderThread()
'''

---->showstatistics.py

from scrapy_steam草稿.steamcopy.steamcopy.dao.jobpositiondao import steamdao      #调用数据库访问类

jp = steamdao()      #调用类的方法
print(jp.PositionClassify())     #输出此方法（sql语句）的结果
jp.close()    #记得关闭

---->settings.py（将我打开的都打开，添加的按照同样格式添加，注意名字要改对，否则报错）

# -*- coding: utf-8 -*-

# Scrapy settings for steamcopy project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://doc.scrapy.org/en/latest/topics/settings.html
#     https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://doc.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'steamcopy'

SPIDER_MODULES = ['steamcopy.spiders']
NEWSPIDER_MODULE = 'steamcopy.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'steamcopy (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False     #打开，防止有些网站爬取不了

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 3      #打开，不要太大（数据多太慢），也不要太小（容易被封），
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}

# Enable or disable spider middlewares
# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html
SPIDER_MIDDLEWARES = {
   'steamcopy.middlewares.SteamcopySpiderMiddleware': 543,
}

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
    'steamcopy.middlewares.SteamcopyDownloaderMiddleware': 543,
    'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,  # 这一行是取消框架自带的useragent（请求头）
    'steamcopy.rotateuseragent.RotateUserAgentMiddleware': 400         #rotateuseragent文件，提供代理头，防止被封ip
}

# Enable or disable extensions
# See https://doc.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'steamcopy.pipelines.SteamcopyPipeline': 300,
   'steamcopy.mysqlpipelines.SteamcopyPipeline': 301      #将数据输入进数据库中
}

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
AUTOTHROTTLE_DEBUG = False      #变成False后才不会有各种debug影响心情

# Enable and configure HTTP caching (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

#将日志输出到文件（先不要设置，否则报错无法点哪里错，只能看，把下面这两行先注释掉）
LOG_LEVEL = 'ERROR'
LOG_FILE = 'jobspider.log'

---->rotateuseragent.py（不需要修改，直接复制代码即可）

# -*- coding: utf-8 -*-
__author__ = "中软国际教育科技·CTO办公室"
__date__ = "2017年5月15日 10时49分"

# 导入random模块
import random
# 导入useragent用户代理模块中的UserAgentMiddleware类
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

# RotateUserAgentMiddleware类，继承 UserAgentMiddleware 父类
# 作用：创建动态代理列表，随机选取列表中的用户代理头部信息，伪装请求。
#       绑定爬虫程序的每一次请求，一并发送到访问网址。

# 发爬虫技术：由于很多网站设置反爬虫技术，禁止爬虫程序直接访问网页，
#             因此需要创建动态代理，将爬虫程序模拟伪装成浏览器进行网页访问。
class RotateUserAgentMiddleware(UserAgentMiddleware):
    def __init__(self, user_agent=''):
        self.user_agent = user_agent

    def process_request(self, request, spider):
        #这句话用于随机轮换user-agent
        ua = random.choice(self.user_agent_list)
        if ua:
            # 输出自动轮换的user-agent
            print(ua)
            request.headers.setdefault('User-Agent', ua)

    # the default user_agent_list composes chrome,I E,firefox,Mozilla,opera,netscape
    # for more user agent strings,you can find it in http://www.useragentstring.com/pages/useragentstring.php
    # 编写头部请求代理列表
    user_agent_list = [\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"\
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",\
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",\
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",\
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",\
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",\
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
       ]

---->items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class SteamcopyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    steamname = scrapy.Field()  # 定义key，即爬取数据的名字，放在item字典里
    steamtime = scrapy.Field()
    steamweb = scrapy.Field()
    steamnote = scrapy.Field()
    detailURL = scrapy.Field()
    nextURL = scrapy.Field()
    detail = scrapy.Field()
    taskid = scrapy.Field()
    pass

---->pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

class SteamcopyPipeline(object):
    def process_item(self, item, spider):
        print('通过管道输出数据')      #将爬取到的数据在控制台输出
        print(item['steamname'])
        print(item['steamtime'])
        print(item['steamweb'])
        print(item['steamnote'])
        print(item['detail'])
        return item

---->mysqlpipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
from scrapy_steam草稿.steamcopy.steamcopy.dao.jobpositiondao import steamdao

class SteamcopyPipeline(object):
    def process_item(self, item, spider):
        steams = steamdao()  # 定义一个对象
        try:
            steamtime = item['steamtime']
            steamplayer = steamtime.split('：')[1]

            result,lastRowId = steams.create((item['steamname'], item['steamtime'], item['steamweb'], item['steamnote'],item['taskid'],steamplayer))  # 调用create方法，将爬取的数据输入进数据库中
            if result:
                steams.createdetail((item['detail'],lastRowId))      #lastrowid是为了保证steam表和detail表的同步性（1对1），因为detail表其实可以不需要，直接在steam表中新加一列
        except Exception as e:
            print(e)
        finally:
            steams.close()
        return item

---->jobspider.py（主程序）

# -*- coding: utf-8 -*-
#主程序，改xpath地址即可改变要爬取的数据


import scrapy

from scrapy_steam草稿.steamcopy.steamcopy.items import SteamcopyItem     #引入items文件的类

class JobspiderSpider(scrapy.Spider):
    name = 'jobspider'
    start_urls = []      #在startspider文件中有就不用写了，赋初值为空列表

    def __init__(self, start_urls=None, taskid=0, *args, **kwargs):
        super(JobspiderSpider, self).__init__(*args, **kwargs)
        self.start_urls.append(start_urls)
        self.taskid = taskid
        pass

    def parse(self, response):

        steamitems = response.xpath("//div[@class='result clearfix']/ul/li")  # 返回的是xpath的选择器列表（所有需要爬取的数据所在的根目录）

        steamlen = len(steamitems)    #下边用来判断一页内容是否爬取完毕的标志
        steamcount = 0

        nextURL = response.xpath("//div[@class='c-pagination clearfix']/a[@class='next-btn']/@href").extract()  # 取下一页的地址
        nextText = response.xpath("//div[@class='c-pagination clearfix']/a[@class='next-btn']/text()").extract()   #取‘下一页’这几个字
        # print(nextURL)
        realURL = ""
        if nextURL and nextText[-1].strip() == '下一页':      #最后一页没有下一页，要避免这种情况
            realURL = response.urljoin(nextURL[-1])
            pass


        for steamitem in steamitems:  # 遍历选择器列表
            steamcount += 1
            sitem = SteamcopyItem()  # 引入类之后，定义一个对象
            sitem['taskid'] = self.taskid
            # 解析电影名称
            steamname = steamitem.xpath("a/span/text()")
            if steamname:
                sitem['steamname'] = steamname.extract()[0].strip()  # extract返回字符串内容，选第一个，去掉首尾空格
            pass

            steamdetail = steamitem.xpath("a/@href")  # 返回的是选择器（之所以和下面的地址相同，单纯的详情页需要电影地址，可以不爬电影地址，详情页不能改，除非有另一个链接可以跳转详情页）

            # 解析电影主演
            steamtime = steamitem.xpath("p/text()")
            if steamtime:
                sitem['steamtime'] = steamtime.extract()[0].strip()
            pass
            # 解析电影地址名称
            steamweb = steamitem.xpath("a/@href")
            if steamweb:
                sitem['steamweb'] = steamweb.extract()[0].strip()
            pass
            # 解析电影评分
            steamnote = steamitem.xpath("a/div/span/em/text()")
            if steamnote:
                sitem['steamnote'] = steamnote.extract()[0].strip()
            pass
            if steamname and steamtime and steamweb and steamnote and steamdetail:  # 生成器（判断是否全都不为空，如果网站本身的数据出错，那就不需要爬取）
                detailURL = steamdetail.extract()[0]

                sitem['nextURL'] = realURL      #定义下一页的地址

                yield scrapy.Request(url=detailURL, callback=self.parse_detail,      #callback调用下面的方法
                                     meta={'item': sitem, 'steamlen': steamlen, 'steamcount': steamcount},
                                     dont_filter=True,encoding='utf-8')  # dont_filter是否去重复地址
                pass
            pass
            pass

    # 定义爬取详情页的方法
    def parse_detail(self, response):
        sitem = response.meta['item']
        steamlen = response.meta['steamlen']
        steamcount = response.meta['steamcount']
        detaildata = response.xpath("//p[@class='abstract']")      #二级页面（详情页）要爬的数据的根目录，即detail表中的数据所在的目录
        # print('detaildata：', detaildata)  检查是否爬到数据，xpath地址有没有写错
        if detaildata:
            contents = detaildata.xpath('em/text()')  # 返回当前选择器
            ct = ""    #定义空变量，赋值用
            if contents:     #判断是否为空，即详情页中所需数据是否存在
                for temp in contents.extract():     #将数据按照规范格式输出，如果本身规范，可以不写
                    if temp.strip() == "" or temp.strip() == "/":        #可以用正则表达式
                        continue
                    ct += temp + "\n"
                    pass
            sitem['detail'] = ct
            yield sitem  # 保顺序（按照从上到下，不跳着爬取）
            pass
        # 判断当前页是否爬取完成了，完成就继续爬取下一页
        if steamlen == steamcount:
            if sitem['nextURL']:
                yield scrapy.Request(sitem['nextURL'], self.parse, dont_filter=False,encoding='utf-8')
            pass
        pass

    pass

三、MySQL建数据库，数据表（尽量不要添加外键，删数据不好删）

---->数据库名和数据表名

---->detail数据表（详情表：二级页面所需数据的的存储地方，不是必要的，在主要表加一列就不用建详情表了，建的话需要注意‘与主要表1对1的关系’）

---->steam数据表（主要表：一级页面所需数据的存储地方）

---->task数据表（任务表：所有的数据采集的项目都需要任务表，将所需要的数据任务列出来，’任务表对应多个主要表，是1对多的关系‘）

ps：数据表中的数据名与代码中存的相对应，保持一致！
至此，项目完成！

项目报告（未可视化）
点击上方连接转到项目报告获取界面（不黑不吹）

AI如何提升个性化广告精准度——让投放更智能、更懂用户 Echo_Wish 前沿技术人工智能人工智能
AI如何提升个性化广告精准度——让投放更智能、更懂用户随着人工智能（AI）技术的发展，个性化广告已经从粗暴推送演变为智能匹配，广告主再也不想把预算砸给不感兴趣的人，而是精准触达有购买意向的用户。AI在广告投放中的核心优势在于深度数据分析、智能推荐、实时优化，让广告投放更精准、更有效。今天，我们就来聊聊AI如何提升个性化广告的精准度，并用Python代码演示其中的关键技术。1.为什么传统广告投放越来
N-P准则下的多传感器融合(python) 不会打架的锤子机器学习自动化算法算法 python vscode
本文设计了一个主程序：main_sensor_fusion，和一个函数程序：cal_fuse。主程序里面包含主干部分和绘图部分，函数程序包含数据生成函数gen，检测概率计算函数cal，非0逻辑矩阵函数No_zero_value，单传感器判决函数fus_seq，多传感融合函数fusion。需要的点赞私聊if__name__=="__main__":begin_time=time()#Measurep
Python+Vue计算机毕业设计智慧养老院管理系统egn81（源码+程序+LW+部署）心心毕设程序源码 python vue.js 课程设计
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Python3.7.7+Django+Mysql5.7+piplist+HBuilderX（Vscode也行）+Vue+Pychram社区版。项目技术：Django+Vue+Python+Mysql等等组成，B/S模式等等。环境需要1.运行环境：最好是安装Python3.7.7，我们在这个平台上运行的。其他版本理论上也
Python在自动驾驶中的多传感器融合——让智能汽车“看得更清楚” Echo_Wish Python！实战！python 自动驾驶汽车
Python在自动驾驶中的多传感器融合——让智能汽车“看得更清楚”在自动驾驶技术的演进过程中，多传感器融合（Multi-SensorFusion）是不可或缺的一环。单一传感器往往存在局限性，例如摄像头怕光线变化，激光雷达价格昂贵，毫米波雷达分辨率有限，但如果将它们结合起来，就能形成一个更全面、更可靠的环境感知系统。今天，我们就来聊聊如何用Python实现自动驾驶中的多传感器融合，并结合最新技术趋势
列表反转：reverse() 方法的深度剖析测试者家园测试开发和测试 Python 零基础学Python 人工智能 Python 零基础学Python 零基础职场和发展软件开发和测试智能化测试
数据结构的基本操作始终是打牢编程基础的关键。而在对列表（list）这一核心数据结构的操作中，反转（reversing）是一项既常用又容易被低估的重要操作。Python提供了原地反转的reverse()方法，与返回新序列的切片[::-1]或内置函数reversed()形成了鲜明对比。本文将全面剖析list.reverse()方法，从其语义、实现机制、适用场景，到其在测试、开发与自动化中的实际运用，力
Python dlib（HOG+SVM）人脸识别总结程序媛一枚~ 人脸识别 python 支持向量机开发语言读书笔记人脸检测识别
Pythondlib（HOG+SVM）人脸识别总结面部标志检测dlib68点（HOG+SVM），194点人脸识别模型，包括口（外嘴唇，内嘴唇），鼻，眉毛（左右眉），眼睛（左右眼），下鄂5点面部标志检测器（左眼2点，右眼2点，鼻子1点）面部对齐更高效眨眼检测ear眨眼瞬间达到0疲劳驾驶检测—连续帧ear面部对齐眼睛连线反正切获取旋转角度，期望图像眼睛横长度计算比率左眼计算右眼相对坐标眼睛横中心点作为
Python开发从新手到专家：第十四章面向对象（ OOP）程序设计 caifox菜狐狸 Python开发从新手到专家 python OOP 面向对象类继承多态静态方法
在Python开发的旅程中，我们已经探索了诸多基础概念与实用技巧，从简单的变量赋值到复杂的函数嵌套，每一步都为构建更强大的程序奠定了坚实的基础。如今，我们即将踏入一个全新的领域——面向对象程序设计（OOP）。这一章将带你领略OOP的独特魅力，它不仅是一种编程范式，更是一种全新的思考问题和解决问题的方式。面向对象程序设计的核心在于“对象”和“类”。通过将数据和操作数据的方法封装在一起，我们可以构建出
用 Python 打造立体数据世界：3D 堆叠条形图绘制全解析 Code_Verse python 科研绘图
在数据可视化的工具箱里，3D图表总能带来眼前一亮的效果——它突破了二维平面的限制，用立体空间展示多维度数据关系，让复杂的数据层级一目了然。今天我们要解锁的「3D堆叠条形图」，就是一种能同时呈现类别、子类别、数值大小的强大可视化工具，特别适合展示具有分层结构的数据。无论是商业报表中的多维度业绩分析，还是科研数据中的多指标对比，它都能让你的数据呈现瞬间高级起来～为什么选择3D堆叠条形图？先聊聊这种图表
python爬取京东图片通信小小白 python 爬虫 python 爬虫图片
网上的淘宝爬取图片的代码一般都已经不能实际运行了，在查看淘宝网源代码是找不到图片源地址，估计采取了反爬技术。又去京东看了下，发现很容易爬取。根据下面网址构建urlhttps://list.jd.com/list.html?cat=670%2C671%2C1105&go=0https://list.jd.com/list.html?cat=670,671,1105&page=2&sort=sort_
数据图的类型以及如何在 Python 中创建和自定义唐城唐城奇妙之旅-GIS python 信息可视化数据分析
有人说：一个人从1岁活到80岁很平凡，但如果从80岁倒着活，那么一半以上的人都可能不凡。生活没有捷径，我们踩过的坑都成为了生活的经验，这些经验越早知道࿰
探索PyRDP：远程桌面协议的瑞士军刀彭宏彬
探索PyRDP：远程桌面协议的瑞士军刀pyrdpRDPmonster-in-the-middle(mitm)andlibraryforPythonwiththeabilitytowatchconnectionsliveorafterthefact项目地址:https://gitcode.com/gh_mirrors/py/pyrdp在网络安全领域，攻防两端的对决不断推动着工具的创新。今天，让我们聚
python采集淘宝评论，API接口丨json数据示例参考 ID_18007905473 API python 大数据 json python
在Python中采集淘宝商品评论数据，通常需要通过淘宝开放平台提供的API接口来实现。然而，淘宝开放平台并没有直接提供公开的评论API接口，因此需要通过其他方式间接获取评论数据。以下是一个使用Python通过网页爬虫技术获取淘宝商品评论数据的示例。请注意，这个示例仅用于学习和研究目的，请确保遵守淘宝的使用条款和相关法律法规。示例代码importrequestsfrombs4importBeauti
Python采集京东商品详情数据API接口概述及JSON数据格式参考 ID_18007905473 API python 前端服务器 json
前言一、京东商品详情API接口概述京东开放平台提供了多种API接口，允许开发者通过编程方式获取商品详情数据。以下是常见的接口类型及功能：商品基础信息接口接口名称：jd.union.open.goods.query功能：获取商品标题、价格、图片、库存等基础信息。适用场景：商品列表展示、价格监控等。商品详情接口接口名称：jd.union.open.goods.detail.query功能：获取商品详细
Python采集京东商品详情API接口概述 ID_18007905473 python PHP 数据库 python 开发语言
前言京东开放平台提供了多种API接口用于获取商品详情信息，以下是主要的API接口概述及Python采集示例。一、主要商品详情API接口1.商品基础信息接口接口名称:jd.union.open.goods.query功能:获取商品标题、价格、图片、库存等基础信息2.商品详情接口接口名称:jd.union.open.goods.detail.query功能:获取商品详细描述、规格参数、售后政策等丰富信
Python采集淘宝商品评论API接口概述，json格式数据参考 ID_18007905473 python API python json 前端
一、淘宝商品评论API接口概述淘宝开放平台提供了taobao.item.reviews.get接口，用于获取指定商品的评论数据。该接口支持分页查询、多条件筛选（如时间范围、评分等级）和自定义返回字段，适用于电商数据分析、竞品研究和用户行为洞察等场景。核心功能：分页获取评论：支持通过page_no和page_size参数控制返回数据的分页。多维度筛选：可按时间范围（start_date、end_da
基于Python的京东商品信息采集实战：用Playwright+Pandas打造高效数据抓取工具 Python爬虫项目 2025年爬虫实战项目 python pandas 开发语言爬虫游戏笔记
一、项目背景与目标在当今电商生态中，价格、销量、评论等商品信息对用户和商家来说至关重要。无论是做数据分析、电商监控，还是构建商品推荐系统，第一步都是：获取真实的商品数据。本项目以京东商城搜索结果页为目标，通过构建一个高效、可复用的商品信息采集爬虫系统，实现对商品名称、价格、店铺、评论数、链接等核心信息的提取。二、技术路线概述我们采用如下技术架构：模块技术选型浏览器自动化Playwright（现代、
Python爬虫：爬取物流公司运输数据与包裹跟踪信息 Python爬虫项目 python 爬虫开发语言数据挖掘旅游
一、前言随着电商行业的蓬勃发展，物流服务已成为不可或缺的一部分。消费者对物流运输状态的关注越来越高，实时查询包裹的运输进度成为日常生活的一部分。物流公司爬虫正是为了自动化获取物流公司的运输数据和包裹的跟踪信息，帮助消费者、商家以及物流公司本身进行数据分析、优化物流链条和提高客户体验。本文将详细介绍如何使用Python爬虫从多个物流公司网站或API接口中抓取运输数据、包裹跟踪信息以及相关的统计分析数
Python采集京东商品API接口概述及JSON格式数据参考 ID_18007905473 python API 数据库 python 开发语言
前言一、接口概述京东商品详情API接口是京东开放平台为开发者提供的服务，用于获取京东平台上商品的详细信息。通过调用该接口，开发者可以获取商品的名称、价格、库存、图片、规格参数、用户评价等结构化数据，适用于电商应用、价格监控、数据分析等场景。二、接口特点数据全面性接口返回的数据涵盖多个维度，包括：商品基本信息：名称、品牌、型号、分类等。价格信息：当前售价、原价、促销价、折扣信息等。库存信息：库存数量
【Python】科研代码学习：十三 Accelerate 溢流眼泪【科研代码】python 学习开发语言
【Python】科研代码学习：十三AccelerateAccelerate统一的加速接口修改训练代码(torch.nn)更简单的使用Accelerate【HF官网-Doc-Accelerate：API】HFAccelerate是一个库，能够让PyTorch代码添加几行代码之后，就能在分布式配置中运行（比如多Gpus卡）前言：建议Python3.8+pipinstallaccelerate统一的加速
【python】2.set集合一个玉米栗 python python
Set集合创建一个空集合使用set(),若创建的集合内元素有值可以使用creatset={'tom','arry','张三','李四'}集合内重复的元素会被自动去掉集合是无序的，可变类型的数据集合添加元素set.add('addname')-addname为要添加的元素set.remove():删除集合的元素set.update('添加元素包含字典，列表，集合'):向集合中更新元素set.clea
pip install accelerate后accelerate命令无法执行的问题轩轩的学习之路 pip linux windows
这是因为默认使用的是.local/bin/accelerate而不是conda环境里的accelerate查看accelerate路径与python是否一致whichpythonwhichaccelerate打印输出果然accelerate路径有问题（python）/home/ubuntu/.conda/envs/Emb/bin/python（accelerate）/home/ubuntu/.lo
Python小知识感情谁不曾无奈 #Python笔记 python
文章目录一、技巧二、错误解决办法三、Pycharm3.1添加安装包python知识点梳理AI股票可以读取指数一、技巧1.1镜像元安装指令：pipinstall-ihttps://pypi.doubanio.com/simple/--trusted-hostpypi.doubanio.comxxxx1.2唤醒虚拟环境.\venv\Scripts\activate1.3解决包不兼容问题pipinsta
统一认证、限流、Mock 一网打尽！用 APISIX/Kong 让低代码平台更清爽网罗开发实战源码前端 kong 低代码
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
LeetCode题解：30.串联所有单词的子串【Python题解超详细，KMP搜索、滑动窗口法】，知识拓展：Python中的排列组合
题目描述给定一个字符串s和一个字符串数组words。words中所有字符串长度相同。s中的串联子串是指一个包含words中所有字符串以任意顺序排列连接起来的子串。例如，如果words=["ab","cd","ef"]，那么"abcdef"，"abefcd"，"cdabef"，"cdefab"，"efabcd"和"efcdab"都是串联子串。"acdbef"不是串联子串，因为他不是任何words排列
python udsoncan 详解车载testing 智能汽车测试 python
pythonudsoncan详解udsoncan是一个Python库，用于实现汽车统一诊断服务（UnifiedDiagnosticServices，UDS）协议。UDS是一种用于汽车诊断的标准化通信协议，它定义了一系列的服务和流程，用于ECU（电子控制单元）的诊断和通信。udsoncan库支持通过CAN（ControllerAreaNetwork）和DoIP（DiagnosticoverIP）等不
HarmonyOS（OHOS）引擎编译常见问题 harmonyos
ohos引擎产物编译相关问题flutter_engine环境编译配置参考FlutterOpenHarmony化引擎编译环境推荐配置版本python3.8-3.11,3.12版本会出现报错java17DevEco-Studio/command-line-tools,5.0.3.300+包含了ohpm,hvigorw,node,OpenHarmonySDKXcode14.3如何生成flutter.ha
python-can + can-isotp + udsoncan 实现基础的UDS诊断功能；附代码 dujunqiu python python 开发语言
1：功能说明在网上搜了一下python-can+udsoncan的使用说明，发现都是很笼统的介绍，没有详细的使用说明；下面根据我自己的使用经验，来给大家介绍一下;2：源代码介绍这里主要修改的配置是“bus1=can.interface.Bus(interface=‘canalystii’,channel=0,bitrate=500000)”这一行代码，需要根据实际使用的CAN盒进行配置；详细的代码
Python打卡训练营-Day41-简单CNN traMpo1ine cnn python 深度学习
@浙大疏锦行知识回顾数据增强卷积神经网络定义的写法batch归一化：调整一个批次的分布，常用与图像数据特征图：只有卷积操作输出的才叫特征图调度器：直接修改基础学习率卷积操作常见流程如下：1.输入→卷积层→Batch归一化层（可选）→池化层→激活函数→下一层Flatten->Dense(withDropout，可选)->Dense(Output)这里相关的概念比较多，如果之前没有学习过复试班强化班中
__init__.py 是个啥，为什么深受大厂程序员偏爱？程序员CC_ Python入门学python Python零基础 python 人工智能开发语言
朋友们，今天我们来聊聊Python里一个低调却至关重要的文件——__init__.py。说实话，这玩意儿刚开始学Python时，很多人（包括当年的我）都是一脸懵：“这啥？删了会咋样？”有些人可能听说过它是“包的标志”，也有人觉得它“没啥大用，可以忽略”，更有甚者以为它“只是个装样子的文件”。今天，我们就来彻底搞清楚__init__.py到底是干啥的，以及它如何影响Python项目的结构和运行。️先
Github 2025-06-24Python开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-06-24统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目10Swift项目1C++项目1yt-dlp:一个增强版的youtube-dl分支创建周期：1184天开发语言：Python协议类型：TheUnlicenseStar数量：64607个Fork数量：5309次关注人数：64607人贡献
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

scrapy爬虫项目--------http://v.hao123.baidu.com网站的爬取(内附：没有进行可视化的项目报告...........的链接地址)

scrapy项目----------爬取hao123影视

一、分析各文件含义

---->所有的__init__.py文件

---->dao包是手动添加的，里面的文件主要用于与数据库连接

–>basedao.py文件，连接数据库的万金油文件，可直接使用，与pymysql.json文件联用。

–>jobpositiondao.py文件，主要用于创建主要表和详情表（扩展，添加其他方法，sql语句（select），在showstatistics.py文件中可实现，而不存入数据库中），用basedao.py里的方法。

–>pymysql.json文件，连接数据库的具体信息，端口，密码，用户名，ip之类的，只需要改改内容即可。

–>taskdao.py文件，主要用于创建任务表，用basedao.py里的方法。

---->spiders包是自动生成的

–>jobspider.py文件是主程序文件，信息爬取的代码写在此文件里

---->底层steamcopy包

–>items.py文件，是保存爬取到的数据的容器，使用方法与字典类似，将定义字典items，将各key值（要爬取的数据名）通过scrapy.Field()定义。

–>middlewares.py文件，自动生成的，不需要改，在settings.py文件中打开，后面设置代理头的时候还需要将原端口关闭，设置新的。（settings.py文件中详解）

–>mysqlpipelines.py文件，通道，用于将爬取的数据存入数据库，大体结构复制的pipelines.py文件，在settings.py文件中打开pipelines的开关，添加此文件。（settings.py文件中详解）

–>pipelines.py文件，通道，将数据通过控制台输出，可直接看，在settings.py文件中打开。

–>rotateuseragent.py文件，创建动态代理列表，随机选取列表中的用户代理头部信息，伪装请求，防止被封ip，手动添加（可直接使用）

–>settings.py文件，项目的设置文件，内部含已定义的，打开，该添加的添加。（第一步就应该先配置此文件）

---->外层steamcopy包

–>jobspider.log文件，日志文件，将日志信息打印在此，需要在settings.py文件中设置

–>scrapy.cfg文件，项目的配置文件，主要用于连接settings.py文件和主程序文件，是自动生成的，不需要修改。

–>showstatistics.py文件，手动添加的，实现某sql语句，sql语句是在jobpositiondao.py文件中定义的某方法，直接调用可输出。（不进入数据库，可以不写）

–>startspider.py文件，是爬虫启动脚本，设置完后就不用在cmd输入scrapy crawl jobspider来启动了。

二、各文件代码实现

---->basedao.py

---->pymysql.json

---->taskdao.py

---->jobpositiondao.py

---->startspider.py

---->showstatistics.py

---->settings.py（将我打开的都打开，添加的按照同样格式添加，注意名字要改对，否则报错）

---->rotateuseragent.py（不需要修改，直接复制代码即可）

---->items.py

---->pipelines.py

---->mysqlpipelines.py

---->jobspider.py（主程序）

三、MySQL建数据库，数据表（尽量不要添加外键，删数据不好删）

---->数据库名和数据表名

---->detail数据表（详情表：二级页面所需数据的的存储地方，不是必要的，在主要表加一列就不用建详情表了，建的话需要注意‘与主要表1对1的关系’）

---->steam数据表（主要表：一级页面所需数据的存储地方）

---->task数据表（任务表：所有的数据采集的项目都需要任务表，将所需要的数据任务列出来，’任务表对应多个主要表，是1对多的关系‘）

你可能感兴趣的:(python)

---->所有的init.py文件