weixin_40005795

python电影爬虫系统毕设_从零开始搭建完整的电影全栈系统（一）——数据库设计及爬虫编写...

前言：关于标题似乎有些浮夸，所谓的全栈系统主要包括数据的爬取，web网站展示，移动设备App，主要记录学习过程中知识点，以备忘。

**技术栈：

1，Scrapy爬虫框架：记录爬虫框架的工作流程，简单爬虫的编写

2，Yii框架：用于PC网站、移动网站以及RESTful Api(为什么不继续用python注入django或者fastapi等框架？主要是目前还不熟悉)

3，Flutter移动：用于移动App搭建**

免责声明：该项目不会储存任何视频资源到服务器，仅作为个人学习过程点滴积累。

数据库结构：

vod_detail主要保存视频信息，play_url用于各个视频的播放地址。这里将视频信息和播放地址分开到不同的表中保存个人觉得更加合理，比如一个电视剧之类的可以有多个剧集播放地址。各个字段说明见表结构。

vod_detail：-- phpMyAdmin SQL Dump

-- version 4.8.5

-- https://www.phpmyadmin.net/

-- 主机： localhost

-- 生成日期： 2020-09-09 10:33:32

-- 服务器版本： 5.7.26

-- PHP 版本： 7.3.4

SET SQL_MODE = "NO_AUTO_VALUE_ON_ZERO";

SET AUTOCOMMIT = 0;

START TRANSACTION;

SET time_zone = "+00:00";

-- 数据库： `film`

-- --------------------------------------------------------

-- 表的结构 `vod_detail`

CREATE TABLE `vod_detail` (

`id` int(11) NOT NULL,

`url` varchar(500) NOT NULL COMMENT '采集的url',

`url_id` varchar(100) NOT NULL COMMENT '采集的url经过加密生成的唯一字符串',

`vod_title` varchar(255) NOT NULL COMMENT '视频名称',

`vod_sub_title` varchar(255) DEFAULT NULL COMMENT '视频别名',

`vod_blurb` varchar(255) DEFAULT NULL COMMENT '简介',

`vod_content` longtext COMMENT '详细介绍',

`vod_status` int(11) DEFAULT '0' COMMENT '状态',

`vod_type` varchar(255) DEFAULT NULL COMMENT '视频分类',

`vod_class` varchar(255) DEFAULT NULL COMMENT '扩展分类',

`vod_tag` varchar(255) DEFAULT NULL,

`vod_pic_url` varchar(255) DEFAULT NULL COMMENT '图片url',

`vod_pic_path` varchar(255) DEFAULT NULL COMMENT '图片下载保存路径',

`vod_pic_thumb` varchar(255) DEFAULT NULL,

`vod_actor` varchar(255) DEFAULT NULL COMMENT '演员',

`vod_director` varchar(255) DEFAULT NULL COMMENT '导演',

`vod_writer` varchar(255) DEFAULT NULL COMMENT '编剧',

`vod_remarks` varchar(255) DEFAULT NULL COMMENT '影片版本',

`vod_pubdate` int(11) DEFAULT NULL,

`vod_area` varchar(255) DEFAULT NULL COMMENT '地区',

`vod_lang` varchar(255) DEFAULT NULL COMMENT '语言',

`vod_year` varchar(255) DEFAULT NULL COMMENT '年代',

`vod_hits` int(11) DEFAULT '0' COMMENT '总浏览数',

`vod_hits_day` int(11) DEFAULT '0' COMMENT '一天浏览数',

`vod_hits_week` int(11) DEFAULT '0' COMMENT '一周浏览数',

`vod_hits_month` int(11) DEFAULT '0' COMMENT '一月浏览数',

`vod_up` int(11) DEFAULT '0' COMMENT '顶数',

`vod_down` int(11) DEFAULT '0' COMMENT '踩数',

`vod_score` decimal(3,1) DEFAULT '0.0' COMMENT '总评分',

`vod_score_all` int(11) DEFAULT '0',

`vod_score_num` int(11) DEFAULT '0',

`vod_create_time` int(11) DEFAULT NULL COMMENT '创建时间',

`vod_update_time` int(11) DEFAULT NULL COMMENT '更新时间',

`vod_lately_hit_time` int(11) DEFAULT NULL COMMENT '最后浏览时间'

) ENGINE=MyISAM DEFAULT CHARSET=utf8mb4;

-- 转储表的索引

-- 表的索引 `vod_detail`

ALTER TABLE `vod_detail`

ADD PRIMARY KEY (`id`),

ADD UNIQUE KEY `url_id` (`url_id`) COMMENT '唯一避免抓取过的网址重复采集';

-- 在导出的表使用AUTO_INCREMENT

-- 使用表AUTO_INCREMENT `vod_detail`

ALTER TABLE `vod_detail`

MODIFY `id` int(11) NOT NULL AUTO_INCREMENT;

COMMIT;

play_url：-- phpMyAdmin SQL Dump

-- version 4.8.5

-- https://www.phpmyadmin.net/

-- 主机： localhost

-- 生成日期： 2020-09-09 10:34:59

-- 服务器版本： 5.7.26

-- PHP 版本： 7.3.4

SET SQL_MODE = "NO_AUTO_VALUE_ON_ZERO";

SET AUTOCOMMIT = 0;

START TRANSACTION;

SET time_zone = "+00:00";

-- 数据库： `film`

-- --------------------------------------------------------

-- 表的结构 `play_url`

CREATE TABLE `play_url` (

`id` int(11) NOT NULL,

`play_title` varchar(255) DEFAULT NULL,

`play_from` varchar(255) DEFAULT NULL,

`play_url` varchar(255) NOT NULL,

`play_url_aes` varchar(100) NOT NULL COMMENT '将url生成唯一字符串',

`url_id` varchar(100) NOT NULL COMMENT '关联vod_detail url_id',

`create_time` int(11) DEFAULT NULL,

`update_time` int(11) DEFAULT NULL

) ENGINE=MyISAM DEFAULT CHARSET=utf8mb4;

-- 转储表的索引

-- 表的索引 `play_url`

ALTER TABLE `play_url`

ADD PRIMARY KEY (`id`),

ADD UNIQUE KEY `play_url_aes` (`play_url_aes`);

-- 在导出的表使用AUTO_INCREMENT

-- 使用表AUTO_INCREMENT `play_url`

ALTER TABLE `play_url`

MODIFY `id` int(11) NOT NULL AUTO_INCREMENT;

COMMIT;

影视数据爬虫：

环境：python3.8

爬虫框架：scrapy

环境搭建配置略过。。。。

这里选择抓取的是一个影视资源站，特点就是它就是专门给别人爬取采集的，无反爬虫限制，结构简单，相应的爬虫就简单。

(一)这里记录下安装Scrapy容易出错点及爬虫调试的配置：python安装虚拟环境工具：

pip install virtualenv

1，新建虚拟环境：

进入存放虚拟环境的文件夹

virtualenv pachong

2，Scarapy框架安装:

进入创建的虚拟环境(可以在cmd中或者pycharm命令控制台操作)

先安装Scarapy框架依赖：lxml、Twisted、pywin32 最好提前离线安装。

3，再安装scrapy

4，新建Scrapy项目：进入虚拟环境 scrapy startproject MoviesSpider

5，新建一个okzy爬虫： scrapy genspider okzy okzy.co

6，如何在pychar中调试爬虫：

由于pycharm不能直接新建scrapy项目，所以可以在爬虫项目根目录新建main.py 代码如下：

import os

import sys

from scrapy.cmdlineimport execute

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(['scrapy', 'crawl', 'cnblogs'])

(二)爬虫目录结构：

说明：scrapy基础知识工作流程这里不具体展开。

A, models目录中的film文件是使用peewee根据数据库生成的model类，关于peewee的主要作用既可以根据数据库生成model，也可以根据model类创建对应的表。peewee是一款轻量化的ORM框架，让我们更加面向对象的操作数据库。这样我们在爬取玩数据插入数据库的时候就可以不写那些麻烦又容易出错的原生SQL语句了。熟悉php yii的小伙伴可以类比yii自带的脚手架工具gii。peewee文档：peewee文档

models中的retry_mySQLDatabase文件是爬取到的数据存入Mysql时既使用连接池又使用重连，防止连接时间过长插入数据可能出错。

film.py代码：from peewee import *

# database = MySQLDatabase('film', **{'charset': 'utf8', 'sql_mode': 'PIPES_AS_CONCAT', 'use_unicode': True, 'host': '127.0.0.1', 'port': 3306, 'user': 'root', 'password': 'root'})

from models.retry_mySQLDatabase import RetryMySQLDatabase

database = database = RetryMySQLDatabase.get_db_instance()

class UnknownField(object):

def __init__(self, *_, **__): pass

class BaseModel(Model):

class Meta:

database = database

class PlayUrl(BaseModel):

create_time = IntegerField(null=True)

play_from = CharField(null=True)

play_title = CharField(null=True)

play_url = CharField()

play_url_aes = CharField()

update_time = IntegerField(null=True)

url_id = CharField(unique=True)

class Meta:

table_name = 'play_url'

class VodDetail(BaseModel):

url = CharField()

url_id = CharField(unique=True)

vod_actor = CharField(null=True)

vod_area = CharField(null=True)

vod_blurb = CharField(null=True)

vod_class = CharField(null=True)

vod_content = TextField(null=True)

vod_create_time = IntegerField(null=True)

vod_director = CharField(null=True)

vod_down = IntegerField(constraints=[SQL("DEFAULT 0")], null=True)

vod_hits = IntegerField(constraints=[SQL("DEFAULT 0")], null=True)

vod_hits_day = IntegerField(constraints=[SQL("DEFAULT 0")], null=True)

vod_hits_month = IntegerField(constraints=[SQL("DEFAULT 0")], null=True)

vod_hits_week = IntegerField(constraints=[SQL("DEFAULT 0")], null=True)

vod_lang = CharField(null=True)

vod_lately_hit_time = IntegerField(null=True)

vod_pic_path = CharField(null=True)

vod_pic_thumb = CharField(null=True)

vod_pic_url = CharField(null=True)

vod_pubdate = IntegerField(null=True)

vod_remarks = CharField(null=True)

vod_score = DecimalField(constraints=[SQL("DEFAULT 0.0")], null=True)

vod_score_all = IntegerField(constraints=[SQL("DEFAULT 0")], null=True)

vod_score_num = IntegerField(constraints=[SQL("DEFAULT 0")], null=True)

vod_status = IntegerField(constraints=[SQL("DEFAULT 0")], null=True)

vod_sub_title = CharField(null=True)

vod_tag = CharField(null=True)

vod_title = CharField()

vod_type = CharField(null=True)

vod_up = IntegerField(constraints=[SQL("DEFAULT 0")], null=True)

vod_update_time = IntegerField(null=True)

vod_writer = CharField(null=True)

vod_year = CharField(null=True)

class Meta:

table_name = 'vod_detail'

class VodTags(BaseModel):

frequency = IntegerField(null=True)

name = CharField()

class Meta:

table_name = 'vod_tags'

class VodType(BaseModel):

type_des = CharField(constraints=[SQL("DEFAULT ''")], null=True)

type_en = CharField(constraints=[SQL("DEFAULT ''")], index=True, null=True)

type_extend = TextField(null=True)

type_jumpurl = CharField(constraints=[SQL("DEFAULT ''")], null=True)

type_key = CharField(constraints=[SQL("DEFAULT ''")], null=True)

type_logo = CharField(constraints=[SQL("DEFAULT ''")], null=True)

type_mid = IntegerField(constraints=[SQL("DEFAULT 1")], index=True, null=True)

type_name = CharField(constraints=[SQL("DEFAULT ''")], index=True)

type_pic = CharField(constraints=[SQL("DEFAULT ''")], null=True)

type_pid = IntegerField(constraints=[SQL("DEFAULT 0")], index=True, null=True)

type_sort = IntegerField(constraints=[SQL("DEFAULT 0")], index=True, null=True)

type_status = IntegerField(constraints=[SQL("DEFAULT 1")], null=True)

type_title = CharField(constraints=[SQL("DEFAULT ''")], null=True)

type_tpl = CharField(constraints=[SQL("DEFAULT ''")], null=True)

type_tpl_detail = CharField(constraints=[SQL("DEFAULT ''")], null=True)

type_tpl_down = CharField(constraints=[SQL("DEFAULT ''")], null=True)

type_tpl_list = CharField(constraints=[SQL("DEFAULT ''")], null=True)

type_tpl_play = CharField(constraints=[SQL("DEFAULT ''")], null=True)

type_union = CharField(constraints=[SQL("DEFAULT ''")], null=True)

class Meta:

table_name = 'vod_type'

retry_mySQLDatabase.py代码：from playhouse.pool import PooledMySQLDatabase

from playhouse.shortcuts import ReconnectMixin

"""

既使用连接池又使用重连

"""

class RetryMySQLDatabase(ReconnectMixin, PooledMySQLDatabase):

_instance = None

@staticmethod

def get_db_instance():

if not RetryMySQLDatabase._instance:

RetryMySQLDatabase._instance = RetryMySQLDatabase(

'film',

**{'charset': 'utf8', 'sql_mode': 'PIPES_AS_CONCAT', 'use_unicode': True,

'host': '127.0.0.1', 'port': 3306, 'user': 'root', 'password': 'root'}

)

return RetryMySQLDatabase._instance

B，MoviesSpider目录是爬虫主体目录。spiders中是目标站okzy爬虫，upload中存放影视图片，items、middlewares、pipelines、settings等同学们自行熟悉Scrapy工作原理和各个文件作用。

items.py文件：OkzyMoviesDetailspiderItem和OkzyMoviesspiderPlayurlItem分别对应影视详情和影片播放地址，都定义了个save_into_sql方法配合peewee生成的model类插入爬取到的数据到mysql。MoviesItemLoader是重写ItemLoader主要是防止目标网站有些数据不存在的出错问题和数据清洗。关于input_processor和output_processor如何处理爬取到的数据，及与之类似作用的优先级问题可以参考：scrapy--Itemloader数据清洗--input_processor和output_processor比较# Define here the models for your scraped items

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

from itemloaders.processors import TakeFirst, MapCompose, Identity

from scrapy.loader import ItemLoader

from scrapy.loader.common import wrap_loader_context

from scrapy.utils.misc import arg_to_iter

from models.film import VodDetail, PlayUrl

from utils.common import date_convert

def MergeDict(dict1, dict2):

return dict2.update(dict1)

pass

class MapComposeCustom(MapCompose):

# 自定义MapCompose，当value没元素时传入" "

def __call__(self, value, loader_context=None):

if not value:

value.append(" ")

values = arg_to_iter(value)

if loader_context:

context = MergeDict(loader_context, self.default_loader_context)

else:

context = self.default_loader_context

wrapped_funcs = [wrap_loader_context(f, context) for f in self.functions]

for func in wrapped_funcs:

next_values = []

for v in values:

next_values += arg_to_iter(func(v))

values = next_values

return values

class TakeFirstCustom(TakeFirst):

"""

处理采集的元素不存在问题

"""

def __call__(self, values):

for value in values:

if value is not None and value != '':

return value.strip() if isinstance(value, str) else value

"""

重写ItemLoader,默认取第一个元素并处理不存在的元素

"""

class MoviesItemLoader(ItemLoader):

default_output_processor = TakeFirstCustom()

default_input_processor = MapComposeCustom()

class MoviesspiderItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

pass

class OkzyMoviesDetailspiderItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

url = scrapy.Field()

url_id = scrapy.Field()

vod_title = scrapy.Field()

vod_sub_title = scrapy.Field()

vod_blurb = scrapy.Field()

vod_content = scrapy.Field()

vod_status = scrapy.Field()

vod_type = scrapy.Field()

vod_class = scrapy.Field()

vod_tag = scrapy.Field()

vod_pic_url = scrapy.Field(

output_processor=Identity()) # 优先级高于default_output_processor，因为scrapy要求下载图片、文件，不能是字符串，所以默认处理

vod_pic_path = scrapy.Field() # 下载的图片保存路径

vod_pic_thumb = scrapy.Field()

vod_actor = scrapy.Field()

vod_director = scrapy.Field()

vod_writer = scrapy.Field()

vod_remarks = scrapy.Field()

vod_pubdate = scrapy.Field()

vod_area = scrapy.Field()

vod_lang = scrapy.Field()

vod_year = scrapy.Field()

vod_hits = scrapy.Field()

vod_hits_day = scrapy.Field()

vod_hits_week = scrapy.Field()

vod_hits_month = scrapy.Field()

vod_up = scrapy.Field()

vod_down = scrapy.Field()

vod_score = scrapy.Field()

vod_score_all = scrapy.Field()

vod_score_num = scrapy.Field()

vod_create_time = scrapy.Field(input_processor=MapCompose(date_convert))

vod_update_time = scrapy.Field(input_processor=MapCompose(date_convert))

vod_lately_hit_time = scrapy.Field()

pass

def save_into_sql(self):

if not VodDetail.table_exists():

VodDetail.create_table()

vod_detail = VodDetail.get_or_none(VodDetail.url_id == self['url_id'])

if vod_detail is not None:

data = vod_detail

else:

data = VodDetail()

try:

data.url = self['url']

data.url_id = self['url_id']

data.vod_title = self['vod_title']

data.vod_sub_title = self['vod_sub_title']

# data.vod_blurb = self['vod_blurb']

data.vod_content = self['vod_content']

data.vod_status = 1

data.vod_type = self['vod_type']

data.vod_class = self['vod_class']

# data.vod_tag=self['vod_tag']

data.vod_pic_url = self['vod_pic_url'][0]

data.vod_pic_path = self['vod_pic_path']

# data.vod_pic_thumb=self['vod_pic_thumb']

data.vod_actor = self['vod_actor']

data.vod_director = self['vod_director']

# data.vod_writer=self['vod_writer']

data.vod_remarks = self['vod_remarks']

# data.vod_pubdate=self['vod_pubdate']

data.vod_area = self['vod_area']

data.vod_lang = self['vod_lang']

data.vod_year = self['vod_year']

# data.vod_hits=self['vod_hits']

# data.vod_hits_day=self['vod_hits_day']

# data.vod_hits_week=self['vod_hits_week']

# data.vod_hits_month=self['vod_hits_month']

# data.vod_up=self['vod_up']

# data.vod_down=self['vod_down']

data.vod_score = self['vod_score']

data.vod_score_all = self['vod_score_all']

data.vod_score_num = self['vod_score_num']

data.vod_create_time = self['vod_create_time']

data.vod_update_time = self['vod_update_time']

# data.vod_lately_hit_time = self['vod_lately_hit_time']

row = data.save()

except Exception as e:

print(e)

pass

class OkzyMoviesspiderPlayurlItem(scrapy.Item):

play_title = scrapy.Field()

play_from = scrapy.Field()

play_url = scrapy.Field()

play_url_aes = scrapy.Field()

url_id = scrapy.Field()

create_time = scrapy.Field(input_processor=MapCompose(date_convert))

update_time = scrapy.Field(input_processor=MapCompose(date_convert))

def save_into_sql(self):

if not PlayUrl.table_exists():

PlayUrl.create_table()

play_url = PlayUrl.get_or_none(PlayUrl.play_url_aes == self['play_url_aes'])

if play_url is not None:

data = play_url

else:

data = PlayUrl()

try:

data.play_title = self['play_title']

data.play_from = self['play_from']

data.play_url = self['play_url']

data.play_url_aes = self['play_url_aes']

data.url_id = self['url_id']

data.create_time = self['create_time']

data.update_time = self['update_time']

row = data.save()

except Exception as e:

print(e)

pass

pipelines.py文件：MovieImagesPipeline类重写scrapy.pipelines.images.ImagesPipeline 获取图片下载地址给items，MysqlPipeline类是插入爬取的数据存入mysql。# Define your item pipelines here

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

import re

from scrapy import Request

# useful for handling different item types with a single interface

from scrapy.pipelines.images import ImagesPipeline

from utils.common import pinyin

class MoviesspiderPipeline:

def process_item(self, item, spider):

return item

# 重写scrapy.pipelines.images.ImagesPipeline 获取图片下载地址给items

class MovieImagesPipeline(ImagesPipeline):

def get_media_requests(self, item, info):

if "vod_pic_url" in item:

for vod_pic_url in item['vod_pic_url']:

yield Request(url=vod_pic_url, meta={'item': item}) # 添加meta是为了下面重命名文件名使用

def file_path(self, request, response=None, info=None):

item = request.meta['item']

movietitle = item['vod_title']

#去除特殊字符，只保留汉子，字母、数字

sub_str = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])", "", movietitle)

img_guid = request.url.split('/')[-1] # 得到图片名和后缀

filename = '/upload/images/{0}/{1}'.format(pinyin(sub_str), img_guid)

return filename

# return super().file_path(request, response, info)

# def thumb_path(self, request, thumb_id, response=None, info=None):

# item = request.meta['item']

# movietitle = pinyin(item['vod_title'][0])

# img_guid = request.url.split('/')[-1] # 得到图片名和后缀

# filename = '/images/{0}/thumbs/{1}/{2}'.format(movietitle, thumb_id, img_guid)

# return filename

def item_completed(self, results, item, info):

image_file_path = ""

if "vod_pic_url" in item:

for ok, value in results:

image_file_path = value["path"]

item["vod_pic_path"] = image_file_path

return item

class MysqlPipeline(object):

def process_item(self, item, spider):

"""

每个item中都实现save_into_sql()方法，就可以用同一个MysqlPipeline去处理

:param item:

:param spider:

:return:

"""

item.save_into_sql()

return item

settings.py主要设置了图片下载item及路径。# Scrapy settings for MoviesSpider project

# For simplicity, this file contains only settings considered important or

# commonly used. You can find more settings consulting the documentation:

# https://docs.scrapy.org/en/latest/topics/settings.html

# https://docs.scrapy.org/en/latest/topics/downloader-middleware.html

# https://docs.scrapy.org/en/latest/topics/spider-middleware.html

import os

current_dir = os.path.dirname(os.path.abspath(__file__))

BOT_NAME = 'MoviesSpider'

SPIDER_MODULES = ['MoviesSpider.spiders']

NEWSPIDER_MODULE = 'MoviesSpider.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent

# USER_AGENT = 'MoviesSpider (+http://www.yourdomain.com)'

# Obey robots.txt rules

# ROBOTSTXT_OBEY = True

ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)

# CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)

# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay

# See also autothrottle settings and docs

# DOWNLOAD_DELAY = 3

# The download delay setting will honor only one of:

# CONCURRENT_REQUESTS_PER_DOMAIN = 16

# CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)

# COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)

# TELNETCONSOLE_ENABLED = False

# Override the default request headers:

# DEFAULT_REQUEST_HEADERS = {

# 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

# 'Accept-Language': 'en',

# }

# Enable or disable spider middlewares

# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html

# SPIDER_MIDDLEWARES = {

# 'MoviesSpider.middlewares.MoviesspiderSpiderMiddleware': 543,

# }

# Enable or disable downloader middlewares

# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html

# DOWNLOADER_MIDDLEWARES = {

# 'MoviesSpider.middlewares.MoviesspiderDownloaderMiddleware': 543,

# }

# Enable or disable extensions

# See https://docs.scrapy.org/en/latest/topics/extensions.html

# EXTENSIONS = {

# 'scrapy.extensions.telnet.TelnetConsole': None,

# }

# Configure item pipelines

# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

'MoviesSpider.pipelines.MoviesspiderPipeline': 300,

# 重写scrapy.pipelines.images.ImagesPipeline 获取图片下载地址给items

'MoviesSpider.pipelines.MovieImagesPipeline': 1,

'MoviesSpider.pipelines.MysqlPipeline': 20,

}

# Enable and configure the AutoThrottle extension (disabled by default)

# See https://docs.scrapy.org/en/latest/topics/autothrottle.html

# AUTOTHROTTLE_ENABLED = True

# The initial download delay

# AUTOTHROTTLE_START_DELAY = 5

# The maximum download delay to be set in case of high latencies

# AUTOTHROTTLE_MAX_DELAY = 60

# The average number of requests Scrapy should be sending in parallel to

# each remote server

# AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0

# Enable showing throttling stats for every response received:

# AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)

# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings

# HTTPCACHE_ENABLED = True

# HTTPCACHE_EXPIRATION_SECS = 0

# HTTPCACHE_DIR = 'httpcache'

# HTTPCACHE_IGNORE_HTTP_CODES = []

# HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

# 图片下载路径配置

IMAGES_STORE = os.path.join(current_dir, 'upload')

# 配置要下载的item

IMAGES_URLS_FIELD = "vod_pic_url"

# 生成图片缩略图，添加设置

# IMAGES_THUMBS = {

# 'small': (80, 80),

# 'big': (200, 200),

# }

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'

# RANDOMIZE_DOWNLOAD_DELAY = True

# DOWNLOAD_DELAY = 2

关于scrapy图片、文件下载配置自行参考文档。值得注意的一点，因为scrapy要求下载图片、文件，不能是字符串，所以item中使用默认处理vod_pic_url = scrapy.Field( output_processor=Identity())。

C，spiders目录中的okzy文件是爬虫。由于目标站结构简单所以爬虫就相对简单。parse方法是解析影片列表获取详情页地址，parse_detail是解析详情页获得影片详情及播放地址。from urllib import parse

import scrapy

from scrapy import Request

from MoviesSpider.items import OkzyMoviesDetailspiderItem, OkzyMoviesspiderPlayurlItem, MoviesItemLoader

from utils import common

class OkzySpider(scrapy.Spider):

name = 'okzy'

allowed_domains = ['okzy.co']

start_urls = ['https://okzy.co/?m=vod-index-pg-1.html']

# start_urls = ['https://okzy.co/?m=vod-type-id-22-pg-1.html']

def parse(self, response):

all_urls = response.css(".xing_vb4 a::attr(href)").extract()

for url in all_urls:

yield Request(url=parse.urljoin(response.url, url), callback=self.parse_detail)

list_urls = list(range(1, 3))

list_urls.reverse()

# for i in list_urls:

# url = 'https://okzy.co/?m=vod-index-pg-{0}.html'.format(i)

# yield Request(url=url, callback=self.parse)

def parse_detail(self, response):

voddetail_item_loader = MoviesItemLoader(item=OkzyMoviesDetailspiderItem(), response=response)

voddetail_item_loader.add_value('url', response.url)

voddetail_item_loader.add_value("url_id", common.get_md5(response.url))

voddetail_item_loader.add_css('vod_title', 'h2::text')

voddetail_item_loader.add_css('vod_sub_title',

'.vodinfobox > ul:nth-child(1) > li:nth-child(1) > span:nth-child(1)::text')

# voddetail_item_loader.add_xpath('vod_blurb', '//h2/text()')

voddetail_item_loader.add_css('vod_content', 'div.ibox:nth-child(2) > div:nth-child(2)::text')

# voddetail_item_loader.add_xpath('vod_status', '//h2/text()')

voddetail_item_loader.add_css('vod_type',

'.vodinfobox > ul:nth-child(1) > li:nth-child(4) > span:nth-child(1)::text')

voddetail_item_loader.add_xpath('vod_class',

'/html/body/div[5]/div[1]/div/div/div[2]/div[2]/ul/li[4]/span/a/text()')

# voddetail_item_loader.add_xpath('tag', '//h2/text()'

voddetail_item_loader.add_css('vod_pic_url', '.lazy::attr(src)')

# voddetail_item_loader.add_xpath('vod_pic_thumb', '//h2/text()')

voddetail_item_loader.add_css('vod_actor',

'.vodinfobox > ul:nth-child(1) > li:nth-child(3) > span:nth-child(1)::text')

voddetail_item_loader.add_css('vod_director',

'.vodinfobox > ul:nth-child(1) > li:nth-child(2) > span:nth-child(1)::text')

# voddetail_item_loader.add_xpath('vod_writer', '//h2/text()')

voddetail_item_loader.add_css('vod_remarks', '.vodh > span:nth-child(2)::text')

# voddetail_item_loader.add_xpath('vod_pubdate', '//h2/text()')

voddetail_item_loader.add_css('vod_area', 'li.sm:nth-child(5) > span:nth-child(1)::text')

voddetail_item_loader.add_css('vod_lang', 'li.sm:nth-child(6) > span:nth-child(1)::text')

voddetail_item_loader.add_css('vod_year', 'li.sm:nth-child(7) > span:nth-child(1)::text')

# voddetail_item_loader.add_xpath('vod_hits', '//h2/text()')

# voddetail_item_loader.add_xpath('vod_hits_day', '//h2/text()')

# voddetail_item_loader.add_xpath('vod_hits_week', '//h2/text()')

# voddetail_item_loader.add_xpath('vod_hits_month', '//h2/text()')

# voddetail_item_loader.add_xpath('vod_up', '//h2/text()')

# voddetail_item_loader.add_xpath('vod_down', '//h2/text()')

voddetail_item_loader.add_css('vod_score', '.vodh > label:nth-child(3)::text')

voddetail_item_loader.add_css('vod_score_all', 'li.sm:nth-child(12) > span:nth-child(1)::text')

voddetail_item_loader.add_css('vod_score_num', 'li.sm:nth-child(13) > span:nth-child(1)::text')

voddetail_item_loader.add_css('vod_create_time', 'li.sm:nth-child(9) > span:nth-child(1)::text')

voddetail_item_loader.add_css('vod_update_time', 'li.sm:nth-child(9) > span:nth-child(1)::text')

# voddetail_item_loader.add_xpath('vod_lately_hit_time', '//h2/text()')

okzyMoviesspiderItem = voddetail_item_loader.load_item()

# 解析m3u8格式播放地址

ckm3u8playurlList = response.xpath('//*[@id="2"]/ul/li/text()').extract()

for ckm3u8playurlInfo in ckm3u8playurlList:

m3u8playurlInfoList = ckm3u8playurlInfo.split('$')

vodm3u8playurl_item_loader = MoviesItemLoader(item=OkzyMoviesspiderPlayurlItem(), response=response)

vodm3u8playurl_item_loader.add_value('play_title', m3u8playurlInfoList[0])

vodm3u8playurl_item_loader.add_value('play_url', m3u8playurlInfoList[1])

vodm3u8playurl_item_loader.add_value('play_url_aes', common.get_md5(m3u8playurlInfoList[1]))

vodm3u8playurl_item_loader.add_xpath('play_from', '//*[@id="2"]/h3/span/text()')

vodm3u8playurl_item_loader.add_value("url_id", common.get_md5(response.url))

vodm3u8playurl_item_loader.add_css('create_time', 'li.sm:nth-child(9) > span:nth-child(1)::text')

vodm3u8playurl_item_loader.add_css('update_time', 'li.sm:nth-child(9) > span:nth-child(1)::text')

okzyMoviesm3u8PlayurlspiderItem = vodm3u8playurl_item_loader.load_item()

yield okzyMoviesm3u8PlayurlspiderItem

# 解析mp4格式播放地址

mp4playurlList = response.xpath('//*[@id="down_1"]/ul/li/text()').extract()

for mp4playurlInfo in mp4playurlList:

mp4playurlInfoList = mp4playurlInfo.split('$')

vodmp4playurl_item_loader = MoviesItemLoader(item=OkzyMoviesspiderPlayurlItem(), response=response)

vodmp4playurl_item_loader.add_value('play_title', mp4playurlInfoList[0])

vodmp4playurl_item_loader.add_value('play_url', mp4playurlInfoList[1])

vodmp4playurl_item_loader.add_value('play_url_aes', common.get_md5(mp4playurlInfoList[1]))

vodmp4playurl_item_loader.add_xpath('play_from', '//*[@id="down_1"]/h3/span/text()')

vodmp4playurl_item_loader.add_value("url_id", common.get_md5(response.url))

vodmp4playurl_item_loader.add_css('create_time', 'li.sm:nth-child(9) > span:nth-child(1)::text')

vodmp4playurl_item_loader.add_css('update_time', 'li.sm:nth-child(9) > span:nth-child(1)::text')

okzyMoviesmp4PlayurlspiderItem = vodmp4playurl_item_loader.load_item()

yield okzyMoviesmp4PlayurlspiderItem

yield okzyMoviesspiderItem

本机测试爬取了6W多条影视详情和78W条影片播放地址，下载6W多张影视图片半天时间足够了。

下节预告：将使用yii框架快速搭建影片展示的WEB网站和编写符合restful风格的Api。

WEB网站展示：

另：欢迎各位大佬入裙交流：

你可能感兴趣的:(python电影爬虫系统毕设)

Vue Markdown 编辑器全攻略：轻松集成 MD 编辑器到前端项目 misschen888 前端 vue.js 编辑器
VueMarkdown编辑器全攻略：轻松集成MD编辑器到前端项目1.为什么选择Markdown编辑器？2.安装v-md-editor3.全局配置与集成4.在组件中使用Markdown编辑器5.高级配置与自定义功能6.总结在现代前端开发中，Markdown编辑器被广泛应用于博客、内容管理系统、在线文档等场景。本文将以Vue3为例，详细介绍如何使用v-md-editor库在项目中集成Markdown编
python 导包 amaicsdn python
__init__.pyisneededunderthepackagewhereyouwanttoputyourownpyfilesorthisdirectorywontberecongnisedasapythonpackage__init__.pycanbeemptyfileusefillpathyoucanaccessthedefinedmethodmethodunder__init__.pyc
爬虫获取 item_get_video 接口数据：小红书笔记视频详情的深度解析 API快乐传递者小红书API API 爬虫笔记音视频
在当今内容驱动的互联网时代，小红书作为国内领先的社交电商平台，其笔记视频内容成为品牌营销、内容创作和用户体验的重要组成部分。通过爬虫技术获取小红书笔记视频详情，不仅可以帮助开发者更好地理解用户需求，还能为电商运营、内容推荐和数据分析提供强大的支持。本文将详细介绍如何使用Python爬虫获取小红书item_get_video接口的返回数据，并对其数据结构进行详细解析。一、item_get_video
【Conda与Pip的完美融合】在Conda环境中优雅使用pip指南 2401_85702623 conda pip python
标题：【Conda与Pip的完美融合】在Conda环境中优雅使用pip指南Conda是一个强大的包管理器和环境管理器，广泛用于Python社区，尤其是在数据科学和机器学习领域。尽管Conda本身可以处理大多数包的安装和管理，但有时我们可能仍需使用pip来安装特定的Python包。本文将详细解释如何在Conda环境中使用pip，包括配置、安装包、环境管理等，确保您可以充分利用这两个工具的优势。1.C
【Python 基础教程】Python中的输入输出 2401_84139711 python microsoft 开发语言
====================================================================在每一门编程语言中的都会有输入输出流这一说,通过输入输出流可以使我们写的程序与外界进行交互。当然了我们写程序的目的也就是对数据流进行处理,处理之后或对其进行保存,或将其释放。今天主要学习一下Python中的输入输出流,会对标准输入输出流、文件输入输出流展开介绍。一
第2篇：SOLR 的架构总览不出名的架构师 solr 架构 lucene
第2篇：SOLR的架构总览2.1前言在上一篇文章中，我们已经完成了SOLR的源码环境搭建，成功运行了一个简单的实例，并初步浏览了源码目录结构。现在，我们将目光转向SOLR的整体架构，探索它如何将复杂的功能组织成一个高效的搜索系统。通过本篇，你将了解SOLR的核心组件是如何协作的，请求是如何从客户端到达服务器并返回结果的，以及源码中哪些关键类扮演了重要角色。这不仅是后续深入分析的基础，也是理解SOL
Python 中的导包（import）：从入门到实践 | 搞计算机的研究生们求你们看看吧迪菲赫尔曼 Python python 开发语言 import 导包基础教程编程语言
Python中的导包（import）：从入门到实践在Python中，如果我们想使用其他人或自己写的功能（函数、类等），最常见的方式就是“导包”（import）。导包就相当于“拿来一个工具箱”，把里面的工具（代码）借来使用。本文将从基础到稍微进阶的层面，为你详细介绍Python的导包方式与常见用法。一、为什么要导包？举个生活中的例子：如果你要砍木头，需要一把斧子或电锯；如果你要拔钉子，需要钳子或起子
电脑配置怎么看？别错过这四个方法驱动小百科电脑配置怎么看电脑配置在哪里看电脑配置查看电脑配置方法
电脑配置在哪里看，这是很多用户都比较关心的问题。查看电脑配置可以了解电脑的硬件信息以及清楚电脑的性能如何。便于我们后期进行优化系统性能、升级硬件或是评估二手电脑价值等等。那么，查看电脑配置的方法有哪些呢？下面便为大家介绍四种方法。1、使用系统信息工具①、打开开始菜单，在搜索框中输入“系统信息”并按回车键。②、系统信息窗口将会显示，这里你可以看到详细的硬件和系统信息，包括处理器型号、内存大小、BIO
python keyerror列名报错_keyerror weixin_39870199 python keyerror列名报错
ValueError：传入参数不是调用者所期望的(从书上所得，输入的参数不是数字而是字母)TypeError：传入参数的类型不符合IndexError：传入的参数个数不满足AttributeError：访问对象的某属性无效KeyError：访问字典的无效关键字IOError：无法打开文件最近接到一个使用python写一个解析yaml文件，并根据内容配置指定对应的shell来执行(比如bat、pow
微信小程序|系统配送员如何登陆抢单？同城配送、预约服务惠惠软件数据恢复专辑微信小程序微信小程序
系统中有多个功能有有配送端，最主要的是同城配送，和预约服务两个功能，首先介绍一下同城配送的配送员登录（扩展的同城配送需要开启）第一步，设置模板消息，配送员通过微信模板消息接收配送信息，需要在平台——微信公众号——模板消息设置（注：已认证服务号才能开通模板消息功能，在公众平台(mp.weixin.qq.com)[功能]-[添加功能插件]-[模板消息]中申请开通所在行业选择：IT科技/互联网|电子商务
linux环境下快速输出电脑的系统/硬件/显卡/网络/已安装软件等信息 Tipriest_ Ubuntu linux 电脑网络信息输出
在Linux环境下，可以通过以下命令快速获取系统和硬件信息。最后将这些命令整合成一个脚本（如`sysinfo.sh``），一键输出所有信息。1.系统信息#内核信息uname-a#发行版信息lsb_release-a2>/dev/null||cat/etc/*release*#系统启动时间uptime#环境变量echo"PATH:$PATH"2.硬件信息#CPU信息lscpucat/proc/cpu
MySQL慢SQL优化方案详解：从诊断到根治的完整指南代码剑客588 mysql sql ffmpeg
MySQL慢SQL优化方案详解：从诊断到根治的完整指南一、慢SQL的致命影响当数据库响应时间超过500ms时，系统将面临三大灾难链式反应：用户体验崩塌页面加载超时率上升37%用户跳出率增加52%核心业务转化率下降29%系统稳定性危机连接池耗尽风险提升4.8倍主从同步延迟突破10秒阈值磁盘IO利用率长期超90%运维成本飙升DBA故障处理时间增加65%硬件扩容频率提高3倍夜间告警量激增80%通过监控系
基于等级保护梳理服务器安全合规基线 - 副本程序员鬼鬼服务器安全 php 网络安全 web安全开发语言计算机网络
背景作为运维，当对新上架的服务器装完操作系统后，第一步就是对操作系统进行初始化配置来保证配置合规，此时你可能就会有疑问：我们应该初始化哪些参数，有没有相关标准参考呢？要想真正了解进行初始化配置的目的，我们先来科普一下相关法律：网络安全重磅福利：入门&进阶全套282G学习资源包免费分享！《中华人民共和国网络安全法》第二十一条规定，国家实行网络安全等级保护制度。网络运营者应当按照网络安全等级保护制度的
NFS,Nginx综合实验小何学计算机云原生 nginx 运维
1.实验要求配置NFS服务器作为ngxin服务的存储目录，并在目录中创建index.html文件，当访问http://你的IP地址时，可以成功显示index.html文件的内容。|角色|软件|IP|主机名|系统||NFS服务器|nfs-utils|192.168.72.7|server|RHEL9||WEB服务|nfs-utils,nginx|192.168.72.8|web|openEuler|
基于IBM Tivoli TSM系统构建某局备份系统实施方案 jaminwm 项目日志
本实施TSM的关键字解释文件备份：指文件级别的数据备份，基于操作系统的文件系统进行备份。数据库备份：指数据库基本的备份。在数据库处于open状态下，对数据库数据进行备份，并保持备份数据的一致性。离线备份：也叫冷备份或脱机备份，一种备份方法，在离线备份中，正在备份的数据在备份过程中不能被应用程序访问。通常用于普通文件备份。在线备份：也叫热备份或联机备份，一种备份方法，在线备份一般使用即时技术来构造原
NFS实验小何学计算机云原生 NFS
1.实验要求设置NFS共享，需要至少两台Linux/Unix机器。下面使用两台服务器来演示NFS安装、配置及使用。|角色|IP|主机名|系统||服务器|192.168.72.113|nfs-server|RHEL9||客户端|192.168.72.114|nfs-client|RHEL9|2.实现步骤(1)修改主机名hostnamectlhostnamenfs-severhostnamectlho
fastapi+angular外卖系统勘察加熊人 typescript fastapi angular.js 前端
说明：fastapi+angular外卖系统1.美食分类（粥，粉，面，炸鸡，炒菜，西餐，奶茶等等）2.商家列表（kfc，兰州拉面，湘菜馆，早餐店，重庆小面，潮汕砂锅粥，蜜雪冰城等等）商家item：商家店名，评分，月销量，人均价格，起送价格，配送费价格，店铺位置，商家标签，商家分类3.商家详情页商家店名，评分，月销量菜品分类（比如炒饭，拉面，盖饭，单人套餐，双人套餐，米线，酒水饮料）菜品列表菜品it
无人自助空间智能管理系统解决方案（深度优化版） ALLSectorSorft 大数据人工智能网络自动化小程序 uni-app android
无人自助空间智能管理系统解决方案（深度优化版）一、行业痛点与系统价值传统管理依赖人工：人工管理模式下，易出现人为失误，如计费错误、资源分配不当等。同时，人工操作效率低下，在高峰时段难以快速响应客户需求。且夜间运营需额外安排人力，增加运营成本，导致夜间运营困难。资源利用率不透明：由于缺乏有效的数据监测与分析手段，空间资源的空置率难以实时掌握，造成资源浪费。这也使得收益难以准确预测，不利于商家制定合理
【python】Python中常见的KeyError报错分析景天科技苑 python 开发语言 python报错 KeyError
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，linux，shell脚本等实操
fastapi+angular实现菜鸟驿站系统勘察加熊人 typescript fastapi angular.js 前端
说明：我计划用fastapi+angular实现菜鸟驿站系统userid和stationid暂时先写死全部写成1也就是用户1驿站1这样就可以简化流程1.新增包裹入库增加一个添加入库的按钮然后填写信息然后入库2.新增包裹取件按钮post请求，弹窗填写取件码，取件成功需要刷新包裹状态3.获取超时列表比如有些包裹严重超时我需要查看超时包裹的信息和位置4.还需要取件记录表用弹窗每次用户取件都必须有一条取件
Python 常用函数全解析，轻松提升编码效率 yang789022 python 开发语言 windows
Python常用函数全解析，轻松提升编码效率Python常用函数全解析，轻松提升编码效率1.基础内置函数1.1`print()`与`input()`1.2`len()`、`type()`与`isinstance()`2.数学与数值处理函数2.1`abs()`、`round()`与`pow()`2.2`divmod()`与`max()/min()`3.序列与迭代相关函数3.1`range()`与`e
全自动文章生成发布构建 PyAIGCMaster 我的学习笔记 python
单机版、定时生成文章和分平台发布，以下是优化后的解决方案及代码示例：---###**推荐方案：APScheduler+内置调度逻辑**选择**APScheduler**是最佳方案，原因：1.**轻量级**：纯Python实现，无需额外服务（如Redis/CeleryWorker）。2.**精准调度**：支持Cron式定时任务（如每天3点生成、8点发布）。3.**单机友好**：直接嵌入代码中，适合打
Ubuntu 显卡NVIDIA-smi提示错误 DoubleImage 深度学习 ubuntu
Ubuntu长时间正常工作，但是重启后显卡工作异常执行NVIDIA-SMI提示如下问题：NVIDIA-SMIhasfailedbecauseitcouldn'tcommunicatewiththeNVIDIAdriver.MakesurethatthelatestNVIDIAdriverisinstalledandrunning.一、问题原因主要是由于系统自动更新了内核，新内核的版本与显卡驱动不匹
Ubuntu系统中NVIDIA-SMI 报错：NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver. QuietNightThought Linux linux python
文章目录一、介绍二、解决办法一：安装必要的内核头文件三、解决办法二：使用DKMS重新安装内核的NVIDIA驱动程序(我用这个方法解决了问题)四：解决办法三：安装NVIDIA驱动程序一、介绍当服务器未安装NVIDIA驱动程序，或驱动程序版本与显卡不匹配时，或者安装了某些系统软件或系统更新了内核时，服务器重启后可能无法连接到NVIDIA驱动程序。错误消息如下：$nvidia-smiNVIDIA-SMI
NVIDIA-B200 OFED安装失败解决步骤，实际生产环境故障一例清风 001 AI大模型底层建设 linux 运维服务器
环境信息系统ubuntu22.04硬件nvidiaB200nvidia-driverubuntu2204-570.124.06cudacuda-toolkit-12-8报错信息./MLNX_OFED_LINUX-24.10-2.1.8.0-ubuntu22.04-x86_64/DEBS/libibumad-dev_2410mlnx54-1.2410068_amd64.deb./MLNX_OFED_
手机租赁平台开发技术方案解析红点聊租赁其他
内容概要想造个手机租赁平台？这事儿可比租共享充电宝复杂多了——毕竟用户可能抱着价值万元的折叠屏手机连夜跑路（别笑，真有案例）。不过别慌，咱们的"技术武器库"里藏着三件法宝：区块链账本、AI风控雷达和支付宝生态对接器。先说区块链架构，它就像个永远撕不坏的记账本。每次租赁订单生成时，系统会自动在链上刻下"电子纹身"，把设备序列号、租赁协议、用户身份信息打包成加密积木块。就算有人想偷偷给手机刷机，区块链
金融租赁系统的创新发展与市场竞争力提升探讨红点租赁系统开发其他
内容概要随着经济的快速发展，金融租赁系统逐渐成为金融市场中不可或缺的一环。它不仅提供了灵活的资金解决方案，还促进了企业的资本结构优化与资源配置效率。因此，了解该系统的市场背景与发展现状至关重要。在现今环境下，新兴技术如人工智能、大数据和区块链等正加速推动金融租赁的创新。通过这些技术，不仅可以优化业务流程，提升运营效率，还可以增强风险管理能力。例如，利用数据分析可以实时监测租赁资产的风险，从而采取相
手机租赁系统开发核心技术解析红点租赁系统开发其他
内容概要如果把手机租赁系统比作一台精密运转的智能管家，那它的骨架可不是用代码随便搭的乐高积木。这玩意儿得同时搞定三件事：让用户像刷短视频一样流畅下单，让风控系统比小区门禁还难糊弄，还得让物流信息比外卖小哥的定位更透明。想象一下，当你在APP里滑动挑选最新款折叠屏手机时，后台其实正在上演三重加密的信用评分大战——你的芝麻信用分、电商平台消费记录甚至社交账号活跃度，都被塞进算法熔炉里炼成租赁权限的通行
手机租赁系统开发全面解析与实现指南红点租赁系统开发其他
内容概要手机租赁系统的设计理念是为了满足用户对便捷、灵活的手机使用需求。想象一下，谁还愿意花大价钱买一部手机呢？尤其是当新款手机频繁推出时，租赁似乎成了更受欢迎的选择。这个系统旨在让用户可以随时随地选择租用不同型号的手机，极大提升了用户体验。接下来，我们将深入探讨这个系统的技术架构。它通常包含前端界面、后端处理和数据库管理三个核心部分。前端负责与用户交互，后端则处理数据逻辑，而数据库则是存储所有租
Spring Boot实战：MySQL与Redis数据一致性深度解析与代码实战算法探险家 spring boot mysql redis
SpringBoot实战：MySQL与Redis数据一致性深度解析与代码实战一、数据一致性问题概述二、常见解决方案三、选择合适的解决方案四、总结在SpringBoot开发中，MySQL作为关系型数据库，提供了强大的数据存储和查询能力；而Redis作为内存数据库，以其高速读写性能成为缓存层的首选。然而，当这两者共同服务于一个系统时，如何确保它们之间的数据一致性，成为了一个不可忽视的问题。本文将深入探
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =