weixin_39970855

mysql自定义函数知乎_scrapy入门

准备工作

系统windows7

安装MYSQL

提示:

安装的时候, 选安装选项server only

根据提示, 遇到安装界面没有下一步可以用键盘操作

键盘操作

b-back。n-next。x-execute。f-finish。c-cancel

根据界面完成安装, 进入安装目录下, mysqld -initialize命令初始化, 用'mysql -uroot -p'进入shell

用 net start mysql启动mysql服务, 如果服务名无效

cmd打开到mysql/bin目录,输入 mysqld -install. 同时在控制面板进入服务选项, 启动mysql 服务. 多试试吧

安装pycharm

开启pycharm会员模式

伯乐在线爬取所有文章

安装模块

scrapy, pymysql, pillow, pypiwin32

pymysql是插入数据库的模块

用scrapy自带的ImagesPipeline需要pillow模块

创建爬虫后, windows输入命令scrapy crawl jobbole会报错需要pypiwin32

爬虫结构

items: 爬虫的解析信息的字段

包含名称, 设置输入输出处理器

pipelines: 爬虫的管道, 用于将解析后消息持久化存储

包含图片存储, Json文件的存储, 数据库的存储

settings: 爬虫各种相关设置

包含是否遵循ROBOTS_TXT, 爬虫下载网页时延, 爬虫图片下载存储的目录, 日志文件的存储目录, 管道的启用和优先级

spiders: 爬虫主体

爬虫的爬取主要逻辑

基本命令

# 创建爬虫项目

scrapy startproject jobbole_article

# 进入spiders目录下, 生成爬虫

scrapy genspider jobbole blog.jobbole.com

# 运行爬虫

scrapy crawl jobbole

最终的文件目录, 上述命令后images文件夹暂时没有

伯乐在线爬虫目录.png

jobbole.py

# -*- coding: utf-8 -*-

import scrapy

from urllib import parse

from jobbole_article.items import ArticleItemLoader, JobboleArticleItem

from scrapy.http import Request

class JobboleSpider(scrapy.Spider):

name = 'jobbole'

allowed_domains = ['blog.jobbole.com']

start_urls = ['http://blog.jobbole.com/all-posts']

@staticmethod

def add_num(value):

return value if value else [0]

def parse_deatail(self, response):

response_url = response.url

front_image_url = response.meta.get('front_image_url', '')

item_loader = ArticleItemLoader(item=JobboleArticleItem(), response=response)

item_loader.add_xpath('title', "//div[@class='entry-header']/h1/text()")

item_loader.add_value('url', response_url)

item_loader.add_value('url_object_id', response_url)

item_loader.add_value('front_image_url', front_image_url)

item_loader.add_xpath('content', "//div[@class='entry']//text()")

# span_loader = loader.nested_path('//span[@class='href-style'])

# 赞

item_loader.add_xpath('praise_nums', "//span[contains(@class,'vote-post-up')]/h10/text()", self.add_num)

# 评论

item_loader.add_xpath('comment_nums', "//span[contains(@class, 'hide-on-480')]/text()", self.add_num)

# 收藏

item_loader.add_xpath('fav_nums', "//span[contains(@class, 'bookmark-btn')]/text()", self.add_num)

item_loader.add_xpath('tags', "//p[@class='entry-meta-hide-on-mobile']/a[not(@href='#article-comment')]/text()")

return item_loader.load_item()

def parse(self, response):

post_nodes = response.xpath("//div[@class='post floated-thumb']")

for post_node in post_nodes:

post_url = post_node.xpath(".//a[@title]/@href").extract_first("")

img_url = post_node.xpath(".//img/@src").extract_first("")

yield Request(url=parse.urljoin(response.url, post_url), meta={'front_image_url': img_url},

callback=self.parse_deatail)

next_url = response.xpath('//a[@class="next page-numbers"]/@href').extract_first('')

if next_url:

yield Request(url=parse.urljoin(response.url, next_url), callback=self.parse)

模块

from urllib import parse

该模块主要用于对不完整的url进行补全

url = parse.urljoin('http://blog.jobbole.com/', '10000')

#url输出为拼接后的'http://blog.jobbole.com/10000', 如果后面是完整的, 则不拼接

from jobbole_article.items import ArticleItemLoader, JobboleArticleItem

是items.py中的类

from scrapy.http impot Request

构造scrapy网页请求, 请求需要跟进的url.

meta参数,为字典形式. 主要是在Request中传送额外的变量给response.可以通过response.meta.get()获取

callback参数则是请求内容下载完毕后调用相应的解析函数

比如在http://blog.jobbole.com/all-posts/中需要获取文章内容, 则构造对下面图片中箭头所指url的请求.内容下载完毕后调用parse_detail方法进行处理. 处理函数可以获得Request中键front_image_url的值img_url

对应代码

yield Request(url=parse.urljoin(response.url, post_url), meta={'front_image_url': img_url},

callback=self.parse_deatail)

Request.png

JobboleSpider类

该类继承scrapy.Spider, 其他的属性需要查看文档

@staticmethod

def add_num(value):

可暂时忽略,

该类的静态方法, 用在以下代码中, 作为输入处理器.主要作用是在解析相关字段为空值时返回默认值

item_loader.add_xpath('comment_nums', "//span[contains(@class, 'hide-on-480')]/text()", self.add_num)

自定义方法parse_detail

作用:解析文章详情页的,提取相关字段值的方法, 文章详情页如http://blog.jobbole.com/114420/. 返回填充后的item

一些变量的解释

response_url是响应内容的连接, 比如http://blog.jobbole.com/114420/

front_image_url是http://blog.jobbole.com/all-posts图片连接

item_loader是具有填充item方法的实例, 常用方法add_xpath, add_value, 注意填充后的item的值比如item['title']是一个列表

add_xpath

用xpath解析response的方法, 第一个参数如'title'是item的键或者说字段, 第二个是xpath解析规则, 第三个是处理器

add_value

直接赋予相应的值

load_item

执行填充item

JobboleSpider的自带parse方法

作用: 与parse_detail相同都是解析response, 不同的是parse是爬虫默认调用的解析方法.

response.xpath

xpath解析规则, 返回Selector对象,用extract()获取所有的文本值列表[], 或者是用extract_first()获取第一个文本值

xpath规则

一些规则

可以像url那样拼接规则, 但是注意的是第二个规则加.

post_nodes = response.xpath("//div[@class='post floated-thumb']")

for post_node in post_nodes:

# .//a[@title]/@href

post_url = post_node.xpath(".//a[@title]/@href").extract_first("")

img_url = post_node.xpath(".//img/@src").extract_first("")

- xpath中不含某个属性"//div[not(@class='xx')]"

- xpath中包含某个属性"//div[contains(@class, 'xx')]"

- @herf表示提取属性href的值, text()表示提取元素里的文本值

- //表示元素任意层下的子元素, /表示元素的直接子元素

调试方法

可以在浏览器中输入相应的路径测试, 但是要写css规则

css规则浏览器.png

用scrapy shell命令测试

scrapy shell http://blog.jobbole.com/all-posts

# 然后输入相应的规则可以看返回的值

response.xpath("...").extract()

# 可以用fetch(url)更改下载的Response

fetch('http://blog.jobbole.com/10000')

或者打断点,运行爬虫用pycharm可以查看

items.py

import scrapy

import re

import hashlib

from scrapy.loader import ItemLoader

from scrapy.loader.processors import TakeFirst, MapCompose, Join, Identity, Compose

def get_md5(value):

if isinstance(value, str):

value = value.encode(encoding='utf-8')

# print('value--------------------------', value)

m = hashlib.md5()

m.update(value)

return m.hexdigest()

def get_num(value):

# print(value)

if value:

num = re.match(r".*?(\d+?)", value)

try:

# print("----------------",num.group(1), int(num.group(1)))

return int(num.group(1))

except (AttributeError, TypeError):

return 0

else:

return 0

#多余

def return_num(value):

# return value[0] if value else 0

if value:

return value

else:

return "1"

class JobboleArticleItem(scrapy.Item):

# define the fields for your item here like:

title = scrapy.Field()

url = scrapy.Field()

url_object_id = scrapy.Field(

input_processor=MapCompose(get_md5)

)

front_image_url = scrapy.Field(

output_processor=Identity()

)

front_image_path = scrapy.Field()

content = scrapy.Field(

output_processor=Join()

)

praise_nums = scrapy.Field(

input_processor=MapCompose(get_num),

# output_processor=MapCompose(return_num)

)

fav_nums = scrapy.Field(

input_processor=MapCompose(get_num),

# output_processor=MapCompose(return_num)

# input_processor=Compose(get_num, stop_on_none=False)

)

comment_nums = scrapy.Field(

input_processor=MapCompose(get_num),

# output_processor=MapCompose(return_num)

# input_processor=Compose(get_num, stop_on_none=False)

)

tags = scrapy.Field(

output_processor=Join()

)

def get_insert_sql(self):

insert_sql = """

insert into jobbole(title, url, url_object_id, front_image_url, front_image_path,praise_nums, fav_nums,

comment_nums, tags, content)

VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s)

"""

params = (

self['title'], self['url'], self['url_object_id'], self['front_image_url'], self['front_image_path'],

self['praise_nums'], self['fav_nums'], self['comment_nums'], self['tags'], self['content']

)

return insert_sql, params

class ArticleItemLoader(ItemLoader):

default_output_processor = TakeFirst()

模块

`import re'

正则匹配模块

# match函数是从字符串开始处匹配

num = re.match(".*(\d)", 'xx')

# 如果上面没有匹配成功, 会出现AttributeError

num = num.group(1)

# 另外int([])会出现TypeError

import hashlib

将字符串转换为 md5字符串, 必须经过utf-8编码.scrapy的值都是unicode编码

from scrapy.loader import ItemLoader

继承scrapy的ItemLoader, 自定义ArticleItemLoader.

from scrapy.loader.processors import TakeFirst, MapCompose, Join, Identity, Compose

一系列scrapy给定的处理器函数类,TakeFirst是获取列表第一个非空值, MapCompose的参数是多个函数, 能将列表中的每个值通过函数处理,并将处理结果汇成列表再进入下一个函数. Join将列表连接成一个字符串, Identity不作处理, Compose的参数是多个函数, 与MapCompose不同, 是将整个列表传入函数处理

get_num函数

jobbole.py中add_xpath()中加上add_num, if判断就多余了

TypeError也有点多余, 懒得改了

def get_num(value):

num = re.match(r".*?(\d+?)", value)

try:

return int(num.group(1))

except AttributeError:

return 0

JobboleArticleItem类

定义item的字段和输入输出处理器, 输入输出处理器的作用时候不同

这里有点疑问:文档说输入处理器作用在解析出一个值后立即作用, 而输出处理器则是在整个列表完成后作用.假如我把Compose写在输出处理器里, Compose不是处理整个列表的吗?有点矛盾

注意的是如果scrapy.Field()中有output_processor将会使default_output_processor失效

另外MapCompose()中的函数是不处理空值.如果是空列表, 那么函数将不生效.

在scrapy源码可以看到用了一个for循环调用函数处理列表中的值

for v in values:

next_values += arg_to_iter(func(v))

get_insert_sql方法

写入mysql数据库的语句和参数, 会在pipelines.py中用到

ArticleItemLoader类

为item每个字段赋予一个默认的输出处理器

pipelines.py

import pymysql

from twisted.enterprise import adbapi

from scrapy.pipelines.images import ImagesPipeline

class JobboleArticlePipeline(object):

def process_item(self, item, spider):

return item

class JobboleMysqlPipeline(object):

def __init__(self, dbpool):

self.dbpool = dbpool

@classmethod

def from_settings(cls, settings):

params = dict(

host=settings['MYSQL_HOST'],

db=settings['MYSQL_DBNAME'],

user=settings['MYSQL_USER'],

passwd=settings['MYSQL_PASSWORD'],

charset='utf8',

cursorclass=pymysql.cursors.DictCursor,

use_unicode=True

)

dbpool = adbapi.ConnectionPool('pymysql', **params)

return cls(dbpool)

def process_item(self, item, spider):

query = self.dbpool.runInteraction(self.do_insert, item)

query.addErrback(self.handle_error, item, spider)

def do_insert(self, cursor, item):

insert_sql, params = item.get_insert_sql()

cursor.execute(insert_sql, params)

def handle_error(self, failure, item, spider):

print(failure)

class ArticleImagePipeline(ImagesPipeline):

def item_completed(self, results, item, info):

# 注意这里的判断, 可能front_image_url为空

if 'front_image_url' in item:

for _, value in results:

# print(value)

image_file_path = value['path']

item['front_image_path'] = image_file_path

return item

模块

import pymysql

连接和写入数据库的模块

import pymysql

# 连接pymysql

db = pymysql.connect('localhost', 'root', '123456', 'jobbole')

# 使用cursor()方法获取游标

cursor = db.cursor()

# sql插入语句

insert_sql = "insert into jobbole (字段)values('值')"

# 执行插入

try:

cursor.execute(insert_sql)

# 确认提交...

db.commit()

except:

# 错误就回滚

cursor.rollback()

# 关闭连接

db.close()

from twisted.enterprise import adbapi

异步, 不清楚, 先背着吧

from scray.pipelines.images import ImagesPipeline

scrapy的图片存储管道, 需要手动添加pillow模块

JobboleArticlePipeline类

自动生成的管道类

JobboleMysqlPipeline类, 自定义异步写入mysql

settings在settings.py中设置

异步连接mysql?

dbpool = adbapi.ConnectionPool('pymysql', **params)

生成实例...

# 执行 __init__(dbpool), 生成实例

return cls(dbpool)

process_item管道处理item的方法

# 异步执行插入操作?

# 不需要db.commit()

query = self. dbpool.runInteraction(self.do_insert, item)

# 看不懂

# 不用返回item?

query.addErrback(self.handle_error, item, spider)

do_insert

cursor参数在ConnectionPool中获得吗?

ArticleImagePipeline

item_completed

参数results, item, info

主要是记录front_image_path

settings.py

通用

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY = 1

mysql设置

MYSQL_HOST = '127.0.0.1'

MYSQL_USER = 'root'

MYSQL_DBNAME = 'jobbole'

MYSQL_PASSWORD = '123456'

管道的启用和优先级

数字越低优先级越高, 对应的是Pipelines.py中编写的管道

ITEM_PIPELINES = {

# 'jobbole_article.pipelines.JobboleArticlePipeline': 300,

'jobbole_article.pipelines.ArticleImagePipeline': 1,

'jobbole_article.pipelines.JobboleMysqlPipeline': 2,

}

图片存储目录

import os

# 指定图片下载url的item字段

IMAGES_URLS_FIELD = 'front_image_url'

# 图片存储的父目录, 也是settings.py的父目录, __file__是settings.py?

#abspath绝对路径, dirname父目录

image_dir = os.path.abspath(os.path.dirname(__file__))

# 图片存储的文件夹

IMAGES_STORE = os.path.join(image_dir, 'images')

mysql需要用到的命令

# 查看数据库

show databases;

# 查看表格

show tables;

# 创建数据库

create database jobbole;

# 切换数据库

use jobbole;

# 创建表格

create table(

title varchar(200) not null,

url varchar(300) not null,

url_object_id varchar(50) primary key not null,

front_image_url varchar(200),

praise_nums int(11) not null,

fav_nums int(11) not null,

tags varchar(200),

content longtext not null

)

# 查看数据库编码信息

show variables like 'character_set_database';

# 查看表格第一条记录

select * from jobbole limit 1;

# 查看表格记录的数量

select count(title) from jobbole;

# 查看表格的大小

use information_schema

select concat(round(sum(DATA_LENGTH/1024/1024),2),'MB') as data from TABL

ES where table_schema='jobbole' and table_name='jobbole';

# 清空数据表记录

truncate table jobbole;

# 删除一个字段

alter table drop column ;

问题

第一次只爬取了1300多条文章爬虫就终止了, 不清楚具体原因

封面图片数量明显少, 数据库记录9000多条, 图片只有6000多张

封面图片url为空会报错

'fav_nums': 2,

'front_image_url': [''],

'praise_nums': 2,

'tags': '职场产品经理程序员职场',

'title': '程序员眼里的 PM 有两种：有脑子的和没脑子的。后者占 90％',

'url': 'http://blog.jobbole.com/92328/',

'url_object_id': 'f74aa62b6a79fcf8f294173ab52f4459'}

Traceback (most recent call last):

File "g:\py3env\bole2\venv\lib\site-packages\twisted\internet\defer.py", line 654, in _runCallbacks

current.result = callback(current.result, *args, **kw)

File "g:\py3env\bole2\venv\lib\site-packages\scrapy\pipelines\media.py", line 79, in process_item

requests = arg_to_iter(self.get_media_requests(item, info))

File "g:\py3env\bole2\venv\lib\site-packages\scrapy\pipelines\images.py", line 155, in get_media_requests

return [Request(x) for x in item.get(self.images_urls_field, [])]

File "g:\py3env\bole2\venv\lib\site-packages\scrapy\pipelines\images.py", line 155, in

return [Request(x) for x in item.get(self.images_urls_field, [])]

File "g:\py3env\bole2\venv\lib\site-packages\scrapy\http\request\__init__.py", line 25, in __init__

self._set_url(url)

File "g:\py3env\bole2\venv\lib\site-packages\scrapy\http\request\__init__.py", line 62, in _set_url

raise ValueError('Missing scheme in request url: %s' % self._url)

ValueError: Missing scheme in request url:

文章中如果有emoji表情, 会出现编码错误.

爬取的时候没有设置输出的日志文件

当add_xpath()中path路径提取为空列表时, 输出输入处理器MapCompose()不起作用.

解决办法是在add_xpath参数额外加上处理器

总结

在能理解的基础上看英文文档要比机翻的中文文档好

不能理解可以看看源码

日志输出到文件

如果不能很好的理解每个部分, 那么需要在看完整体后回顾

selenium登录知乎，爬取问答

编码问题

python 中str 和bytes(二进制)的互相转化

因为scray中的response.body是bytes，所以写入文件要转成string

str = 'abc'

# errors 有strick,ignore

byt = str.encode(encoding='utf8', errors='strick')

# bytes->str

str = byt.decode(encodeing='utf8',errors='ignore')

bytes写入文件中要注意的编码

因为在windows中，新文件默认编码是gbk，所以python解释器会用gbk解析网络数据流。此时往往会失败。要在打开文件时指定编码。

with open('c:test.txt', 'w', encoding='utf8') as f:

f.write(response.body.decode('utf8', errors='ignore'))

base64图片编码

from PIL import image

from io import BytesIO

import base64

img_src = "data:image/jpg;base64,R0lGODdh.."

img_src = img_src.split(',')[1]

img_src = base64.b64encode(img_src)

img = image.open(BytesIO(img_src))

img.show()

爬虫的小技巧

手动构造response

from scrapy.http import HtmlResponse

body = open("example.html").read()

response = HtmlResponse(url='http://example.com', body=body.encode('utf-8'))

爬虫的url的拼接和跟进

def parse(self, response):

yield {}

for url in response.xpath().extract():

yield scrapy.Request(url=response.urljoin(url), callback=self.parse)

//进一步简化,不要for中extract()和response.urljoin

//如果要对提取的Url作处理，url.extract()?

for url in response.xpath():

yield response.follow(url, callback=self.parse)

爬虫的日志

scrapy 文档日志

爬虫日志信息的级别和python的是一样，debug，info,warning,error,critical

Spider类自带日志属性

class ZhihuSpider(scrapy.Spider):

def func(self)

self.logger.warning('this is a log')

在Spider类外可以

import logging

logging.warning('this is a log')

# 也可以写不同的logger

logger = logging.getlogger('mycustomlogger')

logger.warning('this is a log')

另外在settings.py中可以设置命令行信息输出的级别和输出的日志文件

LOG_FILE = 'dir'

LOG_LEVEL = logging.WARNING

# 命令行

--logfile FILE

--loglevel LEVEL

re匹配不包含字符串

注意(?=)不占匹配位

s = 'sda'

re.match('s(?=d)$', s) # 匹配失败

# 不能匹配s后含da字符串

re.match('s(?!da)', s)

selenium的使用

下载浏览器驱动

chrome版本6.0，最新版本会有missing arguments granttype错误

selenium的方法

from selenium import webdriver

driver = webdriver.Chrome(execute_path="驱动所在目录")

# driver.page_source页面源

# selenium等待

from selenium.webdriver.support.ui import WebDriverwait

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as ec

# 10是超时时间，until参数是一个函数，这个函数的参数是driver，返回真假

element = WebDriverWait(driver, 10).until(lambda x:x.find_element_by_xpath(

"//div[@class='SignContainer-switch']/span"))

# 同上，ec是selenium自带的等待函数

WebDriverWait(driver, 10).until(ec.text_to_be_present_in_element(

(By.XPATH, "//div[@class='SignContainer-switch']/span"), '注册'))

整个爬虫代码

settings.py

# -*- coding: utf-8 -*-

import logging

# commonly used. You can find more settings consulting the documentation:

# https://doc.scrapy.org/en/latest/topics/settings.html

# https://doc.scrapy.org/en/latest/topics/downloader-middleware.html

# https://doc.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'zhihu'

SPIDER_MODULES = ['zhihu.spiders']

NEWSPIDER_MODULE = 'zhihu.spiders'

SQL_DATETIME_FORMAT = "%Y-%m-%d %H:%M:%S"

MYSQL_HOST = '127.0.0.1'

MYSQL_DBNAME = 'zhihuSpider'

MYSQL_USER = 'root'

MYSQL_PASSWORD = '123456'

LOG_LEVEL = logging.WARNING

LOG_FILE = 'G:\py3env\bole2\zhihu\zhihu\zhihu_spider.log'

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

COOKIES_ENABLED = True

# Override the default request headers:

# 必须

USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0",

# Configure item pipelines

# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

'zhihu.pipelines.ZhihuPipeline': 300,

}

zhihu_login.py

# -*- coding: utf-8 -*-

import scrapy

from zhihu.items import ZhihuQuestionItem, ZhihuAnswerItem, ZhihuItem

import re

import json

import datetime

from selenium import webdriver

# 使文本能解析

#from scrapy.selector import Selector

# 用法：Seletor(text=driver.pager_source).css().extract()

# 打开base64编码的图片

#import base64

#from io import BytesIO, StringIO

import logging

# selenium等待加载相关的模块

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as ec

class ZhihuLoginSpider(scrapy.Spider):

name = 'zhihu_login'

allowed_domains = ['www.zhihu.com']

# start_requests 初始url

start_urls = ['https://www.zhihu.com/signup?next=%2F']

# 获取问题答案的api

start_answer_url = ["https://www.zhihu.com/api/v4/questions/{0}/answers?include=data[*].is_normal,admin_closed_comment,reward_info,is_collapsed,annotation_action,annotation_detail,collapse_reason,is_sticky,collapsed_by,suggest_edit,comment_count,can_comment,content,editable_content,voteup_count,reshipment_settings,comment_permission,created_time,updated_time,review_info,relevant_info,question,excerpt,relationship.is_authorized,is_author,voting,is_thanked,is_nothelp;data[*].mark_infos[*].url;data[*].author.follower_count,badge[*].topics&offset={2}&limit={1}&sort_by=default"]

def start_requests(self):

driver = webdriver.Chrome(executable_path='C:/Users/Administrator/Desktop/chromedriver.exe')

# 打开网址

driver.get(start_urls[0])

# 等待登录元素出现，超时10秒

element = WebDriverWait(driver, 10).until(lambda x:x.find_element_by_xpath(

"//div[@class='SignContainer-switch']/span"))

# 点击登录

element.click()

# 等待点击后显示“注册”文本

WebDriverWait(driver, 10).until(ec.text_to_be_present_in_element(

(By.XPATH, "//div[@class='SignContainer-switch']/span"), '注册'))

# 模拟输入账号和密码

driver.find_element_by_css_selector("div.SignFlow-account input").send_keys("你的账号")

driver.find_element_by_css_selector("div.SignFlow-password input").send_keys("你的宻码")

driver.find_element_by_css_selector("button.SignFlow-submitButton").click()

# 等待页面中某个元素加载完成

WebDriverWait(driver, 10).until(lambda x:x.find_element_by_xpath(

"//div[@class='GlobalWrite-navTitle']"))

# 获取cookie

Cookies = driver.get_cookies()

cookie_dict = {}

for cookie in Cookies:

cookie_dict[cookie['name']] = cookie['value']

# 关闭驱动

driver.close()

return [scrapy.Request('https://www.zhihu.com/', cookies=cookie_dict, callback=self.parse)]

def parse(self, response):

# 获取页面中所有的链接

all_urls = response.css("a::attr(href)").extract()

for url in all_urls:

# 不匹配https://www.zhihu.com/question/13413413/log

match_obj = re.match('.*zhihu.com/question/(\d+)(/|$)(?!log)', url)

if match_obj:

yield scrapy.Request(response.urljoin(url), callback=self.parse_question)

else:

yield scrapy.Request(response.urljoin(url), callback=self.parse)

def parse_question(self, response):

if "QuestionHeader-title" in response.text:

match_obj = re.match(".*zhihu.com/question/(\d+)(/|$)", response.url)

self.logger.warning('Parse function called on {}'.format(response.url))

if match_obj:

self.logger.warning('zhihu id is {}'.format(match_obj.group(1)))

question_id = int(match_obj.group(1))

item_loader = ZhihuItem(item=ZhihuQuestionItem(), response=response)

# ::text前不带空格表示直接子节点的文本

item_loader.add_css("title", "h1.QuestionHeader-title::text")

item_loader.add_css("content", ".QuestionHeader-detail ::text")

item_loader.add_value("url", response.url)

item_loader.add_value("zhihu_id", question_id)

# 点击查看全部答案和不点击，answer_num两个网页提取的css规则不同。

# 这里将两个css都写上

item_loader.add_css("answer_num", "h4.List-headerText span ::text")

item_loader.add_css("answer_num", "a.QuestionMainAction::text")

item_loader.add_css("comments_num", "div.QuestionHeader-Comment button::text")

item_loader.add_css("watch_user_num", "strong.NumberBoard-itemValue::text")

item_loader.add_css("topics", ".QuestionHeader-topics ::text")

item_loader.add_value("crawl_time", datetime.datetime.now())

question_item = item_loader.load_item()

"""没用

else:

match_obj = re.match(".*zhihu.com/question/(\d+)(/|$)", response.url)

if match_obj:

question_id = int(match_obj.group(1))

item_loader = ItemLoader(item=ZhihuQuestionItem(), response=response)

item_loader.add_css("title",

"//*[id='zh-question-title']/h2/a/text()|//*[@id='zh-question-title']/h2/span/text()")

item_loader.add_css("content", ".QuestionHeader-detail")

item_loader.add_value("url", response.url)

item_loader.add_value("zhihu_id", question_id)

item_loader.add_css("answer_num", "#zh-question-answer-num::text")

item_loader.add_css("comment_num", "#zh-question-meta-wrap a[name='addcomment']::text")

item_loader.add_css("watch_user_num", "//*[@id='zh-question-side-header-wrap']/text()|"

"//*[@class='zh-question-followers-sidebar]/div/a/strong/text()")

item_loader.add_css("topics", ".zm-tag-editor-labels a::text")

question_item = item_loader.load_item()

"""

# format(*args, **kwargs)

# print("{1}{程度}{0}".format("开心", "今天", 程度="很")

# 今天很开心

yield scrapy.Request(self.start_answer_url[0].format(question_id, 20, 0),

callback=self.parse_answer)

yield question_item

def parse_answer(self, response):

# 网页返回的是json字符串，转为字典对象

ans_json = json.loads(response.text)

is_end = ans_json["paging"]['is_end']

next_url = ans_json["paging"]["next"]

for answer in ans_json["data"]:

# 用item直接赋值简单，却不能用processor

answer_item =ZhihuAnswerItem()

answer_item["zhihu_id"] = answer["id"]

answer_item["url"] = answer["url"]

answer_item["question_id"] = answer["question"]["id"]

answer_item["author_id"] = answer["author"]["id"] if "id" in answer["author"] else None

answer_item["content"] = answer["content"] if "content" in answer else None

answer_item["parise_num"] = answer["voteup_count"]

answer_item["comments_num"] = answer["comment_count"]

answer_item["create_time"] = answer["created_time"]

answer_item["update_time"] = answer["updated_time"]

answer_item["crawl_time"] = datetime.datetime.now()

yield answer_item

if not is_end:

yield scrapy.Request(next_url, callback=self.parse_answer)

下面图片中就是查看网页中api

图片.png

pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import pymysql

from twisted.enterprise import adbapi

class ZhihuPipeline(object):

def __init__(self, dbpool):

self.dbpool = dbpool

def process_item(self, item, spider):

query = self.dbpool.runInteraction(self.do_insert_sql, item)

query.addErrback(self.handle_error, item, spider)

def do_insert_sql(self, cursor, item):

insert_sql, params = item.get_insert_sql()

cursor.execute(insert_sql, params)

def handle_error(self, failure, item, spider):

print(failure)

@classmethod

def from_settings(cls, settings):

params = dict(

host=settings['MYSQL_HOST'],

db=settings['MYSQL_DBNAME'],

user=settings['MYSQL_USER'],

passwd=settings['MYSQL_PASSWORD'],

charset='utf8',

cursorclass=pymysql.cursors.DictCursor,

use_unicode=True,

)

dbpool = adbapi.ConnectionPool("pymysql", **params)

return cls(dbpool)

items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import logging

import datetime

import re

import scrapy

from scrapy.loader.processors import TakeFirst, Join, Compose, MapCompose

from scrapy.loader import ItemLoader

# 提取关注数量，回答数量，评论数量文本中的数字

def extract_num(value):

# 输出日志信息

logging.warning('this is function extract_num value:{}'.format(value))

for val in value:

if val is not None:

# 去掉数字中的，

val = ''.join(val.split(','))

match_obj = re.match(".*?(\d+)", val)

if match_obj:

logging.warning('this is one of value:{}'.format(match_obj.group(1)))

return int(match_obj.group(1))

break

# 重写ItemLoader，指定默认输出处理器

class ZhihuItem(ItemLoader):

# 取列表第一个元素

default_output_processor = TakeFirst()

class ZhihuQuestionItem(scrapy.Item):

topics = scrapy.Field(

# 将主题连接

output_processor=Join(',')

)

url = scrapy.Field()

title = scrapy.Field()

content = scrapy.Field()

answer_num = scrapy.Field(

# 提取数字

output_processor=Compose(extract_num)

)

comments_num = scrapy.Field(

output_processor=Compose(extract_num)

)

# 关注者数量

watch_user_num = scrapy.Field(

output_processor=Compose(extract_num)

)

zhihu_id = scrapy.Field()

crawl_time = scrapy.Field()

def get_insert_sql(self):

# on duplicate key update col_name=value(col_name)

insert_sql = """

insert into zhihu_question(zhihu_id, topics, url, title, content, answer_num, comments_num,

watch_user_num, crawl_time

)

VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s)

on duplicate key update content=values(content), answer_num=values(answer_num), comments_num=values(

comments_num), watch_user_num=values(watch_user_num)

"""

# [Failure instance: Traceback: : Use item['crawl_time'] = '2018-10-29 19:16:24' to set field value

# self.crawl_time = datetime.datetime.now()

# 用get处理相应的键为空的情况

# 用datetime.datetime.now()返回的值可以插入数据库

params = (self.get('zhihu_id'), self.get('topics','null'), self.get('url'), self.get('title'), self.get('content','null'), self.get('answer_num',0), self.get('comments_num',0),

self.get('watch_user_num',0), self.get('crawl_time'))

return insert_sql, params

class ZhihuAnswerItem(scrapy.Item):

zhihu_id = scrapy.Field()

url = scrapy.Field()

question_id = scrapy.Field()

author_id = scrapy.Field()

content = scrapy.Field()

# 赞

parise_num = scrapy.Field()

comments_num = scrapy.Field()

# 创建时间

create_time = scrapy.Field()

update_time = scrapy.Field()

crawl_time = scrapy.Field()

def get_insert_sql(self):

insert_sql = """

insert into zhihu_answer(zhihu_id, url, question_id, author_id, content, parise_num, comments_num,

create_time, update_time, crawl_time

)

VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s)

on duplicate key update content=values(content), comments_num=values(comments_num), parise_num=values(

parise_num), update_time=values(update_time)

"""

# fromtimestamp方法的将时间戳转为时间元组

params = (

self.get("zhihu_id"), self.get("url"), self.get("question_id"), self.get("author_id"), self.get("content"), self.get("parise_num", 0),

self.get("commennts_num", 0), datetime.datetime.fromtimestamp(self.get("create_time")), datetime.datetime.fromtimestamp(self.get("update_time")), self.get("crawl_time"),

)

return insert_sql, params

总结

有些问题会反复的遇到

程序一步一步写，记得加注释

链接先记下

知乎不用selenium的都失效了，看到不用selenium可以登录的请告知

你可能感兴趣的:(mysql自定义函数,知乎)

Linux操作系统：个人云存储服务搭建开发暮雨哀尘 Linux的那点事 linux 运维服务器大数据集群技术 nginx mysql
个人云存储服务搭建开发文档一、项目目标搭建一个类似Dropbox的个人云存储服务，实现文件的同步和备份功能，确保数据的安全性和便捷性。二、技术栈操作系统：Linux（推荐使用UbuntuServer或CentOS）云存储软件：Nextcloud或SeafileWeb服务器：Apache或Nginx数据库：MySQL或MariaDBSSL证书：自签名证书或Let'sEncrypt免费证书三、搭建步骤
MySQL 视图入门李少兄 MySQL mysql 数据库
一、什么是MySQL视图1.1视图的基本概念在MySQL中，视图是一种虚拟表，它本身并不存储实际的数据，而是基于一个或多个真实表（基表）的查询结果集。可以把视图想象成是一个预定义好的查询语句的快捷方式。当你查询视图时，MySQL会动态地执行定义视图时的查询语句，并返回结果，就好像你直接查询了一个真实的表一样。举个简单的生活例子，假设你有一个装满各种文件的大文件夹，里面的文件按照不同的主题、日期等分
jvm虚拟机详解（一）-----jvm概述 Mir Su JVM由浅至深 jvm java
写在前面本篇文章是再下人生中的第一次发布关于技术相关的文章。从事开发工作这么多年来，也算是对自己过往的工作的一个总结，对人生的一次重装再出发。从jvm谈起，然后是关于mysql、redis、消息中间件、微服务等最后在归纳一些常见的java面试方面的高频问题。这是开始我的一个写博计划，希望感兴趣的朋友加个关注一起探讨，有什么不做的地方也请欢迎指教。为什么要先说jvm呢？因为jvm是java程序蜕变的
mysql 最大连接数超时_MySQL连接数过大导致连接超时的问题你认识小鲍鱼吗 mysql 最大连接数超时
春节访问量激增，负载压力很大，程序处理较慢，然后就调整项目中的线程池和数据库连接数。可是还是没有太好的提高，追根溯源，发现数据库连接受到限制。虽然是做了读写分离，但是还是没抗住高峰。所以会有报错：“MySQL:ERROR1040:Toomanyconnections”。查看最大连接数上限，默认的是151mysql>showvariableslike'max_connections';+------
如何解决分布式应用数量庞大而导致数据库连接数满的问题？纵然间数据库
修改数据库服务器的配置文件或参数来增加最大连接数限制。例如，在MySQL中，可以通过修改my.cnf（Linux）或my.ini（Windows）文件中的max_connections参数来增加最大连接数。具体的操作方法可以参考数据库服务器的官方文档或相关技术支持。检查应用程序代码，确保在使用完数据库连接后及时释放连接资源，避免长时间占用连接而导致连接数不足。可以使用连接池技术来管理数据库连接，提
OpenMetadata MySQL 数据库使用率提取管道实现解析 10年JAVA大数据技术研究者数据治理数据库 mysql openmetadata 源码分析
目录架构概述核心组件源码分析使用率指标定义数据提取流程图源码类图配置与扩展指南架构概述OpenMetadata通过可插拔的元数据摄取框架实现对MySQL使用率数据的采集，核心流程包含三个阶段：数据采集层：从MySQLperformance_schema和sysschema获取原始指标指标处理层：将原始数据转换为统一的使用率指标模型数据存储层：将处理后的指标持久化到OpenMetadata服务核心组
Mysql学习笔记-Mysql基础进阶少年无为 Mysql Mysql 数据库多表查询数据库备份 Mysql查询
#知识点1.DQL:查询语句1.排序查询2.聚合函数3.分组查询4.分页查询2.约束3.多表之间的关系4.范式5.数据库的备份和还原#DQL:查询语句1.排序查询*语法：orderby子句*orderby排序字段1排序方式1，排序字段2排序方式2...*排序方式：*ASC：升序，默认的。*DESC：降序。*注意：*如果有多个排序条件，则当前边的条件值一样时，才会判断第二条件。2.聚合函数：将一列数
MySQL 查询缓存技术深度解析 Minxinbb 数据库 mysql 数据库 dba
在现代数据库管理系统中，查询性能优化是提升应用响应速度和用户体验的关键环节。MySQL作为一款广泛使用的开源关系型数据库，提供了查询缓存功能，用于缓存查询结果，从而在后续相同的查询请求时能够快速返回结果，减少数据库的负载和查询时间。本文将深入探讨MySQL查询缓存技术的原理、配置、使用方法以及优化策略。一、查询缓存的基本原理（一）缓存机制概述MySQL查询缓存的核心思想是将查询语句和其对应的查询结
mysql实时同步到es 数据库
测试了多个方案同步，最终选择oceanu产品，底层基于Flinkcdc1、实时性能够保证，binlog量很大时也不产生延迟2、配置SQL即可完成，操作上简单下面示例mysql的100张分表实时同步到es，优化备注等文本字段的like查询创建SQL作业CREATETABLEfrom_mysql(idint,cidintNOTNULL,gidbigintNOTNULL,contentvarchar,c
heidisql连接远程数据库_【已解决】HeidiSQL连接（登录）MySQL数据库报错10061问题... weixin_39589511 heidisql连接远程数据库
windows核心编程---第六章线程的调度每个线程都有一个CONTEXT结构,保存在线程内核对象中.大约每隔20mswindows就会查看所有当前存在的线程内核对象.并在可调度的线程内核对象中选择一个,将其保存在CONTEXT结构的值载入c...【转】SQLite提示databasediskimageismalformed的解决方法SQLite有一个很严重的缺点就是不提供Repair命令.导致死
麒麟v10安装mysql5.7（ARM架构） qqxinxi arm开发
下载路径：华为云镜像麒麟v10是潮流时代的新时髦的linux操作系统，但随着ARM架构流行，出现了一些卡点，不以为然，没当回事的大吃一惊。经常卡住。例如:在安装mysql5.7（ARM架构）最简单：使用rpmmysql-5.7.27.1.el7.aarch64.rpm文件比较小下载完之后rpm-ivhmysql-5.7.27.1.el7.aarch64.rpm比较简单常用的方法，再不能连接互联网时
快速复制A库表数据前10000行到B库 musk1212 数据库 sql mysql
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录应用场景一、存储过程，快速复制A库表数据前10000行到B库二、使用优化点说明结构优化性能调整错误处理增强安全改进调用示例应用场景表结构可预先存在或不存在mysql5.7快速复制A库表数据前10000行到B库一、存储过程，快速复制A库表数据前10000行到B库/*设置自定义分隔符以处理存储过程中的分号*/DELIMITER$$
一款超好用的开源密码管理器？七步编程 Github python 开发 github 开发语言 python
程序员宝藏库：https://gitee.com/sharetech_lee/CS-Books-StoreDevWeekly收集整理每周优质开发者内容，包括开源项目、资源工具、技术文章等方面。每周五定期发布，同步更新到知乎：Jackpop。欢迎大家投稿，提交issue，推荐或者自荐开源项目/资源/工具/文章~订阅方式：Star并收藏项目DevWeekly关注知乎：Jackpop开源项目1.
探索HeidiSQL：一款强大的数据库管理工具夏庭彭Maxine
探索HeidiSQL：一款强大的数据库管理工具HeidiSQLHeidiSQL:是一个免费且强大的SQL编辑器和数据库管理工具，支持MySQL、PostgreSQL、SQLite等多种数据库。适合数据库管理员和开发者使用HeidiSQL管理数据库和查询数据。项目地址:https://gitcode.com/gh_mirrors/he/HeidiSQL项目介绍HeidiSQL是一款开源的图形化数据库
mac下docker搭建nginx+php+mysql,并实现nginx负载均衡自娱自乐22 macos docker nginx 负载均衡 php
一环境系统：macOSSonoma14.3芯片：AppleM3Prodocker版本：25.0.5二软件OrbStack[推荐，一款轻量化的docker管理软件，还是docker的命令]item2三步骤拉取nginx镜像dockerpullnginx新建一个nginx容器dockerrun--namenginx5-d-p80:80nginx确认nginx内部的目录[第一次一定要确认下目录]-配置目
经销商管理系统架构设计方案（附 Java版本和Python版本源代码详解） AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
经销商管理系统架构设计方案（Java实现源代码详解）关键词：经销商管理系统，Java，SpringBoot，MyBatis，MySQL，架构设计，源代码1.背景介绍随着市场竞争的日益激烈，企业对经销商的管理越来越重视。传统的经销商管理方式效率低下，信息滞后，难以适应现代企业的发展需求。为了提高经销商管理效率，降低运营成本，越来越多的企业开始采用信息化的手段来管理经销商，而经销商管理系统应运而生。经
[附源码]计算机毕业设计基于SpringBoot的小说阅读系统计算机毕设程序设计 spring boot java 后端
项目运行环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：SSM+mybatis+Maven+Vue等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.ID
基于 Spring Boot 的社区居民健康管理系统部署说明书小星袁毕业设计原文 spring boot 后端 java
目录1系统概述2准备资料3系统安装与部署3.1数据库部署3.1.1MySQL的部署3.1.2Navicat的部署3.2服务器部署3.3客户端部署4系统配置与优化5其他基于SpringBoot的社区居民健康管理系统部署说明书1系统概述本系统主要运用了SpringBoot框架，前端页面的设计主要依托Vue框架来构建，实现丰富且交互性强的用户界面，后台管理功能则采用SpringBoot框架与MySQL数
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 安全 web安全网络网络安全 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 网络安全 web安全 linux 密码学 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
【系统设计】忘记MySQL密码，应该如何重置红烧白开水。 mysql 数据库开发语言数据关系型数据库密码重置
如果在电脑上安装的MySQL数据库忘记了密码，可以通过以下步骤重置密码。具体操作因操作系统和MySQL版本略有不同，但总体流程类似：步骤1：停止MySQL服务首先需要停止正在运行的MySQL服务。Linux/macOSsudosystemctlstopmysql#或sudoservicemysqlstopWindows按Win+R，输入services.msc并回车。找到MySQL服务，右键选择停
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！网安詹姆斯 web安全 CTF 网络安全大赛 python linux
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、S
使用yii自带发邮件功能发送邮件原克技术 yii php
邮件组件的配置取决于您选择的扩展名。通常，您的应用程序配置应如下所示：在配置文件中配置dirname(dirname(__DIR__)).'/vendor','timeZone'=>'Asia/Chongqing','components'=>['db'=>['class'=>'yii\db\Connection','dsn'=>'mysql:host=localhost;dbname=root'
记录自己的日常总结与错误快乐呆橘 mysql github visual studio java android
//1.解决VMware的方法：管理员身份运行cmd->输入netshwinsockreset->重启电脑同时也是windows修复网络问题的一种方法//2.解决spring中tx报错问题：在设置xmlcatalog时要把key改成http://www.springframework.org/schema/tx/spring-tx.xsd//3.解决jsp链接数据库中文乱码问题：首先在mysql端
Flink CDC报错ArrayIndexOutOfBoundsException解决思路学亮编程手记大数据 flink doris
FlinkCDC用两个并行度会报错。一个并行度就不会报错。不知道是什么原因？同步java.lang.ArrayIndexOutOfBoundsException？解决思路看日志，应该是mysql文本字段中有换行符之类的，应该会有一个url的报错提示，然后curl那个url看具体报错。这个问题可能是由于FlinkCDC的并行度设置不正确导致的。当您尝试使用两个并行度时，可能会遇到数组越界异常（jav
小白入门笔记：CMake编译过程详解 3Ｄ视觉工坊 3D视觉从入门到精通笔记 c++开发语言
作者丨SkyShaw@知乎点击进入—>3D视觉工坊学习交流群1、你好，CMake1.1CMake是什么？我觉得针对这个问题最简单（但不是最正确的）的回答应该是：“CMake是服务于将源代111码转换成可执行的文件的工具”。将源码转换为可工作应用会比较神奇。不仅是效果本身(即设计并赋予生命的工作机制)，而且是将理念付诸于过程的行为本身。CMake本身是一个工具集，由五个可执行的程序组成：cmake、
redis 如何保证缓存和数据库一致性？解决策略如下 Foolforuuu 缓存数据库 redis
Redis与数据库的数据保持一致，传统策略是先读缓存，未命中则读数据库并回填缓存，但方式这种维护成本较高。下面是几种传统常见的策略及其优缺点：【策略1】先写MySQL。成功后，更新或删除Redis中的对应数据。优点：简单易实现。缺点：存在短暂的不一致。【策略2】先写Redis。异步或定时将Redis数据同步到MySQL。优点：提升写性能。缺点：同步延迟可能导致数据丢失。【策略3】读Redis，命
数据库基础以及 MySQL 知识点阿绵计算机基础数据库 mysql
文章目录1、基本概念2、主键和外键的区别2.1、使用外键的优劣3、数据库范式4、drop、delete与truncate区别？5、MySQL1、基础概念2、存储引擎2.1、InnoDB和MyISAM区别2.2、InnoDB如何保持事务的四大特性（实现事务的原理）3、锁机制与InnoDB锁算法3.1、表级锁和行级锁对比4、事务4.1、ACID特性4.2、并发事务带来的问题4.3、事务隔离级别1、基本
【Mysql】Schema directory ‘.\reggie‘ already exists. This must be resolved manually 逆风退后 mysql 数据库
完整报错信息如下：ERROR3678(HY000):Schemadirectory'.\reggie'alreadyexists.Thismustberesolvedmanually(e.g.bymovingtheschemadirectorytoanotherlocation).原因：由于某种未知的错误，导致这个数据库损坏了，所以就这样了解决方法找到Mysql的数据库存放目录将损坏的数据库文件夹
mysql 删表卡死_如何解决mysql 删表卡住的问题霍冉 mysql 删表卡死
如何解决mysql删表卡住的问题mysql删表卡住的解决办法：首先执行“showfullprocesslist;”语句；然后执行“killprocessid;”语句；最后使用kill语句将所有的id杀死，并重启MySQL即可。推荐：《mysql视频教程》MySQL表不能修改、删除等操作，卡死、锁死情况的处理办法。MySQL如果频繁的修改一个表的数据，那么这么表会被锁死。造成假死现象。比如用Navi
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

mysql自定义函数 知乎_scrapy入门

你可能感兴趣的:(mysql自定义函数,知乎)

mysql自定义函数知乎_scrapy入门