Genebox基因宝

scrapy 教程 MySQL_scrapy框架使用教程

scrapy框架真的是很强大。非常值得学习一下。本身py就追求简洁，所以本身代码量很少却能写出很强大的功能。对比java来说。不过py的语法有些操蛋，比如没有智能提示。动态语言的通病。我也刚学习不到1周时间。记录一下。全部干货。

首先安装scrapy框架。选择的ide是pycharm。

创建一个scrapy项目。项目名称xxoo

scrapy startproject xxoo

会得到一个项目目录。具体目录的作用自己百度下。然后再用一条命令创建一个爬虫类。就是一个模板。帮我们创建好的类。我们只需要写逻辑就行。程序员的天性就是懒！！！

意思是创建了一个xxooSpider的类这个类只爬取baidu.com这个网站

scrapy genspider [-t template] 即：scrapy genspider xxooSpider baidu.com

在pycharm中调试项目。

需要特殊配置下。

在根目录下创建一个start.py的文件。 -o itcast1.csv 是输出到csv文件中。可以不加

from scrapy importcmdline

cmdline.execute("scrapy crawl xxooSpider --nolog -o itcast1.csv".split())

就ok了。

使用豆瓣镜像源下载

pip install -i https://pypi.doubanio.com/simple/ scrapy-splash

获取setting.py中的值

from scrapy.conf importsettings

cookie= settings['COOKIE']

获取图片的url地址

大牛通常使用这个方法。原因是，我们一般情况下也可以直接得到src属性的值。但是，有时候src属性的值没有带网址前缀，比如说是/img/1.png这样。我们需要手动加上http://www.baidu.com才可以。用下面这个方法。可以很简单的解决这个问题。

from urllib importparse

url="http://www.baidu.com/xx"xx="/pic/1/1.png"urljoin=parse.urljoin(url, xx)print(urljoin)

http://www.baidu.com/pic/1/1.png

下载图片

scrapy给我们提供好了图片下载的模板。我们只需要在setting中指定一下管道中间件，和需要下载的字段。需要下载的字段值一定是数组类型，不然报错

ITEM_PIPELINES ={'xxoo.pipelines.XxooPipeline': 300,'scrapy.pipelines.images.ImagesPipeline': 1,

}#在item中定义图片url的字段，ImagesPipeline会自动下载这个url地址

IMAGES_URLS_FIELD="image"

#存放的路径,根目录下的img文件夹

IMAGES_STORE=os.path.join(os.path.abspath(os.path.dirname(__file__)),"img")

但是按照上面的写的话，全部都是由scrapy帮我们做了，自己生成文件夹，文件名。非常不可控。如果我们想自定义的话。我们需要继承ImagesPipeline类，重写几个方法

from scrapy.pipelines.images importImagesPipelineimportrefrom scrapy importRequestclassImagesrenamePipeline(ImagesPipeline):#1看源码可以知道，这个方法只是遍历出我们指定的图片字段，是个数组，然后一个一个请求

defget_media_requests(self, item, info):#循环每一张图片地址下载，若传过来的不是集合则无需循环直接yield

for image_url in item['imgurl']:#meta里面的数据是从spider获取，然后通过meta传递给下面方法：file_path

yield Request(image_url,meta={'name':item['imgname']})#2重命名，若不重写这函数，图片名为哈希，就是一串乱七八糟的名字

def file_path(self, request, response=None, info=None):#提取url前面名称作为图片名。

image_guid = request.url.split('/')[-1]#接收上面meta传递过来的图片名称

name = request.meta['name']#过滤windows字符串，不经过这么一个步骤，你会发现有乱码或无法下载

name = re.sub(r'[？\\*|“<>:/]', '', name)#分文件夹存储的关键：{0}对应着name；{1}对应着image_guid

filename = u'{0}/{1}'.format(name, image_guid)returnfilename#3这个是请求完成之后走的方法，我们可以得到请求的url和存放的地址

defitem_completed(self, results, item, info):pass

保存item到json文件

自定义的

importcodecsimportjsonclassjsonwrite(object):#初始化，打开文件

def __init__(self):

self.file= codecs.open("xxoo.json", "w",encoding="utf-8")#scrapy会走这个方法进行item的写入

defprocess_item(self,item,spider):

self.file.write(json.dumps(dict(item),ensure_ascii=False) + "\n")#通常是关闭文件的操作

defspider_closed(self,spider):

self.file.close()

scrapy给我们提供的

from scrapy.exporters importJsonItemExporterclassJsonExporterPipleline(object):#调用scrapy提供的json export导出json文件

def __init__(self):

self.file= open('articleexport.json', 'wb')

self.exporter= JsonItemExporter(self.file, encoding="utf-8", ensure_ascii=False)

self.exporter.start_exporting()defclose_spider(self, spider):

self.exporter.finish_exporting()

self.file.close()defprocess_item(self, item, spider):

self.exporter.export_item(item)return item

保存到mysql中(两种方法)

importMySQLdbimportMySQLdb.cursorsfrom twisted.enterprise importadbapiclassMysqlPipeline(object):#采用同步的机制写入mysql

def __init__(self):

self.conn= MySQLdb.connect('192.168.0.106', 'root', 'root', 'article_spider', charset="utf8", use_unicode=True)

self.cursor=self.conn.cursor()defprocess_item(self, item, spider):

insert_sql= """insert into jobbole_article(title, url, create_date, fav_nums)

VALUES (%s, %s, %s, %s)"""self.cursor.execute(insert_sql, (item["title"], item["url"], item["create_date"], item["fav_nums"]))

self.conn.commit()

#采用异步数据库连接池的方法classMysqlTwistedPipline(object):def __init__(self, dbpool):

self.dbpool=dbpool

@classmethoddeffrom_settings(cls, settings):

dbparms=dict(

host= settings["MYSQL_HOST"],

db= settings["MYSQL_DBNAME"],

user= settings["MYSQL_USER"],

passwd= settings["MYSQL_PASSWORD"],

charset='utf8',

cursorclass=MySQLdb.cursors.DictCursor,

use_unicode=True,

)

dbpool= adbapi.ConnectionPool("MySQLdb", **dbparms)returncls(dbpool)defprocess_item(self, item, spider):#使用twisted将mysql插入变成异步执行

query =self.dbpool.runInteraction(self.do_insert, item)

query.addErrback(self.handle_error, item, spider)#处理异常

defhandle_error(self, failure, item, spider):#处理异步插入的异常

print(failure)defdo_insert(self, cursor, item):#执行具体的插入

#根据不同的item 构建不同的sql语句并插入到mysql中

insert_sql, params =item.get_insert_sql()

cursor.execute(insert_sql, params)

优化item类(重要)

我们可以用xpath或者css解析页面，然后写一些判断逻辑。如果你不嫌麻烦的话。

scrapy给我们提供了一整套的流程。可以让代码变得非常精简。处理item的业务逻辑在item中写。爬虫文件只写item的生成规则。

先看item类

from scrapy.loader importItemLoaderfrom scrapy.loader.processors importMapCompose, TakeFirst, Join#一个小技巧，可以覆盖默认的规则，就是TakeFirst()把列表转换成字符串，我们这里不让转成字符串，还是数组

defreturn_value(value):returnvalue#因为通过自带的ItemLoader类生成的item_loader他都是list，所以我们自定义下。默认的处理规则(可以单个字段覆盖)，这样就不用每个字段都写重复的代码了

classArticleItemLoader(ItemLoader):#自定义itemloader

default_output_processor =TakeFirst()#自定义的item类。input_processor是指需要处理的业务逻辑，比如一些格式的转换什么的，output_processor可以覆盖默认的规则。

classJobBoleArticleItem(scrapy.Item):

title=scrapy.Field()

create_date=scrapy.Field(

input_processor=MapCompose(date_convert),

)

url=scrapy.Field()

url_object_id=scrapy.Field()

front_image_url=scrapy.Field(

output_processor=MapCompose(return_value)

)

front_image_path=scrapy.Field()

praise_nums=scrapy.Field(

input_processor=MapCompose(get_nums)

)

comment_nums=scrapy.Field(

input_processor=MapCompose(get_nums)

)

fav_nums=scrapy.Field(

input_processor=MapCompose(get_nums)

)

tags=scrapy.Field(

input_processor=MapCompose(remove_comment_tags),

output_processor=Join(",")

)

content= scrapy.Field()

爬虫类

from scrapy.loader importItemLoaderfrom ArticleSpider.items importJobBoleArticleItem, ArticleItemLoaderdefparse_detail(self, response):

article_item=JobBoleArticleItem()#通过item loader加载item

front_image_url = response.meta.get("front_image_url", "") #文章封面图

item_loader = ArticleItemLoader(item=JobBoleArticleItem(), response=response)

item_loader.add_css("title", ".entry-header h1::text")

item_loader.add_value("url", response.url)

item_loader.add_value("url_object_id", get_md5(response.url))

item_loader.add_css("create_date", "p.entry-meta-hide-on-mobile::text")

item_loader.add_value("front_image_url", [front_image_url])

item_loader.add_css("praise_nums", ".vote-post-up h10::text")

item_loader.add_css("comment_nums", "a[href='#article-comment'] span::text")

item_loader.add_css("fav_nums", ".bookmark-btn::text")

item_loader.add_css("tags", "p.entry-meta-hide-on-mobile a::text")

item_loader.add_css("content", "div.entry")

article_item=item_loader.load_item()yield article_item

获取一个页面的全部url

我们当然可以用xpath得到，但是还不够精简。我们可以使用 linkExtractor 类来得到。非常的简单。

from scrapy.linkextractors importLinkExtractor#需要搞一个对象实例，然后写一个符合的规则，利用extract_links方法传一个response过去就能得到这个页面匹配的url

link = linkExtractor=LinkExtractor(allow=r'http://lab.scrapyd.cn')#link = linkExtractor=LinkExtractor()#allow=r'http://lab.scrapyd.cn/archives/\d+.html'

links =link.extract_links(response)iflinks:for link_one inlinks:print(link_one)

日志的使用

Scrapy提供了log功能，可以通过 logging 模块使用。

可以修改配置文件settings.py，任意位置添加下面两行，效果会清爽很多。

LOG_FILE = "TencentSpider.log"LOG_LEVEL= "INFO"

Log levels

Scrapy提供5层logging级别:

CRITICAL-严重错误(critical)

ERROR-一般错误(regular errors)

WARNING-警告信息(warning messages)

INFO-一般信息(informational messages)

DEBUG- 调试信息(debugging messages)

logging设置

通过在setting.py中进行以下设置可以被用来配置logging:

LOG_ENABLED 默认: True，启用logging

LOG_ENCODING 默认:'utf-8'，logging使用的编码

LOG_FILE 默认: None，在当前目录里创建logging输出文件的文件名

LOG_LEVEL 默认:'DEBUG'，log的最低级别

LOG_STDOUT 默认: False 如果为 True，进程所有的标准输出(及错误)将会被重定向到log中。例如，执行print "hello" ，其将会在Scrapy log中显示。

保存到mongdb数据库

importpymongofrom scrapy.conf importsettingsclassDoubanPipeline(object):def __init__(self):

host= settings["MONGODB_HOST"]

port= settings["MONGODB_PORT"]

dbname= settings["MONGODB_DBNAME"]

sheetname= settings["MONGODB_SHEETNAME"]#创建MONGODB数据库链接

client = pymongo.MongoClient(host = host, port =port)#指定数据库

mydb =client[dbname]#存放数据的数据库表名

self.sheet =mydb[sheetname]defprocess_item(self, item, spider):

data=dict(item)

self.sheet.insert(data)return item

setting文件

#MONGODB 主机名

MONGODB_HOST = "127.0.0.1"

#MONGODB 端口号

MONGODB_PORT = 27017

#数据库名称

MONGODB_DBNAME = "Douban"

#存放数据的表名称

MONGODB_SHEETNAME = "doubanmovies"

下载中间件，随机更换user-Agent和ip

importrandomimportbase64from settings importUSER_AGENTSfrom settings importPROXIES#随机的User-Agent

classRandomUserAgent(object):defprocess_request(self, request, spider):

useragent=random.choice(USER_AGENTS)#print useragent

request.headers.setdefault("User-Agent", useragent)classRandomProxy(object):defprocess_request(self, request, spider):

proxy=random.choice(PROXIES)if proxy['user_passwd'] isNone:#没有代理账户验证的代理使用方式

request.meta['proxy'] = "http://" + proxy['ip_port']else:#对账户密码进行base64编码转换

base64_userpasswd = base64.b64encode(proxy['user_passwd'])#对应到代理服务器的信令格式里

request.headers['Proxy-Authorization'] = 'Basic' +base64_userpasswd

request.meta['proxy'] = "http://" + proxy['ip_port']

setting文件

USER_AGENTS =['Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2)','Opera/9.27 (Windows NT 5.2; U; zh-cn)','Opera/8.0 (Macintosh; PPC Mac OS X; U; en)','Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0','Mozilla/5.0 (Linux; U; Android 4.0.3; zh-cn; M032 Build/IML74K) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30','Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 Safari/525.13']

PROXIES=[

{"ip_port" :"121.42.140.113:16816", "user_passwd" : "mr_mao_hacker:sffqry9r"},#{"ip_prot" :"121.42.140.113:16816", "user_passwd" : ""}

#{"ip_prot" :"121.42.140.113:16816", "user_passwd" : ""}

]

登陆的三种方法

1，直接找到登陆接口，提供账号密码进行登陆，也是最简单的。

2，有时候需要从登录页找到隐藏的值，然后提交到后台，比如知乎就需要在登录页得到_xsrf，

3，最麻烦的一种，对方各种加密验证，我们可以采用cookie进行登陆。

分别写三个代码参考下：

1.简单

#-*- coding: utf-8 -*-

importscrapy#只要是需要提供post数据的，就可以用这种方法，#下面示例：post数据是账户密码

classRenren1Spider(scrapy.Spider):

name= "renren1"allowed_domains= ["renren.com"]defstart_requests(self):

url= 'http://www.renren.com/PLogin.do'

yieldscrapy.FormRequest(

url=url,

formdata= {"email" : "[email protected]", "password" : "alarmchime"},

callback=self.parse_page)defparse_page(self, response):

with open("mao2.html", "w") as filename:

filename.write(response.body)

View Code

2.中等

#-*- coding: utf-8 -*-

importscrapy#正统模拟登录方法：#首先发送登录页面的get请求，获取到页面里的登录必须的参数，比如说zhihu的 _xsrf#然后和账户密码一起post到服务器，登录成功

classRenren2Spider(scrapy.Spider):

name= "renren2"allowed_domains= ["renren.com"]

start_urls=("http://www.renren.com/PLogin.do",

)defparse(self, response):#_xsrf = response.xpath("//_xsrf").extract()[0]

yieldscrapy.FormRequest.from_response(

response,

formdata= {"email" : "[email protected]", "password" : "alarmchime"},#, "_xsrf" = _xsrf},

callback =self.parse_page

)defparse_page(self, response):print "=========1===" +response.url#with open("mao.html", "w") as filename:

#filename.write(response.body)

url = "http://www.renren.com/422167102/profile"

yield scrapy.Request(url, callback =self.parse_newpage)defparse_newpage(self, response):print "===========2====" +response.url

with open("xiao.html", "w") as filename:

filename.write(response.body)

View Code

3.困难

#-*- coding: utf-8 -*-

importscrapy#实在没办法了，可以用这种方法模拟登录，麻烦一点，成功率100%

classRenrenSpider(scrapy.Spider):

name= "renren"allowed_domains= ["renren.com"]

start_urls=('http://www.renren.com/xxxxx','http://www.renren.com/11111','http://www.renren.com/xx',

)

cookies={"anonymid" : "ixrna3fysufnwv","_r01_" : "1","ap" : "327550029","JSESSIONID" : "abciwg61A_RvtaRS3GjOv","depovince" : "GW","springskin" : "set","jebe_key" : "f6fb270b-d06d-42e6-8b53-e67c3156aa7e%7Cc13c37f53bca9e1e7132d4b58ce00fa3%7C1484060607478%7C1%7C1486198628950","jebe_key" : "f6fb270b-d06d-42e6-8b53-e67c3156aa7e%7Cc13c37f53bca9e1e7132d4b58ce00fa3%7C1484060607478%7C1%7C1486198619601","ver" : "7.0","XNESSESSIONID" : "e703b11f8809","jebecookies" : "98c7c881-779f-4da8-a57c-7464175cd469|||||","ick_login" : "4b4a254a-9f25-4d4a-b686-a41fda73e173","_de" : "BF09EE3A28DED52E6B65F6A4705D973F1383380866D39FF5","p" : "ea5541736f993365a23d04c0946c10e29","first_login_flag" : "1","ln_uact" : "[email protected]","ln_hurl" : "http://hdn.xnimg.cn/photos/hdn521/20140529/1055/h_main_9A3Z_e0c300019f6a195a.jpg","t" : "691808127750a83d33704a565d8340ae9","societyguester" : "691808127750a83d33704a565d8340ae9","id" : "327550029","xnsid" : "f42b25cf","loginfrom" : "syshome"}defstart_requests(self):for url inself.start_urls:#yield scrapy.Request(url, callback = self.parse)

#url = "http://www.renren.com/410043129/profile"

yield scrapy.FormRequest(url, cookies = self.cookies, callback =self.parse_page)defparse_page(self, response):print "===========" +response.url

with open("deng.html", "w") as filename:

filename.write(response.body)

View Code

你可能感兴趣的:(scrapy,教程,MySQL)

从 0 到万粉的 AI 公众号博主教程 hikktn 从0到万粉的AI公众号博主教程公众号
《从0到万粉的AI公众号博主教程》专栏简介作为一名深耕品牌领域二十余载的资深专家，我深刻感受到当下商业环境的剧变。去年，我开始探索AI技术在内容创作中的应用，短短4个月内，我的公众号突破万粉，这让我意识到AI时代带来的巨大机遇。在与众多职场人士交流的过程中，我发现很多人都面临着相似的困境：想要利用AI进行个人品牌升级，但不知如何入门？拥有专业积累，但难以转化为个人IP？尝试做自媒体，但始终无法突破
linux渲染农场大连教程,Deadline 渲染农场搭建记录温柔彭于晏 linux渲染农场大连教程
渲染农场的工作模式：多台机器组建集群进行渲染，比如：集群中有2台渲染机器A和B，服务器会同时分配给A和B任务，A渲染第一帧,B渲染第二帧，当A完成那么服务器会继续分配第三帧，同样B服务器完成以后服务器分配第四帧，以此类推。渲染农场分服务端和节点，服务器端也可以加入集群中当做节点，当然节点也可以提交渲染任务建议：服务器端单独安装，主要插件及自定义修改内容可单独存放，当多节点接入或大批量渲染任务上传时
复习Linux的常用指令一直开心 linux 常用指令的学习笔记
https://zhuanlan.zhihu.com/p/385065437https://zhuanlan.zhihu.com/p/385065437参考：tar指令的学习linux常用命令(2)：tar命令(压缩文件/解压缩文件)_tar压缩-CSDN博客zip指令的学习Linuxzip命令|菜鸟教程tar的工作过程主要分为两个步骤，正向是打包与压缩，反向是解压缩与还原。打包指的是将一大堆文件
查询数据库中第n行数据 weixin_44231698
一般情况下分页的时候是需要的关键字。Oracle中则是rownum，MSSQL中是top关键字，MySQL中是limit关键字。查第n条数据，如：（1）select*from(SELECTROWNUMrn,A.*FROMTABLEA)bwhereb.rn=n;(2)selecttop1*fromTABLEAwhereidnotin(selecttopn-1idfromTABLEA);(3)用mys
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
【Docker】搭建实用的内网穿透工具 - FRP UPToZ 群晖Docker docker 容器运维
前言本教程基于群晖的NAS设备DS423+的docker功能进行搭建FRP的客户端，DSM版本为7.2.1-69057Update5。采用香港机Debian12系统的服务器来安装FRP的服务端作为演示。服务器购买地址：https://www.crash.work/aff/AQXGDNKY简介FRP（FastReverseProxy）是一个高性能的反向代理应用，它可以帮助您将内网服务通过反向代理暴露
aws s3 java使用教程_在 Amazon S3 对象上执行操作 - 适用于 Java 的 AWS 开发工具包 weixin_42510731 aws s3 java使用教程
本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。在AmazonS3对象上执行操作AmazonS3对象表示一个文件或数据集合。每个对象必须驻留在一个存储桶中。注意上传对象使用AmazonS3客户端的putObject方法，并为其提供存储桶名称、键名称和要上传的文件。存储桶必须存在，否则将出现错误。导入importcom.amazonaws.AmazonServiceExc
git runner 配置_gitlab-ci配置详解(一) 夏天的sunnyrain git runner 配置
近期因为折腾gitlab-ci，专门去翻了很多文档，想想貌似自己挺傻的。按照官网教程本来biubiubiu就弄好了，非自己折腾了好几天，还没啥积累，真是作。想想唯一能积累的就是ci的配置详解了。该文基于最新版GitLabCommunityEdition10.1.1和GitLabRunner9.5.1-1使用.gitlab-ci.yml配置你的项目这篇文档描述了.gitlab-ci.yml的用法，本
GitLab：构建自动化流水线教程_2024-07-18_02-20-35.Tex chenjj4003 游戏开发 gitlab 自动化运维 github 安全 git elasticsearch
GitLab：构建自动化流水线教程GitLab基础介绍GitLab的历史与发展GitLab是一个开源的版本控制系统，最初由乌克兰开发者DmitriyZaporozhets和ValerySizov在2011年创建。它最初是作为GitHub的替代品而设计的，旨在提供一个自我托管的Git仓库管理解决方案。随着时间的推移，GitLab不断发展，引入了持续集成/持续部署（CI/CD）功能，使其成为一个全面的
清华出品DeepSeek教程1-7版：前沿技术学习的黄金资源库你好ITgg pdf
《清华出品DeepSeek教程1-7版：前沿技术学习的黄金资源库》「DeepSeek清华资料」共7册链接：https://pan.quark.cn/s/b8d8760976ca「DeepSeek使用手册大全」链接：https://pan.quark.cn/s/52c234062a2e「DeepSeek资料合集」链接：https://pan.quark.cn/s/71c8604f0e8a「DeepS
不用再当“技术宅“！这个AI神器让我5分钟变身人工智能达人阳光永恒736 AI工具人工智能 deepseek 一键包本地部署 AI资源
最近我在朋友圈刷到好多朋友都在玩AI画图、AI写诗，看得我心痒痒。可每次想自己试试，打开教程就被满屏的代码吓退——"Python环境配置"、"CUDA驱动安装"这些词比数学作业还让人头疼。直到我发现了一个叫DeepSeek本地部署一键包的神器，我的AI探索之旅终于变得像搭乐高一样简单！夸克网盘分享一、原来AI离我们这么近上周三放学路上，我看见隔壁班的小美用AI给自己照片生成古风造型，这让我突然意识
Umi-OCR 实践教程：离线、免费、高效的图像文字识别工具几道之旅人工智能智能体及数字员工 ocr 人工智能
一、工具简介Umi-OCR是一款开源、免费且支持离线运行的OCR（光学字符识别）工具，适用于Windows和Linux系统。它基于深度学习技术，能够高效提取图像中的文字，支持多语言识别、批量处理、截屏识别等功能，尤其适合对隐私敏感或网络受限的场景。核心亮点：离线运行：无需联网，保护隐私。多引擎支持：提供Paddle（高性能）和Rapid（低配兼容）两种引擎。批量处理：支持图片、PDF、电子书等多格
【元婴境】mysql的MVCC（详解） jstart千语 mysql 数据库
目录MVCC介绍隐藏字段undologReadView示例：流程总结MVCC介绍大家好，我是jstart千语。上篇我们讲到mysql的事务隔离级别，其中MVCC就是控制事务隔离级别的重要组成部分，也是实现事务四大特性之一隔离性的重要手段。那么接下来我将通透地讲解MVCC，让大家对mysql的隔离性有一个更深刻的理解。MVCC全称Multi-VersionConcurrencyControl，也就是
anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
Mysql中的mysqlbinlog_MySQL程序只mysqlbinlog详解 Fly蒋
mysqlbinlog命令详解mysqlbinlog用于处理二进制的日志文件，如果想要查看这些日志文件的文本内容，就需要使用mysqlbinlog工具用法：mysqlbinlog[options]log-files参数详解：-?,--help#显示帮助信息并退出--base64-output=name#binlog输出语句的base64解码分为三类：默认是值auto,仅打印base64编码的需要的
java工程师常用开发工具 Monika Zhang 开发工具 java
背景：最近换新电脑，记录下本岗位需要安装的软件，也顺便给大家参考，欢迎各位留言补充1JDK（JavaDevelopmentKit）JDK是Java程序员开发Java应用程序所必需的软件包。下载地址：JavaDownloads|Oracle安装配置教程：window下win10jdk8安装与环境变量的配置（超级详细）_jdk8环境变量配置-CSDN博客目前主流的JDK版本还是JAVA8查看版本命令：
nvidia系列教程-AGX-Orin系统刷机及备份 flypig哗啦啦 nvidia nvidia AGX-Orin
目录前言一、准备工作二、AGXOrin系统刷机步骤三、AGXOrin系统备份总结前言NVIDIAAGXOrin是一款高性能的嵌入式计算平台，专为边缘计算和AI应用而设计。为了确保系统的稳定性和适应不同的应用场景，用户可能需要对AGXOrin进行系统刷机和备份操作。本文将详细介绍如何完成这些操作，帮助您更好地管理和维护AGXOrin设备。一、准备工作在开始刷机和备份之前，请确保您已经准备好以下工具和
完美解决 mysql 报错ERROR 1524 (HY000) Plugin ‘mysql_native_password‘ is not loaded m0_74823490 mysql adb android
文章目录错误描述错误原因解决步骤跟着我下面的步骤走，解决你的问题，如果解决不了私信我来给你解决错误描述执行ALTERUSER'root'@'%'IDENTIFIEDWITHmysql_native_passwordBY'123456';报错ERROR1524(HY000):Plugin'mysql_native_password'isnotloaded原因如下错误原因这个错误主要由以下几个原因造成
同步MySQL数据至Elasticsearch：go-mysql-elasticsearch实战指南吴镇业
同步MySQL数据至Elasticsearch：go-mysql-elasticsearch实战指南go-mysql-elasticsearchSyncMySQLdataintoelasticsearch项目地址:https://gitcode.com/gh_mirrors/go/go-mysql-elasticsearch项目介绍go-mysql-elasticsearch是一个服务，能够自动将
将MySQL数据同步到Elasticsearch作为全文检索数据的实战指南格子先生Lab 全文检索 mysql elasticsearch
在现代应用中，全文检索是一个非常重要的功能，尤其是在处理大量数据时。Elasticsearch是一个强大的分布式搜索引擎，能够快速地进行全文检索、分析和可视化。而MySQL作为传统的关系型数据库，虽然能够处理结构化数据，但在全文检索方面的性能不如Elasticsearch。因此，将MySQL中的数据同步到Elasticsearch中，可以充分发挥两者的优势。本文将介绍如何将MySQL中的数据同步到
《java面向对象(5)》＜不含基本语法＞ java小白板 java 开发语言
本笔记基于黑马程序员java教程整理，仅供参考1.异常1.1异常分类1.1.1Error指系统级别的错误，程序员无法解决，不必理会1.1.2Exception（异常）分为两类：RuntimeException：运行时异常，编译时程序不会报错，运行时报错，如数组越界其他异常：编译时异常，编译时就会报错运行时异常：publicclassText{publicstaticvoidmain(String[
测试工程师Ai应用实战指南简例prompt 进击的雷神 prompt
阅读原文以下是一个真实具体的案例，展示测试工程师如何在不同阶段结合DeepSeek提升效率。案例基于电商平台"订单超时自动关闭"功能测试：案例背景项目名称：电商平台订单系统V2.3测试目标：验证"用户下单后30分钟未支付，订单自动关闭并释放库存"功能技术栈：SpringBoot+MySQL+Redis延迟队列1.需求分析阶段痛点：需求文档仅描述业务逻辑，未明确异常场景（如服务器时间不同步、Redi
MySQL数据库基本命令 Java从零开始数据库 mysql
1.CMD链接数据库：mysql-uroot-p2.打开全部数据库：showdatabases;3.切换数据库:use（school库）；4.显示数据库中所有表的信息：describe（student表）；5.查看数据库中所有的表：showtables；6.创建一个数据库：createdatabase（westos库）；7.SHOWCREATEDATABASEgoods：查看创建goods数据库的
大规异构集群混合并行分布式训练系统，解决算力不均衡问题 HETHUB 爱串门的小马驹万卡大规模集群大模型训练异构集群大规模集群分布式大模型训练
视频教程在这：3.2大规模异构集群，混合并行分布式系统，解释算力不均衡问题HETHUB_哔哩哔哩_bilibili一、大规模异构集群出现的原因：同一种GPU数量有限难以构建大规模集群：训练大规模模型依赖于大量的计算资源。例如，训练GPT-4模型（1.8万亿个参数）需要25000个A100GPU。用一种GPU加速器构建大规模集群是一个挑战。使用多种类型的GPU加速器构建大规模集群是解决同构GPU加速
brew mysql client_Mac安装mysqlclient过程解析 weixin_39630440 brew mysql client
尝试在虚拟环境下通过pip安装：pipinstallmysqlclient然后报错：OSError:mysql_confignotfound找到官方文档https://github.com/PyMySQL/mysqlclient-python，解释说安装前需安装另一个模块：brewinstallmysql-connector-c但是报错：查看报错信息，在安装mysql-connector-c前先b
全网最细！CentOS 7极速部署MySQL 8.0.23实战手册（附最佳参数模版）从不删库的DBA Mysql centos mysql linux
一、部署前准备1.1环境检查清单在进行MySQL部署前，请确认以下基础条件已满足：检查项标准要求操作系统版本CentOS6/7（推荐7.6+）内存建议≥4GB（生产环境≥16GB）磁盘空间/分区≥30GB，数据盘按需求规划网络连通性确保yum源可访问二、操作系统基础配置2.1关闭网络管理服务根据系统版本选择相应操作：▶CentOS6#serviceNetworkManagerstop停止Netwo
国内高防加速CDN内容分发服务详细接入教程网友阿贵网站运维 web安全安全性测试安全威胁分析
CDN功能与接入指南CDN（内容分发网络）是一种集安全防护和内容加速于一体的网络解决方案，适用于需要兼顾安全性和访问速度的业务场景。以下是其主要功能与接入步骤：核心功能：免费SSL证书：支持一键申请SSL证书，确保数据传输安全。Web攻击防护：集成WAF防火墙，防御SQL注入、XSS等常见攻击。CC攻击防御：智能识别并拦截恶意请求，保护网站稳定运行。BOT机器人分析：自动识别并管理机器人流量，优化
Mysql 报错: (1364, “Field ‘id‘ doesn‘t have a default value“) Lonelypatients° MySQL mysql
主要原因:在于主键表Id没有设置自增而报错,解决办法:设置主键自增会诱发另一个错误:Cannotchangecolumn'id':usedinaforeignkeyconstraint在于主键id已存在外键关系,不允许随意修改主键的属性值,所以我们须得先把外键关联删除之后,在更改主键,主键更改完毕后,加入外键,就好了
跟着黑马学MySQL基础篇笔记(1)-概述与SQL 小杜不吃糖 mysql 笔记 sql
03.安装与启动启动netstartmysql80netstopmysql80客户端连接mysql[-h127.0.0.1][-P3306]-uroot-p04.mysql数据模型关系型数据库RDBMS05.通用语法及分类DDL：数据定义语言，用来定义数据库对象（数据库，表，字段）DML：数据操作语言，用来对数据库表中的数据进行增删改DQL：数据查询语言，用来查询数据库中表的记录DCL：数据控制语
llama-factory 微调 Qwen2.5-3B-Instruct coco_1998_2 llama factory fine tune
0、资源链接官方readme:https://github.com/hiyouga/LLaMA-Factory/blob/v0.9.1/README_zh.md官方文档:https://llamafactory.readthedocs.io/zh-cn/latest/官方推荐的知乎教程：https://zhuanlan.zhihu.com/p/6952876071、安装LLaMAFactorygi
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu