Triumph19

6.9 用Python操控数据库（批量删除，百度新闻数据爬取与存储，写入数据时进行去重处理，pandas读取sql数据）

学习完MySQL数据库的基本操作后，下面来学习如何用Python连接数据库，并进行数据的插入、查找、删除等操作。

6.9.1 用PyMySQL库操控数据库

上一节在phpMyAdmin 中创建了数据库“pachong”，并在其中创建了数据表"test"，那么该如何在Python中连接该数据库，并调用其中的数据表呢？
首先安装用于操控MySQL的python第三方库PyMySQL,安装命令为"pip install pymysql"。

1.连接数据库

首先来学习如何连接之前创建的数据库“pachong”，代码如下：

# 连接数据库“pachong”
import pymysql
db = pymysql.connect(host='localhost',port=3306,user='root',password='',database='pachong',charset='utf8')

2.插入数据

在Python中连接到数据库后，就可以通过执行SQL语句对数据进行增、删、改、查等操作了。但在执行SQL语句前还需要引入一个会话指针cursor，代码如下：

cur = db.cursor() #获取会话指针，并命名为cur，用来调用SQL语句，其中的db为前面创建的数据库连接

接着就可以编写SQL语句了，先回顾一下前面学习的插入数据的SQL语句：

INSERT INTO `test`(`company`, `title`, `href`, `date`, `source`) VALUES ('阿里巴巴','标题2','链接2','日期2','来源2')

在Python中编写SQL语句时，为了让代码更简洁，数据表名和字段前后都不再加重音符号“`”，代码如下：

sql = 'INSERT INTO test (company, title, href, date, source) VALUES (%s,%s,%s,%s,%s)'

和之前的SQL语句稍有不同，这里的“VALUES”后面没有跟着具体的值，而是一些“%s”，有几个字段就写几个“%s”，这里是为了便于之后批量插入多家公司的信息。“%s”成为占位符，代表一个字符串，之后可以传入相应的具体值。
写完SQL语句后，再通过如下代码便可将具体的值传到“%s”的位置并执行SQL语句。

cur.execute(sql,(company, title, href, date, source)) #执行SQL语句
db.commit() #固定写法

第1行代码中的cur.execute()函数用于执行SQL语句并传入相应的值（execute是“执行”的意思）。括号中的第1个参数就是刚才编写的SQL语句；第二个参数用来把具体的值传到各个“%s”的位置上，依此类推。
cur.execute()函数会默认把传入的值都转换为字符串类型，因此，即使是数字型的值（如舆情评分），在SQL语句中也要用“%s”作为占位符。不过如果数据表中设置的字段数据类型是INT,传入的值还是会以数字格式存储在数据表中。
地
第2行代码中的db.commit()函数是更新数据表的固定写法（commit是提交的意思）。这里插入了一行数据，已经改变了数据表的结构，所有必须用db.commit（）函数来提交这个修改。对于数据的插入、删除等修改了数据表的操作，都需要写这行代码来提交修改。
最后需要关闭之前引入的会话指针cur和数据库连接，代码如下：

cur.close() #关闭会话指针
db.close() #关闭数据库连接

完整代码如下：

# 预定义变量
company = '阿里巴巴'
title = '测试标题'
href = '测试链接'
date = '测试日期'
source = '测试来源'

# 连接数据库
import pymysql
db = pymysql.connect(host='localhost',port=3306,user='root',password='',database='pachong',charset='utf8')

# 插入数据
cur = db.cursor() #获取会话指针，并命名为cur，用来调用SQL语句，其中的db为前面创建的数据库连接
sql = 'INSERT INTO test (company, title, href, date, source) VALUES (%s,%s,%s,%s,%s)'
cur.execute(sql,(company, title, href, date, source)) #执行SQL语句
db.commit() #固定写法
cur.close() #关闭会话指针
db.close() #关闭数据库连接

运行代码后，打开phpMyAdmin查看数据表“test”，可以看到其中新增的一条数据，如下图所示。
再往数据表中插入数据的实战中，往往需要修改的就是上述代码中的SQL语句，以及cur.execute()函数的参数，其余的代码大多都是固定写法。
此外，如果只是插入一条数据，也可以用如下写法：

sql = "INSERT INTO test (company, title, href, date, source) VALUES ('阿里巴巴','标题2','链接2','日期2','来源2')"

这里将SQL语句前后的单引号换成了双引号，这样就不会和公司名称等字符串中的单引号产生冲突（也可以在外层用单引号，里面用双引号）。不过这汇总写法不适合用于插入或读取数据，因此简单了解即可。

3.查找数据

查找数据的思路与插入数据的思路类似，同样是通过执行SQL语句来完成。先回顾一下在phpMyAdmin中查找数据的SQL语句，其中LIKE也可以换成“=”号：

sql = "INSERT INTO test (company, title, href, date, source) VALUES ('阿里巴巴','标题2','链接2','日期2','来源2')"

那么要用Python查找company（公司名称）为“阿里巴巴”的数据，可以使用如下代码：

import pymysql
db = pymysql.connect(host='localhost',port=3306,user='root',password='',database='pachong',charset='utf8')

company = '阿里巴巴'

cur = db.cursor() #获取会话指针，用来调用SQL语句
sql = 'SELECT * FROM test WHERE company = %s' #编写SQL语句
cur.execute(sql,company) #执行SQL语句
data = cur.fetchall() #提取查找到的所有数据，并赋给变量data
print(data) #打印输出data，查看提取结果
db.commit() #提交表单，这一行其实可以不写，因为程序没有修改数据表结构
cur.close() #关闭会话指针
db.close() #关闭数据库连接

上述代码与插入数据的代码在思路上类似，都是先连接数据库，然后利用cursor获取会话指针，进而通过cur.execute()函数执行SQL语句。因为只有一个占位符（company=%s），所以cur.execute()函数的第2个参数就只有company。
执行的SELECT*语句知识查找数据，并没有把数提取出来，所以还要用data = cur.fetchall()来提取所有数据，并赋给变量data，这也是提取数据的固定写法。其余代码的含义参见注释。
代码运行效果如下：
可以看到所有公司名称为“阿里巴巴”的数据都被筛选出来了。从包围内容的一层层括号可以看出，提取出的数据是嵌套结构的元组。元组和列表非常类似，区别只是包围的符号不同，并且元组中的元素不可修改，所以可以借用列表的知识来进一步处理元组。例如，要提取每条新闻的标题，可以在上面的代码之后写如下代码：

for i in range(len(data)):
    print(data[i][1])

与提取元素的方法一样，通过该data[i]提取大元组的小元组，data[0]就是第1个小元组(‘阿里巴巴’, ‘标题1’, ‘链接1’, ‘日期1’, ‘来源1’)。要提取这个小元组里的标题（第二个元素），可以用data[0][1]实现。结合for循环语句就可以提取每一条新闻的标题了。
如果筛选条件不止一个，可以用“AND”来连接。例如，要通过company(公司名称)和title(标题)两个筛选条件来查找数据，代码如下：

sql = 'SELECT * FROM test WHERE company = %s AND title = %s'
cur.execute(sql,(company,title))

第1行代码的SQL语句用“AND”连接了两个筛选条件，第2行代码用cur.execute()函数执行SQL语句时就要传入两个参数，这两个参数需要用括号包围起来，写成（company,title）。如果还有更多的筛选条件，可以模仿上述形式添加。

4.删除数据

相对于插入和查找数据，删除数据的使用频率要低得多。先回顾一下在phpMyAdmin中删除数据的SQL语句：

DELETE FROM `test` WHERE `company` = '百度'

在Python中执行这个SQL语句的方法和之前类似，其核心代码如下：

cur = db.cursor() #获取会话指针，用来调用SQL语句
sql = 'DELETE FROM test WHERE company = %s' #编写SQL语句
cur.execute(sql,company) #执行SQL语句

完整代码如下：

import pymysql
db = pymysql.connect(host='localhost',port=3306,user='root',password='asdfg12345',database='pachong',charset='utf8')

company = '百度'

cur = db.cursor() #获取会话指针，用来调用SQL语句
sql = 'DELETE FROM test WHERE company = %s' #编写SQL语句
cur.execute(sql,company) #执行SQL语句
data = cur.fetchall() #提取查找到的所有数据，并赋给变量data

db.commit() #提交表单，这一行其实可以不写，因为程序没有修改数据表结构
cur.close() #关闭会话指针
db.close() #关闭数据库连接

运行代码后，数据表“test”中所有company（公司名称）为“阿里巴巴”的数据记录就都被删除了。

6.9.2 案例实战：百度新闻数据爬取与存储

本案例将从百度新闻爬取的数据写入MySQL数据库，并进行数据的去重处理。

1.基本的数据爬取与存储

先来实现基本的数据爬取与存储功能，代码如下：

# 1.获取网页源代码
import requests
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'}
def baidu(company):
    url = 'https://www.baidu.com/s?rtt=4&tn=news&wd=' + company
    res = requests.get(url,headers=headers).text
    #print(res)

    # 2.编写正则表达式提取和解析源代码
    import re
    p_date = '(.*?)'
    p_source = '(.*?)'
    date = re.findall(p_date,res)
    source = re.findall(p_source,res)
    # print(date)
    # print(source)

    p_href = '
    href = re.findall(p_href,res) #不存在换行，无须添加re.S
    #print(href)

    p_title = '
 #用“.*?”代替不关心的内容，用“(.*?)”提取需要的内容
    title=re.findall(p_title,res,re.S) #存在换行，需要添加re.S
    # print(title)

    # 3.数据清洗
    for i in range(len(title)):
        title[i] = re.sub('<.*?>','',title[i])
        print(str(i+1) + '.' + title[i] + '(' + source[i] + ' '+ date[i] + ')')
        print(href[i])
    # 4.数据存储
    import pymysql
    for i in range(len(title)):
        db = pymysql.connect(host='localhost',port=3306,user='root',password='',database='pachong',charset='utf8')
        cur = db.cursor() #获取会话指针，并命名为cur，用来调用SQL语句，其中的db为前面创建的数据库连接
        sql = 'INSERT INTO test (company, title, href, date, source) VALUES (%s,%s,%s,%s,%s)'
        cur.execute(sql,(company, title[i], href[i], date[i], source[i])) #执行SQL语句
        db.commit() #固定写法
        cur.close() #关闭会话指针
        db.close() #关闭数据库连接

baidu('阿里巴巴')

# 删除
import pymysql

companies = ['阿里巴巴','华能信托']
for i in range(len(companies)):
    company = companies[i]
    db = pymysql.connect(host='localhost', port=3306, user='root', password='', database='pachong',
                         charset='utf8')
    cur = db.cursor() #获取会话指针，用来调用SQL语句
    sql = 'DELETE FROM test WHERE company = %s' #编写SQL语句
    cur.execute(sql,company) #执行SQL语句
    data = cur.fetchall() #提取查找到的所有数据，并赋给变量data

    db.commit() #提交表单，这一行其实可以不写，因为程序没有修改数据表结构
    cur.close() #关闭会话指针
    db.close() #关闭数据库连接

要批量爬取多家公司的数据并写入数据库，可用for循环语句来实现，代码如下：

# 爬取多家公司的数据并写入数据库
companies = ['华能信托','阿里巴巴','百度集团','腾讯','京东']
for company in companies:
    try:
        baidu(company)
        print('爬取并写入数据库成功')
    except:
        print('爬取并写入数据库失败')

2.写入数据时进行去重处理

数据库不能自动识别重复信息，所以同样的数据很有可能被重复写入数据库，这样不仅会浪费存储空间，而且会给数据提取造成很多麻烦。因此，在写入数据库前最好进行去重处理，其思路为：爬取到每一条新闻的数据后，先在数据库中进行查找，如果发现该新闻的标题已经存在，就不把该新闻写入数据库。
首先进行数据的查找，代码如下：

# 写入数据时进行去重处理
sql_1 = 'SELECT * FROM test WHERE company = %s' #按公司名称选取数据
cur.execute(sql_1,company) #执行SQL语句，选取公司名称为company的数据
data_all = cur.fetchall() #提取所有数据
title_all = [] #创建一个空列表用来存储新闻标题
for j in range(len(data_all)):
    title_all.append(data_all[j][1]) # 将数据中的新闻标题存入列表

上述代码和之前在数据库中查找数据的代码基本一致，唯一的变化在于这里创建了一个空列表title_all，并用append()函数将每条新闻的标题存入该列表。根据前面的讲解，cur.fetchall()返回的data_all是一个嵌套结构的元组，所以用data_all[j][1] 的方式提取每条新闻的标题。此外，之前在for i in range(len(title))中已经用了i作为循环变量，所以这里用j作为循环变量。
这里的for循环语句还可以写成for j in data_all，这样的j就不再是一个数字，而是data_all这个大元组中的一个小元组，而j[1]就是小元组中的新闻标题，改写后的代码如下：

for j in data_all:
    title_all.append(j[1])

获取数据库中存储的每条新闻的标题后，就可以对新爬取的新闻进行筛选了。只需判断新爬取到的新闻标题是否在列表title_all里，如果不在，说明它确实是一条新的新闻，可以写入数据库，代码如下：

if title[i] not in title_all:#判断列表中是否存在该新闻标题
    sql_2 = 'INSERT INTO test (company, title, href, date, source) VALUES (%s,%s,%s,%s,%s)'
    cur.execute(sql_2,(company, title[i], href[i], date[i], source[i]))
    db.commit()

这里使用的是not in 逻辑判断，就是“不在”的意思，即如果新爬取到的新闻标题不在列表title_all里，那么就执行下面的将数据写入数据库的操作。
把查询数据、筛选数据和插入数据的操作汇总在一起，代码如下：

# 去重处理的完整代码

for i in range(len(title)):
    db = pymysql.connect(host='localhost',port=3306,user='root',password='asdfg12345',database='pachong',charset='utf8')
    cur = db.cursor() #获取会话指针，并命名为cur，用来调用SQL语句，其中的db为前面创建的数据库连接
    
    # 1.查询数据
    sql_1 = 'SELECT * FROM test WHERE company = %s' #按公司名称选取数据
    cur.execute(sql_1,company) #执行SQL语句，选取公司名称为company的数据
    data_all = cur.fetchall() #提取所有数据
    title_all = [] #创建一个空列表用来存储新闻标题
    for j in range(len(data_all)):
        title_all.append(data_all[j][1]) # 将数据中的新闻标题存入列表
    
    # 2.判断新爬取到的数据是否已在数据库中，不在的话才将其写入
    if title[i] not in title_all:#判断列表中是否存在该新闻标题
        sql_2 = 'INSERT INTO test (company, title, href, date, source) VALUES (%s,%s,%s,%s,%s)'
        cur.execute(sql_2,(company, title[i], href[i], date[i], source[i]))
        db.commit()
    cur.close()
    db.close()

去重处理实战的源代码

# 去重处理实战的源代码
# 1.获取网页源代码
import requests
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'}
def baidu(company):
    url = 'https://www.baidu.com/s?rtt=4&tn=news&wd=' + company
    res = requests.get(url,headers=headers).text
    #print(res)

    # 2.编写正则表达式提取和解析源代码
    import re
    p_date = '(.*?)'
    p_source = '(.*?)'
    date = re.findall(p_date,res)
    source = re.findall(p_source,res)
    # print(date)
    # print(source)

    p_href = '
    href = re.findall(p_href,res) #不存在换行，无须添加re.S
    #print(href)

    p_title = '
 #用“.*?”代替不关心的内容，用“(.*?)”提取需要的内容
    title=re.findall(p_title,res,re.S) #存在换行，需要添加re.S
    # print(title)

    # 3.数据清洗
    for i in range(len(title)):
        title[i] = re.sub('<.*?>','',title[i])
        print(str(i+1) + '.' + title[i] + '(' + source[i] + ' '+ date[i] + ')')
        print(href[i])
    # 4.数据存储
    import pymysql
    for i in range(len(title)):
        db = pymysql.connect(host='localhost',port=3306,user='root',password='asdfg12345',database='pachong',charset='utf8')
        cur = db.cursor() #获取会话指针，并命名为cur，用来调用SQL语句，其中的db为前面创建的数据库连接
        # (1).查询数据
        sql_1 = 'SELECT * FROM test WHERE company = %s' #按公司名称选取数据
        cur.execute(sql_1,company) #执行SQL语句，选取公司名称为company的数据
        data_all = cur.fetchall() #提取所有数据
        title_all = [] #创建一个空列表用来存储新闻标题
        for j in range(len(data_all)):
            title_all.append(data_all[j][1]) # 将数据中的新闻标题存入列表

        # (2).判断新爬取到的数据是否已在数据库中，不在的话才将其写入
        if title[i] not in title_all:#判断列表中是否存在该新闻标题
            sql_2 = 'INSERT INTO test (company, title, href, date, source) VALUES (%s,%s,%s,%s,%s)'
            cur.execute(sql_2,(company, title[i], href[i], date[i], source[i]))
            db.commit()
        cur.close()
        db.close()

# 爬取多家公司的数据并写入数据库
companies = ['华能信托','阿里巴巴','百度集团','腾讯','京东','中国平安']#新增了一家公司“中国平安”
for company in companies:
    try:
        baidu(company)
        print('爬取并写入数据库成功')

    except:
        print('爬取并写入数据库失败')

6.9.3 用pandas库操控数据库

前面讲解的是用Python操控数据库的常规方法，本节则要讲解如何直接使用pandas库读写数据库。这种方式需要实现安装最为辅助工具的SQLAlchemy库，安装命令为“ pip install sqlalchemy”。

1.连接数据库

使用SQLAlchemy库中的create_engine()函数来初始化数据库连接，代码如下：

from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:@localhost:3306/pachong')

第1行代码导入SQLAlchemy库中的create_engine()函数。第2行代码用create_engine()函数创建数据库连接并赋值给变量engine，参数字符串各部分的含义如下：
数据库类型+数据库驱动程序://数据库用户名：密码@数据库服务器IP地址：端口/数据库名
因此，第2行代码的参数字符串含义为连接到MySQL数据库，使用PyMySQL库作为驱动程序，用户名为root，密码为空，数据库服务器IP地址为本机，端口为3306，要连接的数据库名为“pachong”。
用SQLAlchemy库连接数据库后，就可以用pandas库的read_sql_query()函数从数据库中读取数据，用to_sql()函数将数据写入数据库。

2.读取数据

用pandas 库的read_sql_query()函数可以快速读取数据库中的数据，演示代码如下：

import pandas as pd
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:asdfg12345@localhost:3306/pachong')
sql = "SELECT * FROM test"
df = pd.read_sql_query(sql,engine)

第1行和第2行代码导入相关库

第3行代码创建数据库连接

第4行代码编写SQL语句，含义是查找数据库“pachong”的数据表“test”里的所有数据。

第5行代码为核心代码，用read_sql_query()函数读取数据表中的数据，括号中的第1个参数为用于查找数据的SQL语句，第2个参数为数据库连接。返回的df是一个DataFrame，在jup中打印出输出的结果如下图所示。

3.写入数据

用pandas库中的to_sql()函数可以快速将数据写入数据库，演示代码如下：

import pandas as pd
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:asdfg12345@localhost:3306/pachong')
df = pd.read_excel('百度新闻-多家.xlsx')
df.to_sql('test',engine,index=False,if_exists='append')

如果数据库“pahchong”中不存在数据表“test”，会自动创建该数据表。如果将参数’test’改成“测试”，则运行代码后会自动在数据库“pahchong”里新建一个名为“测试”的数据表，并将数据写入该数据集。其文本数据的默认格式为TEXT长文本格式，与之前使用的VARCHAR常规文本格式区别不大。
将上面最后一行代码写成：

df.to_sql('测试',engine,index=False,if_exists='append')

4.实战技巧

下面讲解本书作者总结的一些用pandas库操控数据表的小技巧，可以帮助大家解决实战中遇到的一些问题。

（1）数据格式设置

有时用pandas库直接将数据写入数据库，会出现报错提示“‘numpy.float64’ object has no attribute ‘translate’”。这个报错是数据格式的问题导致的，解决办法是利用astype()函数价格DataFrame中的数据格式转换为字符串格式。演示代码如下：

df = df.astype('str')

（2）在SQL语句中传入动态参数（未能运行成功）

有时SQL语句中的参数是动态变化的，例如，要在数据表“test”中提取今天的数据，而今天的日期是动态变化的，此时就要以传入动态参数的方式编写SQL语句。演示代码如下：

today = time.strftime('%Y-%m-%d')
sql = 'SELECT * FROM test WHERE 日期 = %(date)s'
df_old = pd.read_sql_query(sql,engine,params={'date':today})

第1行代码中today为今天的日期（字符串格式），注意需提前导入time库。
第2行代码编写SQL语句，用于在数据表“test”中提取今天的数据，其中的date就是一个动态参数（可以换成其他变量名，只要与第3行代码中的变量名一致即可），%()s表示以字符串格式传入。
第3行代码中，read_sql_query()函数括号中的参数增加了一个参数params，代表要为SQL语句传入的动态参数，其值为包含一个键值对的字典，其中的键’date’就是第2行代码中定义的动态参数，而键对应的值today则是第1行代码中定义的日期变量。如果需要，可以传入多个动态参数，例如，传入两个动态参数的写法params={‘date’:today,‘score’:today_score}。

（3）数据去重的另一种思路

用pandas库可以将数据快速去重并写入数据库。假设df为刚爬取的新闻数据，df_old为数据库里存储的新闻数据，df和df_old有重复的内容，现在要把在df中而不在df_old中的数据（也就是用数据库已有数据不重复的新闻数据）写入数据库，那么可以通过如下代码进行去重（这里认为新闻标题重复就是重复内容）：

df_new = df[~df['标题'].isin(df_old['标题'])]

这里有两个新知识点：一个是isin()函数，另一个是“~”符号的应用。首先讲解isin()函数：该函数接收一个列表或数组（如上面的df_old[‘标题’]）作为参数，判断目标列（如上面的df[‘标题’]）中的元素是否在列表中，如果在则返回Ture,否则返回False。因此，如下代码的含义就是筛选同时出现在df[‘标题’]列和df_old[‘标题’]列中的内容。

df_new = df[df['标题'].isin(df_old['标题'])]

理解了isin()函数，再来讲解“~”符号，它的作用是取反，也就是去选中数据之外的数据，因此，df_new = df[~df['标题'].isin(df_old['标题'])]就表示选择df[‘标题’]列中独有的内容（也就是没有出现在df_old[‘标题’]列中的内容），这样便去除了df和df_old重复的内容。
下面再举一个例子，代码如下：

import pandas as pd
df = pd.DataFrame({'标题':['标题1','标题2'],'日期':['日期1','日期2']})
df_old = pd.DataFrame({'标题':['标题2','标题3'],'日期':['日期2','日期3']})

此时df和df_old的内容如下：
执行如下代码后：

df_new = df[~df['标题'].isin(df_old['标题'])]

此时df_new的内容如下图所示，可以看到成功筛选出来df中独有的内容。感兴趣的读者可以把代码中的“~”符号去掉，看看结果如何。
成功去重后，就可以用to_sql()函数将处理好的df_new写入数据库了。

（4）取两个表格中的非重复值

前面讲解的数据去重是保留df中独有的内容，如果想同时保留df和df_old中的独有内容，也就是它们的非重复值，可以使用如下代码：

df_new = df.append(df_old) #也可以写成pd.concat([df,df_old])
df_new = df_new.drop_duplicates(keep=False) #数据去重，keep=False 表示删除所有重复行

（5）模糊筛选

要用pandas库对数据进行模糊筛选，可以使用contains()函数，其功能是筛选目标列中含有某一关键词的行。其基本语法格式如下：

df['列名'].str.contains(关键词)

其中先用str属性将内容转换为字符串，然后才能用contains()函数进行筛选（因为非字符串格式数据不能和字符串数据进行比较）。
举例来说，假设用如下代码创建了一个DataFrame:

df = pd.DataFrame({'标题':['华能信托好','上海交大好'],'日期':['日期1','日期2']})

此时df的内容如下图所示。
接着在df中筛选“标题”列中含有关键词“上海交大”的行，代码如下：

df_new = df[df['标题'].str.contains('上海交大')]

此时df_new的内容如右图所示，成功筛选出了指定列含有特定关键词的行内容。

你可能感兴趣的:(爬虫相关案例或知识,python,爬虫)

iOS安全和逆向系列教程第17篇：探讨ARM64架构与Swift逆向分析技术自学不成才 iOS安全和逆向系列教程 ios 安全架构
iOS安全和逆向系列教程第17篇：探讨ARM64架构与Swift逆向分析技术前言欢迎来到iOS安全和逆向系列教程的第17篇。在前面的文章中，我们已经学习了iOS逆向工程的基础知识，以及各种分析工具的使用方法。今天，我们将深入探讨ARM64架构以及Swift语言的逆向分析技术，这两者对于现代iOS应用的逆向工程至关重要。随着Apple全面迁移到ARM64架构和Swift语言的广泛应用，掌握这些技术已
【python】协程（coroutine） atwdy Python python coroutine 协程 asyncio
协程（coroutine）可以理解为一个可以中途暂停保存当前执行状态信息并可以从此处恢复执行的函数，多个协程共用一个线程执行，适合执行需要“等待”的任务。所以严格意义上，多个协程同一时刻也只有一个在真正的执行，因为线程是任务调度的基本单位。注意这里的执行指的是占用CPU计算，不包括等待阻塞等场景。python中实现协程的标准库是asyncio，标准库的实现中大致可以由底层到顶层分为下面几个对象：c
基于阿里云调用deepseek大模型 atwdy 大模型 deepseek deepseek-r1 deepseek API 阿里云
文章目录1.单轮对话2.多轮对话参考文档选择需要调用的模型，每个模型的详细信息中会有API示例（deepseek-r1），需要做的就是申请自己的APIkey就行了，过程中可能需要实名认证。python中安装OpenAISDK：pipinstallopenai。安装后如果出现ImportError，可能是python的版本低了，升级下版本。当前测试环境是Python3.9.7，openai==1.6
百变背景：万相实验室AIGC电商图片可控生成技术阿里妈妈技术 AIGC 人工智能
✍本文作者：云芑、因尘、岁星、也鹿1.背景随着AI生成内容（AIGC）技术如Diffusion的飞速进展，现如今，大家已能够轻易地使用StableDiffusion（SD）[1]等文生图的模型或工具，将心中所想仅凭语言描述（prompt）即转化为具体图像。基于此，我们不禁思考：是否有可能进一步发展该技术，允许用户通过描述来为商品定制特定背景，从而协助商家快速且轻松地打造理想的商品图像？例如，为一个
Es6中promise的解释用法以及何为同步异步、回调函数和回调地狱？ HHR_hr es6 前端 ecmascript
一.什么是回调函数？1.含义★回调函数是一种特殊的函数，它作为参数传递给另一个函数，并在特定事件或条件发生时被调用执行。2.回调函数在编程中扮演着重要的角色，主要用于以下场景：①事件处理：在图形用户界面(GUI)或其他事件驱动的应用程序中，回调函数常用于处理用户交互和事件触发。②异步编程：在异步编程中，回调函数用于在任务完成时通知调用方，而不必等待任务的完成，从而提高应用程序的响应性。③处理操作系
计算机网络篇：基础知识总结与基于长期主义的内容更新 YGGP 计算机网络计算机网络
基础知识总结和MySQL类似，我同样花了一周左右的时间根据csview对计算机网络部分的八股文进行了整理，主要的内容包括：概述、TCP与UDP、IP、HTTP，其中我个人认为最重要的是TCP这部分的内容。在此做一篇目录索引，对应到每一篇文章：【每日八股】计算机网络篇（一）：概述【每日八股】计算机网络篇（二）：TCP和UDP【每日八股】计算机网络篇（三）：IP【每日八股】计算机网络篇（四）：HTTP
苹果企业签名的性价比苹果企业签名分发苹果企业签名
苹果企业签名（AppleEnterpriseDeveloperProgram）是苹果公司为企业开发者提供的一种应用分发方式，允许企业在不通过AppStore的情况下，直接向员工或特定用户分发内部应用。其性价比取决于具体需求和使用场景，以下从多个角度分析其优缺点及适用性：---###**一、企业签名的主要优势**1.**无需上架AppStore**-适合企业内部工具、测试版应用或定制化应用，避免审核
01计算机视觉学习计划依旧阳光的老码农计算机视觉计算机视觉人工智能
计算机视觉系统学习计划（3-6个月）本计划按照数学→编程→图像处理→机器学习→深度学习→3D视觉→项目实战的顺序，确保从基础到高级，结合理论和实践。第一阶段（第1-2个月）：基础夯实✅目标：掌握数学基础、Python/C++编程、基本图像处理1️⃣数学基础（2周）每日2小时线性代数：矩阵运算、特征值分解（推荐《线性代数及其应用》）概率统计：高斯分布、贝叶斯定理微积分：偏导数、梯度下降傅里叶变换：图
python-Scrapy爬虫框架介绍（整个数据的流程） onesalatree Scrapy框架爬虫 python 软件框架爬虫 scrapy
python-Scrapy爬虫框架介绍随着在家的线上教育的进行，课程的深入学习，所要学习的内容和作业也在不断的增多，所以没有过多的自己的时间去学习新的爬虫知识，但疫情逐渐的在好转，我也很是期待开学的那一天，毕竟线上教育的效果没有在学校的更为显著，主要是老师们录课很辛苦今天我想和兄弟们分享一下Scrapy爬虫的原理，也是自己最近刚学习的，有什么不足的地方兄弟们可以评论你或者私信喔。Python爬虫的
驭码CodeRider 闪电适配阿里QwQ-32B：8小时全栈集成，AI编程效率飞跃！极小狐 AI编程驭码CodeRider DevSecOps gitlab 极狐GitLab
今日凌晨，国产大模型领域迎来重大突破：阿里正式发布32B推理模型QwQ-32B，根据Qwen公布的基准测试数据，QwQ-32B整体性能可媲美DeepSeek-R1，在数学推理、编程能力和通用能力等关键测试中展现出卓越性能。作为AI编程领域的创新力量，驭码CodeRider始终秉承SOTA（State-of-the-Art，指在特定任务或领域中目前性能最先进的模型）模型策略，不断动态测试与更新适配最
Conda操作使用教程迷鹿鹿鹿鹿鹿 conda
声明：该文章仅为学习使用，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！如有侵权，请私信联系本人删帖！Conda操作使用教程Conda是一个开源的包管理和环境管理工具，支持多种编程语言（以Python为主）。它能够帮助用户快速安装、运行和更新软件包，并创建相互隔离的虚拟环境，避免项目之间的依赖冲突。目录Conda的安装基础命令虚拟环境管理包管理环境导出与共享常见问题总结一、安装1
简单分析Mysql不同方式联表查询的效率问题逆袭的小学生 MySQL 联表 mysql join
前言：在项目中看别人写的后台代码发现了多种连表查询的方式，所以来调查一下哪种连表查询方式效率较高，以及如何优化，因为初入门，所以可能有些知识不准确，理解大意即可，对细节感兴趣的请自行查找。参考：https://www.cnblogs.com/wyq178/p/11576065.htmlhttps://blog.csdn.net/hzz532968708/article/details/773704
微博热点信息爬虫 Akihiris 爬虫
最近看到一个项目挺有意思的，难度也不高，贴出来分享一下。一、爬取地址观察网址，我们发现当查询某个话题时，微博网址后面会带参数q，后面那个refer参数可以忽略。因此，我们想要爬取某个话题的时候只需要修改q即可。https://s.weibo.com/weibo?q=%E9%BB%91%E7%A5%9E%E8%AF%9D%E6%82%9F%E7%A9%BA&Refer=topic_weibo二、模拟
Manus AI：全球首款通用型 AI Agent 的创新与挑战萧鼎 python基础到进阶教程人工智能
1.引言：AIAgent时代的到来人工智能正在从单纯的对话式助手进化为更高级的智能体（Agent），能够自主完成任务，而不仅仅是提供信息或建议。2025年3月6日，由中国团队Monica推出的ManusAI正式亮相，号称全球首款通用型AIAgent（自主智能体）。与传统的AI助手相比，Manus不仅能够理解用户的自然语言指令，还能拆解任务、自动执行，并交付完整的成果。这标志着AI进入了一个新的发展
使用 Dlib 库进行人脸检测和人脸识别萧鼎 python基础到进阶教程计算机视觉人工智能 python 人脸识别人脸检测
使用Dlib库进行人脸检测和人脸识别什么是Dlib？Dlib是一个广泛使用的C++库，提供了多种用于机器学习和计算机视觉的工具。它包含了人脸检测、人脸识别、物体检测、图像处理等功能。Dlib具有高效、易用的Python接口，因此它也被广泛应用于Python中进行深度学习和计算机视觉任务。安装Dlib首先，我们需要在Python环境中安装Dlib库。你可以通过pip进行安装：pipinstalldl
Python图形界面开发：PyQt与Tkinter对比分析萧鼎 python基础到进阶教程 python pyqt 数据库
Python图形界面开发：PyQt与Tkinter对比分析图形用户界面（GUI）是应用程序中不可或缺的一部分，可以帮助用户更直观地与程序进行交互。Python拥有许多开发GUI的库，其中PyQt和Tkinter是最受欢迎的两个选择。本篇博客将从功能、易用性、性能、社区支持、学习曲线等角度对比分析这两个库，并通过一个简单的实战项目帮助你更直观地理解它们的差异。一、PyQt与Tkinter简介1.Py
网页自动化测试和爬虫：Selenium库入门与进阶萧鼎 python基础到进阶教程爬虫 selenium 测试工具
网页自动化测试和爬虫：Selenium库入门与进阶在现代Web开发和数据分析中，自动化测试和数据采集成为了开发流程中的重要部分。Python的Selenium库是一种强大的工具，不仅用于网页自动化测试，也在网页爬虫中得到了广泛的应用。本文将带你从Selenium的基础用法入手，逐步深入到进阶技巧，帮助你轻松应对网页自动化任务。一、Selenium简介与安装Selenium是一个浏览器自动化工具，可
Python中的PDF处理工具：PyPDF2和ReportLab使用指南萧鼎 python基础到进阶教程 python pdf pypdf2 reportlab
Python中的PDF处理工具：PyPDF2和ReportLab使用指南在日常工作和项目中，PDF文件处理是个常见需求，不论是合并报告、加密文档、填充表单，还是生成发票。Python中有许多用于操作PDF文件的库，其中PyPDF2和ReportLab是两个广泛使用的工具：前者用于PDF文档的读取和修改，后者用于从头生成PDF文件。在这篇博客中，我们将介绍如何使用PyPDF2和ReportLab完成
【实战】Deepseek+Heygen+剪映快速生产数字人讲解的视频内容 kakaZhui AI前线：解密DeepSeek 重塑未来竞争力音视频人工智能数据库 AIGC chatgpt
在当今这个视频内容爆炸的时代，如何快速、高效地生产高质量的视频内容成为了许多内容创作者=的焦点。特别是对于需要大量讲解类视频的场景，例如产品介绍、知识科普、在线教育等，传统真人出镜的方式往往耗时耗力。而数字人技术的出现，为我们提供了一种全新的解决方案。结合强大的AI语言模型和便捷的视频剪辑工具，我们可以轻松实现低成本、高效率的数字人讲解视频生产。本文将为大家介绍一种基于Deepseek+Heyge
硅谷硬核Rasa课程、Rasa培训、Rasa面试系列之： Rasa 3.x Config StarSpaceNLP 面试职场和发展
ModelConfiguration配置文件定义了模型根据用户输入进行预测的组件和策略。recipe键允许不同类型的配置和模型架构。目前，只支持“default.v1”。语言键和管道键指定模型用于进行NLU预测的组件。Policys键定义了模型用于预测下一个操作的策略。如果您不知道要选择哪些组件或策略，可以使用建议的配置功能，这将推荐合理的默认设置。SuggestedConfig您可以将管道或策略
金三银四突围战：技术面试体系化备考指南守护海洋的猫面试职场和发展
为什么90%的求职者陷入「背了就忘」的死循环？春招季数据显示，72%的技术岗求职者因知识体系零散在二面被淘汰。本文将以系统化方法+可复用的开源工具，帮你构建真正有效的面试知识库。一、技术人备考的三大认知误区盲目追求题量典型症状：刷完LeetCode500题仍不会变通解题数据佐证：2023年上岸者中，83%采用模块化专题突破策略忽视知识关联错误案例：能解释MySQL索引原理，却说不出B+树在Redi
linux权限情深不寿317 linux 服务器
一、用户分类1.root用户系统超级用户，权限不受限制（类似Windows管理员）。必须设置密码，建议与普通用户密码不同。2.普通用户通过adduser或useradd创建（CentOS默认推荐useradd），操作受权限限制。必须设置密码，不同用户应使用不同密码。二、用户切换操作1.普通用户切换为root方法一：仅切换身份（保留当前环境）su输入root密码（输入时无回显）。切换后仍在原工作目录
大模型企业落地：汽车行业知识大模型应用 AGI大模型学习 python 人工智能 prompt 机器学习深度学习学习语言模型
前言在当今这个信息爆炸的时代，知识管理成为了企业提升核心竞争力的关键。特别是在汽车行业这样一个技术密集、信息量庞大的领域，如何高效管理和利用知识资源，成为了每个企业必须面对的挑战。汽车行业的知识管理痛点汽车行业作为现代工业的集大成者，其知识体系庞杂而精细。从设计知识到生产知识，从营销知识到客户服务知识，每一个环节都依赖于大量的专业信息和经验积累。然而，传统的知识管理方式面临着诸多挑战：知识分散：知
Java中getter和setter方法的作用以恒1 java 开发语言
Java中getter和setter方法的作用在Java中，getter和setter方法是面向对象编程中实现封装的核心手段，它们的作用不仅限于访问或修改对象的属性，还为代码的灵活性、安全性和可维护性提供了重要保障。以下是其核心作用的详细说明：idea快捷键：alt加insert加enter，选择getter和setter方法即可一、核心作用1.实现封装（Encapsulation）隐藏内部实现：
记一次ScopeSentry搭建 |||_||| 学习测试工具安全
介绍ScopeSentry是一款具有资产测绘、子域名枚举、信息泄露检测、漏洞扫描、目录扫描、子域名接管、爬虫、页面监控功能的工具，通过构建多个节点，自由选择节点运行扫描任务。当出现新漏洞时可以快速排查关注资产是否存在相关组件。目前功能插件系统跳过CDN子域名枚举子域名接管检测端口扫描资产识别目录扫描漏洞扫描敏感信息泄露检测URL提取爬虫页面监控自定义WEB指纹POC导入资产分组多节点扫描webho
主流爬虫框架scrapy的架构及原理迷鹿鹿鹿鹿鹿爬虫 scrapy 架构
一、Scrapy架构概览Scrapy是一个基于Twisted异步网络框架构建的高效爬虫框架，其核心架构采用事件驱动模型，支持高并发、可扩展的网页抓取。以下是其核心组件及数据流示意图：+-------------------------------------------------+|ScrapyEngine|控制数据流+--------+------------------+----------
DevOps落地实践点滴和踩坑记录-(1) xuhss_com 计算机 devops 运维计算机
优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统记录初衷本人一直在从事企业内DevOps落地实践的工作，走了不少弯路，也努力在想办法解决面临的问题，期间也经历过不少人和事
一分钟教会你如何把 DeepSeek 接入 WPS，开启智能办公新体验！多模态大模型 wps 人工智能 chatgpt 自然语言处理产品经理大模型 deepseek
在数字化办公的时代，如何高效地处理文档、生成创意内容以及进行数据分析，是每一个职场人士的刚需。DeepSeek作为一款强大的AI助手，能够帮助我们快速完成这些任务。而WPS作为国内最受欢迎的办公软件之一，其与DeepSeek的结合，无疑是提升办公效率的绝佳选择。今天，就让我们一起来学习如何将DeepSeek接入WPS，让你的办公效率瞬间提升！一、入门知识点：DeepSeek是什么？DeepSeek
一文读懂！OpenCV 实时人脸识别从 0 到 1，小白也能轻松实操的超详细教程（完整教程及源码） AI_DL_CODE opencv 人工智能计算机视觉人脸识别
摘要：本文围绕使用OpenCV实现实时人脸识别展开。从环境搭建入手，详细介绍Python及相关库的安装。数据准备环节涵盖收集、标注及预处理步骤。深入阐述特征提取、模型训练方法，包含传统与深度学习方式，还介绍OpenCV预训练模型的使用与评估。详细讲解实时识别过程，包括打开摄像头、逐帧处理及结果显示优化。针对复杂场景，提出光照、姿态、遮挡等问题的解决办法及模型更新维护策略。通过丰富代码示例与解释，助
Python爬虫丨批量下载必应4K壁纸凌小添 Python爬虫项目 python 爬虫开发语言
1.项目背景经常用电脑的朋友应该会发现，电脑锁屏页面是微软必应每天更新的精美壁纸，偶尔还能看到一些十分惊艳的壁纸，于是我去寻找如何下载他们，我在GitHub上闲逛时，还真发现一个自动归档这些壁纸的仓库。该项目由GitHub用户niumoo维护，项目地址：niumoo/bing-wallpaper。该项目每天自动归档必应首页美图！但当我点开README.md时，发现仓库仅保存图片Markdown索引
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

6.9 用Python操控数据库（批量删除，百度新闻数据爬取与存储，写入数据时进行去重处理，pandas读取sql数据）

6.9.1 用PyMySQL库操控数据库

1.连接数据库

2.插入数据

3.查找数据

4.删除数据

6.9.2 案例实战：百度新闻数据爬取与存储

1.基本的数据爬取与存储

`href = re.findall(p_href,res) #不存在换行，无须添加re.S #print(href) p_title = '`

2.写入数据时进行去重处理

去重处理实战的源代码

`href = re.findall(p_href,res) #不存在换行，无须添加re.S #print(href) p_title = '`

6.9.3 用pandas库操控数据库

1.连接数据库

2.读取数据

3.写入数据

4.实战技巧

（1）数据格式设置

（2）在SQL语句中传入动态参数（未能运行成功）

（3）数据去重的另一种思路

（4）取两个表格中的非重复值

（5）模糊筛选

你可能感兴趣的:(爬虫相关案例或知识,python,爬虫)