卑微阿文

【Python】爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据

前言

一、配置环境

1.1、安装Python

1.2、安装Requests库和BeautifulSoup库

1.3.、安装Matplotlib

二、登录豆瓣网（重点）

2.1、获取代理

2.2、测试代理ip是否可用

2.3、设置大量请求头随机使用

2.4、登录豆瓣网

三、爬取某一部热门电影数据

3.1、爬取全部长、短评论

3.2、获取用户观影数据

3.3、存入数据库

四、实战代码示例

五、总结

前言

豆瓣网是一个具有影响力的电影评论网站，其中包含大量的用户评论和评分数据。这些数据可以用于研究电影市场和用户观影习惯，同时还可以用于电影推荐算法以及在线视频网站的用户行为分析等方面，因此对于想要学习数据分析和机器学习的人来说，爬取豆瓣网电影评论数据是一个很好的练手项目。

本文将详细介绍如何使用Python爬虫抓取豆瓣网电影评论用户的观影习惯数据，并进行简单的数据处理和分析。

一、配置环境

在开始爬取豆瓣网电影评论数据之前，我们需要配置好Python开发环境和相关依赖库。

1.1、安装Python

首先，我们需要安装Python。建议使用Python 3.x版本。可以在官网下载并安装对应版本的Python：https://www.python.org/downloads/。

1.2、安装Requests库和BeautifulSoup库

接下来，我们需要安装两个Python库：Requests和BeautifulSoup。Requests库可以用于发送HTTP请求，获取网页内容，而BeautifulSoup库可以用于解析HTML文档，提取所需数据。

可以使用pip命令自动安装这两个库：

pip install requests

pip install beautifulsoup4

1.3.、安装Matplotlib

如果我们需要对抓取的数据进行可视化分析，可以使用Matplotlib库。可以使用pip命令安装：

pip install matplotlib

安装完成后，我们就可以开始爬取豆瓣网电影评论数据了。

二、登录豆瓣网（重点）

豆瓣网对爬虫有一定的反爬虫策略，根据实战经验反爬一般作用于用户ID、用户IP和请求头的过滤，为了避免被封禁IP，代码中需要加入一些反爬虫措施：

设置请求间隔
使用代理IP
伪装请求头等

2.1、获取代理

使用代理可以帮助我们隐藏自己的真实IP地址，避免被封禁IP或者限制访问。在爬取豆瓣网电影评论数据时，如果频繁地访问同一个IP地址，豆瓣网可能会禁止我们的访问，因此使用代理也可以防止被封禁。这里我使用的是站大爷代理ip来进行操作的。

以下是使用用户名+密码授权获取ip代码示例：

 import requests

#你要访问的网址
url = 'http://www.ip138.com/'
proxies = {
        'http': 'http://账号:密码@ip:port',
        'https': 'http://账号:密码@ip:port'
#“用户名+密码”授权，账号为实例ID，密码为8位数字的密码，不用MD5加密,在后台的实例管理下可以看到
    }
response = requests.get(url, proxies=proxies)

2.2、测试代理ip是否可用

测试代理IP是否可用是为了确保我们使用的代理IP能够正常工作，防止由于代理IP失效或无效而导致爬虫请求失败。一般来说，我们可以通过发送请求来测试代理IP是否可用，如果请求成功则说明代理IP可用，否则说明代理IP无效或被封禁。

测试代理IP的代码可以通过如下方式实现：

定义一个函数，接收代理IP和目标网站URL作为参数
在函数中，使用requests库发送请求，并设置代理IP
如果请求成功，则说明代理IP可用，返回True
如果请求失败，则说明代理IP无效或被封禁，返回False

以下是一段测试代理IP的代码示例：

import requests

def test_proxy_ip(proxy_ip, target_url):
    proxies = {
       'http': 'http://' + proxy_ip,
        'https': 'http://' + proxy_ip
    }
    try:
        response = requests.get(target_url, proxies=proxies, timeout=5)
        if response.status_code == 200:
            return True
        else:
            return False
    except:
        return False

在上述代码中，我们定义了一个test_proxy_ip函数，该函数接收代理IP和目标网站URL作为参数。在函数中，我们首先根据传入的代理IP构造proxies字典，然后使用requests库发送请求，并设置proxies参数为该字典。如果请求成功，则说明代理IP可用，函数返回True；否则函数返回False。

当我们在爬取豆瓣网电影评论数据时，可以使用上述代码测试代理IP是否可用。如果代理IP可用，则使用该代理IP发送请求；如果代理IP无效或被封禁，则需要更换新的代理IP。

2.3、设置大量请求头随机使用

爬取豆瓣网电影评论用户的观影习惯数据要设置大量请求头随机使用是为了防止网站监测到我们的请求头是模拟的，并防止被反爬虫机制封禁IP。因此，我们需要尽可能多的提供不同的请求头信息，对请求头进行随机使用，以降低被监测到的概率。

以下是一个随机使用请求头的示例代码：

import random

USER_AGENTS = [

  'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.19582',

  'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0',

  'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299',

  # 更多用户代理信息...

]

def get_random_user_agent():

    return random.choice(USER_AGENTS)

headers = {

   'User-Agent': get_random_user_agent(),

   'Referer': 'https://www.douban.com',

   'Cookie': 'your_cookie'

}

在以上代码中，我们定义了一个USER_AGENTS列表，包含多个常用浏览器的User-Agent信息。然后定义了一个`get_random_user_agent()`函数，用于随机从USER_AGENTS列表中获取一个User-Agent信息。最后，我们设置headers变量，使用`get_random_user_agent()`函数获取随机的User-Agent信息，并将其赋值到headers变量中，作为请求头信息。

需要注意的是，我们在使用随机请求头的同时，仍然需要保持一定的爬取速度和请求间隔，以避免被封禁。同时，如果服务器在返回的内容中发现请求头信息异常，我们也可能被视为爬虫而被封禁。因此，在进行豆瓣网电影评论用户数据爬取时，需要谨慎处理请求头信息。

2.4、登录豆瓣网

以下是一个使用selenium模拟登录豆瓣网并保存cookie的示例代码：

from selenium import webdriver
import time
import pickle

login_url = 'https://accounts.douban.com/passport/login?source=movie'
username = 'your_username'
password = 'your_password'
cookie_file = 'cookies.pkl'
# 启动浏览器
driver = webdriver.Chrome()
driver.maximize_window()
driver.implicitly_wait(10)
# 访问登录页面
driver.get(login_url)
# 输入用户名和密码
driver.find_element_by_id('username').send_keys(username)
driver.find_element_by_id('password').send_keys(password)
# 等待用户输入验证码
time.sleep(30)
# 点击登录按钮
driver.find_element_by_class_name('account-form-field-submit ').click()
# 等待新页面加载完成
time.sleep(10)
# 保存cookie到文件
cookies = driver.get_cookies()
with open(cookie_file, 'wb') as f:
    pickle.dump(cookies, f)
# 关闭浏览器
driver.quit()

在以上代码中，我们首先初始化了一些变量，包括登录页面的URL、豆瓣账号的用户名和密码、以及保存cookie的文件名。

然后，我们启动了Chrome浏览器，并通过`driver.get()`方法访问了豆瓣登录页面。接着，我们使用`selenium`模拟了用户在页面上输入了用户名和密码，并等待了30秒，以留出时间输入验证码。

最后，我们点击登录按钮，等待新页面加载完成，获取了cookies并将其保存到本地文件中。注意，这里我们使用了pickle模块将cookies对象序列化并保存到文件中，以便后续使用。

同时，我们还使用了`driver.quit()`方法关闭了浏览器。

三、爬取某一部热门电影数据

前面我们已经把爬取豆瓣网的准备工作全部完成，然后接下来就是爬取豆瓣网中某一部热门电影的各种数据了

3.1、爬取全部长、短评论

爬取热门电影的全部长短评论可以获得以下信息：

用户评价：通过阅读用户的评论，可以了解用户对电影的评价、看法和推荐指数等信息，有助于我们更好地了解电影的口碑和观众反应。
关键词提取：通过分析评论文本提取关键词，可以了解电影的主题、情感、人物关系等信息，有助于我们深入了解电影的故事情节和风格。
数据分析：通过统计评论数量、评分分布、用户画像等数据，可以帮助我们更好地了解电影的市场表现和受众群体，为影视公司、制片人和电影院等决策者提供有价值的数据支持。

因此，爬取热门电影的全部长短评论是一项非常有价值的工作，可以为我们提供大量有用的信息和数据分析基础。

以下是一个使用BeautifulSoup和requests库爬取豆瓣网某部电影全部长、短评论说明的示例代码

import requests
from bs4 import BeautifulSoup

# 设置请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}
# 豆瓣电影页面URL
url = 'https://movie.douban.com/subject/1292052/'
# 发送请求获取页面HTML
response = requests.get(url, headers=headers)
html = response.text
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, 'html.parser')
# 查找长评和短评标签
long_comments = soup.select_one('#hot-comments > div > div.article > span')
short_comments = soup.select_one('#comments > div > h2 > span')
# 提取评论数量并输出
long_comments_count = long_comments.text.replace('全部', '').replace('条', '').strip()
short_comments_count = short_comments.text.replace('全部', '').replace('条', '').strip()
print(f"长评：{long_comments_count}")
print(f"短评：{short_comments_count}")
# 查找所有长评和短评内容
long_comments_list = soup.select('#hot-comments > div > div.article > div > div.comment > p')
short_comments_list = soup.select('#comments > div > div.comment > p')
# 输出每个评论的内容
for comment in long_comments_list:
    print(comment.text.strip())   
for comment in short_comments_list:
    print(comment.text.strip())

在以上代码中，我们首先设置了请求头，指定了请求的User-Agent信息。然后，我们定义了电影页面的URL，并发送了GET请求获取了页面的HTML。

接着，我们使用BeautifulSoup解析了页面的HTML，并查找了长评和短评标签。通过提取标签文本中的评论数量信息，我们可以输出电影的长、短评数量。

最后，我们再次使用CSS选择器查找所有长、短评内容，并通过遍历列表输出了每个评论的文本内容。

3.2、获取用户观影数据

获取用户观影数据可以帮助我们了解用户的观影喜好和习惯，可以通过分析用户的观影历史和评分记录等内容，得到以下信息：

用户偏好：根据用户观影历史和评分记录，可以了解用户的观影偏好和喜好，有助于我们推荐更符合用户口味的电影和影视作品
影视推荐：通过分析用户的观影历史和评分记录，可以为用户推荐更符合其口味的电影和影视作品，提高用户体验和满意度
数据分析：通过统计用户评分和观影记录，可以了解影片的市场表现和受众群体，为制片人、电影院和影视公司等提供有价值的数据分析支持

因此，获取用户观影数据是一项非常有价值的工作。以下是获取用户观影数据的Python代码示例：

import requests
import json

# 登录豆瓣网
session = requests.session()
url = 'https://accounts.douban.com/j/mobile/login/basic'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Referer': 'https://accounts.douban.com/passport/login',
}
data = {
    'name': 'your_username', # 替换为自己的用户名
    'password': 'your_password', # 替换为自己的密码
    'remember': 'false',
}
session.post(url, headers=headers, data=data)
# 获取用户观影数据
uid = 'your_user_id' # 替换为自己的用户ID
url = 'https://movie.douban.com/subject_suggest?q=%E7%94%B5%E5%BD%B1' # 电影页面URL
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Referer': 'https://www.douban.com/',
}
response = session.get(url, headers=headers)
data = json.loads(response.text)
movie_id = data[0]['id'] # 获取电影ID
url = f'https://movie.douban.com/subject/{movie_id}/' # 获取电影详情页面URL
response = session.get(url, headers=headers)
url = response.url + 'comments?start=0&limit=20&status=P&sort=new_score' # 获取电影短评页面URL
response = session.get(url, headers=headers)
data = response.text
print(data) # 输出评论内容

以上代码示例中，我们首先需要登录豆瓣网，然后通过获取电影ID和电影详情页面URL来获取其热门评论页面的URL，最后通过发送HTTP请求获取评论数据。注意，需要设置请求头信息，以避免请求被网站屏蔽。

3.3、存入数据库

将获取的数据存入数据库的好处：

数据持久化：将数据存入数据库中可以保证数据长期保存，避免数据丢失的情况
数据分析：将数据存入数据库后，可以使用SQL等工具进行数据分析和数据挖掘，得到更深入的信息和结论
数据管理：将数据存入数据库后，可以方便对数据进行管理、查询和更新

以下是将获取的去重后的数据存入数据库的Python代码示例：

import requests
import json
import pymysql

# 登录豆瓣网
session = requests.session()
url = 'https://accounts.douban.com/j/mobile/login/basic'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Referer': 'https://accounts.douban.com/passport/login',
}
data = {
    'name': 'your_username', # 替换为自己的用户名
    'password': 'your_password', # 替换为自己的密码
    'remember': 'false',
}
session.post(url, headers=headers, data=data)
# 获取用户观影数据
uid = 'your_user_id' # 替换为自己的用户ID
url = 'https://movie.douban.com/subject_suggest?q=%E7%94%B5%E5%BD%B1' # 电影页面URL
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Referer': 'https://www.douban.com/',
}
response = session.get(url, headers=headers)
data = json.loads(response.text)
movie_id = data[0]['id'] # 获取电影ID
url = f'https://movie.douban.com/subject/{movie_id}/' # 获取电影详情页面URL
response = session.get(url, headers=headers)
url = response.url + 'comments?start=0&limit=20&status=P&sort=new_score' # 获取电影短评页面URL
response = session.get(url, headers=headers)
data = response.json()
result = []
for comment in data['comments']:
    item = {
        'id': comment['id'],
        'user_name': comment['author']['name'],
        'rating': comment['rating']['value'],
        'create_time': comment['created_at'],
        'content': comment['content'],
    }
    result.append(item)
# 去重
result2 = []
for i in result:
    if i not in result2:
        result2.append(i)
# 存入数据库
db = pymysql.connect(host='localhost', user='root', password='123456', database='test')
cursor = db.cursor()
for item in result2:
    sql = f"insert into movie_comment (id, user_name, rating, create_time, content) values ({item['id']}, '{item['user_name']}', {item['rating']}, '{item['create_time']}', '{item['content']}')"
    cursor.execute(sql)
db.commit()
db.close()

以上代码示例中，我们使用Python连接到本地MySQL数据库，并将去重后的数据存入到数据库中的movie_comment表中。注意，需要根据自己的数据库用户名、密码、数据库名以及数据表名进行替换。

四、实战代码示例

由于豆瓣网对爬虫有一定的反爬虫策略，为了避免被封禁IP，代码中需要加入一些反爬虫措施，如设置请求间隔、使用代理IP、伪装请求头等。

以下是一个基于Python的爬虫示例，可以爬取指定电影的所有评论用户的观影习惯数据，并保存至CSV文件中：

import requestsfrom bs4 import BeautifulSoupimport csvimport timefrom random import randint

MOVIE_URL = 'https://movie.douban.com/subject/xxxxxx/' # 请替换成具体电影的URL
CSV_FILE = 'douban.csv' # CSV文件名
# 设置请求头部信息，包括User-Agent和Referer
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Referer': MOVIE_URL,
}
# 设置代理IP列表，用于反爬虫策略
proxies = ['http://xxx.xxx.xx.xx:xxxx', 'http://yyy.yyy.yy.yy:yyyy', ...] # 请替换成实际的代理IP
# 设置请求间隔，用于反爬虫策略
WAIT_TIME = 1 # 单位为秒，可适当调整
# 定义函数获取指定URL的HTML内容def get_html(url):
    try:
        proxy = {'http': proxies[randint(0, len(proxies)-1)]} # 从代理IP列表中随机选择一个代理
        response = requests.get(url, headers=headers, proxies=proxy)
        if response.status_code == 200:
            return response.text
    except requests.exceptions.RequestException as e:
        print(e)
        return None
# 获取评论用户主页链接def get_user_link(comment_soup):
    try:
        user_tag = comment_soup.find('span', class_='comment-info').find('a')
        user_link = user_tag.get('href')
        return user_link
    except:
        return None
# 解析评论用户主页，获取观影习惯数据def get_user_data(user_link):
    user_data = {}
    html = get_html(user_link)
    time.sleep(WAIT_TIME)
    if html:
        soup = BeautifulSoup(html, 'html.parser')
        # 获取用户常看类型
        try:
            type_tags = soup.find_all('span', class_='tags-body')
            type_list = [t.text.strip() for t in type_tags]
            user_data['type'] = ','.join(type_list)
        except:
            user_data['type'] = ''
        # 获取用户评分前几名的电影（除当前电影外）
        user_data['top_movies'] = ''
        try:
            movie_tags = soup.find_all('div', class_='info')
            movie_list = []
            for tag in movie_tags:
                movie_name_tag = tag.find('a', class_='title')
                if movie_name_tag and movie_name_tag['href'] != MOVIE_URL: # 排除当前电影
                    movie_list.append(movie_name_tag.text)
                if len(movie_list) >= 5: # 最多获取前5名
                   break
            user_data['top_movies'] = ','.join(movie_list)
        except:
            pass
    return user_data
# 主函数def main():
    print('开始爬取...')
    # 获取评论列表
    comments = []
    page = 0
    while True:
        page += 1
        url = MOVIE_URL + 'comments?start=' + str((page-1) * 20)
        html = get_html(url)
        time.sleep(WAIT_TIME)
        if html:
            soup = BeautifulSoup(html, 'html.parser')
            comment_tags = soup.find_all('div', class_='comment-item')
            if comment_tags:
               comments.extend(comment_tags)
            else:
                break # 没有更多评论
        else:
            break # 请求失败
    # 获取每个评论用户的观影习惯数据
    user_data_list = []
    for comment in comments:
        user_link = get_user_link(comment)
        if user_link:
            user_data = get_user_data(user_link)
            user_data_list.append(user_data)
            print('已爬取 {} 个用户观影数据'.format(len(user_data_list)))
            time.sleep(WAIT_TIME)
    # 将数据保存至CSV文件
    with open(CSV_FILE, mode='w', encoding='utf-8', newline='') as f:
        fieldnames = ['type', 'top_movies']
        writer = csv.DictWriter(f, fieldnames=fieldnames)
        writer.writeheader()
        for data in user_data_list:
            writer.writerow(data)

    print('爬取完成，数据已保存至 {} 文件中。'.format(CSV_FILE))
if __name__ == '__main__':
    main()

需要注意的是，以上代码仅供参考，实际使用时需要根据具体情况进行调整。另外，爬虫涉及到的法律问题和道德问题需要认真考虑，不要用于非法用途或侵犯他人隐私等行为。

需要注意的几点：

为了避免被豆瓣网封禁IP，建议设置访问间隔时间至少为1秒
豆瓣网的HTML代码变化频繁，需要不断调整解析代码以适应新的HTML格式
爬取用户信息可能涉及到用户隐私，应严格按照相关法律法规来进行。

五、总结

爬取豆瓣网电影评论用户的观影习惯数据能够得出用户的观影时间偏好、观影类型偏好、观影评分偏好、观影影院偏好和地理位置偏好等信息。通过这些数据分析，豆瓣网能够更好地为用户推荐电影和为广告主提供更精准的广告投放服务。

【Python 学习 / 7】模块与文件操作卜及中 Python基础 python 学习数据库
文章目录前言一、导入模块1.导入整个模块2.导入模块中的特定函数3.给模块或函数起别名二、常用模块1.`math`模块2.`random`模块3.`os`模块4.`sys`模块三、文件处理1.打开文件2.读取文件3.写入文件4.关闭文件5.使用`with`语句管理文件四、日期时间1.`datetime`模块获取当前日期和时间创建日期和时间对象格式化日期和时间解析字符串为日期对象2.`time`模块
如何安装Hadoop 薇晶晶 hadoop 大数据分布式
Hadoop入门(一)——CentOS7下载+VM上安装（手动分区）Hadoop入门(二)——VMware虚拟网络设置+Windows10的IP地址配置+CentOS静态IP设置Hadoop入门(三)——XSHELL7远程访问工具+XFTP7文件传输Hadoop入门(四)——模板虚拟机环境准备Hadoop入门(五)——Hadoop集群搭建-克隆三台虚拟机Hadoop入门(六)——JDK安装Hado
经销商管理系统架构设计方案（附 Java版本和Python版本源代码详解） AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
经销商管理系统架构设计方案（Java实现源代码详解）关键词：经销商管理系统，Java，SpringBoot，MyBatis，MySQL，架构设计，源代码1.背景介绍随着市场竞争的日益激烈，企业对经销商的管理越来越重视。传统的经销商管理方式效率低下，信息滞后，难以适应现代企业的发展需求。为了提高经销商管理效率，降低运营成本，越来越多的企业开始采用信息化的手段来管理经销商，而经销商管理系统应运而生。经
Python:数据从Excel表格链接到Word文档更新Excel即可自动更新Word 一个花生米生花 python excel word
要使用Python来创建或更新一个Word文档，并将数据从Excel表格链接到Word文档中，你可以使用python-docx库来操作Word文档和openpyxl或pandas库来读取Excel文件。不过，需要注意的是，python-docx库并不支持将外部文件链接到Word文档的功能。你可以在Word文档中插入Excel数据的快照，但它们不会自动更新。如果你想要在Word文档中插入Excel数
Windows 环境下配置多个不同版本的 Maven 阿绵后端 windows maven java
在实际开发中，不同的项目可能需要使用不同版本的Maven。例如，老项目可能依赖于Maven3.3，而新项目可能需要Maven3.8+才能正常运行。因此，在Windows下配置多个Maven版本并能方便地切换是非常必要的1.下载并安装多个Maven版本1.1下载Maven访问ApacheMaven官网，根据需要下载不同版本的Maven。例如：ApacheMaven3.3.9ApacheMaven3.
使用Odoo Shell卸载模块 odoo中国 odoo odoo 开源软件 erp
使用OdooShell卸载模块我们在Odoo使用过程中，因为模块安装错误或者前端错误等导致odoo无法通过界面登录，这时候你可以使用OdooShell来卸载模块。OdooShell是一个交互式Pythonshell，允许你直接与Odoo数据库和模型进行交互。以下是使用OdooShell卸载模块的详细步骤：步骤1：启动OdooShell要启动OdooShell，你需要在终端中运行以下命令。确保你已经
NumPy的基本使用 Mo思编程学习 numpy python 开发语言 pip
在Python的数据科学与数值计算领域，NumPy无疑是一颗耀眼的明星。作为Python中用于科学计算的基础库，NumPy提供了高效的多维数组对象以及处理这些数组的各种工具。本文将带您深入了解NumPy的基本使用，感受它的强大魅力。一、安装与导入在使用NumPy之前，首先要确保它已经安装在您的Python环境中。如果您使用的是Anaconda发行版，NumPy通常已经预装。若未安装，可以使用如下命
FOKS-TROT: 一个高效、易用的全功能开源知识图谱生成工具柳旖岭
FOKS-TROT:一个高效、易用的全功能开源知识图谱生成工具项目简介FOKS-TROT是一个基于Python的全功能开源知识图谱生成工具，旨在帮助研究人员和开发者快速构建具有丰富信息的知识图谱。该项目由hkx3upper在GitCode上开发并维护。通过FOKS-TROT，您可以轻松地将各种数据源（如文本文件、数据库、API）转换为结构化的知识图谱，并对其进行可视化分析和机器学习任务。此外，该工
拯救者机型背光键盘无法开启 famous_pengfei 计算机外设笔记本电脑
如果你是联想拯救者系列笔记本电脑的用户，想必对背光键盘这一酷炫功能十分喜爱。然而，当背光键盘突然无法开启时，这无疑会让人感到困惑和沮丧。别担心，联想官方知识库已经为你准备好了详细的解决方案。文章中提到，Windows10系统下，用户可以通过开始菜单进入LenovoSettings来开启背光键盘。这个方法简单易懂，即使是电脑小白也能轻松上手。此外，文章还提供了详细的图文说明，帮助用户更直观地理解操作
python实现word文档合并 v2.0 task138 python自动化 python 自动化运维开发
目录前言要求运行效果脚本下载链接前言之前发表了一个小工具，python用于合并word文档以完成特定的工作任务，现在领导给出了新需求，适当的调整了一下word文档的合并情况。同时，各位同事反馈说，环境部署太难了，脚本的使用成本比较高，难度大，所以我这次把脚本打包成一个EXE可执行文件，直接双击即可使用。要求由于脚本的具体逻辑发生了变化，因此，exe文件的同级目录下，一定要存在一个txt文件，否则无
远程桌面的端口号是多少? 阿7_QuQ 网络 windows 服务器
远程桌面（RemoteDesktop）是一种用于远程访问和控制计算机的技术，它允许用户通过网络连接到远程计算机并以图形化界面进行操作。远程桌面使用的端口号通常是3389。在Windows操作系统中，远程桌面协议（RemoteDesktopProtocol，简称RDP）默认使用3389端口。当您启用远程桌面功能并允许其他计算机通过网络连接时，远程桌面会监听3389端口，等待远程连接的请求。需要注意的
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 安全 web安全网络网络安全 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 网络安全 web安全 linux 密码学 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
python 快速实现链接转 word 文档嘿嘿潶黑黑 python word
python快速实现链接转word文档演示代码展示最后演示代码展示fromnewspaperimportArticlefromdocximportDocumentfromdocx.sharedimportPt,RGBColorfromdocx.enum.styleimportWD_STYLE_TYPEfromdocx.oxml.nsimportqn#tkinterGUIimporttkintera
Python入门笔记「已注销」计算机
文章目录第0周课程导学第1周Python基本语法元素保留字数据类型语句与函数输入函数第2周Python基本图形绘制turtle库绝对坐标海龟坐标turtle角度坐标体系RGB色彩体系画笔控制函数运动控制函数方向控制函数循环语句第3周基本数据类型整型浮点数科学计数法复数类型数值运算操作符二元操作符有对应的增强赋值操作符数值运算函数字符串类型的表示字符串切片字符串类型及操作字符串类型格式化time库时
pythonxml模块高级用法_Python minidom模块用法示例【DOM写入和解析XML】 Lucy-露西娅 pythonxml模块高级用法
本文实例讲述了Pythonminidom模块用法。分享给大家供大家参考，具体如下：一、DOM写XML文件#-*-coding:utf-8-*-#!python3#导入minidomfromxml.domimportminidom#1.创建DOM树对象dom=minidom.Document()#2.创建根节点。每次都要用DOM对象来创建任何节点。root_node=dom.createElemen
Redis设置密码保姆级教程 Excellent的崽子 Redis windows redis 数据库
在Windows系统上设置Redis密码在Windows系统上设置Redis密码的过程与Linux系统类似，但需注意几个关键步骤以确保正确配置。以下是一步一步的指导：步骤一：编辑配置文件定位配置文件：首先，找到Redis的安装目录，并定位到redis.windows.conf文件。这个文件通常包含了Redis的所有配置选项。修改密码设置：使用文本编辑器打开redis.windows.conf文件，
【系统设计】忘记MySQL密码，应该如何重置红烧白开水。 mysql 数据库开发语言数据关系型数据库密码重置
如果在电脑上安装的MySQL数据库忘记了密码，可以通过以下步骤重置密码。具体操作因操作系统和MySQL版本略有不同，但总体流程类似：步骤1：停止MySQL服务首先需要停止正在运行的MySQL服务。Linux/macOSsudosystemctlstopmysql#或sudoservicemysqlstopWindows按Win+R，输入services.msc并回车。找到MySQL服务，右键选择停
React 渲染 Flash 接口数据 ox0080 #北漂+滴滴出行 VIP 激励 Web react.js 前端前端框架
1.后端Python代码使用Flask创建多个接口，每个接口返回不同的数据，并使用自定义装饰器来绑定路由。代码：#app.pyfromflaskimportFlask,jsonifyapp=Flask(__name__)defapi_route(route,methods=['GET']):"""自定义装饰器，用于将函数与HTTP路由绑定"""defdecorator(func):app.rout
LQB---基础练习---十六进制转八进制「已注销」 #LQB LQB
试题基础练习十六进制转八进制资源限制内存限制：512.0MBC/C++时间限制：1.0sJava时间限制：3.0sPython时间限制：5.0s问题描述给定n个十六进制正整数，输出它们对应的八进制数。输入格式输入的第一行为一个正整数n（1<=n<=10）。接下来n行，每行一个由09、大写字母AF组成的字符串，表示要转换的十六进制正整数，每个十六进制数长度不超过100000。输出格式输出n行，每行为
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！网安詹姆斯 web安全 CTF 网络安全大赛 python linux
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、S
机器学习·文本数据读写处理 AAA顶置摸鱼 python 深度学习机器学习人工智能数据处理
前言在自然语言处理的第一步，需要面对的是各种各样以不同形式表现的文本数据，比如，txt、Excel中的表格数据，还有无法直接打开的pkl文件等。针对这些不同类型的数据，可以基于Python中的基本功能函数或者调用某些库进行读写以及作一些基本的处理。一、文本数据读写方法1.读写TXT文件读取方法：read()：读取整个文件，返回字符串。readline()：逐行读取，返回字符串。readlines(
LQB（4）-python-DFS搜索 AAA顶置摸鱼蓝桥杯python组深度优先算法 python 蓝桥杯
前言DFS即深度优先搜索（Depth-FirstSearch），是一种用于遍历或搜索树或图的算法，有三种核心的应用场景（基础遍历、回溯、剪枝）。一、DFS-基础遍历1.核心原理深度优先搜索（DFS）是一种遍历或搜索树/图的算法，优先沿着一条路径尽可能深入，直到无法继续再回溯。实现方式：递归：隐式利用系统调用栈。栈模拟：显式使用栈数据结构。2.代码实现(1)递归实现（树结构）classTreeNod
Python中LLM的知识图谱构建：动态更新与推理二进制独立开发 GenAI与Python 非纯粹GenAI python 知识图谱开发语言自然语言处理人工智能分布式机器学习
文章目录引言1.知识图谱的基本概念1.1知识图谱的定义1.2知识图谱的构建流程2.利用LLM进行知识抽取2.1实体识别2.2关系抽取2.3属性抽取3.知识融合3.1实体对齐3.2冲突消解4.知识存储5.知识推理5.1规则推理5.2基于LLM的推理6.动态更新6.1增量更新6.2实时更新7.结论引言随着人工智能技术的飞速发展，知识图谱（KnowledgeGraph,KG）作为一种结构化的知识表示方法
Python's SQLAlchemy and Object-Relational Mapping zhanglizhuo Python
Acommontaskwhenprogramminganywebserviceistheconstructionofasoliddatabasebackend.Inthepast,programmerswouldwriterawSQLstatements,passthemtothedatabaseengineandparsethereturnedresultsasanormalarrayofrec
Jira，一个强大灵活的项目和任务管理工具 Python 库图灵学者 python精华 jira python 开发语言
目录01初识Jira为什么选择Jira？02安装与配置安装jira库配置Jira访问获取APItoken：配置Python环境：03基本操作创建项目创建任务查询任务更新任务删除任务04高级操作处理子任务搜索任务添加附件评论任务05实战案例自动化创建与分配任务自动生成项目报告06结语01初识JiraJira是Atlassian公司开发的一款项目和任务管理工具。它广泛应用于软件开发、IT支持、营销等各
使用LlamaIndex查询 MongoDB 数据库，并获取 OSS (对象存储服务) 上的 PDF 文件，最终用Langchain搭建应用朴拙Python交易猿数据库 mongodb pdf
使用LlamaIndex查询MongoDB数据库，并获取OSS(对象存储服务)上的PDF文件，然后利用Langchain搭建应用，涉及多个步骤。下面我们将详细介绍如何将这些步骤结合起来，构建一个系统：1.环境准备首先，确保你已经安装了以下Python库：pipinstallllama_indexpymongolangchainopenaiboto3pdfplumberpymongo：MongoDB
python 连接 jira 我就是我是好孩子啊 python jira 开发语言
Python连接到Jira实例、登录、查询、修改和创建bug首先，你需要安装jiraPython库pip3installjira连接到Jira并登录fromjiraimportJIRAfromjira.exceptionsimportJIRAError#Jira服务器地址，用户名和密码jira_server='https://your-jira-server.com'jira_user='your
cmake linux模板多目录_【转载】CMake 简介和 CMake 模板 weixin_39790738 cmake linux模板多目录
如果你用Linux操作系统，使用cmake会简单很多，可以参考一个很好的教程：CMake入门实战|HaHack。如果你用Linux操作系统，而且只是运行一些小程序，可以看看我的另一篇博客：你就编译一个cpp，用CMake还不如用pkg-config呢。但如果你用Windows，很大的可能你会使用图形界面的CMake(cmake-gui.exe)和VisualStudio。本文先简单介绍使用CMak
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

【Python】爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据

前言

一、配置环境

1.1、 安装Python

1.2、 安装Requests库和BeautifulSoup库

1.3.、安装Matplotlib

二、登录豆瓣网（重点）

2.1、获取代理

2.2、测试代理ip是否可用

2.3、设置大量请求头随机使用

2.4、登录豆瓣网

三、爬取某一部热门电影数据

3.1、爬取全部长、短评论

3.2、获取用户观影数据

3.3、存入数据库

四、实战代码示例

五、总结

你可能感兴趣的:(windows,python,开发语言,爬虫)

1.1、安装Python

1.2、安装Requests库和BeautifulSoup库