VEkoing

大数据：豆瓣电视剧爬虫反爬代理IP、spark清洗、flask框架做可视化

豆瓣电影大数据项目全步骤

1.豆瓣爬虫：

我开始写豆瓣电视剧爬虫时觉得很简单，但在实操时出现了封IP的情况，导致我苦恼了好久，现在终于写出来了

	废话不多说，直接上代码:

run 函数用来获取页面的数据这里我用了代理进入

    def run(self, k, nd, p):
        global data_json, response
        while True:
            url = 'https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=%E7%94%B5%E8%A7%86%E5%89%A7&start={}&countries=%E4%B8%AD%E5%9B%BD%E5%A4%A7%E9%99%86&year_range={}'.format(
                str(k), nd)
            print(url)
            px = self.get_proxy_ip()
            proxies = {'http': '{}'.format(px),
                       'https': '{}'.format(px)}
            print(proxies)
            try:
                response = self.get_url(url, proxies)

                data_json = json.loads(response.text)
                if len(data_json['data']) > 0:
                    print("正在爬取-----------------------------请稍后")
                    for i in data_json['data']:
                        title_name = str(i['title']).strip().replace('\n', '').replace('\t', '').replace(',', '，')
                        mv_url = i['url']
                        # print(mv_url)
                        zhuyan = ''
                        if len(i['casts']) != 0:
                            for e, o in zip(i['casts'], range(len(i['casts']))):
                                if o + 1 == len(i['casts']):
                                    zhuyan += e
                                else:
                                    zhuyan += e + '/'
                        else:
                            zhuyan += 'None'
                        if title_name not in p:
                            jishu, guanyingshu, leixing, year, short = self.get_insert_html(mv_url, proxies)
                            # time.sleep(1)
                            cunt_data = [title_name, zhuyan, jishu, guanyingshu, leixing, year, short]
                            p.append(title_name)
                            print(title_name, jishu, guanyingshu, leixing, year, short)
                            time.sleep(2)
                            # f.write(
                            #     str(
                            #         cunt_data[0]) + ',' + str(
                            #         cunt_data[1]) + ',' + str(cunt_data[2]) + ',' + str(cunt_data[3]) + ',' + str(
                            #         cunt_data[4]) + ',' + str(cunt_data[5]) + ',' + str(cunt_data[6]) + '\n')
                            print("已执行写入文件步骤")
                        else:
                            print("已有数据存在")

                    print("已爬完此页数据" + "-----------------------------" + "正在缓冲时间")
                else:
                    break
                if k < 480:
                    next_url_num = k + 20
                    time.sleep(5)
                    c = []
                    self.run(next_url_num, nd, c)
            except Exception as e:
                print(e)
                print('此页报错--------------------正在重新爬取')
                self.run(k, nd, p)
            if 'data' not in str(data_json):
                print(data_json)
                break
            elif len(data_json) == 0:
                # print(data_json)
                break
            elif k == 480:
                break
            else:
                # print(data_json)
                break

get_insert_html函数用来将run函数里获取到的链接进入详情页然后获取数据

    def get_insert_html(self, url, proxies):
        global jishu, response
        print(url)
        try:
            response = self.get_url(url, proxies)
            html = etree.HTML(response.text)
            # 集数
            if '数' in str(html.xpath('//*[@id="info"]//span[@class="pl"]/text()')):
                jishu = ''
                if '集数:' in html.xpath('//*[@id="info"]//span[@class="pl"]/text()'):
                    jishu += str(
                        html.xpath('//*[@id="info"]//span[text()="集数:"]/following-sibling::text()[position()=1]')[0])
                else:
                    if html.xpath(
                            '//div[@id="info"]//span[@property="v:initialReleaseDate"]/following-sibling::span[1]'):
                        l = html.xpath(
                            '//div[@id="info"]//span[@property="v:initialReleaseDate"]/following-sibling::span[1]/text()')[
                            0]
                        if '数' not in l:
                            if html.xpath(
                                    '//div[@id="info"]//span[@property="v:initialReleaseDate"]/following-sibling::span[2]'):
                                b = html.xpath(
                                    '//div[@id="info"]//span[@property="v:initialReleaseDate"]/following-sibling::span[2]/text()')[
                                    0]
                                if '数' not in b:
                                    jishu += 'None'
                                else:
                                    jishu += str(html.xpath(
                                        '//div[@id="info"]/span[text()="{}"]/following-sibling::text()[position()=1]'.format(
                                            str(b)))[0]).strip()
                        else:
                            jishu += str(html.xpath(
                                '//div[@id="info"]/span[text()="{}"]/following-sibling::text()[position()=1]'.format(
                                    str(l)))[
                                             0]).strip()
                    else:
                        if html.xpath('//*[@id="info"]//span[text()="集数:"]/following-sibling::text()[position()=1]'):
                            jishu += str(
                                html.xpath(
                                    '//*[@id="info"]//span[text()="集数:"]/following-sibling::text()[position()=1]')[0])
                        elif html.xpath('//*[@id="info"]//span[text()="季数:"]/following-sibling::text()[position()=1]'):
                            jishu += str(html.xpath(
                                '//*[@id="info"]//span[text()="季数:"]/following-sibling::text()[position()=1]')[0])
                        else:
                            jishu += 'None'
            else:
                jishu = ''
                jishu += 'None'
            # 观看人数
            if html.xpath('//*[@id="comments-section"]/div[1]//span[@class="pl"]/a/text()'):
                guanyingshu = \
                re.findall('(\d+)', html.xpath('//*[@id="comments-section"]/div[1]//span[@class="pl"]/a/text()')[0])[0]
            else:
                guanyingshu = 'None'
            # 类型
            k = ''
            if html.xpath('//div[@id="info"]//span[@property="v:genre"]/text()'):
                types = html.xpath('//div[@id="info"]//span[@property="v:genre"]/text()')
                for i, j in zip(types, range(len(types))):
                    if j + 1 == len(types):
                        k += i
                    else:
                        k += i + '/'
            else:
                k += 'None'
            # 获取评论
            if html.xpath('//*[@id="hot-comments"]/div[1]/div/p/span/text()'):
                # print(html.xpath('//*[@id="hot-comments"]/div[1]/div/p/span/text()'))
                short = str(html.xpath('//*[@id="hot-comments"]/div[1]/div/p/span/text()')[0]).strip().replace('\n',
                                                                                                               '').replace(
                    '\t', '').replace(',', '，')
            else:
                short = 'None'
            # short = html.xpath('//*div[@id="hot-comments"]/div[1]//p[@class="comment-content"]/span/text()')
            # 出版年份
            if html.xpath('//span[@class="year"]/text()'):
                year = str(html.xpath('//span[@class="year"]/text()')[0]).replace('(', '').replace(')', '').split('-')[
                    0]
            elif html.xpath('//*[@id="info"]//span[text()="首播:"]/following-sibling::span[1]/text()'):
                year = re.findall('(\d+)',str(html.xpath('//*[@id="info"]//span[text()="首播:"]/following-sibling::span[1]/text()')[0]))[0]
            else:
                year = 'None'
            a = [jishu, guanyingshu, k, year, short]
            if len(a) != 5:
                self.get_insert_html(url, proxies)
            else:
                return jishu, guanyingshu, k, year, short
            # if len(a) == 5:
            #     return jishu, guanyingshu, k, year, short
            # else:
            #     print("数据只有这一个------正在重新爬取")
            #     self.get_insert_html(url, proxies)
        except Exception as e:
            print(e)
            print(url + "当前链接出现错误------正在重新分配ip-爬取")
            px = self.get_proxy_ip()
            next_proxies = {'http': '{}'.format(px),
                            'https': '{}'.format(px)}
            self.get_insert_html(url, next_proxies)

get_proxy_ip 函数这个是用来获取代理IP的

    def get_proxy_ip(self):
        try:
            urls = requests.get(
                "http://39.104.96.30:7772/Tools/proxyIP.ashx?action=GetIPAPI&OrderNumber=7bbb88a8d9186d00fed9eaaf3033d9d0&poolIndex=1617254228&qty=1&Split=JSON2").text
            info = json.loads(urls)
            quota = info['LeftIp']
            ip = info['Data'][0]['Ip']
            port = info['Data'][0]['Port']
            proxy_ip = "{}:{}".format(ip, port)
            print("已获取到{}，剩余配额{}".format(proxy_ip, quota))
            return proxy_ip
        except:
            self.get_proxy_ip()

    def get_url(self, url, proxies):
        response = requests.get(url, headers=self.get_url_headers, proxies=proxies, allow_redirects=False, timeout=30)
        return response

代理IP，我这里用的是买的代理IP的，因为网上的那些说爬取免费的代理IP之类的90%都是不能用的，所以还是别老想着白嫖。

还有就是要将数据处理一下因为我这里数据保存出来有的时候有问题，就是有时候数据只会返回评论然后就保存为了csv导致数据丢失了。

但我将有问题的数据那一页去跑了一下，测试出来是没有问题的，那些评论都是有的数据也没问题，这个东西真没理解是怎么回事。希望有大佬帮我解答一手！！！

将数据保存为csv后再在excel里面操作，用查找定位，找到某列为空的删了就行了。下面就是spark操作后的流程了：

现在最后一步就是要把数据转换为人能直观的看出来这是这些数据的意思：

这就是可视化操作了

先创建一个flask的项目，然后将处理完的数据导入到这个项目中

直接上代码：

from flask import Flask, request, render_template, jsonify
import pandas as pd
import json
import re
import jieba
app = Flask(__name__, static_folder='/')


@app.route('/')
def hello_world():
    return render_template('index.html')


@app.route('/TestEcharts', methods=['POST'])
def TestEcharts():
    data = pd.read_csv('part-00000.txt', names=['db_name', 'db_zhuyan', 'db_jishu', 'db_gks', 'db_types', 'db_years', 'db_short'])
    a = []
    z = {}
    for i in data['db_types']:
        for k in i.split('/'):
            a.append(k)
    for c in a:
        if c in list(z.keys()):
            p = z.get(c) + 1
            z[c] = p
        else:
            z.update({c: 1})
    xdatas = list(z.keys())
    yvalues = list(z.values())
    l = {}
    l['xdays'] = xdatas
    l['yvalues'] = yvalues
    j = json.dumps(l)
    return (j)

@app.route('/qushi1',methods=['POST'])
def qushi1():
    df_2000 = pd.read_csv('2000-2010.csv')
    df_2000_groupby = df_2000[['db_years', 'db_gks']].groupby(by='db_years', as_index=False).max()
    c_1 = [str(i) for i in df_2000_groupby['db_years']]
    c_2 = [int(i) for i in df_2000_groupby['db_gks']]
    l = {}
    l['xdays'] = c_1
    l['yvalues'] = c_2
    q1 = json.dumps(l)
    return (q1)

@app.route('/qushi2',methods=['POST'])
def qushi2():
    df_2011 = pd.read_csv('2011-2021.csv')
    df_2011_groupby = df_2011[['db_years', 'db_gks']].groupby(by='db_years', as_index=False).max()
    d_1 = [str(i) for i in df_2011_groupby['db_years']]
    d_2 = [int(i) for i in df_2011_groupby['db_gks']]
    l = {}
    l['xdays'] = d_1
    l['yvalues'] = d_2
    q2 = json.dumps(l)
    return (q2)

@app.route('/paiming',methods=['POST'])
def paiming():
    data = pd.read_csv('part-00000.txt',
                       names=['db_name', 'db_zhuyan', 'db_jishu', 'db_gks', 'db_types', 'db_years', 'db_short'])
    data['db_name'] = data['db_name'].str.replace(r'(', '')
    data['db_short'] = data['db_short'].str.replace(r')', '')
    # out_data=data[(data['db_zhuyan']>=2000)&(data['db_years']<=2010)]
    a = []
    z = {}

    for i in data['db_zhuyan']:
        for k in i.split('/'):
            a.append(k)
    for c in a:
        if c in list(z.keys()):
            p = z.get(c) + 1
            z[c] = p
        else:
            z.update({c: 1})
    sort_d = sorted(z.items(), key=lambda z: z[1], reverse=True)
    count = 0
    k = {}
    for key, value in sort_d:
        count += 1
        k[key] = value

        if count >= 10:
            break

    cate = list(k.keys())
    data = list(k.values())
    l = {}
    l['xdays'] = cate
    l['yvalues'] = data
    j = json.dumps(l)
    return (j)

@app.route('/temps',methods=['POST'])
def temps():
    data = pd.read_csv('统计集数.txt', names=['db_fanwei', 'db_all_jishu'])
    k = []
    for i, j in zip(data['db_fanwei'], data['db_all_jishu']):
        c = {}

        c['value'] = j
        c['name'] = i
        k.append(c)
    return json.dumps(k)

@app.route('/wrodcloud',methods=['POST'])
def WordCloud():
    data = pd.read_csv('part-00000.txt',
                       names=['db_name', 'db_zhuyan', 'db_jishu', 'db_gks', 'db_types', 'db_years', 'db_short'])
    c = ''
    data['db_short'] = data['db_short'].str.replace(r')', '')
    for i in data['db_short']:
        c += i

    pattern = re.compile(r'([\u4e00-\u9fa5]+|[a-zA-Z]+)')
    deal_comments = re.findall(pattern, c)
    # print(deal_comments)
    newComments = ""

    for item in deal_comments:
        newComments += item
    words_lst = jieba.cut(newComments.replace('\n', '').replace(' ', ''))
    total = {}
    for i in words_lst:
        total[i] = total.get(i, 0) + 1
    data_s = dict(
        sorted({k: v for k, v in total.items() if len(k) >= 2}.items(), key=lambda x: x[1], reverse=True)[:200])
    k = []
    for i, j in zip(list(data_s.keys()), list(data_s.values())):
        c = {}
        c['name'] = i
        c['value'] = j
        k.append(c)
    return json.dumps(k)


if __name__ == '__main__':
    app.run(debug = True)

HTML那块我用Ajax获取数据请求然后展示处理的所以那个步骤需要自己写了

先展示一下index文件，这里我onclick触发按钮事件然后点击哪一块就会回调哪一块的HTML页面展示出来：


<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Documenttitle>
    <link rel="stylesheet" href="../static/css/stly.css">
    <link rel="stylesheet" href="../static/css/font-awesome-4.7.0/css/font-awesome.min.css">
    <script src="../static/js/index_js.js" type='text/javascript'>script>
    <script src="../static/js/jquery-3.3.1.min.js" type='text/javascript'>script>
head>
<body>

    <div >
        
    <div class="left_div" id="left">
        <div class="top_left_div">
            <i class="fa fa-rocket">i> 数据可视化
        div>
        <div class="-left_div">
            <ul>
                <li>  <i class="fa fa-cog">i>  可视化
                    <dl>
                        <dd id="types" onclick="changehtml(this)">电视剧类型统计dd>
                        <dd id="jishu" onclick="changehtml(this)">集数统计dd>
                        <dd id="qushi" onclick="changehtml(this)">电视趋势dd>
                        <dd id="paiming" onclick="changehtml(this)" >演员排名dd>
                        <dd id="pinglun" onclick="changehtml(this)" >评论dd>
                    dl>
                li>
            ul>
        div>
        <div class="main_right">
            <iframe id="Ifram" frameborder="0" scrolling="yes" style="width: 100%;height: 100%;" src="/templates/TestEcharts.html" >iframe>
        div>


    div>
    div>

body>
html>

这就是一个简单的可视化了，由于将视频懒得转GIF动图了，所以我就截个图看看就行

对了我这里词云加载用的是网络的js接口：https://cdn.bootcss.com/echarts/3.7.0/echarts.simple.js

到这里就是全部过程了
由于我是第一次写博客，不怎么美观，所以将就看看嘛
感谢观看全过程的朋友哦！！！

Dify1.01版本vscode 本地环境搭建运行实践 hamish-wu vscode 编辑器 dify 大模型 python flask
dify是python编写的低代码AI开发平台，是常用的大模型开发平台。本文基于最新的1.0.1版本实践完成，有需要的可以私信交流。咨询免费，详细文档及视频需要一定成本，大概相当于节约的时间成本。搭建环境windows11开发工具vscode搭建步骤：1.Startthedocker-composestackwindow环境下运行docker命令，需要下载docker官网镜像，会遇到timeout
vscode python 入门教程(一) window 10 环境下安装pyenv hamish-wu Python python 开发语言 pyenv
python的环境配置方法很多，由于python有两个大版本，很多时候需要切换某个固定的版本才能运行三方包，所以推荐使用pyenv配置python环境变量pyenv的安装安装方法：Invoke-WebRequest-UseBasicParsing-Uri"https://raw.githubusercontent.com/pyenv-win/pyenv-win/master/pyenv-win/i
mongodb与爬虫的关系 getapi mongodb 爬虫数据库
MongoDB与爬虫之间的关系主要体现在数据存储和管理的层面。爬虫（WebCrawler或Spider）是一种自动化工具，用于从互联网上抓取网页内容或特定数据。而MongoDB是一个NoSQL数据库，常被用来存储和管理爬虫抓取到的数据。以下是它们之间关系的具体分析：1.爬虫的数据存储需求爬虫在运行过程中会抓取大量的非结构化或半结构化数据（例如HTML页面、JSON数据、图片链接等）。这些数据通常具
1-5 Python 入门之运算符的使用 Sa_sa_ki_Haise python
第1关：算术、比较、赋值运算符100任务要求参考答案评论201任务描述相关知识算术运算符比较(关系)运算符赋值运算符编程要求测试说明任务描述在编程时，我们常常需要对数值或对象进行算术、比较运算和赋值运算，以此来实现我们的功能需求。本关介绍Python中的一些基本运算符，并要求对给定的苹果和梨的数量进行算术运算、比较、赋值运算，然后输出相应的结果。相关知识要实现上述功能，需要用到Python中的各种
rabbitmq + minio +python 上传文件伶星37 rabbitmq python ruby
功能实现RabbitMq接收hello里面传来的消息根据消息在MobileFile里面新建文件新建文件上传到miniopython新建文件importospath='./MobileFile'file_path=os.path.join(path,"new_file.txt")withopen(file_path,"w")asfile:pass转换成函数格式importosdefcreatefil
vscode python 入门教程(二) vscode使用gti 管理代码 hamish-wu vscode ide 编辑器
vscode代码管理需要用管道git的命令，这点和idea的代码管理区别比较大。作为java开发需要自己熟悉适应一下。一、GitHub新建一个仓库过程略二、本地git项目初始化gitinitvscode中可以看到文件状态gitstatus使用gitremote命令吧本地git仓库和远程git仓库链接起来[email protected]提交代码gitcommit-m"评论
【监控系列】open-falcon yunqi1215 Monitor 自动化
Open-Falcon是一款由小米开源的分布式监控系统，具备高性能、高可用性和易扩展的特点。以下从多个维度对其进行详细解析：1.核心特点分布式架构：模块化设计，各组件独立部署，支持水平扩展。高性能：单实例可处理百万级监控指标，采用RPC通信和数据分片优化。灵活的数据模型：支持Tag（标签）标记数据，便于多维查询。实时告警：支持多条件策略、表达式告警及依赖管理。可视化：提供Dashboard和图表，
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
python列表添加元素的三种方法定义集合数据对象_python 学习第三天可迭代对象（列表，字典，元组和集合）... weixin_39852491
列表，字典，元组和集合列表list列表是由一系列特定元素组成的，元素和元素之间没有任何关联关系，但他们之间有先后顺序关系列表是一种容器列表是序列的一种列表是可以被改变的序列Python中的序列类型简介（sequence）字符串（str）列表（list）元组（tuple）字节串（bytes）字节数组（bytearray）创建空列表的字面值L=[]#L绑定空列表创建非空列表：L=[1,’two’,3,
python~集合详解鱼跃龙 python python集合详解 set集合
集合的基本操作首先需要明确的是：集合(set)是一个无序的不重复元素序列，多用来进行排重；不支持切片和索引取值！1.创建集合>>>a={1,2,4,4}>>>a{1,2,4}>>>type(a)**创建空集合时需要注意：不能直接用大括号，只能用set()；否则创建的是一个字典>>>b=set()>>>type(b)>>>c={}>>>type(c)2.添加元素add()方法是将要添加的元素作为一个
Elasticsearch 搜索引擎原理与实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Elasticsearch是开源分布式搜索引擎，提供搜素、分析、数据可视化等功能。它是一个基于Lucene的全文搜索服务器，能够把结构化或非结构化的数据经过索引生成一个索引库，使其可以被搜索到。在现代Web应用中，搜索功能已经成为不可或缺的一项功能。但是传统上，传统搜索方式需要依赖于数据库查询或者其他复杂的查询接口。而Elasticsearch提供了一种高效、稳
Python密码学：cryptography库零度° python python 密码学
在数字时代，确保数据的安全性和隐私至关重要。Python中的cryptography库是一个全面的包，为Python开发者提供了密码学原语和配方。它支持高级配方和常见密码学算法的低级接口。cryptography库概述cryptography库旨在易于使用且默认安全。它包括各种密码学操作的高级和低级API，如：对称加密非对称加密哈希函数消息认证码（MAC）数字签名密钥管理cryptography库
Python---frozenset集合爱听雨声的北方汉快快乐乐学Python Python
frozenset是set的不可变版本，因此set集合中所有能改变集合本身的方法（如add、remove、discard、xxx_update等），frozenset都不支持；set集合中不改变集合本身的方法，fronzenset都支持。frozenset的作用主要有以下两点：1、当集合元素不需要改变时，使用frozenset代替set更安全。2、当某些API需要不可变对象时，必须用frozens
(python)保障信息安全的加密库-cryptography Marst·Zhang 基础知识实用工具 python
前言cryptography是一个广泛使用的Python加密库，提供了各种加密、哈希和签名算法的实现。它支持多种加密算法，如AES、RSA、ECC等，以及哈希函数（如SHA-256、SHA-384等）和数字签名算法(如DSA、ECDSA等).目录常见用途密码学函数主要功能优点缺点总结常见用途数据加密使用对称加密算法（如AES）对数据进行加密，确保数据在传输或存储过程中的机密性。数字签名生成和验证数
Python if-else对缩进的要求宇寒风暖 python编程 python 开发语言学习笔记
在Python中，缩进是语法的一部分，用于表示代码块的层次结构。if-else语句的代码块必须通过缩进来定义，缩进不正确会导致语法错误或逻辑错误。1.缩进的基本规则1.1缩进的作用缩进用于表示代码块的层次结构。同一代码块中的语句必须具有相同的缩进级别。缩进通常使用4个空格，这是Python官方推荐的风格。1.2示例x=10ifx>5:print("x大于5")#缩进4个空格print("这是if代
一文弄懂 Python assert 断言宇寒风暖 python编程 python 开发语言学习笔记
在Python中，assert是一种用于调试的语句，用于检查某个条件是否为True。如果条件为False，assert会抛出AssertionError异常，并可选地输出错误信息。assert通常用于在开发阶段验证程序的假设条件，确保代码的正确性。1.assert的基本语法1.1语法assertcondition,messagecondition：需要检查的条件表达式。message：可选参数，当
开源项目常见问题解决方案——cryptography 周屹隽
开源项目常见问题解决方案——cryptographycryptographycryptographyisapackagedesignedtoexposecryptographicprimitivesandrecipestoPythondevelopers.项目地址:https://gitcode.com/gh_mirrors/cr/cryptography项目基础介绍cryptography是一个
python 利用pandas实现从CSV导出并格式化后写入.jsonl文件风_流沙 python工具备忘录 python pandas 开发语言
你可以使用pandas库来读取CSV文件，然后通过一些格式化操作将数据转换为JSONL格式并写入文件。JSONL（JSONLines）格式是一种每行一个JSON对象的文件格式。下面是一个示例，演示了如何使用pandas读取CSV文件，处理数据并将其导出到JSONL文件中：示例代码：importpandasaspdimportjson#读取CSV文件df=pd.read_csv('data.csv'
Python文件加密库之cryptography使用详解 Rocky006 python 开发语言
概要在现代信息社会中，数据的安全性变得越来越重要。为了保护敏感信息，文件加密技术被广泛应用。Python的cryptography库提供了强大的加密功能，可以轻松实现文件加密和解密。本文将详细介绍如何使用cryptography库进行文件加密，包含具体的示例代码。cryptography库简介cryptography是Python中一个功能强大且易用的加密库，提供了对称加密、非对称加密、哈希算法、
【Python系列】高效Parquet数据处理策略：合并与分析实践小团团0 python 开发语言
在大数据时代，数据的存储、处理和分析变得尤为重要。Parquet作为一种高效的列存储格式，被广泛应用于大数据处理框架中，如ApacheSpark、ApacheHive等。Parquet是一个开源的列存储格式，它被设计用于支持复杂的嵌套数据结构，同时提供高效的压缩和编码方案，以优化存储空间和查询性能。以下将详细介绍如何使用Python对Parquet文件进行数据处理与合并，并提供相应的源码示例。一、
cryptography，一个神奇的 Python 库！ Sitin涛哥 Python python 开发语言
更多资料获取个人网站：ipengtao.com大家好，今天为大家分享一个神奇的Python库-cryptography。Github地址：https://github.com/pyca/cryptography在当今数字化时代，信息安全越来越受到重视。数据加密是保护数据安全的重要手段之一，而Python的cryptography库提供了丰富的功能来支持各种加密算法和协议。本文将深入探讨crypto
深度讨论Python for循环观智能 python 开发语言
作者的其他文章推荐：强化学习再受关注！for循环使用于遍历可迭代对象的Python语句，工作原理如下：#for循环foriteminiterable:print(item)#等价于iterator=iter(iterable)#获取迭代器whileTrue:try:item=next(iterator)#获取下一个元素print(item)exceptStopIteration:break#迭代结
Python第六章08：元组操作练习题苹果.Python.八宝粥 python 开发语言
#元组定义操作练习题"""定义一个元组，内容是：('周杰伦',11,['football','music'])，记录一个学生的信息（姓名、年龄、爱好）请通元组（tuple）的功能，对其进行如下操作：1.查询其年龄所在的下标位置2.查询学生的姓名3.删除学生爱好中的football4.增加爱好：coding"""my_tuple=('周杰伦',11,['football','music'])#1.查
Python第六章07：元组的定义和操作苹果.Python.八宝粥 python 前端开发语言
#tuple元组的定义和操作#tuple元组定义用小括号：(1,2,3,4,5),可以是不同类型元素#给变量定义元组时，写括号不写tuple：a=(1,2,3,4,5)#变量=（）变量=tuple（）空元组变量#tuple元组定义完成后，不可以修改，但是，如果元组中嵌套了一个列表时，元组中列表的内容可以修改#封装数据后，不希望被篡改数据，就使用元组tuple#1.定义一个元组t1=("halibo
利用Python爬虫获取Shopee（虾皮）商品详情：实战指南小爬虫程序猿 python 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Python爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Python爬虫获取Shopee商品详情，并提供完整的代码示例。一、为
QT学习笔记(常用控件) 四代目水门 QT学习笔记 qt 学习笔记
QT学习笔记一、QTGUI类继承体系QObject（基类）└──QWidget（所有可视化控件基类）├──QAbstractButton（按钮类基类）│├──QPushButton│├──QRadioButton│└──QCheckBox├──QFrame（带边框控件基类）│└──QLabel├──QLayout（布局管理器基类）└──其他控件类...核心类说明：QObject：所有QT对象的基类
在Mac M1/M2芯片上完美安装DeepCTR库：避坑指南与实战验证 ku_code_ku 机器学习 macos 推荐算法推荐系统
让推荐算法在AppleSilicon上全速运行概述作为推荐系统领域的最经常用的明星库，DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在AppleSilicon架构的Mac设备上，安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测，总结出最稳定的安装方案。关键版本说明（2024年验证）组件推荐版本注意事项Python3.10.x向下兼容至3.7，但3.1
数据库数值函数详解 web安全工具库数据库 oracle jvm
各类资料学习下载合集https://pan.quark.cn/s/8c91ccb5a474数值函数是数据库中用于处理数值数据的函数，可以用于执行各种数学运算、统计计算等。数值函数在数据分析及处理时非常重要，能够帮助我们进行数据的聚合、计算和转换。在本篇博客中，我们将详细介绍常用的数据库数值函数，并通过Python和SQLite进行示例，帮助您理解和应用这些函数。1.数值函数的基本概念数值函数是用于
Python中Requests的Cookies的简单使用北条苒茗殇 python 开发语言 Requests
概述Python的Requests库中有一个cookies，是用于管理HTTPCookie的工具，可以像字典一样操作Cookie，支持自动处理作用域（域名、路径）和持久化，cookies是一个RequestsCookieJar的类型。一、概念1.作用自动存储服务器返回的Cookie根据请求域名和路径进行自动发送匹配的Cookie支持手动添加、修改、删除Cookie2.RequestsCookieJ
Pytest基础使用北条苒茗殇 pytest
概述Pytest是Python里的一个强大的测试框架，灵活易用，可以进行功能，自动化测试使用，可以与Requests，Selenium等进行结合使用，同时可以生成Html的报告。一、Pytest的基本使用在未指定Pytest的配置文件时，会对以下文件进行执行：test_*.py，如：test_1.py*_test.py，如：1_test.py会对以下的类和函数进行执行：类：以Test_开头的类，如
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

大数据：豆瓣电视剧爬虫反爬代理IP、spark清洗、flask框架做可视化

豆瓣电影大数据项目全步骤

1.豆瓣爬虫：

run 函数用来获取页面的数据这里我用了代理进入

get_insert_html函数用来将run函数里获取到的链接进入详情页 然后获取数据

get_proxy_ip 函数这个是用来获取代理IP的

代理IP，我这里用的是买的代理IP的 ，因为网上的那些说爬取免费的代理IP之类的90%都是不能用的 ，所以还是别老想着白嫖。

还有就是要将数据处理一下因为我这里数据保存出来有的时候有问题，就是有时候数据只会返回评论然后就保存为了csv导致数据丢失了。

但我将有问题的数据那一页去跑了一下，测试出来是没有问题的，那些评论都是有的数据也没问题，这个东西真没理解是怎么回事。希望有大佬帮我解答一手！！！

将数据保存为csv后再在excel里面操作，用查找定位，找到某列为空的删了就行了。下面就是spark操作后的流程了：

现在最后一步就是要把数据转换为人能直观的看出来这是这些数据的意思：

这就是可视化操作了

先创建一个flask的项目，然后将处理完的数据导入到这个项目中

直接上代码：

HTML那块我用Ajax获取数据请求然后展示处理的 所以那个步骤需要自己写了

先展示一下index文件，这里我onclick触发按钮事件然后点击哪一块就会回调哪一块的HTML页面展示出来：

这就是一个简单的可视化了，由于将视频懒得转GIF动图了，所以我就截个图看看就行

对了 我这里词云加载用的是网络的js接口：https://cdn.bootcss.com/echarts/3.7.0/echarts.simple.js

你可能感兴趣的:(可视化,python,spark,flask,爬虫)

get_insert_html函数用来将run函数里获取到的链接进入详情页然后获取数据

代理IP，我这里用的是买的代理IP的，因为网上的那些说爬取免费的代理IP之类的90%都是不能用的，所以还是别老想着白嫖。

HTML那块我用Ajax获取数据请求然后展示处理的所以那个步骤需要自己写了

对了我这里词云加载用的是网络的js接口：https://cdn.bootcss.com/echarts/3.7.0/echarts.simple.js