_artoria_

百万知乎用户的数据分析

1. 前言
2. 博客结构图
3. 爬取知乎用户数据
- 3.1 知乎用户页面解析
- 3.2 选取爬虫框架
- 3.3 使用反反爬手段
- 3.4 调用接口爬取数据
4. 分析知乎用户数据
- 4.1 数据去重
- 4.2 数据导入ElasticSearch
- 4.3 kibana分析知乎数据
- 4.4 echarts作图
5 总结

1. 前言

我是一个真正的知乎小白。
上班的时候，自己手头的事情处理完了，我除了在掘金摸鱼，就是在知乎逛贴。在我的认知中，知乎是一个高质量论坛，基本上各种“疑难杂症”都能在上面找到相应的专业性回答。但平时逗留在知乎的时间过多，我不知道自己是被知乎上面的精彩故事所吸引，还是为知乎上面的高深技术而着迷。

咱是理科生，不太懂过于高深的哲学，自然不会深层次地剖析自己，只能用数据来说话。于是，就有了这篇博客。

2. 博客结构图

博客的结构图如上所示。这篇博客主要讲述两件事：爬取知乎用户数据和对用户数据进行分析。这个结构图基本能够概述分析知乎用户信息的思路，具体的思路详述和技术实现细节可看博客后面的内容。

3. 爬取知乎用户数据

3.1 知乎用户页面解析

我的知乎主页信息预览如下：

从该页面的内容来看，我当前需要爬取的知乎信息就在两个红框中。然后每个知乎用户主页对应的URL路径应该不一样，这里URL中标识是我的主页就是mi-zhi-saber，这个URL标识就是知乎里面的url_token。也就是说拿到足够多的url_token，就可以自己组装URL来获取用户的信息。

通过分析知乎页面结构，我们可以按照如下思路来爬取用户信息：

基于用户的个人主页信息，爬取、解析并保存用户信息。

上面用户主页链接对应的页面内容如下：

对比这两个页面，可以推断出里面部分字段的意义（其实字段名称已经足够见名知意了）。综合考虑后，我要爬取的字段及其意义如下

字段	含义
`url_token`	知乎的用户标识
`name`	昵称
`gender`	性别(1:男，0:女，-1:未填)
`follower_count`	关注者人数
`answer_count`	回答数
`articles_count`	文章数
`business.name`	所处行业
`locations.name`	居住地
`employments.company.name`	公司名称
`educations.school.name`	毕业院校
`educations.major.name`	所学专业

基于用户关注的知乎用户信息，爬取、解析并保存用户信息。

我关注的知乎用户信息页面内容如下：

3. 基于关注用户的知乎用户信息，爬取、解析并保存用户信息。

理论上，选取一个知乎大V作为根节点，迭代爬取关注者和被关注者的信息，可以拿到绝大部分的知乎用户信息。

3.2 选取爬虫框架

要想对知乎用户进行画像，必须拿到足够多的知乎用户数据。简单来说，就是说要用java爬虫爬取足够多的知乎用户数据。

工欲善其事，必先利其器。常见的Java爬虫框架有很多如：webmagic,crawler4j,SeimiCrawler,jsoup等等。这里选用的是SpringBoot + SeimiCrawler，这个方式可以几乎零配置地使用爬虫爬取知乎用户数据。具体如何使用可见于SeimiCrawler官方文档，或者参考我的源码。

3.3 使用反反爬手段

论坛是靠内容存活的。如果有另外一个盗版论坛大量地爬取知乎内容，然后拷贝到自己的论坛上，知乎肯定会流失大量用户。不用想就知道，知乎肯定是采取了一些反爬手段的。

最常见的反爬手段就是User Agent识别和IP限流。简单解释一下，就是知乎会基于用户访问记录日志，分析哪个用户（IP）用哪个浏览器（UA）访问知乎网站的，如果某个用户极其频繁地访问知乎网站，知乎就会把该用户标记为“疑似爬虫的机器人”，然后让该用户进行登录验证或直接将该用户对应的IP地址进行封禁。

然后，所谓的“反反爬手段”，就是应对上面所说的反爬手段的。我采取的“反反爬手段”是：

收集一些常用的UA，然后每次调用接口访问知乎网站的时候会刷新所使用的UA。
自己在项目中维护一个可高用的免费代理池，每次调用接口访问知乎网站的时候会使用高可用代理池的随机一个代理。

实际实践过程中，提供了免费代理的网站有：西刺代理、89免费代理、云代理等等，但实际能够使用的还是只有西刺代理。
而且西刺代理的可用数也非常少，导致代理池中可用代理数很少，使用代理池的效果不是很好，这真的是一件很沮丧的事。

免费代理池的架构及其实现思路图：

简述一下思路：

启动项目时，会自动去爬取西刺代理网站前10页的代理（共1000个代理），并将其保存到RabbitMQ中。RabbitMQ设置有10个消费者，每个消费者会检测代理是否可用，检测完毕后会将该代理的信息及其检测结果保存到DB中。
系统设置了一个定时任务，会定时将DB中当前的所有代理再次放到RabbitMQ中，会由10个消费者检测代理是否可用，并将检测结果同时更新到DB中。如果连续3次测试代理不可用，则将该代理从DB中删除。
系统设置了一个定时任务，会定时爬取西刺代理网首页的所有代理，会检测代理的可用性，并将其信息及检测结果再次保存到DB中。这样保证DB中会定时获取更多的代理（实际原因是西刺代理可用代理太少，如果不定时获取更多代理，DB中很快就没有可用的代理了）。
系统设置了一个定时任务，会自动删除redis中所有的代理。然后再将DB中的代理按检测成功次数进行排序，将连续成功次数最多的前10个代理保存进redis中。这样redis中的代理就是高可用的。

3.4 调用接口爬取数据

项目一定程度地屏蔽了代理池以及知乎用户数据解析的实现复习性，以暴露接口的方式提供爬取知乎用户信息的功能。

在配置好Redis/RabbitMQ环境后，成功启动项目，等项目稳定后（需要等到redis中有高可用的代理，否则就是用本机IP直接进行数据爬取，这样的话本机IP很容易会被封）后，即可通过调用如下接口的方式爬取知乎用户信息。

调用接口localhost:8980/users爬取指定知乎用户的信息，修改url_token的值即可爬取不同知乎用户的信息。

调用接口localhost:8980/users/followees爬取关注指定知乎用户的用户信息，修改url_token的值即可爬取关注不同知乎用户的用户信息。

调用接口localhost:8980/users/followers爬取指定知乎用户关注的用户信息，修改url_token的值即可爬取不同知乎用户关注的用户信息。

在实际测试爬取知乎网站用户信息的过程中，如果系统只用一个固定IP进行爬取数据，基本爬取不到10万数据该IP就会被封。使用了代理池这种方式后，由于西刺代理网址上可用的免费代理太少了，最终爬取到167万左右数据后，代理池中基本就没有可用的IP了。不过爬取到这么多的数据已经够用了。

4. 分析知乎用户数据

4.1 数据去重

爬取了167万+知乎用户数据后，需要对原始数据进行简单的清理，这里就是去重。每个知乎用户有唯一的url_token，由于这里爬取的是用户的关注者与被关注者，很容易就会有重复的数据。
数据量有167万+，使用Java自带的去重容器Set/Map明显不合适（内存不够，就算内存足够，去重的效率也有待考量）。

项目中实现了一个简单的布隆算法，能够保证过滤后的知乎用户数据绝对没有重复。

布隆算法的实现思路图如下：

简述布隆算法的实现思路如下：

首先初始化一个位容器（每个容器单位的值只能是0或1），并先规定好要使用映射数据用的n个hash方法，hash方法的结果对应于该位容器的一个下标。
每次存数据之前，需要先判断该容器中是否已经存过该数据。该数据对应所有hash方法的结果，对应在位容器中的下标只要有一个下标对应的单位的值为0，则表示该容器还没有存过该数据，否则就判定为该容器之前存过该数据。
每次存数据之后，需要将该数据所有hash方法结果对应于位容器中的下标的值，都置为1。

这里需要说明一下为什么要使用布隆算法以及布隆算法还有什么缺点。

使用布隆算法的理由：我们是依靠url_token来判断一个用户是否重复的，但url_token的长度是不确定的，这里存放一个url_token所需要的空间按上图DB中来看基本上有10字节以上。如果使用java容器进行去重，那么该容器至少需要的空间：10 * 1670000 byte 即大约15.93MB（这里貌似还是可以使用java容器进行去重，但其实这里还没有考虑容器中还需要存的其他信息）。而使用布隆算法，需要的空间：n * 1670000 bit ，使用的hash方法一般是3-10个左右，即一般至多只需要15.9KB左右的空间(我在项目中使用的是2 << 24 bit即16KB的容量)。如果数据量继续增大，布隆算法的优势会越来越大。

布隆算法的缺点：很明显地，这种hash映射存储的方式肯定会有误判的情况。即bitSet容器中明明没有存储该数据，却认为之前已经存储过该数据。但是只要hash方法的个数以及其实现设计得合理，那么这个误判率能够大大降低（笔者水平有限，具体怎么降低并计算误判率可自行谷歌或百度）。而且基于大数据分析来说，一定数据的缺失是可以允许的，只要保证过滤后有足够的不重复的数据进行分析就行。

项目中屏蔽了布隆算法实现的复杂性，直接调用接口localhost:8980/users/filter，即可将DB中的用户数据进行去重。

过滤之后，还有160万左右不重复的数据，说明布隆算法误判率导致的数据流失，对大量的数据来说影响是可以接受的。

4.2 数据导入ElasticSearch

mysql是一个用来持久化数据的工具，直接用来进行数据分析明显效果不太好（而且数据量较大时，查询效率极低），这里就需要使用更加合适的工具—ElasticSearch。简单学习一下ElasticSearch，可以参考elasticsearch官网或者我之前写的一篇博客—SpringBoot整合elasticsearch。

配置好ElasticSearch环境，然后修改配置文件中ElasticSearch相关的配置。调用接口localhost:8980/users/transfer，即可将DB中的用户数据迁移到ES中。

SpringBoot整合ElasticSearch非常简单，直接在项目中导入ElasticSearch的自动配置依赖包

<dependency>
  <groupId>org.springframework.bootgroupId>
  <artifactId>spring-boot-starter-data-elasticsearchartifactId>
dependency>

然后让相应的DAO层继承ElasticsearchRepository即可在项目中使用ElasticSearch。具体如何在springboot项目中使用ElasticSearch，可以参考SpringBoot-ElasticSearch官方文档，也可参考我项目中源码。

数据导入ES后，可以在head插件或者kibana插件中查看ES中的数据（head插件或kibana插件可以看去重之后导入ES中的数据有1597696条）。

4.3 kibana分析知乎数据

我们已经拿到足够多的用户数据了，现在需要利用kibana插件来分析数据。我们在Management > Kibana > Index Patterns中将创建关联的索引user后，即可使用kibana插件辅助我们来分析数据。

下面举几个例子来表示如何使用Kibana来分析大数据。

查询关注数在100万及以上的用户

# 查询关注数在100万及以上的用户
GET user/userInfo/_search
{
  "query": {
    "range" : {
      "followerCount" : {
        "gte": 1000000
      }
    }
  }
}

查询结果图如下：

简单地解释一下结果集中部分字段的意义。took是指本次查询的耗时，单位是毫秒。hits.total表示的是符合条件的结果条数。hits._score表示的是与查询条件的相关度得分情况，默认降序排序。

聚合查询知乎用户的性别比

# 查询知乎用户男女性别比
GET /user/userInfo/_search
{
  "size": 0,
  "aggs": {
    "messages": {
      "terms": {
        "field": "gender"
      }
    }
  }
}

查询结果图如下：

直接看数据可能不太直观，我们还可以直接通过kibana插件不画相应的结果图(-1：未填，1：男， 0：女)：

从结果图来看，目前知乎的男女比还不算离谱，比例接近3:2（这里让我有点儿怀疑自己爬取的数据有问题）。

聚合查询人口最集中的前10个城市

# 查询现居地最多的前10个城市
GET /user/userInfo/_search
{
  "size": 0,
  "aggs": {
    "messages": {
      "terms": {
        "field": "home",
        "size": 10
      }
    }
  }
}

查询结果图如下：

从这里的查询结果，很容易就可以看出，“深圳”和“深圳市”、“广州”和“广州市”其实各自指的都是同一地方。但是当前ES不能智能地识别并归类（ps: 可能有方法可以归类但笔者不会…）。因此这里需要后续手动地将类似信息进行处理归类。

模糊搜索

全字段匹配，“模糊”搜索含有“知乎”的数据，搜索结果图如下：

4.4 echarts作图

从上面的kibana画图效果来看，真的一般般。这里更推荐使用kibana收集数据，利用百度开源的数据可视化工具echarts来作图。

最终的数据汇总以及echarts绘图效果图如下：

关注数层级统计

很明显地，绝大部分知乎用户都是“知乎小白”或者“知乎路人”。这里的“知乎超大V(1000000+)”的用户只有3个：“丁香医生”、“知乎日报”、“张佳玮”。

行业信息统计

手动整理后的行业信息图如下：

很明显地能够看出，大部分知乎用户所处的行业都与计算机或者互联网相关。

公司信息统计

统计了出现频率最多的前15名所属公司统计图如下：

可以看到，“腾讯”、“阿里”的员工数量遥遥领先。虽然“百度”还是排名第三，但已经不在一个数量级。（“BAT”的时代真的一去不复返了吗？）

职位信息统计

基于职位信息统计图，利用中文在线词云生成器优词云，生成出现频率最多的前100名的职位词云图：

可以看出，除了学生以外，很多知乎用户都从事计算机或者软件编程相关的工作，也就是说，知乎用户中“程序猿/媛”所占的比重极其的大。

大学信息统计

统计了出现频率最多的前20名毕业院校统计图如下：

可以看到，填写了毕业院校的知乎用户（其实还有绝大部分人没有完善该信息），这些毕业院校的实力和名气那是杠杠的。

专业信息统计

统计了出现频率最多的前20名专业统计图如下：

可以看到，“计算机科学与技术”和“软件工程”这两个专业的人数遥遥领先。

居住城市信息统计

统计了出现频率最多的前20名居住城市统计图如下：

很明显地，“帝都”和“魔都”的人数遥遥领先。（这里可以做一个相关性不大、准确度不高的推论：杭州将是下一个“新一线城市”最有力的竞争者。）

5. 总结

从最终的信息统计结果来看，大部分的知乎用户信息不算完善（信息比例）。但这些统计结果图，都是基于知乎用户已经完善的信息进行整理并分析的。很明显地可以看出，已完善信息的知乎用户，基本都在发达城市大公司任职，而且其中的很大一部分是“程序猿/媛”。

也就是说，如果我（码农一枚）在工作中遇到什么专业难题时，在知乎中寻求到的答案是专业可信的。

C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
怎么起诉借钱不还的人？怎样起诉欠款不还的人？影子爱学习
怎么起诉借钱不还的人？怎样起诉欠款不还的人？如果遇到难以解决的法律问题，我们可以匹配专业律师。例如：婚姻家庭（离婚纠纷）、刑事辩护、合同纠纷、债权债务、房产（继承）纠纷、交通事故、劳动争议、人身损害、公司相关法律事务（法律顾问）等咨询推荐手机/微信:15633770876【全国案件皆可】借钱不还起诉对方需要哪些资料起诉欠钱不还的，一般需要的材料包括以下这些：借据、收据、欠条、付款凭证等证据，以及向
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
走向以教育叙事为载体的教育叙事研究 666小飞鱼
今天我读了吴松超老师的《给教师的68条建写作建议》中的第23条《如何通过教育叙事走向研究》，吴老师在文中与我们分享了一个德育案例，这是一个反面的案例，意在告知我们在处理问题时，不能就考虑的点太窄，思考要全面。走向教育叙事研究，教师要有敏锐的“感知力”，这个感知力来自于背后专业知识的支撑，思维能力以及广阔的视野和见识等。所以对于同一件事处理方法不同，这个就是教师背后“敏锐力”的不同造成的，也就是说是
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Low Power概念介绍-Voltage Area 飞奔的大虎
随着智能手机，以及物联网的普及，芯片功耗的问题最近几年得到了越来越多的重视。为了实现集成电路的低功耗设计目标，我们需要在系统设计阶段就采用低功耗设计的方案。而且，随着设计流程的逐步推进，到了芯片后端设计阶段，降低芯片功耗的方法已经很少了，节省的功耗百分比也不断下降。芯片的功耗主要由静态功耗（staticleakagepower）和动态功耗(dynamicpower)构成。静态功耗主要是指电路处于等
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
如何选择最适合你的项目研发管理软件？TAPD卓越版全面解析北京云巴巴信息技术有限公司产品经理需求分析
在当今快速发展的科技时代，项目研发管理软件已成为企业不可或缺的重要工具。面对市场上琳琅满目的产品，如何选择一款适合自己团队的项目研发管理软件呢？本文将围绕项目研发管理软件的选择标准，重点介绍TAPD卓越版的特点、优势以及使用体验，让你更好地理解和选择适合自己的项目研发管理软件。项目研发管理软件的选择标准在选择项目研发管理软件时，我们需要考虑以下几个方面的因素：功能全面性：软件是否覆盖了从需求管理、
舜公郑金锋书辛丑自剪扇面书法作品（四O六）舜公郑金锋
辛丑小阳春，新自剪扇面400品，大多为各色撒金、撒银、描金、描银、水印、彩绘、荧光等亚粉、色宣纸，以及域外包装填充纸等；王一品长锋羊毫秃笔；一得阁云头艳墨、宿墨、水等。书体有甲骨文，金文(商周金文、春秋战国金文、中山王厝器金文、汉金文……)，楚简帛书，侯马盟书，温县盟书，小篆，果蝙书等，隶书(秦简、汉简帛书、汉碑……)，草书(章草、小草、大草……)，行书(行楷、行草)，楷书(魏碑及北朝墓志、隋朝墓
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
4招写出高价值文章 zhiliner
文章写得泛泛是因为思考得不够深，思考得越深文章会越有价值。拿到一个主题一定要去深入挖掘事件背后的东西，比如人物困境以及趋势性的东西。写作过程中有几个深度思考的方法一、解剖，让旧素材焕发新意作为一个写作者，我们能够做的最大贡献，就是给出自己看世界的角度。解剖其实就是把这个话题相关的信息都列出来，详细的列出来，看清楚它的内部。我们看到一个老话题或者一段旧素材的时候，不要只看这个素材或者话题本身，一定要
一比一复刻手表哪里可以买到？推荐三个可靠渠道腕表世界
在我国，提及一比一复刻手表，人们总是充满好奇与争议。这种高度仿真的复刻手表，凭借其精湛的工艺、时尚的设计，以及与正品相差无几的质感，深受一部分消费者的喜爱。但与此同时，其背后的侵权争议也一直不断。那么，究竟哪里可以买到这些令人心动的一比一复刻手表呢？腕表咨询微信：10428850一、何为一比一复刻手表？一比一复刻手表，指的是严格按照正版手表的设计、尺寸和工艺制作的仿制品。这些手表在材质、外观、功能
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

百万知乎用户的数据分析

目录

1. 前言

2. 博客结构图

3. 爬取知乎用户数据

3.1 知乎用户页面解析

3.2 选取爬虫框架

3.3 使用反反爬手段

3.4 调用接口爬取数据

4. 分析知乎用户数据

4.1 数据去重

4.2 数据导入ElasticSearch

4.3 kibana分析知乎数据

4.4 echarts作图

5. 总结

你可能感兴趣的:(爬虫以及数据分析)