sunlanchang

拉勾网爬虫与数据分析

拉勾网爬虫与数据挖掘

描述

爬取拉勾网50万条职位信息，进行数据清洗，简单的数据分析。流程图如下：

一个demo展示外观：

环境

操作系统

Ubuntu 16.04
mac OS 10.13.3

数据获取

Chrome
Python3

数据清洗

Excel
DataGrip
MySQL
phpMyAdmin
VScode
Anaconda Jupyter Notebook

数据分析

Excel
DataGrip
MySQL
phpMyAdmin
Anaconda Jupyter Notebook

数据可视化

HTML
Bootstrap
JavaScript
PHP
Echarts

Python模块

request
BeautifulSoup
Json
numpy
pandas
matplotlib
sklearn
pymysql

文件描述

get_position.py爬取拉勾网的爬虫程序
position_name.txt保存拉勾所有职位

数据获取

使用Chrom分析拉勾源码，发现拉勾网使用Ajax请求数据如下图所示：
返回的数据是Json格式，处理起来非常方便，如下图所示：
需要的职位信息在object -> content -> positionResult -> result
使用多线程策略在mac中，校园网环境下进行职位详情页的爬取，并采用BeautifulSoup4提取出网页中需要的文字信息，以便后期大数据分析。处理速度达到了每秒20个职位。
拉勾的反爬虫策略
header不加session直接请求拉勾服务器，在请求数次之后就会被拒绝。手动注册账号登录拉勾网，利用Chrome开发工具将header的session后的字符串复制下载，加到程序的header中。这样再请求拉勾服务器就不会被拒绝了。注意超过一天之后session就失效了，登录账号更换一个新的session即可。

数据清洗

去重(SQL)

CREATE TABLE tmp2 as select min(id) as mid from tab3 group by 职位ID

CREATE TABLE lagou2 as SELECT * FROM lagou WHERE id in (SELECT mid from tmp2)

去重(Pandas)

经过手工的查看有大量的重复值，使用pandas的drop_duplicates(subset=['positionId'])将重复的positionId去掉，只保留一行重复记录。
用pandas的pandas.DataFrame.to_csv()将去重的文件保存为csv文件
Excel 2016打开去重的csv文件，利用快速填充提取字段的4k-8k等工资字段，取平均值。工作年限使用同样的操作提取
创建MySQL数据库以导入csv文件，创建数据库如下,这里用的是phpMyAdmin手动创建数据库字段，自动生成创建语句：

CREATE TABLE `LAGOU`.`position` ( `ID` INT NOT NULL AUTO_INCREMENT , `positionId` INT(10) NOT NULL , `positionLables` VARCHAR(20) NOT NULL , `positionName` VARCHAR(20) NOT NULL , `positionAdvantage` VARCHAR(20) NOT NULL , `firstType` VARCHAR(20) NOT NULL , `secondType` VARCHAR(20) NOT NULL , `workYear` INT(10) NOT NULL , `education` VARCHAR(20) NOT NULL , `salary` VARCHAR(20) NOT NULL , `isSchoolJob` VARCHAR(5) NOT NULL , `companyId` INT(10) NOT NULL , `companyShortName` VARCHAR(20) NOT NULL , `companyFullName` VARCHAR(20) NOT NULL , `companySize` VARCHAR(20) NOT NULL , `financeStage` VARCHAR(20) NOT NULL , `industryField` VARCHAR(20) NOT NULL , `industryLables` VARCHAR(20) NOT NULL , `createTime` VARCHAR(20) NOT NULL , `formatCreateTime` VARCHAR(20) NOT NULL , `city` VARCHAR(20) NOT NULL , `district` VARCHAR(20) NOT NULL , `businessZones` VARCHAR(20) NOT NULL , `linestaion` VARCHAR(20) NOT NULL , `stationname` VARCHAR(20) NOT NULL , PRIMARY KEY (`ID`)) ENGINE = InnoDB

其他

对文本数据进行数字编码，工作年限和工资等信息做统一的编码。

ALTER TABLE L拉勾 ADD 工作年限 INT NULL;
ALTER TABLE L拉勾
  MODIFY COLUMN 工作年限 INT AFTER 工龄;
UPDATE L拉勾 SET 工作年限 = 4 WHERE 工龄 = '3-5年';
UPDATE L拉勾 SET 工作年限 = 2 WHERE 工龄 = '1-3年';
UPDATE L拉勾 SET 工作年限 = 8 WHERE 工龄 = '5-10年';
UPDATE L拉勾 SET 工作年限 = 10 WHERE 工龄 = '十年以上';
UPDATE L拉勾 SET 工作年限 = 1 WHERE 工龄 = '一年以下';
UPDATE L拉勾 SET 工作年限 = 0 WHERE 工龄 = '应届毕业生';

数据分析

利用MySQL进行简单的统计分析

招收人数最多的几个职位

SELECT 企业简称, COUNT(企业简称) as cnt FROM L拉勾 GROUP BY 企业简称

前100公司的招收人数

SELECT 企业简称,COUNT(企业简称) as cnt FROM L拉勾 GROUP BY 企业简称 ORDER BY cnt DESC LIMIT 100

月薪最高的100个职位

SELECT 职位名称,avg(工资) as money FROM L拉勾 GROUP BY 职位名称 ORDER BY money DESC LIMIT 100

学历水平工资

SELECT 学历,avg(工资) as money FROM L拉勾 GROUP BY 学历 ORDER BY money DESC

各个公司招收人的工薪水平

SELECT 企业简称,COUNT(企业简称) as cnt ,avg(工资) as money FROM L拉勾 GROUP BY 企业简称 ORDER BY cnt DESC,money DESC LIMIT 100

利用SKlearn进行数据分析

数据预处理（中文分词、去除标点符号）

先构建一个字典过滤标点符号，通过Python的jieba模块进行精确匹配模式进行分词后用空格分隔。示例如下：

# encoding=utf-8
chrs = ['，','。','！','、','；','：','？','~','(',')','；',';',',','\n','\t','/','-','.','\'']
corpus = []
for line in corpus_raw:
    for ch in chrs:
        line = line.replace(ch,'')
    Word_spilt_jieba = jieba.cut(line,cut_all = False)
    line = ' '.join(Word_spilt_jieba)
    corpus.append(line)
print(corpus[0:3])

对于职位的描述分词之后的（一个职位描述样本）如下所示，包含一些明确的关键词，同样也包含一些无关紧要的数字，在这里先不处理数字英文单词之类的（后续的预测准确率表明数字对结果影响不大）：

职位 要求 1 有 互联网 和 移动 互联网 行业 3 年 以上 产品 经理 从业 经验 2 独立 承担 项目 丰富 的 ERP 产品设计 经验 2 懂 app 基本 设计 流程 熟悉 微信 公众 号 的 后台 框架 及 运营 3 具备 项目 方案 起草 需求 整理 开发计划 及 相关 业务 对接 的 能力 4 有 很 强 的 产品 逻辑 与 项目 执行 能力 协调 沟通 部门 内外部 的 资源 5 具备 决策 和 项目 团队 管理 经验

特征选择

词袋模型（ Bag-of-Words Model ）

使用机器学习算法时，我们不能直接使用文本。相反，我们需要将文本转换为数字。
对文档进行分类，每一类文档都是“输入”，而类别标签是我们预测算法的“输出”。算法将数字向量作为输入，因此我们需要将文档转换为固定长度的数字向量。
上面这一步可以通过为每个单词分配一个唯一的编码来完成。我们所看到的任何文档都可以被编码为一个固定长度的矢量，其长度为文档中全部已知单词的词汇量。矢量中每个位置的值可以用编码文档中每个单词的出现个数或频率填充。
在词袋模型中，我们只关心编码方案，而编码方案描述了文档中出现了什么单词，以及这些单词在编码文档中出现的频率，而没有任何关于顺序的信息。

对所有职位信息通过Python拉取数据库数据进行遍历，构建一个非常大的词袋，拉去50条职位描述信息时，构成的词袋长度就有2000条左右，这里局限于个人电脑和服务器的内存太小只用了小样本进行了构建词袋

使用 CountVectorizer 计算词频

CountVectorizer 提供了一个简单的方法，既可以标记文本文档的集合, 也可以生成每个已知单词的索引, 还可以使用这一套索引对新文档进行编码。

下面是一种使用方法：

实例化一个 CountVectorizer 类。
调用 fit() 函数以从一个或多个文档中建立索引。
根据需要在一个或多个文档中调用 transform() 函数，将每个文档编码为一个向量。

#该类会将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在i类文本下的词频  
vectorizer=CountVectorizer()    
X = vectorizer.fit_transform(corpus)

转换后的结果可以看到X.shape为n*m，其中n为样本个数，m为特征个数，这里小样本词频测试输出如下（90%以上的都是0概率，可见是一个非常稀疏的矩阵）：

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.116133204036 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0924905834836 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0801139896408 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.230164048616 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0930653754409 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.106744931403 0.106744931403 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0922569939759 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.184513987952 0.0 0.0 
0.0 0.0 0.0 0.0563738344688 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.117308212104 0.117308212104 0.117308212104 0.0 0.103965978559 0.0 0.117308212104 0.117308212104 0.0 0.117308212104 0.0 0.0 0.0 0.0 0.076084797887 0.0 0.0 0.0 0.0 0.0 
  ......

稀疏矩阵
由于大多数文本文档通常只使用文本词向量全集中的一个小子集，所以得到的矩阵将具有许多特征值为零（通常大于99％）。
例如，10,000 个短文本文档（如电子邮件）的集合将使用总共100,000个独特词的大小的词汇，而每个文档将单独使用100到1000个独特的单词。
为了能够将这样的矩阵存储在存储器中，并且还可以加速代数的矩阵/向量运算，实现通常将使用诸如 scipy.sparse 包中的稀疏实现。
构造稀疏矩阵，对每一条记录分词之后

特征提取

在一个大的文本语料库中，一些单词将出现很多次（例如 “the”, “a”, “is” 是英文），因此对文档的实际内容没有什么有意义的信息。如果我们将直接计数数据直接提供给分类器，那么这些频繁词组会掩盖住那些我们关注但很少出现的词。
为了为了重新计算特征权重，并将其转化为适合分类器使用的浮点值，因此使用 tf-idf 变换是非常常见的。

如何使用 TfidfVectorizer 将文本转换为词频向量。

#该类会统计每个词语的tf-idf权值  
transformer=TfidfTransformer()
tfidf=transformer.fit_transform(X)

这里降低不具有特征的词语例如’的‘，’是‘等。转换的矩阵仍然是一个非常稀疏的矩阵，例如这里的前20,职位描述和前20个特征词语概率如下：

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.116133204036 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0924905834836 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0801139896408 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.230164048616 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0930653754409 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.106744931403 0.106744931403 
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
0.0 0.0 0.0 0.0 0.0 0.0922569939759 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.184513987952 0.0 0.0 
0.0 0.0 0.0 0.0563738344688 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0

数据维度太大的解决思路

使用 HashingVectorizer 执行外核缩放

使用 HashingVectorizer 的一个有趣的开发是执行外核 out-of-core 缩放的能力。这意味着我们可以从无法放入电脑主内存的数据中进行学习。
项目等待完成的部分，也是可以优化计算的地方，在小样本测试算法成功后，可以使用此算法进行优化计算，以便在个人PC进行计算。

每批的向量化都是用HashingVectorizer这样来保证评估器的输入空间的维度是相等的。因此任何时间使用的内存数都限定在小频次的大小。尽管用这种方法可以处理的数据没有限制，但是从实用角度学习时间受到想要在这个任务上花费的CPU时间的限制。

数据库

查询

去重查询

SELECT positionId,COUNT(DISTINCT positionId) FROM position GROUP by positionId

查询各个职位招收人数

SELECT 职位名称,COUNT(职位名称) FROM L拉勾职位表 GROUP BY 职位名称 order BY COUNT(职位名称) desc

创建数据库

CREATE TABLE `LAGOU`.`position` ( `ID` INT NOT NULL AUTO_INCREMENT , `positionId` INT(10) NOT NULL , `positionLables` VARCHAR(20) NOT NULL , `positionName` VARCHAR(20) NOT NULL , `positionAdvantage` VARCHAR(20) NOT NULL , `firstType` VARCHAR(20) NOT NULL , `secondType` VARCHAR(20) NOT NULL , `workYear` INT(10) NOT NULL , `education` VARCHAR(20) NOT NULL , `salary` VARCHAR(20) NOT NULL , `isSchoolJob` VARCHAR(5) NOT NULL , `companyId` INT(10) NOT NULL , `companyShortName` VARCHAR(20) NOT NULL , `companyFullName` VARCHAR(20) NOT NULL , `companySize` VARCHAR(20) NOT NULL , `financeStage` VARCHAR(20) NOT NULL , `industryField` VARCHAR(20) NOT NULL , `industryLables` VARCHAR(20) NOT NULL , `createTime` VARCHAR(20) NOT NULL , `formatCreateTime` VARCHAR(20) NOT NULL , `city` VARCHAR(20) NOT NULL , `district` VARCHAR(20) NOT NULL , `businessZones` VARCHAR(20) NOT NULL , `linestaion` VARCHAR(20) NOT NULL , `stationname` VARCHAR(20) NOT NULL , PRIMARY KEY (`ID`)) ENGINE = InnoDB

导入导出数据库

导出数据库

导出数据库为sql文件

mysqldump -u root -p database_name table_name > dump.txt
password *****

导出数据库为csv文件

SELECT * FROM passwd INTO OUTFILE '/tmp/tutorials.txt' FIELDS TERMINATED BY ',' ENCLOSED BY '"'
LINES TERMINATED BY '\r\n';

导入数据库

csv文件导入数据库

load data local infile '/home/ubuntu//workspace/Lagou_Spider/lagou.txt'
into table position_2
fields terminated by ','  optionally enclosed by '"' escaped by '"'
lines terminated by '\n';

导入数据库sql文件

mysql -u root -p database_name < dump.txt password *****

其他常用命令和脚本

统计文件行数

wc -l file

tmux

tmux new -s session
tmux new -s session -d #在后台建立会话
tmux ls #列出会话
tmux attach -t session #进入某个会话

合并文件

import os
filenames = os.listdir("./position_id_files/")
with open('all_describe_to_one.txt','a',encoding='utf-8') as f_write:
    for filename in filenames:
        with open('./position_id_files/'+filename,'r',encoding='utf-8') as f_read:
            for line in f_read.readlines():
                f_write.write(line)

去重

import pandas as pd
df = pd.read_csv(ready_to_read_file)
df2=df.drop_duplicates(subset=['positionId'])
df2.to_csv(ready_to_write_file)

参考

https://www.jianshu.com/p/16cd37a5355f>
https://www.zhihu.com/search?type=content&q=拉勾爬虫>
https://www.w3cschool.cn/mysql/mysql-database-export.html
http://blog.csdn.net/liuxuejiang158blog/article/details/31360765
http://blog.csdn.net/tiffany_li2015/article/details/50236833
http://sklearn.apachecn.org/cn/0.19.0/modules/feature_extraction.html
http://www.cnblogs.com/qcloud1001/p/8444576.html

尚硅谷C语言笔记-结构体与共用体想名困难户尚硅谷C语言笔记 c语言笔记
1、结构体(struct)类型的基本使用1.1为什么需要结构体？C语言内置的数据类型，除了几种原始的基本数据类型，只有数组属于复合类型，可以同时包含多个值，但是只能包含相同类型的数据，实际使用场景受限。1.2结构体的理解C语言提供了struct关键字，允许自定义复合数据类型，将不同类型的值组合在一起，这种类型称为结构体（structure）类型。C语言没有其他语言的对象(object)和类(cla
写作训练营给我的改变张娟丽
短暂而紧张的写作训练营即将结束，训练营对我产生的终身影响有以下三个：写作训练营，开启了我的活动策划、主持会议之旅。工作二十年，我一直是个追随者，没有自己领头负责做过什么事。加入践行群，我因为积极主动成为120班的见习班委，2个月的见习期满成为了班委，需要每周轮流主持班级活动。写作训练营之前，我看着其他战友在飞书会议上或熟练或磕绊地主持了一次次活动，我好羡慕他们，总觉得要是自己主持，肯定脑子一片空白
React-Navitate基础 hcl499 react.js css react native
样式---------------RN中的继承只发生在Text组件中,其他组件样式不能继承命名采用小驼峰式所有的尺寸都是没有单位width:100特殊的样式命名marginHorizontal(水平外边距),marginVertical(垂直外边距)RN样式的声明方式一：通过style属性直接声明1.属性值为对象2.属性值为数据如果两个样式一样，则后面会覆盖前面方式二：StyleSheet声明引入
PAM配置文件解析，配置文件优先级 Yana.com PAM 服务器网络数据库
/etc/pam.d/目录配置文件1.核心配置文件(1)system-auth作用：系统默认认证策略，被其他服务（如login、sshd）通过include引用。典型内容：authrequiredpam_env.soauthsufficientpam_unix.sotry_first_passaccountrequiredpam_unix.sopasswordrequiredpam_unix.so
Django基础(三)———模板【本人】 PythonWeb django python 后端
前言在之前的文章中，视图函数只是直接返回文本，而在实际生产环境中其实很少这样用，因为实际的页面大多是带有样式的HTML代码，这可以让浏览器渲染出非常漂亮的页面。目前市面上有非常多的模板系统，其中最知名最好用的就是DTL和jinja2。DTL是DjangoTemplateLanguage三个单词的缩写，也就是Django自带的模板语言。当然也可以配置Django支持jinja2等其他模板引擎，但是作
《娇妻迷雾》王菲菲老陈（完结篇）全文免费阅读【笔趣阁】寒风书楼
《娇妻迷雾》王菲菲老陈（完结篇）全文免费阅读【笔趣阁】主角：王菲菲老陈简介：“刷了那么多礼物，不知道菲菲会不会偷偷让我......”老陈望着手机视频里女主，忍不住的惊叹道。可以关注微信公众号【叶子书楼】去回个书號【5】，即可免费阅读【娇妻迷雾】小说全文！王菲菲故作生气，嘟着小嘴，心里却不反感，因为老陈救过她，被一个自己不讨厌的人欣赏，反而有点淡淡得意。好你个老陈，亏我平时那么高看你，看来你跟其他男
《双语言》21.向着未来金之心
幸子朝门里窥视，然后走了进去。“我能做些什么？”她开始说。“发生了什么事？重要吗？”“重要吗？”希德·张伯伦激动得快要爆炸了。“看那个，幸子！我们阅读它！玛莎发现了如何阅读火星语！”他抓住梅尔队长挽着胳膊。“来吧，杰夫；走吧。我想给其他人打电话——”他匆忙离开房间时仍在胡言乱语。幸子看着碑文。“是真的吗？”她问，然后，玛莎还没来得及解释，就张开双臂抱紧她。“哦，真的是！你在读它！我太高兴了！”塞利
【回溯法】n皇后问题 C/C++ (附代码) haaaaaaarry 算法设计与分析 c语言 c++开发语言回溯法算法
问题描述在一个n*n的棋盘上放置彼此不受攻击的n个皇后，按照国际象棋规则，皇后可以攻击与其在同一行，同一列或者同一对角线的其他皇后，求合法摆放的方案数。问题分析通过递归和回溯的方法，逐行放置皇后，并在每一步检查当前位置是否安全。如果安全，则继续放置下一个皇后；如果不安全，则回溯到上一步，尝试其他位置。代码数据结构intx[]：存放解向量，即第i个皇后的位置intsum：记录解的个数#define_
java Script笔记
第一章,初始javascript1,javascript的基本概念JavaScript一种直译式脚本语言，一种基于对象和事件驱动并具有安全性的客户端脚本语言；也是一种广泛应用客户端web开发的脚本语言。简单地说，JavaScript是一种运行在浏览器中的解释型的编程语言。2,Javascript的特点解释性的脚本语言（代码不进行预编译）与其他脚本语言一样，JavaScript也是一种解释性语言，它
3.5增值税｜纳税人划分标准一缕雨露
一般规定:年应征增值税销售额500万元及以下为小规模纳税人，其余则为增值税一般纳税人。特殊规定:1、超过标准的其他个人按小规模纳税人纳税；2、超过标准但不经常发生应税行为的单位和个体工商户，以及非企业性单位、不经常发生应税行为的企业，可以选择按照小规模纳税人纳税。这条规定里面，不经常发生应税行为的单位指哪些单位呢？感觉这个分类有重合的纳税人，按说法律应该是很严密的，肯定不会出现这么低级的错误。即使
2022-09-08 d17210c81c28
Sfbt将赞美和重新建构合称为正向眼光重新建构是xsFTP，一个很重要的技巧与精神，重新建构指的是我们机遇事情，不会只有一个面向，从不同看待事情的眼光看到当事人的特质优点，动机，努力引导他看见事情的其他面向，进而拓展当事人的思考，引发不同的行动，重新建构的另外一个意义是我们了解孩子描述的事情并重新诠释后，赋予相同的时间不同，且正向的意义，看到了事件本身所带来的正面价值，进而形成新的解决方案或是行动
二维码在教学中的应用小尘老师
7月7日，阅读《现代极简教育技术》P174-180模块二主要是将二维码在教学中的灵活应用。二维码在生活中非常常见，大部分人看到都知道那是二维码。但真要问什么是二维码，应该有很多人跟我一样是有点懵的。没想到二维码背后还有这么多的知识。真的是长见识了。关于教师如何设计二维码，黎教授也分成5个小点教大家。主要是网页，PPT，word文件，图片音视频，其他二维码。黎教授介绍的方法中，草料二维码我用的是最多
C++ 固有的不可移植特性
为了支持底层编程，C++定义了一些固有的不可移植的特性，即因机器而异的特性，当将含有不可移植特性的程序从一台机器转移到另一台机器上时，通常需要重新编写该程序。1位域类可以将其非静态数据成员定义成位域，在一个位域中含有一定数量的二进制位。当一个程序需要向其他程序或硬件设备传递二进制数据时，通常会用到位域。位域在内存中的布局是与机器相关的且位域的类型必须是整型或枚举类型。typedefunsi
js 记录七 vscode+iis中文乱码 WMY10001 前端
1.其实就是html没有加2.其他配置的话，iis>.net全球化>文件utf-83.iis的localhost文件夹里的web.config,修改为：4.vscode右下角utf-85.点击vscode右下角utf-8，选择通过编码保存其实试了就第一条有效
守住初心，等待美丽——致我亲爱的CP盲目精彩玛鲁玛鲁
亲爱的精彩，不知不觉，草长莺飞的四月已经走到了最后。说好这个月我先给你写信的，结果我却耽误到了今天，都怪我。这个月，我没能每天追更你在的更文，其他的事情占据了太多的时间。心里觉得很抱歉，你为了鼓励我开的那个文，我却没能日日固定去看。知道我最近眼睛不好，常去医院检查、治疗、复查，你常常给我发来语音，让我躺着滴眼药的时候听，细心叮嘱我如果回复也用语音，叫我不要老看手机，注意休息。有时看到信息，回复你已
Apple设备双重认证-获取验证码 fb69e982796d
方式1.在新设备上登录appleid和密码登录，在其他信任的设备上会出现登录通知，轻点”允许“以接受验证码，在这台新设备上输入这个验证码登录即可方式2.若身边无可信任设备，点按登录屏幕上的”没有收到验证码吗“，选择将验证码发送到受信任的电话号码，apple将通过短信或者电话向您提供验证码。新设备输入此验证码以完成登录。方式3.从受信任设备上的“设置”获取验证码。如果无法在受信任设备上自动收到验证码
【C++特殊工具与技术】固有的不可移植的特性(3)::extern“C“
在软件开发中，混合编程是常见需求：C++调用C语言编写的底层库（如Linux系统调用）、C程序调用C++实现的算法模块，甚至C++与Ada、Fortran等其他语言交互。但不同语言在函数命名规则和调用约定上的差异，会导致链接阶段出现“无法解析的外部符号”错误。目录一、命名修饰与链接问题：CvsC++1.1C++的命名修饰机制1.2C语言的“无修饰”命名1.3链接失败的典型场景二、extern"C"
python 类实例_Python类的实例详解 weixin_39997173 python 类实例
类(class)是一个用户自定义类型，开发者可以将其实例化以获得实例（instance），实例表示这种类型的对象。在Python中，类就是对象，开发者可以像对其他对象那样处理函数，可以在调用函数时传递一个类作为参数，也可以返回一个类作为函数调用的结果。任何对象，即使是一个类对象，都有一个类型。在Python中，类型和类也都是第一类对象。类对象的类型也被称为该类的元类（metaclass）。对象的行
如何在 Windows 上安装 ONLYOFFICE 文档 v7.2 ONLYOFFICE
通过阅读本文，了解如何在Windows上安装ONLYOFFICE文档v7.2。引言使用社区版，您可以在本地服务器上安装ONLYOFFICE文档，并将在线编辑器与ONLYOFFICE协作平台或其他热门系统集成在一起。ONLYOFFICE文档是一个在线办公套件，包括文本文档、电子表格和演示文稿的查看器和编辑器，与包括.docx、.xlsx、.pptx在内的OfficeOpenXML格式完全兼容，并支持
2021-11-13 芷灵君
打卡时间：11月12日-11月13日打卡内容：1.“两个教学大纲”具体指什么？两个教学大纲指的是:1、必须学会并记住的材料；2、课外阅读以及其他知识来源。2.“两个教学大纲”，是如何发展学生的思维能力的？为了牢固地记住公式、规则、结论和其他的概括，学生应该阅读和思考许多无需记住的材料。阅读应和学习紧密联系。如果阅读加深了对事实、现象和事物的认识，而这些事实、现象和事物是保存在记忆中的概括的基础，那
画圈圈乐曦悦曦
图片发自App昨天睡了一天，今天上班依旧没有精神，像霜打的茄子，头痛人也发晕，午饭后趴在办公桌上睡着了，醒来精神好了一些，上三阶段后发现睡觉是我逃避现实的方式，也是自我疗愈的方式，睡饱醒来就会清晰一些。图片发自App晚上一个人静静独处时，想起中周末老A对我说的话，你在给同学们画圈圈，说我内心依然在拉扯着自己，像个边缘人，当时是不太理解的，意识到的只是把自己放在安全的位置上，其他的没有太多认识。有时
Objective-C实现2 个数字之间的算术几何平均值算法（附完整源码）源代码大师 objective-c 算法开发语言
Objective-C实现2个数字之间的算术几何平均值算法算术几何平均值（Arithmetic-GeometricMean，AGM）是一个在数值分析中非常重要的概念，尤其是在计算平方根和其他数学运算时。算术几何平均值是两个正数的算术平均值和几何平均值的迭代过程，直到两个值收敛为止。以下是一个用Objective-C实现的算术几何平均值算法的完整源码：#importdoublearithmeticG
2019.6.12 星之梦lyx
又是一个大热天，课间操散步继续，正所谓冬练三九夏练三伏，如果没有课间跑步，孩子们在室内待的时间太长，不能呼吸失败的新鲜空气，课间时间又长给老师的管理带来很大的麻烦，同样是跑步老师掌握好了节奏和时间不会出现其他问题。教育局领导，两次发来信息督促毕业班学生信息资料收集情况，并且对这项工作再次提出更高的要求说明追责的办法，此项工作难度很大，学校停掉某一老师的课，专门负责这项工作确保准确顺利。昨天对没有按
员村美食（二） fun麦兜
梁记猪红汤，在员村菜市场往上走，昌乐园小区入口处。一看菜单就可以看出，价格非常亲民，基本都是10元以下。图一是牛筋丸米粉，四颗牛肉丸，劲道有嚼劲，与潮汕牛肉丸无异。这个份量去到其他地方，至少10以上了。猪红汤也很好吃，4块钱就有一碗了。这家店开在小区内，平常顾客很多，大都是附近居民。图片发自App图片发自App图片发自App图片发自App
QT窗口（5）-对话框 Mr_Xuhhh qt java 数据库系统架构 c++开发语言 redis
QT窗口（5）-对话框基本概念用户与用户间实现短平快的操作Qt中使用QDialog类表示对话框和QWidget区别不大实际开发中，更多在代码中创建额外的类，让额外的类继承来自QDialog主窗口一般不会作为对话框，主窗口可以生成其他对话框代码如下：voidDialog::on_pushButton_clicked(){QDialog*dialog=newQDialog(this);dialog->
我怕的不是你沉迷iPad，我怕的是你失去遇见其他美好事物的机会一玫艾姐
“正如大小拾光的介绍所说，除了植物芳疗、花草艺术，偶尔我们也会有些其他类型的文章。这些内容的产出，我们跟着灵感走。我们只是觉得，日常的平凡，是最美好的。”晚饭后，得知贾同学连续几天白天在家没练琴，再一看他正手捧iPad玩游戏，我不由河东狮吼了起来。转念一想，还是要正面管教，我就先回房自我冷静。过不多时，贾同学主动来找我，说让我把iPad收起来，并且保证少玩游戏。说罢，他放下iPad，跑去弹琴。听着
UI 组件 | Button 测试开发小白变怪兽
最近在与其他自学CocosCreator的小伙伴们交流过程中，发现许多小伙伴对基础组件的应用并不是特别了解，自己在编写游戏的过程中也经常对某个属性或者方法的用法所困扰，而网上也没有比较清晰的用法讲解，所以准备对常用的UI组件常用用法进行一个总结，方便自己和其他小伙伴们查看，下面正文开始（注：属性介绍部分大部分内容我会取自官方文档）。Button（按钮）组件Button组件可以响应用户的点击操作，当
在 Ant Design Vue 中实现滚动页面时保持下拉菜单展开王旭晨 vue.js javascript 前端
引言在使用AntDesignVue的组件时，默认情况下，当用户滚动页面时，下拉菜单会自动关闭。这在某些场景下可能不够友好，例如在一个长表单中需要频繁切换选项时。本文将介绍如何通过配置和代码优化，实现滚动页面时保持下拉菜单展开的功能，同时不影响其他交互。问题分析为什么滚动页面会关闭下拉菜单？AntDesignVue的下拉组件（如）默认会监听页面的滚动事件。当滚动发生时，组件会认为用户意图离开当前操作
深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
2018-7-24 grace2039
一、学习与实践1.付出不亚于任何人的努力2.要谦虚，不要骄傲3.要每天反省4.活着，就要感谢5.积善行，思利他6.不要有感性的烦恼二、今日分享这几天财务部全体人员都在加班加点上传数据，因为系统不是很稳定，大家干一会儿后不得不陪着系统“休息”一下，听说昨天嵘姐在休息时一试系统可以操作了，于是自己马上抓紧录入，没顾得上通知其他人，过了一会儿被旁边的小伙伴发现后，大家都笑骂她吃独食，真是积极乐观的团队呀
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep