zhuo木鸟

2020 泰迪杯 C 题

2020 泰迪杯 C 题，含数据代码

思路
第一问
- 数据预处理
- - 二元语法
  - 词袋模型
分类模型
- 机器学习方法
- 多层感知器
- 模型
- 结果
第二问
- 数据预处理
- - 分词
  - 停用词过滤
  - 词袋模型
  - PCA 降维
- 热度挖掘
- - 话题——聚类
- 热点描述
第三问
- 答复相关性
- - 词向量
  - 相似度计算
- 答复完整性（代码没有实现）
代码和数据

返回目录

思路

具体思路请见：https://blog.csdn.net/weixin_42141390/article/details/106069244

返回目录

第一问

数据预处理

首先打开附件 2：

然后以留言详情为输入数据，以一级标签为输出标签，于是问题转换为一个文本分类的问题。因此，我们需要将非结构型文本数据转换为结构型文本数据（表格）；将文本标签（一级标签）转换为自然数，以表示类别，如下所示：

返回目录

二元语法

对于输入文本，首先用二元语法对文本进行拆分，如下所示：

返回目录

词袋模型

进行二元语法拆分后，我们需要进行特征提取，将上述文本结构转换为结构化数据。我们将上述所有的数据的取值作为表头，每一条数据，在某一列的取值为，其对应的二元字符，出现的频次。

如第 0 条数据，列 “3区” 的取值 1；列“尊敬” 的取值为 0。不过，在实际编程上，可定不能直接用一个表格表示，因为转换后的数据必然是极其稀疏的稀疏表格。并且，直接用中文字符来作为列名，也十分浪费存储空间。本人曾经试过，若转换为稀疏表格，则将占用 40 GB… 而我的小电脑才 8 GB 内存呀…

于是这里用稀疏矩阵的方式来存储，比如将第一行存储为：

[(0, 1),
 (1, 1),
 (2, 1),
 (3, 1),
...
 (90, 1),
 (91, 1),
 (92, 1)]

第二行存储为：

[(7, 1),
(26, 1),
(73, 1),
(77, 1),
(93, 1),
...
(163, 1),
(164, 1),
(165, 1)]

转换为稀疏矩阵后，由于输入特征的数量很多，容易造成维度灾难，所以需要采用一些过滤方法。这里采用卡方检测法：卡方检测法用于检测两个分布是否独立，我们可以遍历每一个输入特征，与标签做卡方检测，若证明独立，则可以排除掉当前特征。

这里设置卡方检测的显著水平为 0.001，原假设为当前输入特征与标签是独立的。可得，那些保留下来的特征共 30291 个。

最后的出来的数据集为，一个 9210X30291 的稀疏矩阵：

返回目录

分类模型

机器学习方法

根据“没有免费午餐定律”，我们首先从如下模型中筛选最佳模型：

算法	逻辑回归	k近邻算法	朴素贝叶斯分类器	支持向量机分类	决策树	随机森林	AdaBoost
符号	lg	knn	nb	svc	dtc	rf	ada

但在此之前，先结合交叉验证，网格寻优寻找最合适参数，参数网格和筛选结果如下：（其中随机森林的基函数为最大深度为 5 的决策树； AdaBoost 的基模型为逻辑回归模型）

然后，在根据 5 折交叉验证，计算最合适参数下，各模型的 F1 如下：

从各模型的 F1 的均值可以剔除决策树、随机森林和 kNN。剩下的模型差别均不大。但是，人们不能贸然地认为这些模型在效果上是等价的。因此，为了判断这些模型是否等价，还需要采用 T 检验的方法。我们对上述保留下来的模型进行两两 T 检验：（原假设为均值相等）

可见，这些模型都是等价的。但由于 AdaBoost 耗费资源最多，训练时长过长，运行时间过长，不建议选用。

个人觉得，除了 AdaBoost 之外，其他模型的性能如下表：

模型	占用空间	训练时长	运行时间
lg	***	**	**
svc	***	*	*
nb	*	**	***

* 越多越好

分别训练三个模型，并将数据集按 7:3 拆分为训练集、测试集，测出模型在训练集、测试集中的 F1 值如下所示：

返回目录

多层感知器

模型

因为我们将分类标签视为 0/1/2 等自然数，所以这里可将分类问题看成一个回归问题。（这也是一种解题思路吧，其实就是本人太懒了…）

当然，如果你想要按分类问题来做，那么利用深度学习的方法的话，你就必须进行 one-hot 编码了！

设置网络的拓扑结构如下：

训练算法为：Adam；评价指标为：均方误差（MSE）；损失函数也是均方误差。同时，对每一层隐藏层加上一个 dropout 率为 0.1 的 Dropout 正则化。

返回目录

结果

第二问

数据预处理

要从每一个群众的留言中，收集某一时间段内群众集中反映的问题，显然属于一个文本聚类的问题。如果将群众相似的留言聚成一簇，即可将簇视为某个集中问题。根据该簇包含的留言条数、支持和反对的总数，并考虑其热度随时间的衰减，即可估计该问题的热度。

为了提取出聚类簇中留言的问题描述，以及地点和人群。这里考虑使用关键语句提取算法，从而自动生成关键句，再从关键句中人工提取出地点和人群。籍此就可以降低直接从留言详情中，人工提取问题概述的工作量。

返回目录

分词

首先，我们用一个条件随机场来分词。当然，条件随机场是一个序列标注模型，属于机器学习的一部分。为了训练一个条件随机场的分词模型，我们用了开源的分词数据集 MSR，最后训练出以条件随机场分词模型。

以附件 3 的第一条为例，用条件随机场分词结果如下：

[座落, 在, A市, A, 3区联丰路米兰春天G2栋320, ，, 一家, 名, 叫, 一米, 阳光, 婚纱, 艺术, 摄影, 的, 影楼, ，, 据说, 年单, 这, 一个, 工作, 室, 营业额, 就, 上百万, ，, 因为, 地处, 居民, 楼, 内部, ，, 而且, 有, 蛮长, 的, 时间, 了, ，, 请, 税务局, 和, 工商局, 查, 一下, ，, 看看, 这个, 一米, 阳光, 有没有, 正常, 纳税, ！, 如果, 没有, ，, 应该, 会, 怎么, 操作, ！]

返回目录

停用词过滤

采用双向匹配法，运用 hanlp 自带的停用词字典，过滤掉那些没有意义的词和符号：


['座落', 'A市', 'A', '3区联丰路米兰春天G2栋320', '一家', '一米', '阳光', '婚纱', '艺术', '摄影', '影楼', '据说', '年单', '工作', '室', '营业额', '上百万', '地处', '居民', '楼', '内部', '蛮长', '时间', '请', '税务局', '工商局', '查', '看看', '一米', '阳光', '有没有', '正常', '纳税', '没有', '应该', '会', '操作']

返回目录

词袋模型

和第一问一样，我们依旧是用词的频次作为每一个特征的取值，以第一条为例，其值为：

{0: 1,
 1: 1,
 2: 1,
...
 32: 1,
 33: 1,
 34: 2}

第二条其值为：

{1: 3,
 2: 1,
 6: 1,
 15: 1,
 26: 1,
...
 76: 1,
 77: 2,
 78: 2}

词袋模型有很多，除了单纯地使用频次外，还有使用 TF-IDF 的，但是使用 TF-IDF，会破坏数据的稀疏性，从而导致无法处理，所以这里只能采用频次，但没关系，能够用就可以。

返回目录

PCA 降维

数据的特征个数，经过分词、停用词过滤、词袋模型之后，共有 42754 个。我们将其降低至 1000 个，同时计算其贡献和累计贡献，图如下：

返回目录

热度挖掘

本文定义：话题热度 = 话题留言数 + 点赞数 - 0.5 反对数；且热度随着时间的延迟而呈现指数下降。

话题——聚类

什么是话题？每条留言的背后都是一个话题，于是，肯定有些留言的话题是相似的，相同的。为了找出话题，我们可以采用聚类的方法。

注意：聚类并不能找出语义的相似，而是找出“表面”的相似，比如：
我是慢热的人 和 他是慢热的人 可能属于一类，但 我是慢热的人 和 我是内向的人 却不是同一类，即使后者语义更加相近，反应的更近似于同一个主题。
但是，为了让大家学习，我们这里采用聚类。在第三问，还有求相似度的。到了那里，我们再用其他方法好不？
其实这里主要是为了让大家学习啦。不然我第一问就用分词的方法了，何必再重复呢？希望大家能学到更多的东西，如果觉得这篇文章对你们有所帮助，请点赞咯~

如何聚类呢？这里采用 DBSCAN。

聚类结果如下：

{-1: 3629, 0: 3, 1: 2, 2: 227, 3: 2, 4: 3, 5: 2, 6: 2, 7: 2, 8: 2, 9: 2, 10: 3, 11: 2, 12: 2, 13: 2, 14: 2, 15: 3, 16: 4, 17: 2, 18: 2, 19: 2, 20: 2, 21: 2, 22: 2, 23: 3, 24: 3, 25: 3, 26: 3, 27: 2, 28: 2, 29: 2, 30: 2, 31: 2, 32: 2, 33: 2, 34: 2, 35: 3, 36: 2, 37: 2, 38: 2, 39: 2, 40: 2, 41: 4, 42: 2, 43: 3, 44: 3, 45: 2, 46: 3, 47: 5, 48: 3, 49: 3, 50: 2, 51: 2, 52: 2, 53: 2, 54: 2, 55: 2, 56: 3, 57: 3, 58: 3, 59: 2, 60: 4, 61: 2, 62: 2, 63: 2, 64: 2, 65: 2, 66: 2, 67: 2, 68: 3, 69: 4, 70: 2, 71: 2, 72: 2, 73: 2, 74: 2, 75: 2, 76: 2, 77: 3, 78: 4, 79: 2, 80: 2, 81: 2, 82: 2, 83: 2, 84: 3, 85: 2, 86: 2, 87: 2, 88: 2, 89: 2, 90: 2, 91: 2, 92: 3, 93: 2, 94: 2, 95: 2, 96: 2, 97: 2, 98: 2, 99: 2, 100: 2, 101: 2, 102: 2, 103: 2, 104: 2, 105: 2, 106: 2, 107: 2, 108: 2, 109: 3, 110: 2, 111: 2, 112: 2, 113: 2, 114: 2, 115: 2, 116: 2, 117: 2, 118: 2, 119: 2, 120: 2, 121: 2, 122: 2, 123: 2, 124: 2, 125: 2, 126: 2, 127: 2, 128: 2, 129: 3, 130: 2, 131: 2, 132: 2, 133: 2, 134: 2, 135: 2, 136: 2, 137: 2, 138: 2, 139: 2, 140: 2, 141: 4, 142: 2, 143: 2, 144: 2, 145: 2, 146: 2, 147: 2, 148: 3, 149: 3, 150: 2, 151: 3, 152: 2, 153: 2, 154: 2, 155: 2, 156: 2, 157: 2, 158: 2, 159: 2, 160: 5, 161: 2, 162: 2, 163: 2, 164: 2, 165: 2, 166: 3, 167: 2, 168: 2, 169: 2, 170: 3, 171: 2, 172: 2, 173: 2, 174: 2, 175: 2, 176: 2, 177: 2, 178: 2, 179: 2, 180: 2, 181: 2, 182: 2, 183: 2, 184: 3, 185: 2, 186: 2, 187: 2, 188: 2, 189: 2, 190: 2, 191: 2, 192: 2, 193: 2, 194: 2, 195: 2, 196: 2, 197: 2, 198: 2, 199: 2, 200: 2, 201: 2, 202: 3, 203: 4, 204: 2, 205: 2, 206: 2, 207: 2, 208: 2, 209: 2, 210: 2}

其中 -1 为游离个体。

我们把一个簇叫做一个话题。我们得出每一个话题的热点计算公式如下：

$\left\{\begin{array}{ll} y_{i}=10+Y-0.5 N+\Delta y_{i} & y_{i}>0 \\ 0 & y_{i} \leq 0 \end{array}\right.$
$\Delta y_i$ 为时间衰退。按一般观点，热度的衰退应该是呈现指数型的，所以我们将 $\Delta y_i$ 定义为如下格式：
$-\Delta y=a \exp (b \Delta t)-c$
那么定义上述的参数呢？观察数据可以发现，最近的留言时间为 T=2020-1-26 19:47:11；最远的留言时间为：2017-6-8 17:31:20，时间间隔为 962 天。

挖掘所有课题，发现 $10 + Y - 0.5 N$ 取值最大为 2107。因此，我们定义：经过 962 天后，热度应下降 2107。经过 $962 / 2$ 天后，关注度下降 $2107 / 16$ ，据此可列出方程为：
$\left\{\begin{array}{l} a \exp (0)-c=0 \\ a \exp \left(\frac{962}{2} b\right)-c=2107 / 16 \\ a \exp (962 b)-c=2107 \end{array}\right.$
于是热度下降函数为：
$-\Delta y=262.125 \exp (0.0023 \Delta t)-262.125$

可得热度结果如下：

最后得出前 10 热点问题的所有留言如下：

返回目录

热点描述

这里模仿 google 的 pagerank 算法提出一种 textrank 算法（前人做的）。对于 pagerank，我们将网页视为节点，节点的分数决定了其热度。设节点 $V_i$ 的分数为 $S(V_i)$ ，设节点 $V_i,V_j$ 存在有向边，则：

$S\left(V_{i}\right)=(1-d)+d \times \sum_{V_{j} \in \operatorname{In}\left(\mathrm{V}_{\mathrm{i}}\right)} \frac{1}{\left|\mathrm{Out}\left(\mathrm{V}_{\mathrm{j}}\right)\right|} S\left(V_{j}\right)$
$S (V)$ 的初始化为 1， $KaTeX parse error: Can't use function '\]' in math mode at position 9: d\in(0,1\̲]̲$ 是一个常数因子，模拟用户点击网页 $V_i$ 的概率。 $Out(V_j)$ 表示从 $V_j$ 出发链接到的节点的所有节点。

将 pagerank 推广到关键句识别中。以句子为节点，设每条句子两两都存在链接，并记 $d$ 为当前句子和其他所有句子之间的平均“间隔”，即处于中心的句子， $d$ 越大。

由于所有句子都存在链接，所以上述公式不能用了。

因此，这是因为 $Out(V_j)|$ 都相同。因此这里定义两条句子的相似度如下：
$\begin{array}{r} B M 25\left(V_{i}, V_{j}\right)=\sum_{k=1}^{n} I D F\left(\text { term }_{k}\right) \frac{T F\left(\operatorname{term}_{k}, V_{i}\right)(\alpha+1)}{T F\left(\operatorname{term}_{k}, V_{i}\right)+\alpha\left(1-\beta+\beta \frac{\left|V_{i}\right|}{D L}\right)} \end{array}$

其中 $\alpha, \beta=1$ ， $V_i|$ 为句子 $V_i$ 的单词量， $TF(term_k, V_i)$ 为单词 $term_k$ 在句子 $V_i$ 中的词频。 $D F$ 为所有句子构成的合成文档中，每一条句子的平均词量，IDF 为逆文本频率，计算公式如下：
$F\left(\text { term }_{k}\right)=\log \left(\frac{S}{D F+1}\right)$
这里的 $D F$ 为合成文档中，包含单词 $term_k$ 的句子数， $S$ 为合成文档中，句子的总数。于是，仿照 pagerank，可得句子的分数如下：

$\begin{array}{l} S\left(V_{i}\right)=(1-d)+ d \times \sum_{V_{j} \in \operatorname{In}\left(V_{\mathrm{i}}\right)} \frac{B M 25\left(V_{i}, V_{j}\right)}{\sum_{V_{k} \in \operatorname{Out}\left(\mathrm{V}_{\mathrm{j}}\right)} B M 25\left(V_{i}, V_{k}\right)} S\left(V_{j}\right) \end{array}$

我们将属于前 10 热度的，同一个话题的所有问题的详细描述，合成一个文档。之后，计算每一条句子的得分，最终找出得分最多的前三条句子作为关键句，即可得出问题描述。

对于时间范围，我们将同一话题的所有问题数据的时间，的最近、最远时间构成时间范围即可。

至于地点和人群…，自己找吧

返回目录

第三问

答复相关性

词向量

首先用关键句提取算法，从留言和答复中提取出三条关键句，之后比较这三条关键句的相关性即可。至于如何比较相关性，我们采用词向量的方法。

什么是词向量呢？词向量是一个单词的上下文。意义相似的词语，其上下文也是相似的。根据这一点，每个词语都存在一
个上下文词向量与之对应，使得统计模型能够根据该单词的词向量，预测到该单词。

上下文向量：

“第八届泰迪杯建模挑战赛” ，则单词 “建模”的 上下文向量为[第八届，泰迪杯，挑战，赛]。当然，所谓上下文向量也是有长度限制的。如果语料库太长，很显然将所有的单词作为上下文是不可行的。这是就需要定义一个窗口，使得以本单词为中心的，左右有限宽度的单词，才构成上下文向量。

one-hot 编码法：

使用 one-hot 编码法，可转换为

x =[[1, 0, 0, 0, 0]^T , [0, 1, 0, 0, 0]^T , [0, 0, 0, 1, 0]^T, [0, 0, 0, 0, 1]^T]

，并与单词 “建模”的 one-hot 编码

y = [0, 0, 1, 0, 0]^T

对应。

CBOW 模型 ：

上一小节我们知道，语料库每一个单词的 onehot 向量

y_i

，都对应一个或多个上下文向量

x_i

。因此，若以

x_i

为输入，以

y_i

为输出，就可以训练一个深度学习模型了，其中比较著名的就有 CBOW 模型。CBOW 模型实际上是一个三层的神经网络模型：

其中

x_i, i\in\{1, 2, · · · , C\}

为单词 one-hot 编码后的列向量，

C

取决于窗口的大小。设窗口大小为

m

, 则 C =

2 m

。矩阵

\in R^{n×|V }|

为 CBOW 网络的输入层到隐藏层的权重矩阵，

W^\prime \in R^{|V |×n}

为隐藏层到输出层的权重矩阵。其中

n

为隐藏层的节点数。

∣ V ∣

为语料库中单词“种”数。

W

的第

i

个列向量为语料库中第

i

个单词的输入词向量，记为

w_i

；类似地，

W^\prime

中第

j

个行向量为第

j

个单词的输出词向量，记为

w^\prime_j

。由于输入词向量离输入层近，所以在应用中，一般抛弃输出词向量，将 输入词向量作为单词的词向量模块使用。

因此，要求出每一个单词的词向量，求出 CBOW 模型的参数是关键。本质上，CBOW 模型也是一个机器学习模型。设 COW 模型的预测为 $\hat{y}$ ，定义损失函数如下：
$H(\hat{y},y)=-\sum_{j=1}^{|V|}y_i \log{\hat{y}}$
这里，我们还是使用 SHANG05 的开源语料库 MSR 作为训练集。训练出一个隐藏层节点为 100 的 CBOW 模型，从而得出每一个单词的词向量。

返回目录

相似度计算

首先对于留言和答复，分别提取出 5 条关键句。然后，计算这 5 vs 5 的两两句的最大相关性作为最终的相关性。

那么，如何计算两句的相关性呢？首先对句中的每一个词，他们的词向量取平均，从而得到一个稠密向量 $s_i$ ，对于另一句也一样，得出 $s_j$ ，然后计算两个向量夹角的余弦值，作为两句的相似度，如下所示：
$\cos \theta=\frac{\boldsymbol{s}_{i} \cdot \boldsymbol{s}_{j}}{\left|\boldsymbol{s}_{i}\right| \times | \boldsymbol{s}_{j} \mid}$

最后得出的结果如下：

返回目录

答复完整性（代码没有实现）

本人理解的答复完整性，指的是语句是否通顺（可能有些歧义，因此本人就不实现了）。但句子是否通顺，似乎也带有非常大的主观性。因此，本人采用一种类似于局部完整性的方法去评价，句子的通顺性，具体如下：

为了评价答复的完整性与可理解性，本文将以相邻两个汉字为单位，逐一扫描留言答复。并匹配当前扫面是否存在于二元语法字典¹中，从而判断留言的局部完整性，和可理解性。计算公式如下：
$C = 1-N_{no}/L$
其中 $N_{no}$ 为无法匹配的，句子中的二元对。 $L$ 为句子中二元对的数量。

代码和数据

（关注一下呗）代码和文档：https://gitee.com/zhuowoodbird/teddy_cup_C_2020

什么大佬好话就别说了，记得一键三连就可以了，咱们别做伸手党哈… 博主这厢有礼

很想写 2021 的泰迪杯 C 题，但怕呀… 所以希望这篇文章的解题代码和思路，能够为大家有一些参考作用吧

若果大家觉得这篇文章对大家有帮助，请不要吝啬您的点赞

这个字典 HanLP 有自带的 ↩︎

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
mysql禁用远程登录 igotyback mysql
去mysql库中的user表里，将host都改成localhost之后刷新权限FLUSHPRIVILEGES;
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
今日联对0306 诗图佳得
自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.1、试对肖老师联：烟销皓月临江浒，夜笼寒沙梦晚舟。耀哥求正2、试对萧老师联:烟销浩月临江浒，雾散乾坤解汉城。秀霞习作请各位老师校正3、自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.4、试对肖老师垫场联：烟销皓月临江浒，雾锁寒林缈葉丛。小智求正[抱拳]5、试对肖老师联：烟销皓月临江浒；风卷乱云入峰巅。一一五品6
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

2020 泰迪杯 C 题

2020 泰迪杯 C 题，含数据代码

思路

第一问

数据预处理

二元语法

词袋模型

分类模型

机器学习方法

多层感知器

模型

结果

第二问

数据预处理

分词

停用词过滤

词袋模型

PCA 降维

热度挖掘

话题——聚类

热点描述

第三问

答复相关性

词向量

相似度计算

答复完整性（代码没有实现）

代码和数据

你可能感兴趣的:(数据挖掘竞赛,2020泰迪杯,C题)