whale52hertz

消灭假新闻：使用Scikit-Learn检测虚假新闻

检测假新闻不是一项容易的任务，首先，要定义是什么是假新闻。你需要找到一个关于虚假新闻的定义，而且必须正确地对真实和虚假的新闻进行标签（希望在类似的话题上能表现出明显的区别）。

为了进一步了解这个问题，我推荐Miguel Martinez-Alvarez的文章“如何利用机器学习和AI解决虚假新闻问题”（链接地址为https://miguelmalvarez.com/2017/03/23/how-can-machine-learning-and-ai-help-solving-the-fake-news-problem/）”。

与此同时，我读了米格尔的文章，偶然发现了一个公开的数据科学的帖子用“贝叶斯模型构建一个成功的虚假新闻检测器”（链接地址为https://opendatascience.com/blog/how-to-build-a-fake-news-classification-model/），这个作者甚至创建了带有标记的真假新闻示例数据集的储存库。

在这篇文章中，你将看到我最初的一些探索，也可以看看自己是否可以创建一个成功的虚假新闻检测器。

数据探索

首先，你应该快速浏览数据并且对它的内容有一个大概的了解，使用Pandas数据框架并且检查形状、磁头和应用必要的转换。

提取训练数据

现在的数据框架看起来和需要的很接近，你需要去分离标签并设置训练和培训数据集。

对于该笔记本，我决定使用更长的文章文本，因为我将使用字袋和文档频率（TF-IDF）提取特性，这似乎是一个很好的选择。使用更长的文本有可能为假新闻数据提供明显的词汇和特性。

创建向量化程序分类器

现在已经有了自己的训练和测试数据集，你就可以创建自己的分类器。为了更好地了解文章中的单词和标记是否对新闻的真假有重大影响，首先要使用CountVectorizer和TfidfVectorizer。

这个示例对于使用max_df参数的TF-IDF向量化程序tfidf_vectorizer，将一个最大的阈值设置为.7。这删除了超过70%的文章中出现的单词。此外，内置的stop_words参数将在生成向量之前从数据中删除英语停用词。

有更多的参数可用，你可以在scikit- learn文档中阅读所有关于TfidfVectorizer和CountVectorizer的文档。

现在已经有了向量，你可以研究存储在count_vectorizer和tfidf_vectorizer中的向量特性。

在你所使用的数据集中，有很明显的注释、度量或其他无意义的词以及多语种文章。通常情况下，你需要花更多的时间来处理这个问题和消除噪声，但是本教程只是展示了一个概念的小证明，你将看到模型能否克服这些噪声并正确地分类。

小插曲:计数与TF-IDF特性

我很好奇我的计数和TF-IDF向量化程序是否提取了不同的标记。为了查看和比较特性，你可以将向量信息提取到数据框架以使用简单的Python比较。

通过运行下面的单元格，两个向量化程序都提取了相同的标记，显然这两个标记的权重不同。改变TF-IDF向量化程序的max_df和min_df可能会改变结果，使每个结果具有不同特性。

`1`	`count_df=` `pd.DataFrame(count_train.A, columns=count_vectorizer.get_feature_names())`

`1`	`tfidf_df=` `pd.DataFrame(tfidf_train.A, columns=tfidf_vectorizer.get_feature_names())`

`1`	`difference=` `set(count_df.columns)-` `set(tfidf_df.columns)`

`2`	`difference`

1 set()

`1`	`print(count_df.equals(tfidf_df))`

1 False

`1`	`count_df.head()`

	00	000	0000	00000031	000035	00006	0001	0001pt	000ft	000km	…	حلب	عربي	عن	لم	ما	محاولات	من	هذا	والمرضى	ยงade
0	0	0	0	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0	0	0
1	0	0	0	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0	0	0
2	0	0	0	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0	0	0
3	0	0	0	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0	0	0
4	0	0	0	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0	0	0

5行×56922列

`1`	`tfidf_df.head()`

00	000	0000	00000031	000035	00006	0001	0001pt	000ft	000km	…	حلب	عربي	عن	لم	ما	محاولات	من	هذا	والمرضى	ยงade
0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	…	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
1	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	…	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
2	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	…	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
3	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	…	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
4	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	…	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0

5行×56922列

比较模型

现在是时候训练和测试模型了。

将从NLP最喜欢的MultinomialNB开始。你可以使用它来比较TF-IDF和字袋。CountVectorizer的表现会更好。（有关多项式分布的更多阅读以及为什么最好使用整数，请查看UPenn统计学课程中的简洁说明）。

我个人觉得confusion matrices更容易比较和阅读，所以我使用scikit-learn文档来构建一些易于阅读的confusion matrices（谢谢开源！）。用confusion matrices显示主对角线上的正确标签（左上角到右下角）。其他单元格显示不正确的标签，通常称为假阳性或假阴性。

除了confusion matrices之外，scikit-learn有许多方法来可视化和比较模型。一种比较受欢迎的方式是使用“ROC”（链接地址为http://scikit-learn.org/stable/auto_examples/model_selection/plot_roc_crossval.html）曲线。在 “scikit-learn指标模块”（链接地址为http://www.atyun.com/wp-admin/post.php?post=5499&action=edit#sklearn-metrics-metrics）还有很多其他方法评估模型的可用性。

`01`	`def` `plot_confusion_matrix(cm, classes,`

`02`	`normalize=False,`

`03`	`title='Confusion matrix',`

`04`	`cmap=plt.cm.Blues):`

05 """

`06`	`See full source and example:`

`07`	`http://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html`

08

`09`	`This function prints and plots the confusion matrix.`

`10`	Normalization can be applied by setting `normalize=True`.

11 """

`12`	`plt.imshow(cm, interpolation='nearest', cmap=cmap)`

`13`	`plt.title(title)`

`14`	`plt.colorbar()`

`15`	`tick_marks=` `np.arange(len(classes))`

`16`	`plt.xticks(tick_marks, classes, rotation=45)`

`17`	`plt.yticks(tick_marks, classes)`

18

`19`	`if` `normalize:`

`20`	`cm=` `cm.astype('float')/` `cm.sum(axis=1)[:, np.newaxis]`

`21`	`print("Normalized confusion matrix")`

22 else:

`23`	`print('Confusion matrix, without normalization')`

24

`25`	`thresh=` `cm.max()/` `2.`

`26`	`for` `i, jin` `itertools.product(range(cm.shape[0]),range(cm.shape[1])):`

`27`	`plt.text(j, i, cm[i, j],`

`28`	`horizontalalignment="center",`

`29`	`color="white"` `if` `cm[i, j] > threshelse` `"black")`

30

`31`	`plt.tight_layout()`

`32`	`plt.ylabel('True label')`

`33`	`plt.xlabel('Predicted label')`

`1`	`clf=` `MultinomialNB()`

`1`	`clf.fit(tfidf_train, y_train)`

`2`	`pred=` `clf.predict(tfidf_test)`

`3`	`score=` `metrics.accuracy_score(y_test, pred)`

`4`	`print("accuracy: %0.3f"` `%` `score)`

`5`	`cm=` `metrics.confusion_matrix(y_test, pred, labels=['FAKE','REAL'])`

`6`	`plot_confusion_matrix(cm, classes=['FAKE','REAL'])`

`1`	`accuracy:` `0.857`

`2`	`Confusion matrix, without normalization`

`1`	`clf=` `MultinomialNB()`

`1`	`clf.fit(count_train, y_train)`

`2`	`pred=` `clf.predict(count_test)`

`3`	`score=` `metrics.accuracy_score(y_test, pred)`

`4`	`print("accuracy: %0.3f"` `%` `score)`

`5`	`cm=` `metrics.confusion_matrix(y_test, pred, labels=['FAKE','REAL'])`

`6`	`plot_confusion_matrix(cm, classes=['FAKE','REAL'])`

`1`	`accuracy:` `0.893`

`2`	`Confusion matrix, without normalization`

实际上，没有进行参数调整，计数向量训练集count_train就已经明显优于TF-IDF向量。

测试线性模型

关于线性模型如何与TF-IDF向量化程序协调工作，有很多非常好的报道(查看“word2vec”（链接地址为http://nadbordrozd.github.io/blog/2016/05/20/text-classification-with-word2vec/）的分类，scikit-learn文本分析中的SVM引用等等)。

所以应该使用SVM。

我最近看了“Victor Lavrenko”（链接地址为https://www.youtube.com/watch?v=4LINLfsq1yE&list=PLBv09BD7ez_4XyTO5MnDLV9N-s6kgXQy7）关于文本分类的讲座，他比较了被动攻击型分类器和文本分类的线性SVMs。我们将使用假新闻数据集测试这个方法(它有显著的速度优势和永久学习的劣势)。

`1`	`linear_clf=` `PassiveAggressiveClassifier(n_iter=50)`

`1`	`linear_clf.fit(tfidf_train, y_train)`

`2`	`pred=` `linear_clf.predict(tfidf_test)`

`3`	`score=` `metrics.accuracy_score(y_test, pred)`

`4`	`print("accuracy: %0.3f"` `%` `score)`

`5`	`cm=` `metrics.confusion_matrix(y_test, pred, labels=['FAKE','REAL'])`

`6`	`plot_confusion_matrix(cm, classes=['FAKE','REAL'])`

`1`	`accuracy:` `0.936`

`2`	`Confusion matrix, without normalization`

confusion matrix看起来有些不同，线性模型在真假新闻分类方面做得更好。测试是否可以通过调整alpha值以产生类似的结果。还可以通过网格搜索的参数调优来进行更详尽的搜索。

`1`	`clf=` `MultinomialNB(alpha=0.1)`

`1`	`last_score=` `0`

`2`	`for` `alphain` `np.arange(0,1,.1):`

`3`	`nb_classifier=` `MultinomialNB(alpha=alpha)`

`4`	`nb_classifier.fit(tfidf_train, y_train)`

`5`	`pred=` `nb_classifier.predict(tfidf_test)`

`6`	`score=` `metrics.accuracy_score(y_test, pred)`

`7`	`if` `score > last_score:`

`8`	`clf=` `nb_classifier`

`9`	`print("Alpha: {:.2f} Score: {:.5f}".format(alpha, score))`

`1`	`/Users/karlijnwillems/anaconda/envs/ipykernel_py3/lib/python3.6/site-packages/sklearn/naive_bayes.py:699: RuntimeWarning: divide by zero encounteredin` `log`

`2`	`self.feature_log_prob_=` `(np.log(smoothed_fc)-`

`01`	`Alpha:0.00` `Score:0.61502`

`02`	`Alpha:0.10` `Score:0.89766`

`03`	`Alpha:0.20` `Score:0.89383`

`04`	`Alpha:0.30` `Score:0.89000`

`05`	`Alpha:0.40` `Score:0.88570`

`06`	`Alpha:0.50` `Score:0.88427`

`07`	`Alpha:0.60` `Score:0.87470`

`08`	`Alpha:0.70` `Score:0.87040`

`09`	`Alpha:0.80` `Score:0.86609`

`10`	`Alpha:0.90` `Score:0.85892`

此时，在所有分类器上执行参数调优，或者看看其他一些“ scikit-learn Bayesian”（链接地址为http://www.atyun.com/wp-admin/post.php?post=5499&action=edit#multinomial-naive-bayes）分类器，可能会很有趣。还可以使用支持向量机(SVM)进行测试，以查看它是否优于被动攻击型分类器。

但我更好奇的是，被动攻击型的模型到底学到了什么。所以我们来看看如何反省。

反省模型

我们在数据集上的准确率达到了93%。

我对在特性上看到噪音数量的结果持谨慎态度。在StackOverflow上有一个非常有用的函数，可以用来寻找最能影响标签的向量。它只适用于二进制分类器(带有两个类的分类器)，但这对你来说是个好消息，因为你只有假或真的标签。

使用带有TF-IDF向量数据集(tfidf_vectorizer)的最好的执行分类器和被动攻击型分类器(linear_clf)，检查真假新闻的前30个向量:

`01`	`See: https://stackoverflow.com/a/26980472`

02

`03`	`Identify most important featuresif` `given a vectorizerand` `binary classifier.Set` `n to the number`

`04`	`of weighted features you would like to show. (Note: current implementation merely printsand` `doesnot`

`05`	`return` `top classes.)`

06 """

07

`08`	`class_labels=` `classifier.classes_`

`09`	`feature_names=` `vectorizer.get_feature_names()`

`10`	`topn_class1=` `sorted(zip(classifier.coef_[0], feature_names))[:n]`

`11`	`topn_class2=` `sorted(zip(classifier.coef_[0], feature_names))[-n:]`

12

`13`	`for` `coef, featin` `topn_class1:`

`14`	`print(class_labels[0], coef, feat)`

15

16 print()

17

`18`	`for` `coef, featin` `reversed(topn_class2):`

`19`	`print(class_labels[1], coef, feat)`

20

21

`22`	`most_informative_feature_for_binary_classification(tfidf_vectorizer, linear_clf, n=30)`

`01`	`FAKE-4.86382369883` `2016`

`02`	`FAKE-4.13847157932` `hillary`

`03`	`FAKE-3.98994974843` `october`

`04`	`FAKE-3.10552662226` `share`

`05`	`FAKE-2.99713810694` `november`

`06`	`FAKE-2.9150746075` `article`

`07`	`FAKE-2.54532100449` `print`

`08`	`FAKE-2.47115243995` `advertisement`

`09`	`FAKE-2.35915304509` `source`

`10`	`FAKE-2.31585837413` `email`

`11`	`FAKE-2.27985826579` `election`

`12`	`FAKE-2.2736680857` `oct`

`13`	`FAKE-2.25253568246` `war`

`14`	`FAKE-2.19663276969` `mosul`

`15`	`FAKE-2.17921304122` `podesta`

`16`	`FAKE-1.99361009573` `nov`

`17`	`FAKE-1.98662624907` `com`

`18`	`FAKE-1.9452527887` `establishment`

`19`	`FAKE-1.86869495684` `corporate`

`20`	`FAKE-1.84166664376` `wikileaks`

`21`	`FAKE-1.7936566878` `26`

`22`	`FAKE-1.75686475396` `donald`

`23`	`FAKE-1.74951154055` `snip`

`24`	`FAKE-1.73298170472` `mainstream`

`25`	`FAKE-1.71365596627` `uk`

`26`	`FAKE-1.70917804969` `ayotte`

`27`	`FAKE-1.70781651904` `entire`

`28`	`FAKE-1.68272667818` `jewish`

`29`	`FAKE-1.65334397724` `youtube`

`30`	`FAKE-1.6241703128` `pipeline`

31

`32`	`REAL4.78064061698` `said`

`33`	`REAL2.68703967567` `tuesday`

`34`	`REAL2.48309800829` `gop`

`35`	`REAL2.45710670245` `islamic`

`36`	`REAL2.44326123901` `says`

`37`	`REAL2.29424417889` `cruz`

`38`	`REAL2.29144842597` `marriage`

`39`	`REAL2.20500735471` `candidates`

`40`	`REAL2.19136552672` `conservative`

`41`	`REAL2.18030834903` `monday`

`42`	`REAL2.05688105375` `attacks`

`43`	`REAL2.03476457362` `rush`

`44`	`REAL1.9954523319` `continue`

`45`	`REAL1.97002430576` `friday`

`46`	`REAL1.95034103105` `convention`

`47`	`REAL1.94620720989` `sen`

`48`	`REAL1.91185661202` `jobs`

`49`	`REAL1.87501303774` `debate`

`50`	`REAL1.84059602241` `presumptive`

`51`	`REAL1.80111133252` `say`

`52`	`REAL1.80027216061` `sunday`

`53`	`REAL1.79650823765` `march`

`54`	`REAL1.79229792108` `paris`

`55`	`REAL1.74587899553` `security`

`56`	`REAL1.69585506276` `conservatives`

`57`	`REAL1.68860503431` `recounts`

`58`	`REAL1.67424302821` `deal`

`59`	`REAL1.67343398121` `campaign`

`60`	`REAL1.66148582079` `fox`

`61`	`REAL1.61425630518` `attack`

也可以用一种非常明显的方式来实现这一点，只需使用几行Python，将系数压缩到特性，并查看列表的顶部和底部。

`1`	`feature_names=` `tfidf_vectorizer.get_feature_names()`

`1`	`### Most real`

`2`	`sorted(zip(clf.coef_[0], feature_names), reverse=True)[:20]`

`01`	`[(-6.2573612147015822,'trump'),`

`02`	`(-6.4944530943126777,'said'),`

`03`	`(-6.6539784739838845,'clinton'),`

`04`	`(-7.0379446628670728,'obama'),`

`05`	`(-7.1465399833812278,'sanders'),`

`06`	`(-7.2153760086475112,'president'),`

`07`	`(-7.2665628057416169,'campaign'),`

`08`	`(-7.2875931446681514,'republican'),`

`09`	`(-7.3411184585990643,'state'),`

`10`	`(-7.3413571102479054,'cruz'),`

`11`	`(-7.3783124419854254,'party'),`

`12`	`(-7.4468806724578904,'new'),`

`13`	`(-7.4762888011545883,'people'),`

`14`	`(-7.547225599514773,'percent'),`

`15`	`(-7.5553074094582335,'bush'),`

`16`	`(-7.5801506339098932,'republicans'),`

`17`	`(-7.5855405012652435,'house'),`

`18`	`(-7.6344781725203141,'voters'),`

`19`	`(-7.6484824436952987,'rubio'),`

`20`	`(-7.6734836186463795,'states')]`

`1`	`### Most fake`

`2`	`sorted(zip(clf.coef_[0], feature_names))[:20]`

`01`	`[(-11.349866225220305,'0000'),`

`02`	`(-11.349866225220305,'000035'),`

`03`	`(-11.349866225220305,'0001'),`

`04`	`(-11.349866225220305,'0001pt'),`

`05`	`(-11.349866225220305,'000km'),`

`06`	`(-11.349866225220305,'0011'),`

`07`	`(-11.349866225220305,'006s'),`

`08`	`(-11.349866225220305,'007'),`

`09`	`(-11.349866225220305,'007s'),`

`10`	`(-11.349866225220305,'008s'),`

`11`	`(-11.349866225220305,'0099'),`

`12`	`(-11.349866225220305,'00am'),`

`13`	`(-11.349866225220305,'00p'),`

`14`	`(-11.349866225220305,'00pm'),`

`15`	`(-11.349866225220305,'014'),`

`16`	`(-11.349866225220305,'015'),`

`17`	`(-11.349866225220305,'018'),`

`18`	`(-11.349866225220305,'01am'),`

`19`	`(-11.349866225220305,'020'),`

`20`	`(-11.349866225220305,'023')]`

很明显，可能有一些词汇会显示出政治意图和来源的虚假特征(比如企业和机构)。

真正的新闻数据更频繁的使用动词“说”，可能是因为报纸和大多数新闻出版物的来源是直接引用(“德国总理安吉拉·默克尔说…”)。

从当前的分类器中提取完整的列表，并查看每个标记(或者比较分类器之间的标签)。

`1`	`tokens_with_weights=` `sorted(list(zip(feature_names, clf.coef_[0])))`

小插曲:HashingVectorizer

另一个用于文本分类的向量化程序是一个HashingVectorizer。虽然hashingvectorizer需要的内存更少并且运行更快(因为它们是稀疏的，并且使用散列而不是标记)，但它比反省更难。

可以试着将它的结果和其他向量化程序的结果对比一下。会发现它的性能非常好，比使用MultinomialNB的TF-IDF向量化程序的效果更好，但和使用被动攻击型线性算法的TF-IDF向量化程序不同。

`1`	`hash_vectorizer=` `HashingVectorizer(stop_words='english', non_negative=True)`

`2`	`hash_train=` `hash_vectorizer.fit_transform(X_train)`

`3`	`hash_test=` `hash_vectorizer.transform(X_test)`

`1`	`clf=` `MultinomialNB(alpha=.01)`

`1`	`clf.fit(hash_train, y_train)`

`2`	`pred=` `clf.predict(hash_test)`

`3`	`score=` `metrics.accuracy_score(y_test, pred)`

`4`	`print("accuracy: %0.3f"` `%` `score)`

`5`	`cm=` `metrics.confusion_matrix(y_test, pred, labels=['FAKE','REAL'])`

`6`	`plot_confusion_matrix(cm, classes=['FAKE','REAL'])`

`1`	`accuracy:` `0.902`

`2`	`Confusion matrix, without normalization`

`1`	`clf=` `PassiveAggressiveClassifier(n_iter=50)`

`1`	`clf.fit(hash_train, y_train)`

`2`	`pred=` `clf.predict(hash_test)`

`3`	`score=` `metrics.accuracy_score(y_test, pred)`

`4`	`print("accuracy: %0.3f"` `%` `score)`

`5`	`cm=` `metrics.confusion_matrix(y_test, pred, labels=['FAKE','REAL'])`

`6`	`plot_confusion_matrix(cm, classes=['FAKE','REAL'])`

`1`	`accuracy:` `0.921`

`2`	`Confusion matrix, without normalization`

结论

假新闻分类器实验没有完全成功。

但是确实可以用一个新的数据集，测试一些NLP分类模型，然后反省它们。

正如开始所预期的，用简单的词包或TF-IDF向量定义假新闻是一种过于简化的方法。特别是对于包含着各种标记的多语种检索数据集。记住:要一直反省模型。

本文转载自ATYUN人工智能信息平台，原文链接：消灭假新闻：使用Scikit-Learn检测虚假新闻

更多推荐

研究人员通过对人类听觉处理进行建模，以改进机器人的语音识别

谷歌开源PlaNet，一个通过图像了解世界的强化学习技术

无人机正在改变警方对911电话的回应方式

苹果聘请前微软高管Sam Jadallah来改进其智能家居业务

Facebook首席AI研究员：深度学习可能需要一种新的编程语言

欢迎关注ATYUN官方公众号,商务合作及内容投稿请联系邮箱:[email protected]

cv/dl/cl领域的实验室官网/牛人主页/技术论坛/比赛数据库/好玩的东西武溪嵌人计算机视觉
＃技术论坛１／ｍｉｔ的关于关于机器人的技术ｒｅｖｉｅｗhttps://www.technologyreview.com/c/robotics/２／valse视觉与学习青年学者讨论会http://valser.org/３／人工智能资讯平台／机器人／机器视觉http://www.ailab.cn/robot/Machine_vision/＃比赛１／ｐａｓｃａｌｖｏｃ含各种代码和数据库http://ww
cv/dl/cl领域的实验室官网/牛人主页/技术论坛/比赛数据库/好玩的东西默一鸣 CV ML
一（自己整理的）＃技术论坛１／ｍｉｔ的关于关于机器人的技术ｒｅｖｉｅｗhttps://www.technologyreview.com/c/robotics/２／valse视觉与学习青年学者讨论会http://valser.org/３／人工智能资讯平台／机器人／机器视觉http://www.ailab.cn/robot/Machine_vision/＃比赛１／ｐａｓｃａｌｖｏｃ含各种代码和数据库h
解决人工智能PCA算法输出不稳定的方案湾区人工智能 AI
微信公众号：湾区人工智能作者：Cottbuser会多国语言的海归一线人工智能工程师独立兼职运营关注可了解更多人工智能资讯。问题或建议，请公众号留言如果你觉得本文对你有帮助，欢迎点赞，转发，赞赏内容目录PCA算法不稳定的原因代码举例分析：解决方案：PCA算法不稳定的原因神经网络算法利用了随机性，比如初始化随机权重，因此用同样的数据训练同一个网络会得到不同的结果。神经网络特意用随机性来保证，能通过有效
人工智能会伤害人类吗？怎样控制他们？ weixin_34387468
欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~本文由人工智能资讯小编发表于云+社区专栏长文预警：在本文中，我们将训练一个在训练期间完全加密的神经网络（在未加密的数据上进行训练）。这将为神经网络带来两个有益的特性：首先，神经网络的智能可以受到更好的保护以免被他人盗取，消除了在不安全环境下训练的有价值的AI被其他智能盗取的风险；其次，网络可以只作加密的预测（这意味着在没有密钥的情况下，外界
【深度学习】亚马逊机器学习总监Alex Smola：深度学习触手可及，架构Gluon高中生就能用产业智能官
中国人工智能资讯智库社交主平台新智元主办的AIWORLD2017世界人工智能大会11月8日在北京国家会议中心举行，大会以“AI新万象，中国智能+”为主题，上百位AI领袖作了覆盖技术、学术和产业最前沿的报告和讨论，2000多名业内人士参会。新智元创始人兼CEO杨静在会上发布全球首个AI专家互动资讯平台“新智元V享圈”。全程回顾新智元AIWorld2017世界人工智能大会盛况：新华网图文回顾：http
【独家】智能产业学会携手天使实战学院举办“AI+医疗”产业私董会智能产业学会
图1：智能产业学会“AI+医疗”产业私董会现场2017年11月26日下午，智能产业学会携手天使实战学院、青年创造家社群、京北金融、三和系资本联合举办“AI+医疗产业私董会暨天使母基金座谈会”。步长制药董事长赵涛先生、人工智能资讯社交平台新智元创始人杨静女士、酷我音乐创始人雷鸣先生、英诺天使基金创始合伙人李竹先生、大三生创始人徐远重先生、智能产业学会执行总裁吴昊先生、京北投资合伙人桂曙光先生、副总裁
【一点想法】人工智能，是帮手还是魔鬼？花里胡哨的CC
昨晚参加樊登读书会线下聚会，我们看的是樊登老师和李开复博士一起聊李博士的新书《AI·未来》。听完之后，我们几个开始聊起了人工智能，有些朋友觉得人工智能是人类帮手，有些朋友，比如说我就陷入了对被AI支配、替代的恐慌当中。我本人坚信，人工智能在未来将会占据越来越重要的地位，因此最近几年我一直在尝试进入这个领域。在此撰文讲讲我了解的一些人工智能资讯，希望对大家有帮助。一、人工智能=人工智障？那些担心人类
人工智能会伤害人类吗？怎样控制他们？腾讯云加社区云计算加密机器学习深度学习人工智能
欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~本文由人工智能资讯小编发表于云+社区专栏长文预警：在本文中，我们将训练一个在训练期间完全加密的神经网络（在未加密的数据上进行训练）。这将为神经网络带来两个有益的特性：首先，神经网络的智能可以受到更好的保护以免被他人盗取，消除了在不安全环境下训练的有价值的AI被其他智能盗取的风险；其次，网络可以只作加密的预测（这意味着在没有密钥的情况下，外界
人工智能会伤害人类吗？怎样控制他们？ qcloudcommunity 腾讯云机器学习深度学习云计算安全神经网络
欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~本文由人工智能资讯小编发表于云+社区专栏长文预警：在本文中，我们将训练一个在训练期间完全加密的神经网络（在未加密的数据上进行训练）。这将为神经网络带来两个有益的特性：首先，神经网络的智能可以受到更好的保护以免被他人盗取，消除了在不安全环境下训练的有价值的AI被其他智能盗取的风险；其次，网络可以只作加密的预测（这意味着在没有密钥的情况下，外界
cv/dl/cl领域的实验室官网/牛人主页/技术论坛/比赛数据库/好玩的东西 yimingsilence
一（自己整理的）＃技术论坛１／ｍｉｔ的关于关于机器人的技术ｒｅｖｉｅｗhttps://www.technologyreview.com/c/robotics/２／valse视觉与学习青年学者讨论会http://valser.org/３／人工智能资讯平台／机器人／机器视觉http://www.ailab.cn/robot/Machine_vision/＃比赛１／ｐａｓｃａｌｖｏｃ含各种代码和数据库h
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他