三更灯火五更鸡

NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing...

~~因为不太会使用OpenCV、matlab工具，所以在找一些比较简单的工具。
.
.

一、NLP标注工具BRAT

BRAT是一个基于web的文本标注工具，主要用于对文本的结构化标注，用BRAT生成的标注结果能够把无结构化的原始文本结构化，供计算机处理。利用该工具可以方便的获得各项NLP任务需要的标注语料。以下是利用该工具进行命名实体识别任务的标注例子。
WeTest舆情团队在使用：http://wetest.qq.com/bee/
使用案例：http://blog.csdn.net/owengbs/article/details/49780225

.
.

二、VS标注工具——LabelImg

1、PyQt

用 PyQt 写的, 很轻量, Linux/macOS/Windows 全平台均可运行.
工具github网址：https://github.com/tzutalin/labelImg
知乎介绍网址：有图像标注工具推荐或者分享吗？

2、Vatic

参考：人工智能AI工具-视频标注工具vatic的搭建和使用
视频标注工具vatic，Vatic源自MIT的一个研究项目(Video Annotation Tool from Irvine, California)。输入一段视频，支持自动抽取成粒度合适的标注任务并在流程上支持接入亚马逊的众包平台Mechanical Turk。

网址：http://web.mit.edu/vondrick/vatic/

Vatic源自MIT的一个研究项目(Video Annotation Tool from Irvine, California)。输入一段视频，支持自动抽取成粒度合适的标注任务并在流程上支持接入亚马逊的众包平台Mechanical Turk。除此之外，其还有很多实用的特性：
1.简洁使用的GUI界面，支持多种快捷键操作
2.基于opencv的tracking，这样就可以抽样的标注，减少工作量
具体使用时，可以设定要标注的物体label，比如：水果，人，车，等等。然后指派任务给到众包平台（也可是自己的数据工程师）。现阶段支持的标注样式是框（box）。一个示例，下图标注了NBA直播比赛中的运动员

3、BBox-Label-Tool

4、图像标注VS2013项目

有人自己写了一个版本：
打框的代码(c++)我封装成了dll，下载地址：图像标注VS2013项目（我的环境是win7vs2013旗舰版，win8 win10好像不能运行）

别人封装的opencv动态库，现在修改为opencv2.4.10，64位，vs2013，按网上教程配置好opencv，资源地址：
图像标注EXE-2016-10-18
上面的代码好像忘写操作说明了，这里写一下：
（1）图片显示出来后，输入法切换到英文；
（2）在目标的左上角按下鼠标左键，拉一个包围框到目标右下角，然后键盘输入标签(一个字符)
（3）继续（2）操作，直到框完该张图片上的目标；
（4）按n进入下一张，esc退出。
注意：标签只能输入一个字符，你可以在生成的txt文件中替换成你实际的标签。
.

5、Yolo_mark

YOLO V2 准备数据的图形界面目标边界框标注工具 AlexeyAB/Yolo_mark
.

6、视频标注工具

CDVA（compact descriptor for video analysis），主要是基于CDVS中的紧凑视觉描述子来做视频分析，之前是紧凑视觉描述子主要应用在图像检索领域。需要制作新的数据集，对视频帧进行标注，所以根据网上一个博主的标注工具进行了一定的修改，实现的功能是在每一帧中将需要标注的区域用鼠标选取4个点，顺序是顺时针。因为四边形的范围更广，之前的一些人直接标注了矩形，但是在一些仿射变换中，往往矩形的定位效果不好，矩形定位应该比较适合于人脸定位和行人定位之中。
http://www.cnblogs.com/louyihang-loves-baiyan/p/4457462.html

.
.

三、Amazon’s Mechanical Turk 离线工作框架

一个开源的Amazon’s Mechanical Turk 离线工作框架，基于Django搭建的
github网址：https://github.com/hltcoe/turkle
.
.

四、用已训练来进行图像标注

《使用深度学习和Fisher向量进行图片标注》（paper）

主讲人Lior Wolf，特拉维夫大学的教员在一次伦敦深度学习会议上的一次公开演讲：
为了实现图像标注和搜索，他们最开始用CNNs将图片转换成向量，用Word2Vec将词语转换成向量。大部分研究工作都集中于如何将词语向量结合到语句向量之中，由此产生了基于Fisher向量的模型。一旦他们得到了语句向量，他们使用典型相关分析（CCA）将图片表示和语句表示投射到同一空间里，使图像和句子可以匹配，找到最近邻的部分。

参考自博客：2015伦敦深度学习峰会笔记：来自DeepMind、Clarifai等大神的分享
.

五、snape

人工数据集生成工具，来看一段有趣的独白：

Snape is primarily used for creating complex datasets that challenge
students and teach defense against the dark arts of machine learning.

专门是针对机器学习领域自动生成数据集。
安装：
Via Github

git clone https://github.com/mbernico/snape.git
cd snape
python setup.py install

来自：https://github.com/mbernico/snape

.
.

延伸一国内一些众包的数据标注服务商

1、敲宝网——众包

里面确实有一些图像分类、图像标注的任务。但是也不是很多。

2、小鱼儿网

我的技能时间交易平台小鱼儿网成立最晚，但却走了最具互联网思维的盈利之路，增值服务盈利，平台在整个过程交易中不收取费用，提供大数据分析，筛选服务者等增值服务，主动权完全交给用户，互联网时代，流量为王，用户为王，小鱼儿网的盈利模式无疑向这个宗旨贴近的，长期来看，这种盈利模式或许最聪明。

挺大的，但是没有看到有图像的任务。

3、威客-创意,一品威客网

中国最专业威客网站一品威客网借鉴了猪八戒盈利模式的短板，对用户划分普通用户和vip用户，对普通用户实行免费，对VIP用户收取会员费，在互联网时代，有效的笼络住了大批用户的心，不失为一种好的盈利模式。
国内最大的众包了吧，但是图像标识项目很少，商家也几乎没有看到..

4、数据堂

确确实实有数据标注，而且有文本、语音、图片采集项目。

5、百度众包

里面有很多任务与案例，文本、语音、图片都有。

6、阿里众包

图像采集任务？

7、荟萃公司——荟萃-荟集人力之萃

http://huicui.me/?from=singlemessage&isappinstalled=0
图片识别
可智能识别图片内容、属性、分类、是否涉黄等，支持单图多图多种形式。

语音转化
可替您将文字转成语音、文字转成方言（真人语音），识别语音、歌曲等。

视频识别
可以为您完成视频内容收集，字幕识别，视频内容鉴定等内容。

视频创作
为您拍摄或收集某一主题的视频，以小视频形式上传。

网页展示任务
可自定义任意网页在用户端展示时间，如新品推广、广告观看等类型。

自定义任务
抢票？秒杀？联系上下文？只要你脑洞够大，任意H5网页类任务皆可接入。

8、地平线公司
http://www.horizon-robotics.com/index_cn.html

地平线具有世界领先的深度学习和决策推理算法开发能力，将算法集成在高性能、低功耗、低成本的嵌入式人工智能处理器及软硬件平台上。地平线目前提供基于ARM/FPGA等处理器的解决方案，同时开发自主设计研发的Brain Processing Unit (BPU) — 一种创新的嵌入式人工智能处理器架构IP，提供设备端上完整开放的嵌入式人工智能解决方案。

公司核心业务面向智能驾驶和智能生活等应用场景，目前已成功推出了面向智能驾驶应用的“雨果”平台及面向智能生活的“安徒生”平台，与国内国际顶尖的汽车Tier 1、OEMs及家电厂商展开了深入的合作，并在成立仅一年多的时间内成功推出量产产品。地平线也正积极搭建开放的嵌入式人工智能产业生态，与产业上下游共同合作发展。

2017年1月6日，地平线与英特尔于CES联合发布了基于单目摄像头和FPGA的最新ADAS系统，可实现在高速公路和市区道路场景下，同时对行人、车辆、车道线和可行驶区域的实时检测和识别。2016年8月1日，地平线与美的联合发布了“智能王”柜机空调，拥有手势控制、智能送风、智能安防三大新功能。

.
.

六、图像数据集

一部分来源：深度学习视觉领域常用数据集汇总

1、LSUN：用于场景理解和多任务辅助（房间布局估计，显着性预测等）。

地址：http://lsun.cs.princeton.edu/2016/

2、行人检测DataSets

（1）.基于背景建模：利用背景建模方法，提取出前景运动的目标，在目标区域内进行特征提取，然后利用分类器进行分类，判断是否包含行人；
（2）.基于统计学习的方法：这也是目前行人检测最常用的方法，根据大量的样本构建行人检测分类器。提取的特征主要有目标的灰度、边缘、纹理、颜色、梯度直方图等信息。分类器主要包括神经网络、SVM、adaboost以及现在被计算机视觉视为宠儿的深度学习。

Caltech行人数据库：http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

该数据库是目前规模较大的行人数据库，采用车载摄像头拍摄，约10个小时左右，视频的分辨率为640×480，30帧/秒。标注了约250,000帧（约137分钟），350000个矩形框，2300个行人，另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。数据集分为set00~set10，其中set00~set05为训练集，set06~set10为测试集（标注信息尚未公开）。性能评估方法有以下三种：（1）用外部数据进行训练，在set06~set10进行测试；（2）6-fold交叉验证，选择其中的5个做训练，另外一个做测试，调整参数，最后给出训练集上的性能；（3）用set00~set05训练，set06~set10做测试。由于测试集的标注信息没有公开，需要提交给Pitor Dollar。结果提交方法为每30帧做一个测试，将结果保存在txt文档中（文件的命名方式为I00029.txt I00059.txt ……），每个txt文件中的每行表示检测到一个行人，格式为“[left, top,width, height, score]”。如果没有检测到任何行人，则txt文档为空。该数据库还提供了相应的Matlab工具包，包括视频标注信息的读取、画ROC（Receiver Operatingcharacteristic Curve）曲线图和非极大值抑制等工具。

其他数据集可参考：行人检测：http://www.52ml.net/17004.html

3、人脸数据库UMDFaces等

（1）UMDFaces
http://www.umdfaces.io/
不仅有人脸的目标检测数据，还有关键点的数据，非常适合做训练。
就是比较大，总共有三个文件，一共8000+个类别，总共36W张人脸图片，全都是经过标注的样本，标注信息保存在csv文件中，除了人脸的box，还有人脸特征点的方位信息，强力推荐！

（2）人脸识别数据库
1. 李子青组的 CASIA-WebFace(50万，1万个人). 需申请.Center for Biometrics and Security Research
2. 华盛顿大学百万人脸MegaFace数据集. 邮件申请, 是一个60G的压缩文件. MegaFace
3. 南洋理工 WLFDB. (70万+,6,025). 需申请. WLFDB : Weakly Labeled Faces Database
4. 微软的MSRA-CFW ( 202792 张, 1583人). 可以直接通过OneDrive下载.MSRA-CFW: Data Set of Celebrity Faces on the Web
5. 汤晓欧实验室的CelebA(20万+), 标注信息丰富. 现在可以直接从百度网盘下载 Large-scale CelebFaces Attributes (CelebA) Dataset
6. FaceScrub. 提供图片下载链接（100,100张，530人）. vintage – resources

作者：疾如风
链接：https://www.zhihu.com/question/33505655/answer/67492825
来源：知乎

4、搜狗实验室数据集：

http://www.sogou.com/labs/dl/p.html

互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别，总数高达2,836,535张图片。对于每张图片，数据集中给出了图片的原图、缩略图、所在网页以及所在网页中的相关文本。200多G

格式说明：
共包括三个文件：Meta_Data,Original_Pic,Evaluation_Data。其中Meta_Data存储图片的相关元数据；Original_Pic中存储图片的原图；Evaluation_Data是识图搜索结果的人工标注集合。
Meta_Data文件包含所有图片的相关元数据，格式如下：
<PIC>
<PIC_URL>图片在互联网中的URL地址PIC_URL>
<PAGE_URL>图片所在网页的URL地址PAGE_URL>
<ALT_TEXT>图片的替换文字ALT_TEXT>
<ANCHOR_TEXT>以图片为目标的超链接的显示文本ANCHOR_TEXT>
<SUR_TEXT1>页面中提取的图片上方的文本SUR_TEXT1>
<SUR_TEXT2>页面中提取的图片下方的文本SUR_TEXT2>
<PAGE_TITLE>图片所在网页的标题PAGE_TITLE>
<CONTENT_TITLE>图片所在网页的正文标题CONTENT_TITLE>
<WIDTH>图片的宽度WIDTH>
<HEIGHT>图片的高度HEIGHT>
<ORIGINAL_PIC_NAME>图片在Original_Pic下的文件名ORIGINAL_PIC_NAME>
PIC>

图片原图存储在Original_Pic文件中，每个图片二进制数据保存成一个单独文件，文件名在Meta_Data的元信息中指明。

Evaluation_Data文件包含所有图片的相关元数据，格式如下：
<PIC>
<QUERY_URL>查询图片在互联网中的URL地址QUERY_URL>
<RESULT_URL>搜索结果的 PIC_URL，多个分号隔开RESULT_URL>
PIC>

5、Imagenet数据集

业界标杆
Imagenet数据集有1400多万幅图片，涵盖2万多个类别；其中有超过百万的图片有明确的类别标注和图像中物体位置的标注，具体信息如下：

1）Total number of non-empty synsets: 21841

2）Total number of images: 14,197,122

3）Number of images with bounding box annotations: 1,034,908

4）Number of synsets with SIFT features: 1000

5）Number of images with SIFT features: 1.2 million

Imagenet数据集是目前深度学习图像领域应用得非常多的一个领域，关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集文档详细，有专门的团队维护，使用非常方便，在计算机视觉领域研究论文中应用非常广，几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。

与Imagenet数据集对应的有一个享誉全球的“ImageNet国际计算机视觉挑战赛(ILSVRC)”，以往一般是google、MSRA等大公司夺得冠军，今年（2016）ILSVRC2016中国团队包揽全部项目的冠军。

Imagenet数据集是一个非常优秀的数据集，但是标注难免会有错误，几乎每年都会对错误的数据进行修正或是删除，建议下载最新数据集并关注数据集更新。

数据集大小：~1TB（ILSVRC2016比赛全部数据）

下载地址：

http://www.image-net.org/about-stats

6、COCO数据集

COCO数据集由微软赞助，其对于图像的标注信息不仅有类别、位置信息，还有对图像的语义文本描述，COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展，也几乎成为了图像语义理解算法性能评价的“标准”数据集。

Google开源的开源了图说生成模型show and tell就是在此数据集上测试的，想玩的可以下下来试试哈。

数据集大小：~40GB

下载地址：http://mscoco.org/

COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集，它有如下特点：

1）Object segmentation

2）Recognition in Context

3）Multiple objects per image

4）More than 300,000 images

5）More than 2 Million instances

6）80 object categories

7）5 captions per image

8）Keypoints on 100,000 people

7、PASCAL VOC

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录：人类；动物（鸟、猫、牛、狗、马、羊）；交通工具（飞机、自行车、船、公共汽车、小轿车、摩托车、火车）；室内（瓶子、椅子、餐桌、盆栽植物、沙发、电视）。PASCAL VOC挑战赛在2012年后便不再举办，但其数据集图像质量好，标注完备，非常适合用来测试算法性能。

数据集大小：~2GB

下载地址：

http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

8、Open Image

过去几年机器学习的发展使得计算机视觉有了快速的进步，系统能够自动描述图片，对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO这样的数据集的公开使用。谷歌作为一家伟大的公司，自然也要做出些表示，于是乎就有了Open Image。

Open Image是一个包含~900万张图像URL的数据集，里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet（1000类）包含更真实生活的实体存在，它足够让我们从头开始训练深度神经网络。

谷歌出品，必属精品！唯一不足的可能就是它只是提供图片URL，使用起来可能不如直接提供图片方便。

此数据集，笔者也未使用过，不过google出的东西质量应该还是有保障的。

数据集大小：~1.5GB（不包括图片）

下载地址：

https://github.com/openimages/dataset

9、Youtube-8M

Youtube-8M为谷歌开源的视频数据集，视频来自youtube，共计8百万个视频，总时长50万小时，4800类。为了保证标签视频数据库的稳定性和质量，谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库，谷歌对视频进行了预处理，并提取了帧级别的特征，提取的特征被压缩到可以放到一个硬盘中（小于1.5T）。

此数据集的下载提供下载脚本，由于国内网络的特殊原因，下载此数据经常断掉，不过还好下载脚本有续传功能，过一会儿重新连接就能再连上。可以写一个脚本检测到下载中断后就sleep一段时间然后再重新请求下载，这样就不用一直守着了。（截至发文，断断续续的下载，笔者表示还没下完呢……）

数据集大小：~1.5TB

下载地址：https://research.google.com/youtube8m/

10、深度学习数据集收集网站

http://deeplearning.net/datasets/**

收集大量的各深度学习相关的数据集，但并不是所有开源的数据集都能在上面找到相关信息。

11、CoPhIR

http://cophir.isti.cnr.it/whatis.html

雅虎发布的超大Flickr数据集，包含1亿多张图片。

12、MirFlickr1M

http://press.liacs.nl/mirflickr/

Flickr数据集中挑选出的100万图像集。

13、SBU captioned photo dataset

http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/

Flickr的一个子集，包含100万的图像集。

14、NUS-WIDE

http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm

Flickr中的27万的图像集。

15、MSRA-MM

http://research.microsoft.com/en-us/projects/msrammdata/

包含100万的图像，23000视频；微软亚洲研究院出品，质量应该有保障。
.

16、多物体+关系数据库：HICO & HICO-DET

HICO has images containing multiple objects and these objects have been tagged along with their relationships. The proposed problem is for algorithms to be able to dig out objects in an image and relationship between them after being trained on this dataset. I expect multiple papers to come out of this dataset in future.

.

17、QA型图像数据库：CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

CLEVR is an attempt by Fei-Fei Li’s group, the same scientist who developed the revolutionary ImageNet dataset. It has objects and questions asked about those objects along with their answers specified by humans. The aim of the project is to develop machines with common sense about what they see. So for example, the machine should be able to find “an odd one out” in an image automatically. You can download the dataset here.

.

18、Driver Speed Dataset

A 200 Gb huge dataset, which is aimed to calculate speed of moving vehicles. Can be downloaded here.

七、“稀有”实验室

1、生物识别与安全技术研究中心

CASIA行为分析数据库共有1446条视频数据，是由室外环境下分布在三个不同视角的摄像机拍摄而成，为行为分析提供实验数据。数据分为单人行为和多人交互行为，单人行为包括走、跑、弯腰走、跳、下蹲、晕倒、徘徊和砸车，每类行为有24人参与拍摄，每人4次左右。多人交互行为有抢劫、打斗、尾随、赶上、碰头、会合和超越，每两人1次或2次。

来源：http://www.cbsr.ia.ac.cn/china/Action%20Databases%20CH.asp

该实验室拥有的数据库：虹膜数据库，步态数据库，人脸数据库，指纹数据库，掌纹数据库，笔迹数据库，行为分析数据库
该实验室研究成果：
近红外的人脸身份识别技术和系统，中远距离人脸识别系统，人脸检测与跟踪，多目标遮挡跟踪，目标检测、跟踪与分类，异常动作检测，人异常行为检测与报警，交通车辆计数演示，主从摄像机跟踪，
多摄像机数据融合（全景监控地图），交通拥堵检测与报警，车辆异常行为检测与报警，夜间跟踪演示，动态场景下的主动跟踪，视频图像序列拼接，人数统计，视频浓缩

2、中文语言资源联盟
中文语言资源联盟，英文译名Chinese Linguistic Data Consortium，缩写为CLDC。 CLDC是由中国中文信息学会语言资源建设和管理工作委员会发起，由中文语言（包括文本、语音、文字等）资源建设和管理领域的科技工作者自愿组成的学术性、公益性、非盈利性的社会团体，其宗旨是团结中文语言资源建设领域的广大科技工作者，建成代表中文信息处理国际水平的、通用的中文语言语音资源库。

当然，里面的内容都是收费的，而且不便宜，不过毕竟是好东西~

3、中科院自动化研究所模式识别国家重点实验室

4、北邮模式识别实验室
http://www.pris.net.cn/

图像识别方向的技术有：
高清车牌及车标识别技术、不良图片过滤、图片检索技术

5、中国科学技术大学，图像处理实验室
http://image.ustc.edu.cn/project.html
国家自然基金重点项目：高分辨率SAR图像目标认知模型及高效算法
国家自然科学基金项目：星上原始超光谱图像稀疏编码压缩技术研究
973课题：稀疏微波成像数据压缩及特征理解
果然有钱！！

6、国内高校开源镜像站友情链接
清华大学开源镜像站
http://mirror.tuna.tsinghua.edu.cn/
中国科学技术大学开源镜像站
http://mirrors.ustc.edu.cn
北京交通大学开源镜像站
http://mirror.bjtu.edu.cn/cn/
兰州大学开源镜像站
http://mirror.lzu.edu.cn/
厦门大学开源镜像站
http://mirrors.xmu.edu.cn/
上海交通大学开源镜像站
http://ftp.sjtu.edu.cn/
东软信息学院开源镜像站
http://mirrors.neusoft.edu.cn/

7、网页版呈现各类模型的实现

https://github.com/hwalsuklee/awesome-deep-vision-web-demo

.

八、中文文本语料库

可参考：【语料库】语料库资源汇总
NLP常用信息资源：https://github.com/memect/hao/blob/master/awesome/nlp.md
FudanNLP (FNLP)（FNLP主要是为中文自然语言处理而开发的工具包，也包含为实现这些任务的机器学习算法和数据集。）：https://github.com/FudanNLP/fnlp

(一) 国家语委

1国家语委现代汉语语料库http://www.cncorpus.org/

现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快，功能更强，同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字，为分词和词性标注语料。

2古代汉语语料库http://www.cncorpus.org/login.aspx

网站现在还增加了一亿字的古代汉语生语料，研究古代汉语的也可以去查询和下载。同时，还提供了分词、词性标注软件、词频统计、字频统计软件，基于国家语委语料库的字频词频统计结果和发布的词表等，以供学习研究语言文字的老师同学使用。

(二) 北京大学计算语言学研究所

1《人民日报》标注语料库http://www.icl.pku.edu.cn/icl_res/

《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布，供自由下载。

(三) 北京语言大学

汉语国际教育技术研发中心：HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp

语言研究所：北京口语语料查询系统（B J K Y）http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

还有很多，可参考：【语料库】语料库资源汇总

百度开源的中文问答语料：

WebQA: A Chinese Open-Domain Factoid Question Answering Dataset
发布的文件有267MB，但对于我们来说，里边的东西貌似有点过多了，因为里边包含了分词结果、序列标注结果、词向量结果，貌似是内部研究小组直接用来做的实验。对于我们来说，显然只需要纯粹的问答语料就行了。
相关介绍可见：百度的中文问答数据集WebQA

微博终结者爬虫

这个项目致力于对抗微博的反爬虫机制，集合众人的力量把微博成千上万的微博评论语料爬取下来并制作成一个开源的高质量中文对话语料，推动中文对话系统的研发。
github：https://github.com/jinfagang/weibo_terminater

你可能感兴趣的:(深度学习)

Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介
项目使用到MLIR，通过了解triton对MLIR的使用，体会到MLIR在较大项目中的使用方式，汇总一下。1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码，又不必过度关注底层硬件细节。这样，通过简化高性能计算，可以加速新算法的实现和实验。传统GPU
ai绘画生成软件哪个好？几款好用的AI绘画软件分享! 呼酱小宝箱
随着人工智能技术的不断发展，越来越多的AI绘画生成软件被开发出来。这些软件利用深度学习技术，可以将普通照片或图像转化成具备艺术效果的画作。那么，ai绘画生成软件哪个好？首先，让我们来看一下几个常见的AI绘画生成软件，它们分别是：1、DeepDreamDeepDream是由Google开发的一款AI绘画生成软件。它通过卷积神经网络对输入的图片进行处理，从而生成出具有艺术风格的画作。DeepDream
DeepSeek部署指南：从入门到精通 wujj_whut 热门应用 c++DeepSeek 嵌入式实时数据库
DeepSeek部署指南：从入门到精通引言在人工智能和深度学习领域，模型的部署是一个至关重要的环节。DeepSeek作为一款强大的深度学习框架，其部署过程不仅关系到模型的性能表现，还直接影响到实际应用的效果。本文将详细介绍DeepSeek的部署流程，涵盖从环境配置到实际应用的各个方面，旨在帮助读者全面掌握DeepSeek的部署技巧。一、DeepSeek简介DeepSeek是一款开源的深度学习框架，
【人工智能之深度学习】1. 深度学习基石：神经元模型与感知机的数学本质（附代码实现与收敛性证明） AI_DL_CODE 人工智能之深度学习人工智能深度学习神经元模型感知机赫布法则深度学习基础线性可分
摘要：作为深度学习的基础单元，神经元模型与感知机承载着从生物智能到人工神经网络的桥梁作用。本文从生物神经元的工作机制出发，系统剖析数学建模过程：详解赫布法则的权重更新原理（Δwi=η·xi·y），推导McCulloch-Pitts神经元模型的数学表达（y=Θ(∑wixi−b)），重点证明感知机在linear可分情况下的收敛性——通过Novikoff定理严格推导迭代次数上界，揭示间隔γ对收敛速度的影
深度学习在环境感知中的应用：案例与代码实现
让机器学会“看”世界：深度学习如何赋能环境感知？关键词深度学习|环境感知|计算机视觉|传感器融合|语义分割|目标检测|自动驾驶摘要环境感知是机器与外界互动的“眼睛和耳朵”——从自动驾驶汽车识别行人，到智能机器人避开障碍物，再到城市监控系统检测异常，所有智能系统都需要先“理解”环境，才能做出决策。传统环境感知方法依赖手工特征提取，难以应对复杂场景；而深度学习通过数据驱动的方式，让机器从大量数据中自动
自编码器表征学习：重构误差与隐空间拓扑结构的深度解析码字的字节机器学习自编码器重构误差隐空间
自编码器基础与工作原理自编码器（Autoencoder）作为深度学习领域的重要无监督学习模型，其核心思想是通过模拟人类认知过程中的"压缩-解压"机制实现数据的表征学习。这种由GeoffreyHinton团队在2006年复兴的神经网络结构，本质上是一个试图通过编码-解码过程来复制其输入的系统，却在实现这一看似简单目标的过程中，意外地获得了强大的特征提取能力。基本架构与工作流程典型自编码器由对称的两部
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
深度学习--利用梯度下降法进行多变量的二分类（感知机）白话学生nit 深度学习分类人工智能
其实这一节涉及到了感知机的相关知识，就把这一节当作是学习感知机的引子吧。什么是二分类我们先来说一下什么是二分类，二分类指的是将结果分为两个互斥的类别，通常用来表示问题的两种可能。为什么用感知机学习二分类常见的解决问题的模型有很多，这里我们使用感知机模型。至于为什么，因为感知机模型很多地方用起来比较简便，就拿我们这一节的问题举一下例子，我们需要依照房子的价格对房子进行分类。在感知机模型中，我们可以使
智能喷洒机器人目标识别系统：基于NanoDet的目标检测与UI界面实现 YOLO实战营机器人目标检测 ui NanoDet 计算机视觉目标跟踪深度学习
在现代农业生产中，自动化喷洒系统是实现精准农业的重要组成部分。智能喷洒机器人通过图像识别和自动控制技术，能够高效识别并精确喷洒农药、肥料等，提高农业生产效率，降低化学品使用量，减少环境污染。目标识别是智能喷洒机器人中至关重要的部分，它涉及到精准的作物和病虫害识别，确保喷洒操作的准确性。在本篇博客中，我们将构建一个基于NanoDet深度学习目标检测模型的智能喷洒机器人目标识别系统。我们将介绍如何使用
对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
【深度学习新浪潮】什么是system 1和system 2？小米玄戒Andrew 深度学习新浪潮深度学习人工智能大模型推理模型 COT 模型蒸馏动态推理
在大模型研究中，System1和System2的概念源于心理学家DanielKahneman的双系统理论，用于描述人类思维的两种模式。System1代表快速、直觉、自动化的思维（如模式识别），而System2代表慢速、有意识、需要努力的逻辑推理（如复杂数学计算）。这一理论被引入AI领域后，成为理解大模型能力边界和优化方向的重要框架。一、大模型中的System1与System2的定义System1（
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
深度学习分布式训练：并行策略与通信机制的系统性分析 Takoony 深度学习分布式人工智能
1.引言随着深度学习模型规模的指数级增长，单一计算设备已无法满足训练需求。以GPT-3为例，其1750亿参数在FP16精度下需要约350GB存储空间（每个参数2字节），远超当前主流GPU的显存容量（如NVIDIAA100的80GB）。根据OpenAI的技术报告[1]，即使使用最先进的硬件，单卡训练GPT-3需要355年。这一计算瓶颈催生了分布式训练技术的快速发展。本文将从理论基础出发，系统性地分析
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing...

一、NLP标注工具BRAT

二、VS标注工具——LabelImg

1、PyQt

2、Vatic

3、BBox-Label-Tool

4、图像标注VS2013项目

5、Yolo_mark

6、视频标注工具

三、Amazon’s Mechanical Turk 离线工作框架

四、用已训练来进行图像标注

五、snape

延伸一 国内一些众包的数据标注服务商

1、敲宝网——众包

2、小鱼儿网

3、威客-创意,一品威客网

4、数据堂

5、百度众包

6、阿里众包

7、荟萃公司——荟萃-荟集人力之萃

六、图像数据集

1、LSUN：用于场景理解和多任务辅助（房间布局估计，显着性预测等）。

2、行人检测DataSets

3、人脸数据库UMDFaces等

4、搜狗实验室数据集：

5、Imagenet数据集

6、COCO数据集

7、PASCAL VOC

8、Open Image

9、Youtube-8M

10、深度学习数据集收集网站

11、CoPhIR

12、MirFlickr1M

13、SBU captioned photo dataset

14、NUS-WIDE

15、MSRA-MM

16、多物体+关系数据库：HICO & HICO-DET

17、QA型图像数据库：CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

18、Driver Speed Dataset

七、“稀有”实验室

1、生物识别与安全技术研究中心

7、网页版呈现各类模型的实现

八、中文文本语料库

百度开源的中文问答语料：

微博终结者爬虫

你可能感兴趣的:(深度学习)

延伸一国内一些众包的数据标注服务商