youdao

有道云笔记是如何使用TensorFlow Lite的？

近年来，有道技术团队在移动端实时 AI 能力的研究上，做了很多探索及应用的工作。2017 年 11 月 Google 发布 TensorFlow Lite (TFLlite) 后，有道技术团队第一时间跟进 TFLite 框架，并很快将其用在了有道云笔记产品中。 本文将介绍我们是如何将 TFLite 运用在有道云笔记中的文档识别工作中的，以及 Tflite 都有些什么特性。

文档识别工作的介绍

1. 文档识别的定义 文档识别最初是开发有道云笔记的文档扫描功能时面对的一个问题。文档扫描功能希望能在用户拍摄的照片中，识别出文档所在的区域，进行拉伸 (比例还原)，识别出其中的文字，最终得到一张干净的图片或是一篇带有格式的文字版笔记。实现这个功能需要以下这些步骤：

识别文档区域： 将文档从背景中找出来，确定文档的四个角；
拉伸文档区域，还原宽高比： 根据文档四个角的坐标，根据透视原理，计算出文档原始宽高比，并将文档区域拉伸还原成矩形；
色彩增强： 根据文档的类型，选择不同的色彩增强方法，将文档图片的色彩变得干净清洁；
布局识别： 理解文档图片的布局，找出文档的文字部分；
OCR： 将图片形式的“文字”识别成可编码的文字；
生成笔记： 根据文档图片的布局，从 OCR 的结果中生成带有格式的笔记。

文档识别就是文档扫描功能的第一步，也是场景最复杂的一个部分

2. 文档识别在有道 AI 技术矩阵中的角色

有道近年来基于深度神经网络算法，在自然语言、图像、语音等媒体数据的处理和理解方面做了一系列工作，产出了基于神经网络的多语言翻译、OCR（光学字符识别）、语音识别等技术。在这些技术的合力之下，我们的产品有能力让用户以他们最自然最舒服的方式去记录内容，用技术去理解这些内容，并将其统一转化为文本以待下一步处理。从这个角度来看，我们的各种技术组成了以自然语言为中心，多种媒体形式相互转换的网络结构。

文档识别是从图像转化为文本的这条转换链上，不起眼却又不可缺少的一环。有了它的存在，我们可以在茫茫图海中，准确找到需要处理的文档，并将其抽取出来进行处理。

3. 文档识别的算法简介

我们的文档识别算法基于 FCNN (Fully Convolutional Neural Network) ，这是一种特别的 CNN（卷积神经网络），其特点是对于输入图片的每一个像素点，都对应着一个输出（相对的，普通的 CNN 网络则是每一张输入图片对应着一个输出）。因此，我们可以标记一批包含文档的图片，将图片中文档边缘附近的像素标注为正样本，其他部分标注为副样本。训练时，以图片作为 FCNN 的输入，将输出值与标注值作对比得到训练惩罚，从而进行训练。关于文档识别算法的更多细节，可以参见有道技术团队的《文档扫描：深度神经网络在移动端的实践》这篇文章。

由于算法的主体是 CNN，因此文档扫描算法中主要用到的算子（Operator）包括卷积层、Depthwise 卷积层、全连接层、池化层、Relu 层这些 CNN 中常用的算子。

4. 文档识别与 TensorFlow

能够训练和部署 CNN 模型的框架非常多。我们选择使用 TensorFlow 框架，是基于以下几方面的考虑的：

TensorFlow 提供的算子全面且数量众多，自己创建新的算子也并不麻烦。在算法研发的初期会需要尝试各种不同的模型网络结构，用到各种奇奇怪怪的算子。此时一个提供全面算子的框架能够节省大量的精力；
TensorFlow 能够较好的覆盖服务器端、Android 端、iOS 端等多个平台，并在各个平台上都有完整的算子支持；
TensorFlow 是一个比较主流的选择，这意味着当遇到困难时，更容易在互联网上找到现成的解决办法。

5. 为什么想在文档识别中用 TFLite

在 TFLite 发布之前，有道云笔记中的文档识别功能是基于移动端 TensorFlow 库 (TensorFlow Mobile) 的。当 TFLite 发布后，我们希望迁移到 TFLite 上。促使我们迁移的主要动力是链接库的体积。

经过压缩后，Android 上的 TensorFlow 动态库的体积大约是 4.5M 左右。如果希望满足 Android 平台下的多种处理器架构，可能需要打包 4 个左右的动态库，加起来体积达到 18M 左右；而 tflite 库的体积在 600K 左右，即便是打包 4 个平台下的链接库，也只需要占用 2.5M 左右的体积。这在寸土寸金的移动 App 上，价值是很大的。

TFLite 的介绍

1. TFLite 是什么 TFLite 是 Google I/O 2017 推出的面向移动端和嵌入式的神经网络计算框架，于2017年11月5日发布开发者预览版本 (developer preview)。相比与 TensorFlow，它有着这样一些优势：

轻量级。如上所述，通过 TFLite 生成的链接库体积很小；
没有太多依赖。TensorFlow Mobile 的编译依赖于 protobuf 等库，而 tflite 则不需要大的依赖库；
可以用上移动端硬件加速。TFLite 可以通过 Android Neural Networks API (NNAPI) 进行硬件加速，只要加速芯片支持 NNAPI，就能够为 TFLite 加速。不过目前在大多数 Android 手机上，Tflite 还是运行在 CPU 上的。

2. TFLite 的代码结构

作为 TFLite 的使用者，我们也探索了一下 TFLite 的代码结构，这里分享一下。

目前，TFLite 的代码位于 TensorFlow 工程中 “tensorflow/contrib/lite” 文件夹下。文件夹下有若干头/源文件和一些子文件夹。

其中，一些比较重要的头文件有：

model.h: 和模型文件相关的一些类和方法。其中 FlatBufferModel 这个类是用来读取并存储模型内容的，InterpreterBuilder 则可以解析模型内容；
Interpreter.h: 提供了用以推断的类 Interpreter，这是我们最常打交道的类；
context.h: 提供了存储 Tensors 和一些状态的 struct TfLiteContext。实际使用时一般会被包装在 Interpreter 中；

此外，有一些比较重要的子文件夹：

kernels: 算子就是在这里被定义和实现的。其中 regester.cc 文件定义了哪些算子被支持，这个是可以自定义的。
downloads: 一些第三方的库，主要包括：

abseil: Google 对 c++ 标准库的扩展；
eigen: 一个矩阵运算库；
farmhash: 做 hash 的库；
flatbuffers: TFLite 所使用的 FlatBuffers 模型格式的库；
gemmlowp: Google 开源的一个低精度矩阵运算库；
neon_2_sse: 把 arm 上的 neon 指令映射到相对应的 sse 指令。

java: 主要是 Android 平台相关的一些代码；
nnapi: 提供了 nnapi 的调用接口。如果想自己实现 nnapi 可以看一看；
schema: TFLite 所使用的 FlatBuffers 模型格式的具体定义；
toco: protobuf 模型转换到 FlatBuffers 模型格式的相关代码。

我们是怎么用TFLite的？

1. TFLite 的编译

TFLite 可以运行在 Android 和 iOS 上，官方给出了不同的编译流程。

在 Android 上，我们可以使用 bazel 构建工具进行编译。bazel 工具的安装和配置就不再赘述了，有过TensorFlow 编译经验的同学应该都熟悉。依照官方文档，bazel 编译的 target 是 “//tensorflow/contrib/lite/java/demo/app/src/main:TfLiteCameraDemo”，这样得到的是一个 demo app。如果只想编译库文件，可以编译 “//tensorflow/contrib/lite/java:tensorflowlite” 这个 target，得到的是 libtensorflowlite_jni.so 库和相应的 java 层接口。

更多细节见官方文档：

https://github.com/tensorflow/tensorflow/blob/master/tensorflow/docs_src/mobile/tflite/demo_android.md

在 iOS 上，则需要使用 Makefile 编译。在 mac 平台上运行 build_ios_universal_lib.sh,会编译生成 tensorflow/contrib/lite/gen/lib/libtensorflow-lite.a 这个库文件。这是个 fat library，打包了 x86_64, i386, armv7, armv7s, arm64 这些平台上的库。

更多细节见官方文档：

https://github.com/tensorflow/tensorflow/blob/master/tensorflow/docs_src/mobile/tflite/demo_ios.md

两个平台上 TFLite 库的调用接口也有所不同：Android 上提供了 Java 层的调用接口，而 iOS 上则是 c++ 层的调用接口。

当然，TFLite 的工程结构是比较简单的，如果你熟悉了 TFLite 的结构，也可以用自己熟悉的编译工具来编译 TFLite。

2. 模型转换

TFLite 不再使用旧的 protobuf 格式（可能是为了减少依赖库），而是改用 FlatBuffers 。因此需要把训练好的 protobuf 模型文件转换成 FlatBuffers 格式。

TensorFlow 官方给出了模型转化的指导。首先，由于 TFLite 支持的算子比较少，更不支持训练相关的算子，因此需要提前把不需要的算子从模型中移除，即 Freeze Graph ；接着就可以做模型格式转换了，使用的工具是 tensorflow toco。这两个工具也是通过 bazel 编译得到。

更多细节见官方文档：

https://github.com/tensorflow/tensorflow/blob/master/tensorflow/docs_src/mobile/tflite/devguide.md

3. 缺失的算子

TFLite 目前仅提供有限的算子，主要以 CNN 中使用到的算子为主，如卷积、池化等。我们的模型是全卷积神经网络，大部分算子 TFLite 都有提供，但 conv2d_transpose（反向卷积）算子并没有被提供。幸运的该算子出现在网络模型的末端，因此我们可以将反向卷积之前的计算结果取出，自己用 c++ 实现一个反向卷积，从而计算出最终的结果。由于反向卷积的运算量并不大，所以基本没有影响到运行速度。

如果不巧，你的模型需要但 TFLite 缺少的算子并非出现在网络的末端，该怎么办呢？你可以自定义一个 TFLite 算子，将其注册在 TFLite 的 kernels 列表中，这样编译得到的 TFLite 库就可以处理该算子了。同时，在模型转换时，还需要加上 –allow_custom_ops 选项，将 TFLite 默认不支持的算子也保留在模型中。

更多细节见官方文档：

https://github.com/tensorflow/tensorflow/blob/master/tensorflow/contrib/lite/g3doc/custom_operators.md

TFLite 优缺点

优点：在库的大小、开发方便程度、跨平台性、性能之间达成一个平衡 作为对比，有道技术团队选取了一些其他的移动端深度学习框架，分别分析其在“开发方便程度、跨平台性、库的大小、性能”四个方面的表现：

TensorFlow Mobile，由于和 server 上的 TensorFlow 是同一套代码，所以可以直接使用 server 上训练得到的模型，开发非常方便；能支持 Android, iOS, 跨平台性没问题；如前所述，库的大小比较大；性能主流。
caffe2，可以比较方便的从 caffe 训练出的模型转换到 caffe2 ，但缺少一些算子, 开发方便程度一般；能支持 Android, iOS，跨平台性没问题；库编译出来比较大，但是是静态库可以压缩；性能主流。
Mental/Accelerate，这两个都是 iOS 上的框架。比较底层，需要模型转换&自己写 inference 代码，开发比较痛苦；仅支持 iOS；库是系统自带，不涉及库大小问题；速度很快。
CoreML，这个是 WWDC17 发布的 iOS 11 上的框架。有一些模型转换工具，只涉及通用算子时开发不算痛苦，涉及自定义算子时就很难办了；仅支持 iOS 11 以上；库是系统自带，不涉及库大小问题；速度很快。

最后是 TFLite:

TFLite，其模型可以由 TensorFlow 训练得到的模型转换而来，但缺少一些算子, 开发方便程度一般；能支持 Android, iOS，跨平台性没问题；库编译出来很小；就我们的实验来看，速度比TensorFlow 快一点。

可以看到，TensorFlow Mobile 开发方便，通用性好，但链接库大，性能主流（其他 server 端神经网络框架的 mobile 版也都有类似的特点）；Mental/Accelerate 这些比较底层的库速度很快，但不能跨平台，开发比较痛苦；caffe2、TFLite 这类有为移动端优化过的神经网络框架则比较平衡，虽然初时会有算子不全的问题，但只要背后的团队不断支持推进框架的开发，这个问题未来会得到解决。

优点：相对容易扩展

由于 TFLite 的代码（相对于 TensorFlow）比较简单，结构比较容易理清，所以可以相对容易的去扩展。如果你想增加一个 TFLite 上没有而 TensorFlow 上有的算子，你可以增加一个自定义的类；如果你想增加一个 TensorFlow 上也没有的算子，你也可以直接去修改 FlatBuffers 模型文件。

缺点：ops 不够全面

如前所述，TFLite 目前主要支持 CNN 相关的算子，对其他网络中的算子还没有很好的支持。因此，如果你想迁移 rnn 模型到移动端，TFLite 目前是不 OK 的。

不过根据最新的 Google TensorFlow 开发者峰会，Google 和 TensorFlow 社区正在努力增加 ops 的覆盖面，相信随着更多开发者的相似需求，更多的模型会被很好的支持。这也是我们选择 TensorFlow 这样的主流社区的原因之一。

缺点：目前还不能支持各种运算芯片

虽然 TFLite 基于 NNAPI，理论上是可以利用上各种运算芯片的，但目前还没有很多运算芯片支持 NNAPI。期待未来 TFLite 能够支持更多的运算芯片，毕竟在 CPU 上优化神经网络运行速度是有上限的，用上定制芯片才是新世界的大门。

总结

这一两年来，在移动端实现实时的人工智能似乎已经形成了一波潮流。有道技术团队在移动端 AI 算法的研究上，也做了诸多尝试，推出了离线神经网络翻译 (离线 NMT) 、离线文字识别 (离线 OCR) 以及离线文档扫描等移动端实时 AI 能力，并在有道词典、有道翻译官、有道云笔记中进行产品化应用。由于目前移动端 AI 尚处在蓬勃发展阶段，各种框架、计算平台等都尚不完善。

4.15工作总结王珣爱读书
一.路线：从宜宾市区出发前往宜宾翠屏区门店检查转至观音镇查看店铺再转至市区二.工作内容906423屏山门店店面检查1.保温桶坏了三个已叫重新订购2.毛巾未分类悬挂，珍珠锅等卫生待提高3.灭蝇灯管坏，已督促尽快购买更换4.后场物料摆放较乱，督促尽快整改5.冷藏柜开封物料封盖存放6.观音镇空铺查看，人流较少后续跟踪以上问题已叫门店拍照反馈三.明日工作安排1.路线：去雅安和罗经理汇合
一个有轻度抑郁的男生应该怎么摆脱现状？霞云映日
心理学曾经把愤怒、焦虑、孤独、敌意、依恋、兴奋、攻击性（掠夺）、贪欲、满足等看成未分化的原始情绪。随着文明与文化的发展，原始情绪受到文化的压抑，情绪不再以无序的、未分类的、本体的形势出现。人们通过再认与分类来表达它。再认的一个直接后果就是产生被文化异化的情绪，比如，抑郁、嫉妒、丧失、羞耻……抑郁情绪是近现代人类情绪中最普遍的体验。英语depress，有被压倒的意义，被什么压倒呢?被环境、被文化、被
【Altium Designer】AD封装库+3D模型(2.95G) WOSHIGUANGGAO 5G
【AltiumDesigner】AD封装库+3D模型(2.95G)如何添加3D封装库https://blog.csdn.net/qq_42057393/article/details/115558858组成常用芯片封装电阻电容电感常用芯片74系列芯片STC系列芯片ST系列芯片电源芯片通讯系列芯片未分类IC晶体管二极管三极管MOS管整流桥可控硅声亮原件LCDLED蜂鸣器数码管晶振接插件排针排母简易牛
K-近邻算法原理简述散修然机器学习算法原理近邻算法算法
近邻分类算法就是通过已知分类的数据集，来分类未分类的东西。比如一样东西，它有很多个特征，比如一朵花，它的颜色，花瓣数量，花瓣长度都可以成为它的特征，把这些特征化为数值，再给它加上一个标签，比如3，3，3数值的花是一朵蓝色的三朵3cm花瓣的花，它叫蓝三叶草，当然，蓝三叶草也要给一个数值作为标记，比如3这个数字就代表蓝三叶草。那么[3,3,3]这个数字组合就对应了序号3这个类别的花。一个数据集里有成千
Uncategorized Command CompileSwift failed with a nonzero exit code 路漫漫其修远兮Wzt
原文链接：https://blog.csdn.net/qq_35122556/article/details/106050097xcode10,4.2写的代码.最近用xcode11.3运行代码神奇的报错了,UncategorizedCommandCompileSwiftfailedwithanonzeroexitcode翻译出来是这样的:未分类的命令CompileSwift失败，退出码为非零截图:
【网络安全】WebCatcher识别未分类的URL Par@ish 网络安全 web安全安全网络
文章目录什么是WebCatcher？WebCatcher功能启用SenduncategorizedURLstoimproveURLcategorizationSendsecurityURLstoimprovesecurityeffectivenessSaveacopyofthedatabeingsenttoSecurityLabsCountryorregionoforiginMaximumuplo
navicat连接阿里云服务器失败往事love随缘
navicat连接阿里云服务器失败，首先先开放创建时间：2019年3月7日(星期四)下午5:51|分类：未分类|字数：389|另存为...|打印|添加到日历navicat连接阿里云服务器失败，首先先开放服务器安全组3306权限，根据文档开启https://blog.csdn.net/kaifaxiaoliu/article/details/80403736，然后可能还连接不上就需要根据文档http
第5章保护资产安全 HeLLo_a119 #OSG9 安全大数据
5.1对信息和资产进行识别和分类数据安全生命周期管理是指数据保护始于数据被首次创建时，一直持续到该数据被销毁时。实现生命周期保护的第一步是对信息和资产进行识别和分类。组织常将分类定义纳入安全策略中。然后，人员根据安全策略要求适当地标记资产。这里所述的资产包括敏感数据、用于处理它们的硬件和用于保存它们的介质。5.1.1定义敏感数据敏感数据不是公开的数据，也不是未分类的数据，它包括机密的、专有的、受保
Xcode 10.2 编译失败，如何对敌？老米拉
Xcode10.2Buildfailed：CommandCompileSwiftSourcesfailedwithanonzeroexitcodeXcode10.2今天早上，苹果推出了Xcode10.2更新。如果你更新了，可能会遭遇一个未分类的error：CommandCompileSwiftSourcesfailedwithanonzeroexitcode完全不知道编译失败的原因。实际上苹果已经
《垃圾分类，从认识垃圾分类开始》小可乐的妈妈
早上醒来，习惯性地朋友圈打卡，然后顺手划一划“圈内大小事”，一篇名为《垃圾分类，上海更脏了》的文章吸引了我的眼球。文章列举了上海推行垃圾分类带来的种种问题，例如，分类后厨余垃圾被收集在一起恶臭难闻，垃圾车并不进行垃圾分类，丢垃圾被限定了时间，买了可降解袋装垃圾却不是每个小区都能用,不分类丢垃圾会被罚款云云。当然，这其中最严重的问题当属未分类投放。随着垃圾分类倡议的发起，我们可以看到各个城市、地区的
navicat连接1045 往事love随缘
navicat连接1045https://blog创建时间：2019年3月10日(星期天)中午12:00|分类：未分类|字数：133|另存为...|打印|添加到日历navicat连接1045https://blog.csdn.net/gududelang22/article/details/82984509https://blog.csdn.net/a33130317/article/detail
PHP将图片转base64编码以及base64图片转换往事love随缘
PHP将图片转base64编码以及base64图片转换创建时间：2019年5月20日(星期一)中午1:50|分类：未分类|字数：93|另存为...|打印|添加到日历PHP将图片转base64编码以及base64图片转换为图片并保存代码https://blog.csdn.net/xianrenqh/article/details/78247702
php使用ffmpeg获取上传的视频的时长，码率等信息往事love随缘
php使用ffmpeg获取上传的视频的时长，码率等信息创建时间：2019年6月3日(星期一)下午5:14|分类：未分类|字数：1970|另存为...|打印|添加到日历php使用ffmpeg获取上传的视频的时长，码率等信息https://www.cnblogs.com/phpclass/p/10825847.html在php里新建一个类/***CreatedbyPhpStorm.*User:Admi
2资产安全瞌睡虫zZ CISSP 安全
2.1信息生命周期（1）获取（2）使用须确保内部一致性（3）存档需保留多长时间（4）处置数据真正被销毁及其被正确销毁2.2数据分类商业公司的信息敏感级别：机密confidential、隐私、敏感、公开军事机构的信息敏感级别：绝密、秘密secret、机密、敏感但未分类、未分类术语未分类、秘密和绝密通常与政府组织相关联，术语隐私、专有权、敏感通常与非政府组织相关联2.3责任分层高级管理层持续对组织负有
安装宝塔linux 往事love随缘
宝塔创建时间：2019年3月10日(星期天)中午12:19|分类：未分类|字数：623|另存为...|打印|添加到日历宝塔（Linux）作者:admin如果您的服务器是纯净版的系统，尚未安装环境，可以使用我们为您提供的【微擎+环境一键安装包】支持CentOS6.X/7.X、RedHat6.X、Ubuntu12.04微擎合作方：宝塔面板是一款使用方便、功能强大且终身免费的服务器管理软件,支持Linu
宝塔面板mysql怎么用navicat 连接数据库往事love随缘
宝塔面板mysql怎么用navicat连接数据库呢创建时间：2019年3月10日(星期天)中午12:01|分类：未分类|字数：90|另存为...|打印|添加到日历宝塔面板mysql怎么用navicat连接数据库呢，详细步骤https://blog.csdn.net/sql521hawk/article/details/81562190
宝塔面板安装memcached 往事love随缘
宝塔面板安装memcached创建时间：2019年6月13日(星期四)下午2:18|分类：未分类|字数：2027|另存为...|打印|添加到日历https://www.vpsss.net/4168.html正确的memcached安装方法以老魏目前使用的php版本为例，正确安装方法是在“软件管理”的php7.0>设置中，找到“安装扩展”右侧的memcached，安装。这才是正确的memcached
统信UOS Linux操作系统下怎么删除某个程序在开始菜单或桌面的快捷方式 LaoYuanPython 老猿Python 国产信创之光 linux 国产操作系统开始菜单 UOS统信操作系统
☞░前往老猿Python博客░https://blog.csdn.net/LaoYuanPython引言统信操作系统的开始菜单包罗万象，将所有应用的快捷方式都放在了开始菜单内。虽然提供了分类展示的能力，但无论是分类方式还是未分类方式，都不能像windows一样将这些快捷方式按厂商分文件夹管理，上图就是笔者电脑上未分类展示的部分快捷菜单，下图是笔者电脑上分类为“办公学习”的分类内的快捷菜单内容：且这
EEG公开数据集介绍 sjx_alo 运动想象脑机接口深度学习深度学习 python 人工智能 EEG 数据集
EEG公开数据集介绍0引言1项目简单介绍1.1运动想象1.2情绪识别1.3误差相关电位（ErrP）1.4视觉诱发电位（VEP）1.5事件相关电位[ERP]1.6慢皮质电位（SCP）1.7静息状态1.8音乐和脑电图1.9眨眼/运动1.10杂项1.11临床脑电图2其余未分类的数据集3用于搜索数据集的资源网站4总结0引言最近有读者问我：关于EEG的数据集从哪里下载？正好我最近看到了一个相关的Github
[PHP]魔众文档管理系统 v4.3.0 软希源码软希网源码下载魔众文档管理系统 v4.3.0
魔众文档管理支持Markdown、图表、脑图、富文本，功能全面、安全稳定，支持标签、分类，可以更好的在线管理个人文档。魔众文档管理系统发布v4.3.0版本，新功能和Bug修复累计8项，新增未分类无标签等特性，系统常规迭代。2021年12月18日魔众文档管理系统发布v4.3.0版本，增加了以下8个特性：[新功能]后台菜单一键展开所有菜单功能[新功能]数据表格列未设置宽度自动适配[新功能]安装助手新增
draft 18 旅僧系统架构
未分类文档CDMA是码分多路复用技术和CMSA不是一个东西UPD是只确保发送但是接收端收到之后(使用检验和校验除了检验的部分相加对比检验和是否相等。如果不相同就丢弃。复用和分用是发生在上层和下层的问题。通过比如时分多路复用频分多路复用等。TCPIP应用层的IO多路复用。网络层使用集线器怎么理解滑动窗口滑动窗口的大小怎么确定GBN的发送窗口取决于延带宽积需要理解这个一整个过程发送方发送数据(一般不可
吴恩达《机器学习》1-4:无监督学习不吃花椒的兔酱机器学习机器学习学习笔记
一、无监督学习无监督学习就像你拿到一堆未分类的东西，没有标签告诉你它们是什么，然后你的任务是自己找出它们之间的关系或者分成不同的组，而不依赖于任何人给你关于这些东西的指导。以聚类为例，无监督学习算法可以将数据点分成具有相似特征的群组，而不需要提前告知每个数据点属于哪个群组。二、聚类算法将数据集中的对象分成具有相似特征或属性的组，这些组通常称为簇。参考资料：[中英字幕]吴恩达机器学习系列课程黄海广博
CORS 前端请求跨域往事love随缘
CORS前端请求跨域时遇到的一些坑后台解决创建时间：2019年6月3日(星期一)下午5:02|分类：未分类|字数：2095|另存为...|打印|添加到日历CORS前端请求跨域时遇到的一些坑后台解决方法https://blog.csdn.net/hp_8023_wm/article/details/81490190最近写接口和前端vue交互，这样就需要定义token来验证，之前的项目都是前后台不分离
软件架构风格总结以及场景应用码农研究僧软考架构风格软考
目录前言1.数据流风格2.调用/返回风格3.独立构件风格4.解释器风格5.仓库风格前言软件架构风格可以几个大类：数据流风格：有批处理风格、管道-过滤器调用/返回风格：有主程序/子程序、面向对象、层次结构等独立构件风格：有进程通信、事件驱动风格、发布-订阅风格等虚拟机风格：有解释器、基于规则的系统等仓库风格：有数据库系统、黑板系统、超文本系统等过程控制风格：有开环、闭环等其他未分类的架构风格：有C2
TensorFlow 原生分布式训练机制探究老虎福深度学习人工智能 TensorFlow 分布式训练深度学习 TensorFlow 分布式训练
TensorFlow原生分布式训练机制探究标签（空格分隔）：未分类文章目录TensorFlow原生分布式训练机制探究分布式训练代码解析构建estimator封装模型定义input_fn(dataset的使用)experiment憋屈了三个月，公司招来了个牛逼的数据科学家(遗憾：还是走了)，终于公司还是配了4条V100部署在两台服务器上，可把我兴奋坏了(原谅我小农，没见过大GPU集群)。有了资源当然
K-Means和KNN Quinn-ntmy kmeans 算法机器学习
主要区别从无序—>有序从K-Means—>KNNKNN：监督学习，类别是已知的，对已知分类的数据进行训练和学习，找到不同类的特征，再对未分类的数据进行分类。K-Means：无监督学习，事先不知道数据有几类，通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。KNN原理将预测点与所有点的距离进行计算，然后保存并排序，选出前面K个值看看哪些类别比较多，则预测的点就属于哪一类。KNN也可以
2019-06-10 往事love随缘
腾讯服务器安装环境配置网址创建时间：2018年12月12日(星期三)下午2:32|分类：未分类|字数：1003|另存为...|打印|添加到日历腾讯服务器安装环境配置教程https://blog.csdn.net/qq_20138815/article/details/71078898linux安装ftp教程https://jingyan.baidu.com/album/380abd0a77ae04
未分类高永骁
数据库DB：SQL:结构化查询语言。MySQL是一种关系型数据库增：createdatabasesdb_school;dropdatabaset_student;usedb_school;createtablet_student(,,,);insertintot_student(,,,)values(,,);insertintot_student(,,,)values(,,),(,,),(,,);
差点散伙的后续沉默王二
大家好，我是二哥呀！上次给大家聊过，我们三个合伙人差点因为一个未分类散伙，后来因为兄弟情深，再加上确实想做好一件事——手把手带大家做一个SpringBoot+Vue的前后端分离项目，就坚持了下来。目前第一版就剩下前端展示的数据加载和几个小bug的修改了，应该三月底就能上线和大家见面。当然了，也有可能延期。。。毕竟二哥是一个追求完美的男人（手动狗头）讲真心话，开搞之前，我是真没想过，合伙做一件事会这
ctfshow-WEB-未分类-wp 陪你等待 wp web安全
文章目录WEB无类别web签到题：源代码+base64web2：最普通sql注入web3：php伪协议文件包含web4：日志写入一句话web5：0e开头的md5web6：过滤空格sql注入web7：整形联合查询sql注入web8：整形布尔盲注sql注入web9：源码泄露+md5sql注入web10：groupbywithrollupsql注入web11：Cookie与SESSIONweb12：ph
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

有道云笔记是如何使用TensorFlow Lite的？

你可能感兴趣的:(未分类)