星星

Sawzall原理与应用

序：Sawzall的论文早在2006年就发表了，后来Google又推出了Tenzing，Dremel等数据分析系统，到了2010年就把Sawzall给开源了，项目主页： http://code.google.com/p/szl/。与Tenzing，Dremel相比， Sawzall所能做的事情还是比较有限，但是作为一种DSL，毕竟还是要比直接写MapReduce job要更易用些。本文就简单描述下其原理使用及扩展方法，转载请注明：

作者：phylips@bmy 2012-7-24

出处： http://duanple.blog.163.com/blog/static/70971767201262491314721/

1. Szl使用

1.1 简介

安装完szl后，用户就可以使用szl命令了，szl是一个可执行程序，可以用来在本地执行sawzall程序对输入数据进行处理。可以以文本文件为输入，也可以以recordio格式为输入。输入数据可以是简单的以分隔符分割的记录，也可以是保存在recordio中的proto序列化数据。szl的工作模式就像经典的awk，用户可以用它来对数据进行统计分析。

参考src/app/szl.cc的实现，用户可以实现符合自己使用场景的脚本执行框架，对自己的数据进行处理，比如可以将其移植到自己的MapReduce环境中。

1.2 实例

1.2.1 文本格式输入处理

输入数据：

1,2

2,2

2,3

2,4

3,5

3,6

Szl程序：

t: table set(100)[int] of int;

fields: array of bytes = splitcsvline(input);

index: int = int(string(fields[0]),10);

value: int = int(string(fields[1]),10);

emit t[index] <- value;

命令：

szl b.szl data -table_output t

1.2.2 protobuf格式输入处理

1.2.2.1 从proto生成szl类型定义

执行命令：protoc --plugin=/home/.../szl-read-only/src/protoc-gen-szl --szl_out=. page_meta.proto

出现错误：/home/.../szl-read-only/src/protoc-gen-szl: error while loading shared libraries: libicui18n.so.48: cannot open shared object file: No such file or directory

解决方案：安装icu，sudo yum install icu

设置LD_LIBRARY_PATH重新运行如下命令：

LD_LIBRARY_PATH=/usr/local/lib protoc --plugin=/home/duanple/peile.duan/szl-read-only/src/protoc-gen-szl --szl_out=. page_meta.proto

可以看到在当前目录下有一个page_meta.szl的输出文件

通过如上命令可以将proto定义直接转换成szl类型定义。当然实际中，这个过程是被szl隐藏的，szl自己会在内部调用protoc和protoc-gen-szl，完成这个转换。通过szl的help信息可以看到，它有如下两个选项用来设置这两个工具的路径：-protocol_compiler和-protocol_compiler_plugin。

在生成proto对应的szl类型定义后，用户可以在其szl程序中直接include，来取代proto，如下所示。

1.2.2.2 Proto格式输入

Proto定义

message PageMeta {

optional bytes UrlHash = 1;

/** meta fields from crawler. */

optional bytes RawUrl = 2; //also for piece_data

optional bytes FinalUrl = 3;

}

protoc page_meta.proto --cpp_out=./

输入数据生成

为了能够进行实验，首先我们需要一组输入数据，在这里我们利用utilities/recordio.cc中的RecordWriter类写入proto记录。通过这个实验，再结合src/app/szl.cc我们就可以比较清楚的了解到szl的整个执行原理。

#include "page_meta.pb.h"

using namespace std;

#include "src/public/recordio.h"

using namespace sawzall;

int main()

{

PageMeta meta;

meta.set_rawurl("http://www.baidu.com");

string outputFile = "data";

string outputRecord = meta.SerializeAsString();

RecordWriter* writer = RecordWriter::Open(outputFile.c_str());

writer->Write(outputRecord.c_str(), outputRecord.size());

delete writer;

return 0;

}

g++ proto_writer.cpp page_meta.pb.cc -lprotobuf -lpthread –lszl

LD_LIBRARY_PATH=/usr/local/lib ./a.out

这样就会在当前文件夹下生成一个data文件

Szl程序

统计Record个数

proto "page_meta.proto"

meta: PageMeta = input;

emit count <- 1;

命令

LD_LIBRARY_PATH=/usr/local/lib szl proto.szl --protocol_compiler=/usr/bin/protoc --protocol_compiler_plugin==/home/.../szl-read-only/src/protoc-gen-szl --table_output=count -use_recordio data

执行结果

count[] = 3

Szl程序

统计RawUrl字段总长度

proto "page_meta.proto"

meta: PageMeta = input;

emit count <- len(string(meta.rawurl));

执行结果

count[] = 60

Szl程序

使用include取代proto语句

include "page_meta.szl"

meta: PageMeta = input;

emit count <- len(string(meta.rawurl));

执行结果

count[] = 60

2. Sawzall框架原理

Sawzall的核心概念有两个：记录处理，聚合。即一次处理一条记录，将结果进行聚合。

2.1 核心类

SzlEmitter，EmitterFactory，SzlTabWriter，SzlTabEntry，SzlResults，Process

Process 以sawzall源程序为输入，通过Process::set_emitter_factory(DemoEmitterFactory*)和sawzall::RegisterEmitters(&process)设置好emitters，然后通过process.Run(input[i].data(), input[i].size(), NULL, 0)来对每条输入数据进行处理。处理结果需要通过SzlEmitter. Flusher()写出。

在这里最核心的是Emitter，Emitter负责响应对table的”<-“操作，在src/public/emitterinterface.h，我们可以看到其接口定义，注释已经写的比较清楚，可以将其看做是针对”emit”语句的一系列响应动作，针对每个元素，会有三个过程：

1) Begin (<appropriate compound type>, <length>)

2) PutX

3) End(<appropriate compound type>, <length>)

一个emit语句会包含如下几个组成部分：Index，Element，Weight。比如如下语句将会产生如下对应调用序列：

// emit table[1] <- { "foo": 1, "bar": 0 };

// Begin(EMIT, 1)

// Begin(INDEX, 1) PutInt(1) End(INDEX, 1)

// Begin(ELEMENT, 1)

// Begin(MAP, 2)

// PutString("foo", 3) PutInt(1)

// PutString("bar", 3) PutInt(0)

// End(MAP, 2)

// End(ELEMENT, 1)

// End(EMIT, 1)

参考下src/emitvalues/szlemitter.cc实现，除了继承自Emitter的接口外，SzlEmitter新增了Merge，DisplayResults，Flusher，Clear等几个新接口。此外还包含了一些重要的变量：SzlTabWriter* writer，SzlTabEntryMap* table_等。也就是说它除了负责对emit进行响应外，同时还会在内存中保存emit操作后的结果，以及将这些数据写出。

SzlTabEntryMap实际上是hash_map<string, SzlTabEntry*>。SzlTabEntry实际上就是table内的一个value， SzlEmitter内部会调用SzlTabWriter来创建和修改SzlTabEntry，而一个SzlTabEntry也可能是一个复合结构，同时它往往与SzlTabWriter是成对出现的，实际上真正的聚合器逻辑就是通过SzlTabEntry来实现的，src/emitters/目录下就包含了一系列常用的聚合器实现。

再进一步的看，sawzall从外部看来可以支持很多table类型，table本身也可以是多维的，每维的数据类型也是多样的，通过分析SzlEmitter::Begin，End，PutX，可知实际上在内部它会通过encoder将多个维度上的index值组合成一个key，也就是说内部看到的只有一个key，这一点通过SzlTabEntryMap也可以看出。

2.2 模块结构

Szl的src目录下有如下一些文件夹：

app：包含szl本地化工具的相关实现，app/tests/目录下还包含了一个MapReduce的实现实例

contrib：内含Emacs的一个插件

emitters：一系列聚合器实现

emitvalues：sawzall相关一些基本类型定义，包括decoder,emitter,encoder,tableentry等

engine：sawzall语言相关，包括词法分析，语法分析，执行引擎

fmt：格式化输出相关

intrinsics：一些常见的运算支持

protoc_plugin：protobuf相关工具

public：公开的头文件

utilities：基本工具类

3. 将Sawzall应用于MapReduce环境

3.1 mapreduce_demo_unittest.cc

位于src/app/tests/mapreduce_demo_unittest.cc，对于一个MapReduce程序来说，整个处理过程涉及到如下几个对象：sawzall源程序，输入数据，MapReduce框架，驱动程序。

对于整个数据处理过程来说，sawzall源程序和输入数据都是输入，驱动程序负责读取数据和sawzall源程序，将sawzall源程序进行动态的编译，然后将该编译后程序针对每条输入记录执行一遍，table的数据是sawzall源程序的输出窗口，每条记录执行时都会去修改table的数据，该table会始终保留这些修改。而table的内容会在调用SzlEmitter::Flusher()时被写出去，该函数会通过调用SzlEmitter::WriteValue(const string& key, const string& value)将SzlTabEntryMap中的所有key,value写出去，因此用户可以通过实现自己的WriteValue函数就可以控制table数据如何写出。

Table中的数据如果是聚合器类型，需要支持Merge操作，相互会进行Merge。

3.2 执行过程

首先来考虑下如果将sawzall应用到MapReduce环境中，大概应该怎么实现。首先需要sawzall语言的支持，这个通过Process类可以实现，然后用户程序只需要读出一条条的记录，然后将它交给Process，Process会通过调用Run 处理每条记录，所以Process就像一个执行环境，首先它需要负责保存好记录执行后的table数据，同时它还要能够将table数据传给用户程序，比如随着处理的进行，table中的key,value个数逐渐增多，因此用户就需要将数据Flush出去，同时清空table，然后继续处理避免内存耗尽。写出去的数据是key,value的形式，同时这些key,value数据还要能够进行排序，reducer会重新将他们读取出来，同时需要将相同key下的进行reduce，对于reduce后的结果进行显示或保存。

在这个过程中可能会有如下问题：如何将SzlEmitter与table关联？如何得到sawzall执行后的table数据？如何对Table中数据进行序列化反序列化？

首先Map端负责读取数据和sawzall程序的解析，对于sawzall脚本中的每个table，在整个过程中应该有一个SzlEmitter对象实例与之相对应，在table的定义处，就可以根据table名称，创建出该SzlEmitter对象。然后每读出一条记录，就将它喂给sawzall执行引擎，该引擎内部会执行sawzall的处理逻辑，这些逻辑底层会调用SzlEmitter的相关函数，并更新其内部数据。那么如何根据table定义，创建出对应的SzlEmitter对象呢？Process有个函数set_emitter_factory，可以设置SzlEmitterFactory，而SzlEmitterFactory有个函数NewEmitter，该函数可以根据TableInfo，调用SzlTabWriter::CreateSzlTabWriter创建出对应的SzlTabWriter，然后再以该SzlTabWriter为参数创建出SzlEmitter。这样创建出的SzlEmitter中的SzlTabWriter就是针对给定的table的了。

要了解sawzall中的table是如何与SzlTabWriter关联上的就需要查看CreateSzlTabWriter的实现了，具体在src/emitvalues/szltabentry.cc，可以看到它是通过一个全局静态变量creators来根据table名称比如”sum”找到对应的SzlTabWriter，而另一方面我们看src/emitters/szlmaximum.cc，里面有REGISTER_SZL_TAB_WRITER(maximum, SzlMaximum);该宏会将相应SzlTabWriter的构造函数与其名称相关联。

Map端可以通过SzlEmitter::GetMemoryUsage得到当前内存使用情况，并判断是否调用SzlEmitter::Flusher。但是对于不同的table可能需要选择不同的处理方式，比如如果只是”stdout <- “，就需要每次执行都做输出，但是如果是”sum <-”只需要最后输出即可，内部如何对这两种情况进行控制呢？当然stdout这个比较特殊，它可能本身并不属于一个table类型，不会将数据存入内存。但是对于sum和collection，这种区别可能就比较明显了，sum只是要一个最终的结果，collection则需要收集所有见过的数据，因此flush的频率也就是不同的。当多个table出现时，如何控制flush的频率可能是个需要权衡的地方。当然table内数据何时写出以及如何写出，都是由外部框架负责的，跟sawzall已经没有了关系。

3.3 需要做的工作

综上分析，我们总结下，将sawzall用于MapReduce环境，大概需要做这样几个工作：

· 实现一个Emiter，重写WriteValue方法

· 由于一个sawzall程序可能会用到多个table，因此在序列化时，需要在key,value中包含table信息，这样才能在读出时识别出它属于哪个table

· 编写驱动程序，Map端负责读取数据，sawzall程序，构建sawzall执行环境，输出table内容，Reduce端负责读取table内容，并完成聚合，输出结果

· 具体实现可以参考src/app/szl.cc和src/app/tests/mapreduce_demo_unittest.cc

3.4 伪代码

Mapper

InitializeAllModules();

sawzall::RegisterStandardTableTypes();

sawzall::Executable exe(program_name.c_str(), source.c_str(), sawzall::kNormal);

sawzall::Process process(&exe, false, NULL);

DemoEmitterFactory emitter_factory(result, num_shards);

process.set_emitter_factory(&emitter_factory);

sawzall::RegisterEmitters(&process);

process.Initialize();

for (int i = 0; i < num_input_lines; i++) {

process.Run(input[i].data(), input[i].size(), NULL, 0)

}

// Flush the emitter output to the mapper output shards.

for (int i = 0; i < emitter_factory.emitters().size(); i++) {

SzlEmitter* emitter = emitter_factory.emitters()[i];

emitter->Flusher();

}

Reducer

for (int i = 0; i < reducer_input.size(); i++) {

const string& name_key = reducer_input[i].first;

const vector<string>& values = reducer_input[i].second;

size_t separator_index = name_key.find(kSzlKeyValueSep);

string name = name_key.substr(0,separator_index);

string key = name_key.substr(separator_index+1);

map<string,SzlTabWriter*>::iterator it = tabwriters.find(name);

const SzlTabWriter* tw = it->second;

// Create the tabwriter and tabentry for the key & value.

SzlTabEntry* te = tw->CreateEntry(key);

if (tw->Aggregates()) {

// For aggregating tables, first merge the values.

for (int j = 0; j < values.size(); j++) {

SzlTabEntry::MergeStatus status = te->Merge(values[j]);

if (status == SzlTabEntry::MergeError)

LOG(FATAL) << "error merging results";

}

string value;

te->Flush(&value);

// Write the output to the mill

result.push_back(KeyValuePair(name_key,value));

} else {

// Non-aggregating tables.

if (tw->WritesToMill()) {

// Just write the value directly into the mill.

for (int j = 0; j < values.size(); j++) {

result.push_back(KeyValuePair(name_key,values[j]));

}

} else {

// Direct output table - let the table write the value.

for (int j = 0; j < values.size(); j++) {

te->Write(values[j]);

}

delete te;

}

4. 相关工作

以目前的眼光来看sawzall，它存在如下一些问题：项目活跃度不够，相关的讨论极少，很久已无更新，目前来看已经是比较老的查询系统了，不知道Google内部是否还在用，但是已知的是在sawzall之后Google已经开发出了一些新的系统完成类似工作，如FlumeJava，Dremel，Tenzing，当然对于一些比较复杂的统计需求来说sawzall还是有其优势的；Sawzall本身更偏向于统计分析，基本上都是只读性的操作；对输入数据格式支持有限，目前内置支持文本或protobuf格式；开源出的版本缺少MapReduce支持，当然这也是Google的MapReduce未开源导致的，所以并没有真正开放出MapReduce环境下的代码，基本上如不做修改只能作为一个单机程序来使用；与手写MapReduce相比，性能会有些下降。当然作为最早的封装于MapReduce之上的脚步式编程语言，这项工作还是具有很大意义的，它大大简化了MapReduce的编写过程。后来的Pig，Hive都参考了它，尤其是Pig更与之类似，都是过程性的，语法都比较符合程序员的使用习惯，与类SQL的HQL则差异较大。

Sawzall实际上已经有比较长的历史了，2003年就已开始应用在Google内部，2006年相关论文发表，2010年开源。值得一提的是其作者之一是Rob Pike，著名的Unix先驱，在贝尔实验室最早和Ken Thompson以及 Dennis M. Ritche 参与Unix开发，UTF-8的设计人，经典书籍The Unix Programming Environment 和 The Practice of Programming 的作者，Google在2009年推出的Go语言就是出自他和Ken Thompson等人之手。

5. 参考文献

http://code.google.com/p/szl/wiki/Overview

Experiences Scaling Use of Google's Sawzall

Interpreting the Data:Parallel Analysis with Sawzall

http://www.cs.uwaterloo.ca/~kmsalem/courses/CS848W10/presentations/Karyakin-Sawzall.pdf

用Sawzall在map-reduce框架下做数据统计

element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
git - Webhook让部署自动化大猪大猪
我们现在有一个需求，将项目打包上传到gitlab或者github后，程序能自动部署，不用手动地去服务器中进行项目更新并运行，如何做到？这里我们可以使用gitlab与github的挂钩，挂钩的原理就是，每当我们有请求到gitlab与github服务器时，这时他俩会根据我们配置的挂钩地扯进行访问，webhook挂钩程序会一直监听着某个端口请求，一但收到他们发过来的请求，这时就知道用户有请求提交了，这时
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
CX8836：小体积大功率升降压方案推荐（附Demo设计指南）诚芯微科技社交电子
CX8836是一颗同步四开关单向升降压控制器，在4.5V-40V宽输入电压范围内稳定工作，持续负载电流10A，能够在输入高于或低于输出电压时稳定调节输出电压，可适用于USBPD快充、车载充电器、HUB、汽车启停系统、工业PC电源等多种升降压应用场合，为大功率TYPE-CPD车载充电器提供最优解决方案。提供CX8836Demo测试、CX8836样品申请及CX8836方案开发技术支持。CX8836同升
穷人做什么生意最赚钱？10个适合穷人赚钱的路子？氧惠爱高省
不管在什么地方，一般都是穷人占大量数，而富人只有少数，但是它们却掌握着大量的财富。对于穷人来说，想要买车、买房等奢侈品就难如登天，因为他们只能通过打工来赚取几千元的月薪。➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。（应用市场搜“氧惠”下载，邀请码:521521，全网优惠上氧惠！
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
2019-05-13 王健_100a
【撒下18:2】大卫打发军兵出战，分为三队：一队在约押手下，一队在洗鲁雅的儿子约押兄弟亚比筛手下，一队在迦特人以太手下。大卫对军兵说：“我必与你们一同出战。”解释：大卫检阅部队，将它分成三队，每队由一位元帅统领；约押与兄弟亚比筛，并迦特人以太共同指挥。大卫想与他们一同出战！应用：作为领袖与军兵一起出战是很重要。领袖在事奉中与信徒一起，领袖在任何的环境里与信徒一起走过。我们要同心协力为主而战。祷告：
摩托车加装车载手机充电usb方案/雅马哈USB充电方案开发诚芯微科技社交电子
长途骑行需要给手机与行车记录仪等设备供电，那么，加装USB充电器就相继在两轮电动车上应用起来了。摩托车加装usb充电方案主要应用于汽车、电动自行车、摩托车、房车、渡轮、游艇等交通工具。提供电动车USB充电器方案/摩托车加装usb充电方案/渡轮加装usb充电方案/游艇加装usb充电方案开发。摩托车加装车载手机充电usb方案、汽车游艇改装四孔面板装双USB车充点烟器5V/4A电动车USB充电器输入4.
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
广州会刊小程序开发公司哪家好｜开发多少钱费用｜专业外包服务红匣子实力推荐
在选择广州会刊小程序开发公司时，有几个关键因素需要考虑。首先，您应该确定自己的需求和目标，以便找到最合适的开发公司。其次，您需要考虑公司的经验和专业知识。最后，您还应该考虑公司的信誉和口碑。开发-联系电话：13642679953（微信同号）首先，您应该明确自己的需求和目标。会刊小程序是一种用于展示会议信息和日程安排的应用程序。在选择开发公司之前，您应该明确自己的需求，包括功能要求、设计风格和用户体
简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

Sawzall原理与应用

你可能感兴趣的:(原理,应用,sawzall)