明明如皓

Elang之ETS系列函数功能与用法详解

最常用函数：

new(Name, Options) -> tid() | atom()

新建一个表名为Name的ETS表，并返回表的一个标识符。

  Types:

                 Name = atom()

                 Options = [Option]

                 Option = Type | Access | named_table | {keypos,Pos} | {heir,pid(),HeirData} | {heir,none} | Tweaks

                 Type = set | ordered_set | bag | duplicate_bag

                 Access = public | protected | private

                 Tweaks = {write_concurrency,boolean()} | {read_concurrency,boolean()} | compressed

                 Pos = integer()

                 HeirData = term()



tab2list(Tab) -> [Object]

返回一个ETS表的所有对象数据的列表

Types:

           Tab = tab()

          Object = tuple()

增/插入：

insert(Tab, ObjectOrObjects) -> true

向ETS表Tab中插入一个或一个对象列表数据ObjectOrObjects，如果是set类型和orderen_set类型的表，插入的数据和表里的数据有相同的键值，则旧数据会被替换：

insert_new(Tab, ObjectOrObjects) -> boolean()

与insert/2类似，但当插入的对象是一个列表，则在插入数据前，将检测列表里的每一个键，如果有和表中键值相同的则不插入任何数据对象:

删/删除：

delete(Tab) -> true

     Types:

          Tab = atom() ｜tid()

删除整个Tab表:

delete(Tab, Key) -> true

     Types:

          Tab = atom() | tid()

          Key = trem()

从Tab表中删除所有以Key为键的对象

例如：

Tab = ets:new(test_ets_new, [set, named_table]),
ets:insert(Tab, [{a, 1, 1}, {b, 2, 2}]),
ets:delete(Tab,c).

结果为：true

为了确认是否已经删除我们可以执行ets:tab2list(Tab). 可以看到返回结果是：[{b,2,2}] 说明确实已经删除了。


delete_all_objects(Tab) -> true

     Types:

          Tab = atom() | tid()

删除Tab中的所有对象，该操作会保持数据的原子性和独立性

delete_object(Tab, Object) -> true

删除与Object精确匹配的对象，只有键值相同，但其他有不匹配的对象不会被删除（这对于Bag类型的表非常有用，在duplicate_bag表中，所有匹配的对象都会被删除）。

例子1：

TableId = ets:new(test_ets_new, [named_table, bag]),
ets:insert(TableId, [{a, 1}, {b, 2}, {a, 3}, {c, 4}]),
ets:delete_object(TableId, {a, 3}),
ets:tab2list(TableId).

结果： [{c,4},{b,2},{a,1}]

例子2：

TableId = ets:new(test_ets_new, [named_table, duplicate_bag]),
ets:insert(TableId, [{a, 3}, {b, 2}, {a, 3}, {c, 4}]),
ets:delete_object(TableId, {a, 3}),
ets:tab2list(TableId).

结果：[{c,4},{b,2}]

修改/更新：

update_element(Tab, Key, ElementSpec :: {Pos, Value}) -> boolean().

update_element(Tab, Key, ElementSpec :: [{Pos, Value}]) -> boolean().

更新ETS表Tab里键为Key的对象数据的第Pos个元素数据的值更改为Value。可一次更改一个键的多个Pos

Types:

                Tab = tid() | atom()

                Key = Value = term()

                Pos = integer()

例：

Tab = ets:new(test_ets_new, [set, named_table]),
ets:insert(Tab, [{a, 1, 1}, {b, 2, 2}]),
ets:update_element(Tab, a, {2, 100}),
ets:tab2list(Tab).

结果：[{b,2,2},{a,100,1}]

一次修改多个位置：

Tab = ets:new(test_ets_new, [set, named_table]),
ets:insert(Tab, [{a, 1, 1}, {b, 2, 2}]),
ets:update_element(Tab, a, [{2, 100}, {3,10}]),
ets:tab2list(Tab).

结果：[{b,2,2},{a,100,10}]

查/查找

lookup(Tab, Key) -> [Object]

返回表Tab里键为Key的所有对象数据的列表,如果是ordered_set则键1.0 与 1相等。

例子1：


ets:new(test_ets_new, [set, named_table]),
ets:insert(test_ets_new, [{a, 1}, {b, 2}]),
ets:lookup(test_ets_new, a).

结果：[{a,1}]

例子2：


ets:new(test_ets_new, [ordered_set, named_table]),
ets:insert(test_ets_new, [{1, 1}, {2, 2}]),
ets:lookup(test_ets_new, 2.0).

结果：[{2,2}]

例子3：


TabId = ets:new(test_ets_new, [duplicate_bag, named_table]),
ets:insert(TabId, [{a, 1}, {b, 2}, {a, 3}]),
ets:lookup(TabId, a).

结果： [{a,1},{a,3}]

lookup_element(Tab, Key, Pos) -> Elem如果表的类型是 set 或 ordered_set，那么该函数将返回键为 Key 的对象的第 Pos 个元素。如果表的类型是 bag 或 duplicate_bag，那么该函数将返回键为 Key 的对象的第 Pos 个元素的列表。如果表里没有键为 Key 的对象，函数将以 badarg 的原因退出。

例子1：set类型表：

ets:new(test_ets_new, [set, named_table]),
ets:insert(test_ets_new, [{a, 1}, {b, 2}]),
ets:lookup_element(test_ets_new, a, 2).

结果：1

例子2：duplicate_bag类型表:


ets:new(test_ets_new, [duplicate_bag, named_table]),
ets:insert(test_ets_new, [{a, 1}, {b, 2}, {a, 3}]),
ets:lookup_element(test_ets_new, a, 2).

结果：[1,3]

member(Tab, Key) -> true | false 判断表里是否存在指定键的数据：

TableId = ets:new(test_ets_new, [named_table, set]),
ets:insert(TableId, [{a, 1}, {b, 2}, {c, 3}]),
ets:member(TableId, b).

结果：true

模式匹配相关函数（同样会有增删改查）：

fun2ms(LiteralFun) -> MatchSpec

把语法函数转为匹配规范的伪函数，例子：

ets:fun2ms(fun({M, N}) when N > 3, is_atom(M) -> M end).

结果：[{{'$1','$2'},[{'>','$2',3},{is_atom,'$1'}],['$1']}]

查/匹配查找

select(Tab, MatchSpec) -> [Match]

使用一个匹配描述从表Tab中匹配对象。MatchSpace是一个含有三个参数的元组元素：第一个元素是ets：match/2的文档中描述的模式，第二个参数是含有多个断言测试的列表，第三个是包含关于实际返回值描述的列表。简单来说第一个参数是传入的已知变量，第二个参数是判断条件，第三个参数是返回结果。返回值的结构使用 MatchHead 所绑定的 "match variables"，或者使用特殊的匹配值 '$_'（整个匹配对象）和 '$$'（包含所有匹配值的列表）：

Types:

          Tab = tid() | atom()

          Match = term()

          MatchSpec = match_spec()

例子1（返回值为‘$$’）：

Tab = ets:new(test_ets_new, [private]),
ets:insert(Tab, [{a, 1}, {b, 2}]),
ets:select(Tab, [{{'$1', '$2'}, [], ['$$']}]).

结果：[[b,2],[a,1]]

例子2（返回值为‘$_’）：

Tab = ets:new(test_ets_new, [private]),
ets:insert(Tab, [{a, 1}, {b, 2}]),
ets:select(Tab, [{{'$1', '$2'}, [], ['$_']}]).

结果：[{b,2},{a,1}]

例子3 (返回MatchHead所绑定的“match variables”)：

Tab = ets:new(test_ets_new, [private]),
ets:insert(Tab, [{a, 1}, {b, 2}]),
ets:select(Tab, [{{'$1', '$2'}, [], ['$1']}]).

结果：[b,a]

例子4 ( 未弄明白为什么返回的是[2,1]):

Tab = ets:new(test_ets_new, [private]),
ets:insert(Tab, [{a, 1}, {b, 2}]),
ets:select(Tab, [{{'$1', '$2'}, [], ['$1', '$2']}]).

结果：[2,1]

select(Tab, MatchSpec, Limit) -> {[Match], Continuation} | '$end_of_table'用法和ets：select/2相似，只是返回限定数量（limit）的匹配对象数据。Continuation项可以在后续的ets:select/1调用中获取下一组匹配的对象数据。速度比ets:first/1 和ets:next/1逐个方位对象更快。

Types:

             Tab = tid() | atom()

             Match = term()

             MatchSpec = match_spec()

             Continuation = term()

select(Continuation) -> {[Match], Continuation} | '$end_of_table'

继续从ets:select/3开始的匹配，下一次匹配到的限定数量Limit的对象数据将与心得Continuation一起返回。心得Continuation 将会在后续调用该函数时被使用。

Types:

             Match = term()

             Continuation = term()

select_reverse(Tab, MatchSpec) -> [Match] 跟 ets:select/2 一样，都是根据匹配规范匹配表里的对象数据，不过如果是 ordered_set 类型的 ETS 表的话会返回一个倒序的列表，其他类型的表返回的值跟 ets:select/2 一样。

Types:

              Tab = tid() | atom()

              Match = term()

              MatchSpec = match_spec()

select_reverse(Tab, MatchSpec, Limit) -> {[Match], Continuation} | '$end_of_table'与select_reverse/2的关系就像 selet/2 和selet/3的关系:

Types:

                Tab = tid() | atom()

                Match = term()

                MatchSpec = match_spec()

                Continuation = term()

select_reverse(Continuation) ->{[Match], Continuation} | '$end_of_table'

Types:

                    Match = term()

                    Continuation = term()

删除:

select_delete(Tab, MatchSpec) -> NumDeleted

根据匹配模式删除表里的对象数据

Types:

               Tab = tid() | atom()

               Object = tuple()

               MatchSpec = match_spec()

               NumMatched = integer()

不常用的匹配函数：

is_compiled_ms(Term) -> boolean()

检测一个 Erlang 数据是否是一个有效已编译的匹配规范：

match(Continuation) -> {[Match], Continuation} | '$end_of_table'

match(Tab, Pattern) -> [Match]

根据匹配模式 Pattern 匹配 ETS 表 Tab 里的对象数据。一个匹配模式也许包含的项值有：绑定部分（Erlang 项），'_' 可以匹配任何 Erlang 项，和匹配变量：'$N'（N>=0）函数将返回一个匹配每个对象数据的元素的列表，每个元素是一个绑定变量模式的有序列表:

Types:

    Tab = tid() | atom()

    Pattern = tuple()

    Match = [term()]

match(Tab, Pattern, Limit) -> {[Match], Continuation} | '$end_of_table'参考select/2与

Types:

                        Tab = tid() | atom()

                        Pattern = tuple()

                        Match = [term()]

                        Continuation = term()

match_delete(Tab, Pattern) -> true根据匹配模式删除表里的对象数据

Types:

    Tab = tab()

    Pattern = match_pattern()

一些不常用的函数：

all() -> [Tab]

返回当前节点中所有的ets表组成的列表。如果表有命名返回表名，否则返回表的标识符

i() -> ok

在输出端上打印显示所有的ETS表的信息

i(Tab) -> ok

在输出端上打印显示指定ETS表Tab的信息

     Types:

          Tab = atom() | tid()

info(Tab) -> [{Item, Value}] | undefined返回一个以{Item, Value}元祖形式的列表的ETS表的信息。如果没有找到表则返回undefined，如果Tab不是一个表，则返回bagarg:

Tab = tid() | atom()

               Item = atom(), see below

               Value = term(), see below

info(Tab, Item) -> Value | undefined 返回给出的跟表Tab相关的项Item的信息。如果没有找到表则返回undefined，如果Tab不是一个表或者Item是一个无效值，则返回bagarg：

rename(Tab, Name) -> Name

给一个已命名的ETS表Tab重命名一个新的名字Name

first(Tab) -> Key | '$end_of_table'

返回ETS表Tab中的第一个对象数据的键。例子：

ets:new(test_ets_new, [set, named_table]),
ets:insert(test_ets_new, [{a, 1}, {b, 2}]),
ets:first(test_ets_new).

结果：a

last(Tab) -> Key | '$end_of_table' 如果类型是 ordered_set，则返回 Erlang 项顺序的最后一个键将被返回；如果是其他类型的表，该函数的处理跟 ets:first/1 一样

ets:new(test_ets_new, [ordered_set, named_table]),
ets:insert(test_ets_new, [{a, 1}, {b, 2}]),
ets:last(test_ets_new).

结果：b

next(Tab, Key1) -> Key2 | '$end_of_table' 返回表里紧随键Key1的下一个键Key2. 除ordered_set之外的类型的表，如果有并发更新了表，遍历将失败，除非使用ets：safe_fixtable/2函数对表进行保护锁定。

prev(Tab, Key1) -> Key2 | '$end_of_table'

返回在表里跟键 Key1 紧随的上一个键 Key2。如果是 ordered_set 类型的表，返回的是 Erlang 项顺序的前一个键将被返回；如果是其他类型的表，该函数的处理跟 ets:next/2 一样

Types:

              Tab = tid() | atom()

              Key1 = Key2 = term()

foldl(Function, Acc0, Tab) -> Acc1 n对ETS表数据进行循环遍历操作，规则和lists:foldl/3一样

   Types:

      Function = fun((Element :: term(), AccIn) -> AccOut)

             Tab = tab()

             Acc0 = Acc1 = AccIn = AccOut = term()

例子：

Tab = ets:new(ets_tab, [named_table, set]),
ets:insert(Tab, [{a, 1}, {b, 2}, {c, 3}, {d, 4}, {e, 5}]),
ets:foldl(fun({_Key, Val}, AccVal) ->
    AccVal + Val
end, 0, Tab).

结果：15

foldr(Function, Acc0, Tab) -> Acc1 和ets:foldl/3一样，对ETS表进行遍历，区别是从表末端开始向前遍历

Types:



             Function = fun((Element :: term(), AccIn) -> AccOut)

            Tab = tab()

            Acc0 = Acc1 = AccIn = AccOut = term()

例子：

Tab = ets:new(ets_tab, [named_table, set]),
ets:insert(Tab, [{a, 1}, {b, 2}, {c, 3}, {d, 4}, {e, 5}]),
ets:foldr(fun({_Key, Val}, AccVal) ->
    AccVal + Val
end, 0, Tab).

结果：15

一些很少用到的函数：

safe_fixtable(Tab, Fix) -> true 锁定一个类型是 set，bag 或 duplicate_bag 的表，使其可以安全遍历表里的数据

Types:

     Tab = tid() | atom()

     Fix = boolean()

give_away(Tab, Pid, GiftData) -> true 让进程Pid成为表Tab的新的拥有者。

     Types:

        Tab = tid() | atom()

         Pid = pid()

         GiftData = term()

setopts(Tab, Opts) -> true 设置表的选项。目前可以在表创建后设置的选项只有heir,调用进程必须是表的所属进程。

update_counter(Tab, Key, X3 :: [UpdateOp], Default) -> [Result].

update_counter(Tab, Key, Incr) -> Result.

update_counter(Tab, Key, Incr, Default) -> Result.

更新ets中的数据，省去了从ets中“查找对象->更新对象数据->再插入新的对象”的过程:

Types:

             Tab = tid() | atom()

             Key = term()

             UpdateOp = {Pos,Incr} | {Pos,Incr,Threshold,SetValue}

             Pos = Incr = Threshold = SetValue = Result = integer()

文件转换为tab

tab2file(Tab, Filename) -> ok | {error, Reason} 将Tab表导出道文件Filename，等同于table2file(Tab, Filename, [])

     Types:

          Tab = atom() | tid()

          Filename = file:name()

          Reason = term()

tab2file(Tab, Filename, Options) -> ok | {error, Reason} 将Tab表到处导文件Filename。导表时，一些关于表的必须的信息被导到头部，这些信息包括表的类型，名字，访问权限，大小，版本和是否是已命名表，同事还有关于教导文件中的一些扩展信息相关的注释，这些可以使文件中的对象数或者是头部和文件中record的MD5值。如果标的访问权限是public并且在导表的过程中有田间或删除的对象，头部的大小字段值可能与实际的对象数不一致。public权限的表在导表时有更新，并且想在从文件中读取表时核对，则扩展信息中至少要有一个字段给读取和核对进程提供依据。

     Types:

          Tab = atom() | tid()

          Filename = file:name()

          Options = [Option]

          Options = {extended_info， [ExtInfo]} | {sync, boolean()}

          ExtInfo = md5sum | object_count

          Reason = term()

扩展信息选项指出有哪些扩展信息被写到了文件中：

object_count 实际写入文件的对象数量写在了文件的尾部,因此即使在导表时有更新表,也可以核对。

md5sum 头部和表中的对象使用内建的MD5函数来校验.所有对象的MD5值写在文件的尾部，所以读取时的校验可以发现文件中的数据微小的比特级的反转。使用该选项将要耗费适量的CPU时间。

注：一旦使用了扩展信息选项，将导致ets版本早于stdlib-1.15.1的文件无法读取.

file2tab(Filename) -> {ok, Tab} | {error, Reason} 读取一个由tab2file/2 或 tab2file/3生成的文件并创建对应的表，与file2tab(FileName, [])等效。

Types:

     Filename = file:name()

     Tab = tab()

     Reason = term()

file2tab(Filename, Options) -> {ok, Tab} | {error, Reason}

     Types:         

          Filename = file:name()

          Tab = atom() | tid()

          Options = [Option]

          Option = {verify,boolean()}

          Reason = term()

读取一个由tab2file/2 或 tab2file/3生成的文件并创建对应的表。目前支持的选项只有{verify, boolean()}.如果检验打开(也就是设置为{verify, true}),该函数将利用文件中的所有信息来断定数据是否被损坏，实现方式依赖于调用tab2file/3时写入extended_info的信息。如果文件中没有extended_info数据，但却设置了{verify,true},写入对象的数量将依赖于转储时原始表的大小。

如果在表是公共的并且在转储时有对象被删除或插入，将使得检验失败。为了避免这个问题，不要检验在转储的同时有更新的文件，或者在调用tab2file/3时使用{extended_info, [object_count]}，这将会把实际写入的对象数记录到文件中。

如果开启检验并且转储时使用{extended_info, [md5sum]}选项，在读取文件时将会比其他情况慢，消耗更多的CPU时间。

Options的默认值为{verify,false}.

tabfile_info(Filename) -> {ok, TableInfo} | {error, Reason} 返回通过tab2file/2或tab2file/3导入文件的标的信息

转载于:https://www.cnblogs.com/ACshasow/p/7000102.html

你可能感兴趣的:(大数据)

大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。