cnweike

对于数据工作的一些总结

近几天由于升级了系统，系统的中文输入法ibus-pinyin一直用不了，安装了一个Sougou的云输入法Chrome插件，又可以输入中文了。科技的进步给我么生活带来的便利确实是令人惊讶的，所以做人当怀感恩之情，长有敬畏之心，别人用技术改变了我们的生活，而我们也要通过我么能做的为别人提供便利，这样这个世界才能更美好。

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

有总结才能有提高，做了一年半的数据工作了，现在辞职，闲赋在家，也到了总结一下的时候了，其中有经验也有教训，与大家分享一下，也希望能得到大家的批评与指正。说到数据工作，总体上有以下几个大块组成吧（按照工作的依赖关系或者时间先后）：

1。ETL模块

2。存储模块

3。计算模块

4。数据预处理模块

5。报表模块

6。监控系统模块

7。深度的分析挖掘模块

8。分析报告展现模块

9。基于分析挖掘模块的数据服务系统

10。数据服务系统反馈模块

X。数据清洗模块

以下就详细地说一下整个过程吧：

1。ETL模块（快照数据：Python脚本+Shell驱动+Rsyn（wget），用户行为日志数据：scribe+hdfs）：

ETL翻译成中文就是Extract（提取），Transform（转换，涉及到数据清洗），Load（载入）。连起来描述一下就是：将数据提取出来，做一下转换，然后讲转换后的数据载入到数据仓库中。概念并不复杂，但是在实际去做的过程中还是有许多需要考虑的问题。

（0）比如数据的存储结构，如果数据的存储是一致并且高度结构化的（像是金融行业数据），那我么就可以通过一些成型的工具来完成整个ETL过程；

（1）如果数据是结构化的但是数据是不一致的（比如跨国公司在全球的各个数据中心之间的数据），这样的情况下，Transform的过程就非常重要的，数据中心A用0和1来表示性别，而数据中心B用F和M来表示性别，我们必须通过T这个步骤将它们转换成一个统一的标识；

（2）还有就是数据的存储是非结构化的，比如用户的数据是存储在序列化之后的对象中（我所面临的情况就是，部分数据是结构化的，还有一部分数据是序列化后的对象），这样的情况下，用传统的ETL工具也许就没有那么顺手了，需要自己写一些脚本来完成数据的提取以及转换过程；

（3）还有就是数据的存储是非结构化的，并且要兼顾许多产品的ETL过程，这在我所在的社交游戏行业尤为明显，一个公司可能会有多款产品同时在线运营，而社交游戏的数据存储需要一定的灵活性，以方便功能的添加，所以序列化之后的数据是司空见惯的，事实上除了用户的付费数据，其它的各种数据都涉及到反序列化；产品不一样，所要的数据自然也不可能完全一样，但是如果上线一个新产品，就要去调动数据、BI、运营三个部门的工作人员去根据产品的现状参与制定整个产品的数据采集标准，显然是比较低效的，低效就导致了产品上线初期一些关键的数据拿不到，也许就会错过一些有价值的数据。对此的改进，我觉得应该是这样：抽象出一个行业标准的数据规格（比如记录什么数据，其记录规格是怎样的），每个产品都必须按照这个规格记录并提供数据，这是在产品研发、实现过程中必须考虑的一部分。这样，如果有新产品上线，就可以直接按照规格去提取数据，而省去了沟通的麻烦；另外对于产品个性化的数据，可以通过后来额外的沟通共同确定、实现。统一规格的数据对于报表系统的数据生成也是很重要的，有了统一的数据模型，也许我只要更改一下产品的标识，我就能完成整个产品的报表的配置生成工作。当然统一的规格也有短板，就是如果要更改这个规格，就会要求每个产品都做相应的变更，但是从总体上看，有一个统一规格的数据规格是能提高效率的。

（4）非结构化、多个产品，如果再加上大数据量的话，我么又需要考虑更多了。在如的今互联网时代，一个成功的社交游戏产品拥有几千万的用户也是很常见的事情。正所谓量变引起质变，如果数据量巨大，E的过程必然会成为瓶颈，这在我的工作中也得到了印证。解决方案无非就是优化E过程，采用多进程的模式来提高E的效率，事实证明效果还是不错的。

（5）ETL的确认机制。整个ETL的成功是需要确认的，ETL过来的数据是后来数据工作的基础，如果ETL过程由于某些原因只取过来一半的数据或者数据还没有采集完成就去拉去数据了，再考虑到数据快照的时效性，势必会对今后更深层次的数据工作产生不利影响。因此要保证整个ETL过程的可用性还必须建立一套通知、确认机制。这样不但能够从一定程度上保证ETL过程的可靠性，并且基于这些通知数据可以做数据驱动的计算（比如说报表数据的生成、数据的预处理计算）。

2。存储模块（Hadoop HDFS+ Mysql）

（0）数据仓库存储模块要能满足存储大量数据的要求。我们所选取的存储方案是Apache Hadoop的HDFS集群，它的可扩展性能很好地满足对于大量数据的存储需求，并且从Facebook、Yahoo！、中国移动等这些大公司的使用反馈来看，其可用性也是可以满足需求的。

（1）Mysql主要是用来存储报表数据，作为世界上使用量最大的开源DBMS，我想大家也应更改不会陌生吧！

3。计算模块（Hadoop Mapreduce）

（0）Hadoop应该说是一套完整的存储计算套件了，并且基于它，也有很多工具已经被大量应用，像是Facebook的Hive，Yahoo！的Pig都是非常好的数据处理、分析工具。

（1）Hive是我们主要的分析工具，公司的BI部门也主要使用Hive进行一些常规的数据分析（或者预处理之后用其他工具，比如R，Excel，weka等分析）。之所以选择Hive而不是Pig主要还是因为学习曲线问题，Hive的查询接口是类SQL语句，而BI部门的分析人员大多也都熟悉SQL;Pig的分析接口是一种数据流语言，更加灵活，虽然学习曲线也不是很陡，但是毕竟也是一个全新的语言，多数人都不想在能用更熟悉的工具的时候，去选择另一个不熟悉的工具，特别是它们能实现的功能差不多的时候。

（2）报表数据的生成也是基于Hive来做的，为了充分利用Hadoop集群的计算能力，我们对于报表数据的计算是数十个进程同时进行的，这一点非常重要。

（3） BI部门的分析人员现在主要通过Cloudera的HUE工具来使用Hive。从终端界面转移到一个web页面，开始的时候，很多人（几乎是每个）都有抱怨的声音发出，这可能是习惯的问题。HUE确实是一个不错的工具，还是用Django做的。

4。数据预处理模块（Hadoop MapReduce + Hive）

（0）数据的预处理在数据仓库中是非常重要的一环，说的再飘忽一些，应该就是一种最初的建模工作。既然是创建模型的工作，那么它的重要性也就不言而喻了。创建模型必须谨慎，因为一个模型一旦成型并且投入使用，再要更改这个模型，那可能要付出很大的代价。

（1）整个数据预处理过程还设计到一些数据清洗的工作，将非法数据过滤掉。

（2）至于采用的技术方案，目前还是主要基于Hive来做，对于一些用Hive难以表达的预处理工作，则直接使用Hadoop的MapReduce API来编写MapReduce程序来完成。我也探索过用脚本语言来写MapReduce程序的方案，比如last.fm开源的DUMBO，用Dumbo写程序确实很快，但是其执行的效率与用原生的Java API相比确实差距较大，最终还是选择了用Java来写。

5。报表模块（tornado web server + 一系列开源框架）

对于一个看重数据的公司来说，一个报表系统是不可少的，下面是从报表系统的开发过程中总结出的一些经验：

（0）技术选型：本人Python出身，自然将范围锁定在Python那大量的web框架上。最后由于种种原因还是选择了tornado作为开发框架；数据库用的Mysql；Jquery、jqueryui是不可少的；数据可视化选用了highchart；还使用了YAML CSS框架；ORM用的是SQLAlchemy。

（1）前端设计：由于公司运营产品众多，所以按产品做了一个树菜单，来保存各个产品的报表分类、项目，每个报表基本包含两个元素：表和图形。

（2）数据处理流：鉴于对于数据的处理可能有很多环节，我在数据处理流中对数据结构的做了严格的一致性限制。任何模块处理后的数据必须保持一致的数据结构，这样每个处理模块就像一个过滤器，每个处理模块尽量与其它处理模块无依赖（当然还是有些依赖的）。事实证明，这样的设计在后来的功能演进过程中给我们带来了极大的便利。

6。监控模块（Python）

这个模块是非常重要的一个模块，任何一个完善的数据系统都应该有一个强大的监控系统，在这方面，我做的并不多，还请大家多指教。但是总体上来说需要监控的内容主要由以下几大项：

（0）ETL整个过程的监控

（1）对于数据预处理的监控

（2）对于数据计算结果的监控，目前我们已经实现，是在计算模块中添加了一些监控子模块实现的

（3）对于数据计算时间的监控

7。深度的分析挖掘模块

这主要涉及到相关专业人员的工作了。主要是利用Hadoop处理数据，然后利用各种分析这些数据。对于这种工作，我坚定地认为工具只是手段，思想才是灵魂。但是善假于物也是非常重要的一种素质和提高效率的一种途径。俗话说“工欲善其事，必先利其器”。在我们的分析部门中，使用的工具主要有Excel，Weka，我都不是很熟悉，前段时间我研究了一下R，感觉不错，不过没有深入使用过，还是没什么底，打算今后多加研究吧。

对于大数据量的一些数据挖掘工作，只能以强大的计算能力为依托了，为此，我实验过Apache的Mahout工具，这是一个可以基于Hadoop集群做分析的工具，不过一直都没有在正式的工作中使用过。

8。分析报告展现模块

分析的结果作为知识展现出来、管理，wiki应该是不二的选择。开源wiki众多，还是出于Python的原因，最后选择了MoinMoin，并通过External Cookie实现了与报表系统的认证、权限集成。从使用的效果来看，很不错。

9。基于分析挖掘模块的数据服务系统

这个模块在我离职时还是只是一个设想，其主要功能还是将数据挖掘的结果直接应用到产品中，为用户提供差异化的服务，这其中主要涉及到一个用户分类的问题。这项工作需要许多前期的准备工作，包括更加丰富的挖掘报告，后端部门的接口准备工作，我们数据团队的接口准备工作。

10。数据服务系统反馈模块

主要是用来衡量数据服务模块效果的，并根据这个效果调整利用数据服务的策略。

X。数据清洗模块

数据清洗的功能，主要是清除脏数据，分布在数据仓库系统许多数据处理的过程中。ETL级别的清洗是第一，而后分析级别的清洗。清洗这一步可能出现在系统的多个部分，所以我就给了它一个X编号。

在公司做了一年半的数据工作，回顾这一段历程，从一开始的用脚本跑业务数据库满足运营基本的数据需求，到着手组建基于Hadoop集群的数据仓库，到优化集群的性能、优化数据仓库的存储结构、建立初级的数据仓库模型，到最后设计、开发报表系统，协助分析人员做深层分析挖掘工作。我对于这些没有任何经验，但是在书本和谷歌的帮助下还是做了下来，也许做了的也就那样了，也不一定是最好的，但是令我欣慰的是，我所做的工作确实满足了公司的大部分需求；更令我欣慰的是从这个过程中，我实践了自我学习的方法，建立了自己的知识管理体系。最后，非常感谢我身边与我一起工作的每个人，从他们身上我学到了很多，我离职之后希望他们能将数据团队建设得更好。

休息一段时间，再启程！

想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
我的烦恼余建梅
我的烦恼。女儿问我：“你给学生布置什么作文题目？”“《我的烦恼》。”“他们都这么大了，你觉得他们还有烦恼吗？”“有啊！每个人都会有自己烦恼。”“我不相信，大人是没有烦恼的，如果说一定有的话，你的烦恼和我写作业有关，而且是小烦恼。不像我，天天被你说，有这样的妈妈，烦恼是没完没了。”女儿愤愤不平。每个人都会有自己的烦恼，处在上有老下有小的年纪，烦恼多的数不完。想干好工作带好孩子，想孝顺父母又想经营好自
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
今天我破防了 sin信仰
今天本来是大年初一，新年的第一天，应该是高高兴兴的一天，但是我怎么也高兴不起来。具体原因很简单，原本计划年后去县城找了一份会计的工作，被公公婆婆否定了，我心里立马就不舒服了，但是当时刚好肚子疼，我去了厕所，等我上完厕所，公公由于喝了酒还在那里和婆婆唠叨个没完。然后我就在心情极度压抑的情况下把午饭吃完的碗筷和锅给刷了。边刷碗筷和锅，边在那里难受，感觉自己在这个家里真的是过的憋屈死了，公婆不让我去上班
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
感赏日志133 马姐读书
图片发自App感赏自己今天买个扫地机，以后可以解放出来多看点书，让这个智能小机器人替我工作了。感赏孩子最近进步很大，每天按时上学，认真听课，认真背书，主动认真完成老师布置的作业。感赏自己明白自己容易受到某人的影响，心情不好，每当此刻我就会舒缓，感赏，让自己尽快抽离，想好的一面。感赏儿子今天在我提醒他事情时，告诉我谢谢妈妈对我的提醒我明白了，而不是说我啰嗦，管事情，孩子更懂事了，懂得感恩了。投射父母
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
把握“三度”打造“三有”干部队伍辛德瑞拉卡卡卡
“胜败兴亡之分，不得不归咎于人事也”。干部队伍建设工作的好坏，关系到党和国家的发展全局。近日，新疆维吾尔自治区党委书记马兴瑞在部分党群单位走访调研时强调，要努力培养造就忠诚干净担当的高素质专业化干部队伍。各级组织部门应当在培养选拔干部、吸收优秀青年到党内来、培养造就优秀人才上下功夫，切实增强干部投身实践、解决问题、推进工作的能力，着力打造高素质专业化干部队伍。“天生我材必有用”，增强选育有“准度”
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
人生的每一步路都算数 sheli
如果你想打工，一直靠打工赚钱，那你就会不断的希望自己变得更专业，不断的希望能够获得更好的工作机会，升职加薪。如果你的目标志不在此，而是拥有自己的企业，那你的选择就会出现差别。在认真打工的人眼里，会“不务正业”，会总是选择不同岗位，甚至放弃高薪机会。但是这背后都是有更加长远的规划。成功富人所必需的管理技能包括：1．对现金流的管理。2．对系统的管理。3．对人员的管理。所以，在没有获得这些能力之前，只要
人怎么才能认识自己？阿尚青子自由写作人
人怎么才能认识自己？（原问题）我从不愿意上纲上线地确定偌大的话题，就直接说吧。纵使你能认识世界上的万事万物，你很难做到真实地认识自己。因为即使就这个世界，基本上每个人也很难做到客观、公正、科学地认识。对你好的人就是好吗？一件事情是否能够保持永远原来的样子？借不到钱的男友，女友想离开他就理直气壮？父母对子女有几分慷慨，又有几分是无私？工作的意义究竟是什么？是工作需要你，还是你需要工作呢？诸如此类的问
CX8836：小体积大功率升降压方案推荐（附Demo设计指南）诚芯微科技社交电子
CX8836是一颗同步四开关单向升降压控制器，在4.5V-40V宽输入电压范围内稳定工作，持续负载电流10A，能够在输入高于或低于输出电压时稳定调节输出电压，可适用于USBPD快充、车载充电器、HUB、汽车启停系统、工业PC电源等多种升降压应用场合，为大功率TYPE-CPD车载充电器提供最优解决方案。提供CX8836Demo测试、CX8836样品申请及CX8836方案开发技术支持。CX8836同升
怎么做淘客赚钱(2022最新免费淘客盈利的方法) 高省_飞智666600
很多人都不知道什么是淘宝客，今天小编为大家解答一下吧。淘宝客，现在简称淘客，是时下比较流行的一个词语，特质为淘宝店推广商品获取提成的人，这些人没有自己的产品，只是在淘宝里面选择适合自己的产品，在自己比较熟悉的领域推广，把产品卖出去之后，会从淘宝店家那里获得百分之五到百分之五十左右的佣金。淘宝客付出的是什么呢？时间。你需要花时间去选适合自己推广的产品，需要花时间去选自己的推广方法，如果你打算自己做个
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
教育用心灵温暖心灵
@陈春丽长期学习班冯倩。今天一早就听到说高职合并，取消中专教育的教育信息。感觉是虽然知道，再听还是吓一跳。国家重视职业教育为何还要取消中专技术学校的教育？再听高中就要进行技术教育了，一部分人学习好继续努力学习考大学，一部分人在高中就可以进行职业教育接受职业教育了还要中专技术教育学校干什么呢！a有些职业教育学校转型升级快，不是孩子上完给找工作，而是学校帮孩子创业，我觉得是不错的方向！新闻新你得实时更
2021-08-09 杜永鹏
京❤️达总店：杜永鹏2021年8月9日落地真经严格就是爱，放纵既是害目标确认目标:产值目标165000台次目标100油卡目标10体验：在工作中遇到问题不要盲目的去干，要多方面考虑问题，找到问题的关键克服困难并解决问题！
如何选择最适合你的项目研发管理软件？TAPD卓越版全面解析北京云巴巴信息技术有限公司产品经理需求分析
在当今快速发展的科技时代，项目研发管理软件已成为企业不可或缺的重要工具。面对市场上琳琅满目的产品，如何选择一款适合自己团队的项目研发管理软件呢？本文将围绕项目研发管理软件的选择标准，重点介绍TAPD卓越版的特点、优势以及使用体验，让你更好地理解和选择适合自己的项目研发管理软件。项目研发管理软件的选择标准在选择项目研发管理软件时，我们需要考虑以下几个方面的因素：功能全面性：软件是否覆盖了从需求管理、
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

对于数据工作的一些总结

你可能感兴趣的:(mapreduce,工作,hadoop,数据仓库,报表,产品)