dominic_z

What makes LightGBM lightning fast?

墙外的一篇文章，讲得挺好的，转过来了，原文

Understanding GOSS and EFB; The core pillars of LightGBM

The post is structured as follows :

Basics of GBM.
Computational bottlenecks of GBM.
LightGBM’s optimisations over these bottlenecks

Basics of GBM — Gradient Descent, Boosting and GBDT.

What is Gradient Descent?

It is an optimisation technique to reduce the loss function by following the slope through a fixed step size.

What is a Boosting?

Boosting is sequential ensembling technique where hard to classify instances are given more weights. This essentially means subsequent learners would put more emphasis on learning mis-classified data instances. Final model would be weighted average of n weak learners.

Subsequent learners give more emphasis on undertrained / wrongly classified samples. Variation in dot size is representative of the weights given to that instance. Larger the size of dot larger is the weight assigned to it. Do note that all models are sequential.

What is GBDT?

GBDT (Gradient Boosting Decision Tree) is an ensemble model of decision trees which are trained in sequence(i.e. an ensemble model of boosting). In each iteration GBDT learns the decision tree by fitting the residual errors (errors upto the current iteration). This means every subsequent learner tries to learn the difference between actual output and weighted sum of predictions until an iteration before. The errors are minimised using the gradient method.

This brings us to second part of the post. The costliest operation in GBDT is training the decision tree and the most time consuming task is to find the optimum split points.

What are split points?

Split points are the feature values depending on which data is divided at a tree node. In the above example data division happens at node1 on Height ( 180 ) and at node 2 on Weight ( 80 ). The optimum splits are selected from a pool of candidate splits on the basis of information gain. In other words split points with maximum information gain are selected.

How are the optimum split points created?

Split finding algorithms are used to find candidate splits.
One of the most popular split finding algorithm is the Pre-sorted algorithm which enumerates all possible split points on pre-sorted values. This method is simple but highly inefficient in terms of computation power and memory .
The second method is the Histogram based algorithm which buckets continuous features into discrete bins to construct feature histograms during training. It costs O(#data * #feature) for histogram building and O(#bin * #feature) for split point finding. As bin << data histogram building will dominate the computational complexity.

(Binning example : Binning has greatly reduced the number of candidate splits)

Both LightGBM and xgboost utilise histogram based split finding in contrast to sklearn which uses GBM ( One of the reasons why it is slow). Let’s begin with the crux of this post

What makes LightGBM special?

LightGBM aims to reduce complexity of histogram building ( O(data * feature) ) by down sampling data and feature using GOSS and EFB. This will bring down the complexity to (O(data2 * bundles)) where data2 < data and bundles << feature.

What is GOSS?

GOSS (Gradient Based One Side Sampling) is a novel sampling method which down samples the instances on basis of gradients. As we know instances with small gradients are well trained (small training error) and those with large gradients are under trained. A naive approach to downsample is to discard instances with small gradients by solely focussing on instances with large gradients but this would alter the data distribution. In a nutshell GOSS retains instances with large gradients while performing random sampling on instances with small gradients.

Intuitive steps for GOSS calculation

Sort the instances according to absolute gradients in a descending order
Select the top a * 100% instances. [ Under trained / large gradients ]
Randomly samples b * 100% instances from the rest of the data. This will reduce the contribution of well trained examples by a factor of b ( b < 1 )
Without point 3 count of samples having small gradients would be 1-a ( currently it is b ). In order to maintain the original distribution LightGBM amplifies the contribution of samples having small gradients by a constant (1-a)/b to put more focus on the under-trained instances. This puts more focus on the under trained instances without changing the data distribution by much.

Formal algorithm for GOSS

What is EFB(Exclusive Feature Bundling)?

Remember histogram building takes O(#data * #feature). If we are able to down sample the #feature we will speed up tree learning. LightGBM achieves this by bundling features together. We generally work with high dimensionality data. Such data have many features which are mutually exclusive i.e they never take zero values simultaneously. LightGBM safely identifies such features and bundles them into a single feature to reduce the complexity to O(#data * #bundle) where #bundle << #feature.

Part 1 of EFB : Identifying features that could be bundled together
Intuitive explanation for creating feature bundles

Construct a graph with weighted (measure of conflict between features) edges. Conflict is measure of the fraction of exclusive features which have overlapping non zero values.
Sort the features by count of non zero instances in descending order.
Loop over the ordered list of features and assign the feature to an existing bundle (if conflict < threshold) or create a new bundle (if conflict > threshold).

Formal algorithm for bundling features

What is EFB achieving?

EFB is merging the features to reduce the training complexity. In order to keep the merge reversible we will keep exclusive features reside in different bins.

Example of the merge

In the example below you can see that feature1 and feature2 are mutually exclusive. In order to achieve non overlapping buckets we add bundle size of feature1 to feature2. This makes sure that non zero data points of bundled features ( feature1 and feature2 ) reside in different buckets. In feature_bundle buckets 1 to 4 contains non zero instances of feature1 and buckets 5,6 contain non zero instances of feature2.

(Intuitive explanation for merging features)

Calculate the offset to be added to every feature in feature bundle.
Iterate over every data instance and feature.
Initialise the new bucket as zero for instances where all features are zero.
Calculate the new bucket for every non zero instance of a feature by adding respective offset to original bucket of that feature.

博主注：其实我一直搞不清楚的就是这块，究竟是怎么把bundle里的特征merge到一起的，结合上面的例子来看下面的算法，bin就是一个桶，比如说一个特征的取值范围是(0,20)，假如分两个bin，那就是0到10第一个bin，10到20第二个bin。又例如上面的例子，feature1的binRange就是4，feature2的binRange就是2。于是经过第一个for之后，binRanges就是{0,4,6}，totalBin就是6。newBin，就是merge之后的特征的取值范围，以上面为例，返回的就是{1,2,3,4,5,6}。

Formal Algorithm for merging features

With this we have covered most of the optimisations proposed in the original paper. I hope this post would give you gain some understanding behind the core concepts of LightGBM library.
With this I complete my first attempt at writing a blog. Please feel free to share your thoughts, feedback or suggestions below.

你可能感兴趣的:(机器学习与数据挖掘)

《机器学习与数据挖掘》学习笔记（二）-续产品扫地僧
沿着PAC学习理论，讨论有限假设空间的样本复杂度，并用Hoeffding不等式来界定概率边界。假设空间的样本复杂度PAC可学习性很大程度上由所需的训练样本数量决定。随着问题规模的增长所带来的所需训练样本的增长称为学习问题的样本复杂度（samplecomplexity）。在多数实际问题中，最限制学习器成功的因素是有限的可用的训练数据。我们通常都喜欢能与训练数据拟合程度更高的假设，当一个学习器在可能时
牛人（周志华）推荐的人工智能网站城市中迷途小书童
AIURLs(maintainedbyZhi-HuaZhou)**北京大学视觉与听觉信息处理实验室北京邮电大学模式识别与智能系统学科复旦大学智能信息处理开放实验室IEEEComputerSociety北京映象站点计算机科学论坛机器人足球赛模式识别国家重点实验室南京航空航天大学模式识别与神经计算实验室-PARNEC南京大学机器学习与数据挖掘研究所-LAMDA南京大学人工智能实验室南京大学软件新技术国
1.5 The Leaming Problem-Machine Leaming and other Fields|机器学习基石（林轩田）-学习笔记努力奋斗的durian
文章原创,最近更新：2018-06-27学习链接:1.5TheLeamingProblem-MachineLeamingandotherFields1.MachineLearningandDataMining(机器学习与数据挖掘)讲完了机器学习完整的流程,下面将一下机器学习与其他相关领域的关系第一个讲的领域就是数据挖掘,数据挖掘与机器学习有什么不一样,如下:机器学习是用资料找出一个假说g,然后跟我
毕业设计选题 - 计算机毕业设计（论文）选题合集 weixin_55149953 毕业设计人工智能毕业设计毕设目标跟踪计算机视觉大数据算法
目录前言选题背景意义毕业设计选题深度学习与神经网络计算机视觉与图像处理机器学习与数据挖掘数据分析和大数据处理选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光,一边要忙着准备考研,考公,考教资或者实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。大四的同学马上要开始毕业设计,对选题有疑问可以问学长哦!以下整理了适合不同方向的计算机专业的毕业设计选题对毕设有任何疑问
DataFunSummit：2023年数据科学在线峰会-核心PPT资料下载百家峰会大数据数据治理数据科学大数据数据科学数据治理
一、峰会简介数据会说谎？如何正确的挖掘并使用数据？前沿的科学实验如何做？实验又是如何欺骗你的？数据中台如何发挥功效？用户增长有捷径吗？数据科学的最佳实践有哪些？本次峰会共包含了：机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大论坛。机器学习与数据挖掘方向的核心目标是通过机器学习的建模方式解决人与物的匹配问题，以及通过对人行为数据的建模或挖掘研究，
【机器学习】学习笔记01-概论 NRbene 机器学习机器学习学习数据挖掘
机器学习简介文章目录机器学习简介机器学习辨析深度学习与机器学习机器学习与数据挖掘机器学习与统计学习机器学习与传统编程机器学习概念适用条件挑战模型的稳定性模型的可解释性历史符号主义贝叶斯学派连接主义其他概念基本概念三要素模型策略算法归纳偏好证明机器学习的目标欠拟合和过拟合泛化误差(重点)缓解过拟合深入理解泛化误差基本概念方法总结机器学习一般流程机器学习分类按有无标签分类按输出空间分类按模型分类按算法
《机器学习与数据挖掘》学习笔记（一）产品扫地僧
从刚注册时强迫自己写文章时的拖延，到现在有了想法不自觉的想记录下来，是好的转变。最近开始对数据挖掘很感兴趣，在网易公开课上开始学加州理工的《机器学习和数据挖掘》，还可以顺便练练英语听力。第一课《学习问题》只要从问题引入，介绍什么是机器学习，以及常见的学习分类。在人类的认知中一些显而易见的结论，对机器而言是一个却是无限靠近的过程，比如婴儿可以快速识别一张脸的情绪等。课中介绍了银行信贷审批的例子。阐述
机器学习与数据挖掘第三、四周 Joy T 机器学习数据挖掘人工智能机器学习
为什么第二周没有呢……因为刚换老师，自学要适应一段时间。本课程作者之后的学习目标是：实操代码，至少要将作者参加数学建模中用到的数据处理方法都做一遍。首先，作者复习一下李宏毅老师的两节课程。机器学习概述机器学习就是让机器帮我们找一个函数！而这个函式，其实就是类神经网络！这个函式的输入可以是向量、矩阵和序列。矩阵往往用于表示图像。语音往往可以被表示为序列。输出可以是数值regression、类别cla
数分面试题1-牛客海星？海欣！面试问题 python 数据分析
1、python中你常用的包包名+作用+哪里使用过numpy:主要用来做多维数组的运算，高效的数值计算与数组操作，之前在推荐系统的项目中使用过pandas：用于数据处理与分析，提供了灵活的数据结构与数据操作功能matplotlib：数据可视化，比如想看数据的分布情况-箱线图，还有热力图、直方图、面积图、雷达图、极坐标图、等高线图等sklearn：用于机器学习与数据挖掘项目，提供多种机器学习算法与工
【AI】机器学习——绪论 AmosTian AI #机器学习人工智能机器学习 AI
文章目录1.1机器学习概念1.1.1定义统计机器学习与数据挖掘区别机器学习前提1.1.2术语1.1.3特点以数据为研究对象目标方法——基于数据构建模型SML三要素SML步骤1.2分类1.2.1参数化/非参数化方法1.2.2按算法分类1.2.3按模型分类概率模型非概率模型逻辑斯蒂回归1.2.4基本分类监督学习分类符号表示形式化特征无监督模型特征符号表示形式化强化学习半监督学习主动学习1.2.5按技巧
加州理工学院公开课：机器学习与数据挖掘_Epilogue（第十八课-终结篇）飞天狐213 机器学习机器学习 Aggregation 贝叶斯
课程简介:这是该课程的最后一课，作者首先总结了有关机器学习的理论、方法、模型、范式等。最后介绍了贝叶斯理论和Aggregation（聚合）方法在机器学习中的应用。课程提纲:1、机器学习的地图。2、贝叶斯理论。3、Aggregation（聚合）。1、机器学习的地图有关机器学习的方法、模型等非常多，简直令人目不暇接。比如下图列出来的。然而不建议一一学习这些方法、模型，否则容易迷失在这些方法里无法自拔。
大咖观点| AIGC与因果推断的双向赋能九章云极DataCanvas AIGC 人工智能大数据
近日，由DataFun主办的第三届数据科学在线峰会盛大举办。聚焦机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大数据科学主题，数十位国内外一线数据科学家围绕数据科学前沿技术成果和应用实践经验深入分享和交流。九章云极DataCanvas公司深度参与峰会，并分享前沿数据科学技术的最新研究进展。峰会上，九章云极DataCanvas公司AI架构师何刚发表
Python机器学习及实践_从零开始通往KAGGLE竞赛之路PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书胡萝卜须_aee2
点击获取提取码：i5nwimage.pngPython机器学习及实践面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下流行的机器学习、数据挖掘与自然语言处理工具，如Scikit-learn、NLTK、Pandas、gensim、XGBoost、GoogleTensorflow等。全书
大咖观点| AIGC与因果推断的双向赋能 aigc
近日，由DataFun主办的第三届数据科学在线峰会盛大举办。聚焦机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大数据科学主题，数十位国内外一线数据科学家围绕数据科学前沿技术成果和应用实践经验深入分享和交流。九章云极DataCanvas公司深度参与峰会，并分享前沿数据科学技术的最新研究进展。峰会上，九章云极DataCanvas公司AI架构师何刚发表
机器学习与数据挖掘的学习路线图 thousand_
https://my.oschina.net/siiiso/blog/810554正式学习之前，你所需要的预备知识（主要是数学）应该包括：微积分（偏导数、梯度等等）、概率论与数理统计（例如极大似然估计、中央极限定理、大数法则等等）、最优化方法（比如梯度下降、牛顿-拉普什方法、变分法（欧拉-拉格朗日方程）、凸优化等等）——如果你对其中的某些名词感到陌生，那么就说明你尚不具备深入开展数据挖掘算法学习的
通关秘籍！Pandas最新官方教程中文版 Python数据之道
大家好，感谢大家一路以来的关注和支持，今天给大家强烈推荐我的好友云朵君的公众号『数据STUDIO』，强烈推荐大家关注～‍☠️宝藏级‍☠️原创公众号『数据STUDIO』内容超级硬核。公众号以Python为核心语言，垂直于数据科学领域，包括可戳Python｜MySQL｜数据分析｜数据可视化｜机器学习与数据挖掘｜爬虫等，从入门到进阶！云朵君为大家整理和筛选了大量火爆全网的Python数据科学学习资料，全
机器学习（面试题）及知识点菜田的守望者机器学习机器学习面试题
文章目录文章目录文章目录1，什么是机器学习2，机器学习与数据挖掘的区别3.什么是机器学习的过度拟合现象4.过度拟合产生的原因5.如何避免过度拟合6.什么是感应式的机器学习？7.什么是机器学习的五个流行的算法？9.在机器学习中，建立假设或者模型的三个阶段指的是什么？10.什么是监督学习的标准方法？11.什么是训练数据集和测试数据集？12.机器学习的方法？13.非机器学习有哪些类型？14.什么是非监督
python语法基础知识案例_Python 语法速览与实战清单 weixin_39860064 python语法基础知识案例
本文是对于现代Python开发：语法基础与工程实践的总结，更多Python相关资料参考Python学习与实践资料索引；本文参考了PythonCrashCourse-CheatSheets，pysheeet等。本文仅包含笔者在日常工作中经常使用的，并且认为较为关键的知识点与语法，如果想要进一步学习Python相关内容或者对于机器学习与数据挖掘方向感兴趣，可以参考程序猿的数据科学与机器学习实战手册。基
if i have five million dollars 云想飘飘
假如我有五百万我首先要还清我的房贷然后买辆车然后在村里盖个舒服的房子给父母然后想不到了抽个时间去考个机器学习与数据挖掘研究生然后努力工作。。。。
python竞赛之路_Python机器学习及实践：从零开始通往Kaggle竞赛之路 PDF高清完整版... weixin_39900468 python竞赛之路
Python机器学习及实践：从零开始通往Kaggle竞赛之路PDF高清完整版作者:范淼/李超出版社:清华大学出版社副标题:从零开始通往Kaggle竞赛之路出版年:2016-10-1定价:49元装帧:平装ISBN:9787302442875内容简介······本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，
Python机器学习及实践+从零开始通往Kaggle竞赛之路喜欢安静的程序猿 python 经典书籍
内容简介本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具，如Scikitlearn、NLTK、Pandas、gensim、XGBoost、GoogleTensorflow等。全书共分4章。第1章简介篇，介绍机器学习概念与Python
机器学习与数据挖掘，机器学习算法简介明月说数据数据挖掘算法大数据
什么是数据挖掘数据挖掘就是从大量的数据中去发现有用的信息，然后根据这些信息来辅助决策。听起来是不是跟传统的数据分析很像呢？实际上，数据挖掘就是智能化的数据分析，它们的目标都是一样的。但是，又有很大的区别。传统的数据分析和数据挖掘最主要的区别就是在揭示数据之间的关系上。传统的数据分析揭示的是已知的、过去的数据关系，数据挖掘揭示的是未知的、将来的数据关系。它们采用的技术也不一样，传统的数据分析采用计算
机器学习算法之LightGBM The king always the king 机器学习
LightGBM在很多方面会比XGBoost表现的更为优秀。它有以下优势：更快的训练效率低内存使用更高的准确率支持并行化学习可处理大规模数据支持直接使用category特征从下图实验数据可以看出，LightGBM比XGBoost快将近10倍，内存占用率大约为XGBoost的1/6，并且准确率也有提升。LightGBM的应用LightGBM在机器学习与数据挖掘领域有着极为广泛的应用。据统计Light
机器学习第一章（引言）罗辑罗辑机器学习
“假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则意味着关于T和P，该程序对E进行了学习”机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，从而在计算机上从数据中产生“模型”，依此来对新的未知的情况进行判断。机器学习与数据挖掘的关系：图1.机器学习与数据挖掘的关系机器学习中的基本术语：数据、任务、泛化能力机器学习中的假设空间、归
python手写数字识别教学_6手写数字识别_python机器学习与数据挖掘_Python视频-51CTO学院... 职业生涯规划师 python手写数字识别教学
爬虫Python基础、数据分析扩展包Numpy、pandas、matplotlib，Python读取MySQL数据，Python爬虫及Scrapy框架，无监督机器学习算法聚类分析等，以及案例：互联网金融行业客户价值分析等。机器学习机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有
Python多元线性回归、机器学习、深度学习在近红外光谱分析中的应用 PhyliciaFelicia 深度学习遥感医学影像 python 线性回归深度学习
导师：郁磊副教授，主要从事MATLAB编程、机器学习与数据挖掘、数据可视化和软件开发、人工智能近红外光谱分析、生物医学系统建模与仿真，具有丰富的实战应用经验，主编《MATLAB智能算法30个案例分析》、《MATLAB神经网络43个案例分析》相关著作。已发表多篇高水平的国际学术研究论文。基于Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用第一章：Python入门基础1、Pyt
基于Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用 WangYan2022 机器学习/深度学习 python 近红外光谱分析
【专家】：郁磊副教授，主要从事MATLAB编程、机器学习与数据挖掘、数据可视化和软件开发、人工智能近红外光谱分析、生物医学系统建模与仿真，具有丰富的实战应用经验，主编《MATLAB智能算法30个案例分析》、《MATLAB神经网络43个案例分析》相关著作。已发表多篇高水平的国际学术研究论文。【特色】：1、原理深入浅出的讲解，强调原理的重要性；2、技巧方法讲解，提供教程配套的完整教材数据及提供长期回放
《机器学习与数据挖掘》实验八 Tony_Chen_0725 机器学习与数据挖掘实验决策树 python
实验题目：编程实现AdaBoost算法实验目的：掌握AdaBoost算法的求解过程实验环境（硬件和软件）Anaconda/Jupyternotebook/Pycharm实验内容：编码实现AdaBoost算法，以决策树为基学习器，训练一个AdaBoost集成模型，对测试样本进行判别。要求：一、已经给定部分代码，补充完整的代码，需要补充代码的地方已经用红色字体标注，包括：（1）#补充定义弱分类器的代码
【案例实践】Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用吹翻书页的风数据语言统计分析 python 深度学习近红外光谱多元线性回归
查看原文>>>基于Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用【专家】：郁磊副教授主要从事MATLAB编程、机器学习与数据挖掘、数据可视化和软件开发、人工智能近红外光谱分析、生物医学系统建模与仿真，具有丰富的实战应用经验，主编《MATLAB智能算法30个案例分析》、《MATLAB神经网络43个案例分析》相关著作。已发表多篇高水平的国际学术研究论文。【内容】：第一章、Py
数据挖掘入门：Python开发环境搭建（eclipse-pydev模式） Snoopy_Yuan 数据挖掘数据挖掘 python sklearn eclipse pydev
为便于使用Python进行机器学习与数据挖掘的学习，先安装sklearn等常用库。然后搭建出集成开发环境。由于之前常采用EclipseIDE来开发C/C++和Java，故先考虑搭建Eclipse-Pydev环境来学习使用Python。准备工作Ubuntu-14.04LTS(自带Python2和Python3)JDK1.7EclipseIDE配置过程1.配置系统Python环境Ubuntu-14默认
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他