webcode

多线程带智能采集策略的采集系统

去年年底的时候曾经发过一个数据采集器《网页数据采集器》，那是专门针对某一个网站来进行采集的，如果需要采集新的网站内容，就需要修改代码并重新编译。

昨晚完成了一个带智能策略的采集系统。其实，这个策略的方案三年前就想好了，那时候打算用VB做，做了一半就搁置了。现在用C#才终于把这个方案实现了。

整个方案大概是这样的：

需要建立一个AC数据库，MSSQL也行，有四个表：PageType用于记录页面的种类，比如列表页和详细页两类；Url表用于记录要采集的网址，另外还有一个字段TypeID标明该网址属于哪一种页面类型，比如是列表页还是详细页；Rule表记录着各种规则，主要有三个字段，FromTypeID源页类型，ToTypeID目的页类型，Pattern规则；CjPage用于存储采集到的网页内容，还包含网址和页面种类。

采集策略的核心就在于规则库Rule。

工作过程大概这样：
1,采集线程从Url表抽取一个网址，并马上在表中将其删除，为了防止冲突，这个过程需要用多线程同步解决；
2,用WebClient请求该网址的页面内容；
3,取得内容后，给线程池的线程来分析处理，本线程回到1，继续去Url表取下一个网址；
4,线程池在有空闲线程时，会调用分析函数ParsePage去处理上次获得的页面内容；
5,先到Rule中取所有FromTypeID为当前网址TypeID；
6,如果没有取到任何规则Rule，则将本页内容写入到CjPage中；
7,如果取到规则，那么遍历规则，为每条规则执行ParseUrl方法；
8,ParseUrl根据规则的Pattern匹配到页面内容中的所有网址，并记录到Url中，规则的ToTypeID就是Url的TypeID。

至此，整个流程就完成了。下面举一个实际例子来说明一下：
我要截取动网开发者网络的所有ASP文章http://www.cndw.com/tech/asp/；
首先，在页面类型库中加入列表页和详细页两行，再把http://www.cndw.com/tech/asp/写入到Url中，页面类型是列表页；
其次，在Rule中加入两条规则：
一，从列表页取得详细页的网址FromTypeID=1 ToTypeID=2，Pattern是· <a href="([^>]*)" target=_blank>，这条规则将会识别列表页上的所有详细页的链接，并记入到Url中，TypeID是详细页；
二，从列表页取得列表页的网址FromTypeID=1 ToTypeID=1，Pattern是<a href='([^>]*)'>下一页<//a>，这条规则将会取得当前列表页上的下一页的链接，并记入到Url中，TypeID还是列表页。
采集器工作时，如果采集的是详细页的内容，将会直接写入到CjPage中，因为没有FromTypeID=2的规则；而采集的是列表页的内容时，就要做两件事了，因为有两条FromTypeID=1的规则，一件事是识别当前列表页中所有文章的链接并存入Url，另一件事是识别下一列表页链接并存入Url。
由于规则具有递归性，使得采集器能递归采集到所有的文章。

下面是一些核心源码（没有公开的都是一些数据层的添删改查的代码）：

以下是代码片段：

using System;
using System.Collections.Generic;
using System.Text;
using System.Net;
using System.Threading;
using CJData;
using System.Text.RegularExpressions;
using NLog;

namespace CJ
{
/// <summary>
/// 写日志委托
/// </summary>
/// <param name="log"></param>
public delegate void WriteLogCallBack(String log);
/// <summary>
/// 采集
/// </summary>
public class CaiJi
{
private WebClient _wc;

public WebClient Wc
{
get
{
if (_wc == null) _wc = new WebClient();
return _wc;
}
}
private Thread thread;

public String Name = "";
public event WriteLogCallBack OnWriteLog;

/// <summary>
/// 开始工作
/// </summary>
public void Start()
{
if (thread != null) return;
thread = new Thread(new ThreadStart(Work));
thread.Start();
}
/// <summary>
/// 停止工作
/// </summary>
public void Stop()
{
if (thread != null) thread.Abort();
thread = null;
}

private void Work()
{
int times = 0;
while (times < 100)
{
Url url = Url.SelectOne();
try
{
if (url != null)
{
String page = Wc.DownloadString(url.UrlAddress);
if (!String.IsNullOrEmpty(page))
{
OnWriteLog(Name + " 成功抓取：" + url.UrlAddress);
times = 0;
ThreadPool.QueueUserWorkItem(new WaitCallback(ParsePage), new Object[] { url, page });
}
}
else
{
//OnWriteLog(Name + " 没有工作，休息半秒");
times++;
//没有工作，休息半秒
Thread.Sleep(500);
}
}
catch (ThreadAbortException e)
{
OnWriteLog(Name + " 外部终止");
break;
}
catch (Exception e)
{
times++;
OnWriteLog(Name + " 赚取" + url.UrlAddress + "出错，休息半秒。" + e.Message);
Trace.WriteLine(url.UrlAddress);
//出错，休息半秒
Thread.Sleep(500);
}
}
OnWriteLog(Name + " 完成！");
}

private void ParsePage(Object state)
{
Object[] objs = (Object[])state;
Url url = objs[0] as Url;
String page = (String)objs[1];
IList<Rule> rs = Rule.SelectAll(Rule._.FromTypeID, url.TypeID);
//if (url.PageType.TypeName == "详细页")
if (rs == null || rs.Count < 1)
{
CjPage cp = new CjPage();
cp.CjTime = DateTime.Now;
cp.Content = page;
cp.Url = url.UrlAddress;
cp.TypeID = url.TypeID;
cp.Insert();
}
else
{
foreach (Rule r in rs)
{
ParseUrl(url, r, page);
}
}
}
private void ParseUrl(Url u, Rule r, String page)
{
Regex reg = new Regex(r.Pattern, RegexOptions.Compiled | RegexOptions.IgnoreCase);
MatchCollection ms = reg.Matches(page);
foreach (Match m in ms)
{
Url url = new Url();
url.TypeID = r.ToTypeID;
url.UrlAddress = m.Groups[1].Value;
if (!url.UrlAddress.StartsWith("http://"))
{
if (url.UrlAddress.Substring(0, 1) == "/")
{
url.UrlAddress = u.UrlAddress.Substring(0, u.UrlAddress.IndexOf("/", 8)) + url.UrlAddress;
}
else
{
if (u.UrlAddress.Substring(u.UrlAddress.Length - 1) == "/")
url.UrlAddress = u.UrlAddress + url.UrlAddress;
else
if (u.UrlAddress.LastIndexOf("/") < u.UrlAddress.LastIndexOf("."))
url.UrlAddress = u.UrlAddress.Substring(0, u.UrlAddress.LastIndexOf("/") + 1) + url.UrlAddress;
else
url.UrlAddress = u.UrlAddress + "/" + url.UrlAddress;
}
}
url.Insert();
}
}
}
}

以下是代码片段：

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Text;
using System.Windows.Forms;
using System.Net;

namespace CJ
{
public partial class Form1 : Form
{
public Form1()
{
InitializeComponent();
}

CaiJi[] cjs;
private void button1_Click(object sender, EventArgs e)
{
Button btn = sender as Button;
if (btn.Text == "停止")
{
foreach (CaiJi cj in cjs)
{
if (cj != null) cj.Stop();
}
cjs = null;
btn.Text = "开始";
return;
}

richTextBox1.Text = "";
btn.Text = "停止";

int k = 100;
if (!int.TryParse(textBox1.Text, out k)) k = 100;
cjs = new CaiJi[k];
for (int i = 0; i < cjs.Length; i++)
{
cjs[i] = new CaiJi();
cjs[i].Name = "线程" + i.ToString("00");
cjs[i].OnWriteLog += new WriteLogCallBack(cj_OnWriteLog);
}
foreach (CaiJi cj in cjs)
{
cj.Start();
}
}

void cj_OnWriteLog(string log)
{
if (richTextBox1.InvokeRequired)
{
richTextBox1.Invoke(new WriteLogCallBack(cj_OnWriteLog), new object[] { log });
}
else
{
if (richTextBox1.Lines.Length > 3000) richTextBox1.Text = "";
richTextBox1.Text = log + Environment.NewLine + richTextBox1.Text;
}
}
}
}

posted on 2007-08-18 10:45 大石头阅读(1999) 评论(10) 编辑收藏

<script type="text/javascript"> //<![CDATA[ Sys.WebForms.PageRequestManager._initialize('AjaxHolder$scriptmanager1', document.getElementById('Form1')); Sys.WebForms.PageRequestManager.getInstance()._updateControls(['tAjaxHolder$UpdatePanel1'], [], [], 90); //]]> </script>

Feedback

# re: 多线程带智能采集策略的采集系统 2007-08-18 11:07 cnitsky.net

这些是次要的吧主要的还是采集规则回复更多评论

# re: 多线程带智能采集策略的采集系统 2007-08-18 11:32 大石头

是的，我主要想说明的就是采集的策略设计。
我这样设计的策略，可以递归回复更多评论

# re: 多线程带智能采集策略的采集系统 2007-08-18 12:13 progame

智能体现在哪? 回复更多评论

# re: 多线程带智能采集策略的采集系统 2007-08-18 13:01 dominic

没看出什么地方特别的。

还不如把程序发布了方便一些人。回复更多评论

# re: 多线程带智能采集策略的采集系统 2007-08-18 13:15 admi

很不错再接再历

-------------------------

专业中文站内全文搜索技术提供商
本站是专业的中文全文检索产品网站,本站提供了性价比很高的全文检索产品,可以使企业很容易的实现网站站内全文搜索功能
http://www.molchina.com 回复更多评论

# re: 多线程带智能采集策略的采集系统 2007-08-18 13:16 T.t.T!Ck.

没看出哪里智能了？
就是因为应用了规则了？
但是不同的页面有不同的规则哦，虽然你这样做有点模板的味道，但是如果是根据单一内容自动生成正则表达式的话就够智能了
对于网页正文的抽取没有这么简单吧，连广告内容也采集回来这个可不是大家愿意看到的吖
如果是基于统计理论的信息抽取才算智能哦

一点愚见，多多指教回复更多评论

# re: 多线程带智能采集策略的采集系统 2007-08-19 00:09 overred

数据采集通用组件：OverredGatherCom发布（并附带使用demo）2007/08/08更新：支持集合值

http://www.cnblogs.com/overred/archive/2007/08/07/OverredGatherCom.html 回复更多评论

# re: 多线程带智能采集策略的采集系统 2007-08-19 17:54 大石头

看到很多人关注的是我这个所谓的“智能”吧。

做过采集程序的人都应该知道，刚开始的时候，很多都是针对某些网站写的采集，所有规则，都是定好了的；到了后来，出现了根据ID列表采集、指定要采集页面哪部分等较为智能的采集，但是，这些智能还是有非常大的局限性的。现在的很多采集程序，所能做到的最多的莫过于执行采集一个网页的某一部分内容了，比如识别出一个网页哪里是标题，哪里是内容，这些已经没什么新意了，我也不多说。

文中我提到的智能，其实有点类似大学时候学的人工智能。使用者只需要指定规则，给出初始化条件，然后随着程序的执行，某些条件处理后，将会得到更多条件，而某些条件处理后，将会得到结果。

我这样做，尽管不是最好的，但是对于采集的页面，比起传统的方法来，已经好些了。

我非常赞同“T.t.T!Ck. ”的说法，基于统计理论，这个想法，我也想过，只是时间问题没有做出来。
一个页面，如果大量存在同样格式的数据，那么，就可以把这些判定为列表页，如果存在大量的内容，就可以判定为详细页。这样做，尽管不能涵盖全部，但也能应用到很多采集上去了。

没有做过采集的人，是很难看出这个“智能”的。

我写的程序，只是为了证实我这个想法是否可行，我不喜欢给出所有代码，抱歉！～回复更多评论

# re: 多线程带智能采集策略的采集系统 2007-08-20 12:43 gongzhw

顶帖别沉了

个人签名~~
---------------------------
惊爆支持ASP、ASP.NET2.0空间500M+SQL数据库100M 特惠价格：128一年
支持asp 300M 虚拟主机68一年
支持asp.net2.0 300M 虚拟主机88一年，快抢拉~~~~~
虚拟主机网站空间域名注册主机托管免费主机免费空间免费asp空间免费虚拟主机
免费试用~~~

联系QQ:43909413
<a href=" http://www.myidc.info/webhost/stylehost.aspx">http://www.myidc.info/webhost/stylehost.aspx</a>
硬件配置图：
http://www.myidc.info/images/adyj.gif 回复更多评论

# re: 多线程带智能采集策略的采集系统 2007-08-20 12:44 gongzhw

个人签名~~
---------------------------
惊爆支持ASP、ASP.NET2.0空间500M+SQL数据库100M 特惠价格：128一年
支持asp 300M 虚拟主机68一年
支持asp.net2.0 300M 虚拟主机88一年，快抢拉~~~~~
虚拟主机网站空间域名注册主机托管免费主机免费空间免费asp空间免费虚拟主机
免费试用~~~

联系QQ:43909413
http://www.myidc.info/webhost/stylehost.aspx
硬件配置图：
http://www.myidc.info/images/adyj.gif 回复更多评论

你可能感兴趣的:(多线程)

多线程之——ExecutorCompletionService 阿福德
在我们开发中，经常会遇到这种情况，我们起多个线程来执行，等所有的线程都执行完成后，我们需要得到个线程的执行结果来进行聚合处理。我在内部代码评审时，发现了不少这种情况。看很多同学都使用正确，但比较啰嗦，效率也不高。本文介绍一个简单处理这种情况的方法：直接上代码：publicclassExecutorCompletionServiceTest{@TestpublicvoidtestExecutorCo
python多线程程序设计之一 IT_Beijing_BIT #Python 程序设计语言 python
python多线程程序设计之一全局解释器锁线程APIsthreading.active_count()threading.current_thread()threading.excepthook(args,/)threading.get_native_id()threading.main_thread()threading.stack_size([size])线程对象成员函数构造器start/ru
Python多线程实现大规模数据集高效转移 sand&wich 网络 python 服务器
背景在处理大规模数据集时，通常需要在不同存储设备、不同服务器或文件夹之间高效地传输数据。如果采用单线程传输方式，当数据量非常大时，整个过程会非常耗时。因此，通过多线程并行处理可以大幅提升数据传输效率。本文将分享一个基于Python多线程实现的高效数据传输工具，通过遍历源文件夹中的所有文件，将它们移动到目标文件夹。工具和库这个数据集转移工具主要依赖于以下Python标准库：os：用于文件系统操作，如
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
C# 开发教程-入门基础天马3798 教程系列整理 c#开发语言
1.C#简介、环境，程序结构2.C#基本语法，变量，控制局域，数据类型，类型转换3.C#数组、循环，Linq4.C#类，封装，方法5.C#枚举、字符串6.C#面相对象，继承，封装，多态7.C#特性、属性、反射、索引器8.C#委托，事件，集合，泛型9.C#匿名方法10.C#多线程更多：JQuery开发教程入门基础Vue开发基础入门教程Vue开发高级学习教程
[面试高频问题]关于多线程的单例模式朱玥玥要每天学习 java 单例模式开发语言
单例模式什么是设计模式?设计模式可以看做为框架或者是围棋中的”棋谱”,红方当头炮,黑方马来跳.根据一些固定的套路下,能保证局势不会吃亏.在日常的程序设计中,往往有许多业务场景,根据这些场景,大佬们总结出了一些固定的套路.按照这个套路来实现代码,也不会吃亏.什么是单例模式,保证某类在程序中只有一个实例,而不会创建多份实例.单例模式具体的实现方式:可分为”懒汉模式”,”饿汉模式”.饿汉模式类加载的同时
基于flask做大模型SSE输出 Mark_Aussie nlp flask python 后端
默认情况下，Fask以多线程模式运行，每个请求都落在一个新线程上。SSE：基于HTTP的协议，用于实现服务器向客户端推送实时数据。使用长轮询机制，客户端通过HTTP连接向服务器发送请求，并保持该连接打开，服务器可以随时向客户端推送新的数据。SSE协议使用简单的文本格式，数据通过纯文本的消息流进行传输，每个消息以"data:"开头，以两个换行符"\n\n"结尾，如果传递的数据中有字典要使用变量传递。
为什么Node.js不适合CPU密集型应用？ weixin_54503231 node.js
Node.js不适合CPU密集型应用的原因主要基于其设计理念和核心特性，具体可以归纳为以下几点：单线程模型Node.js采用单线程模型来处理用户请求和异步I/O操作。虽然这种模型在处理高并发I/O密集型任务时非常高效，因为它避免了传统多线程模型中的线程上下文切换开销，但这也意味着它不能充分利用现代多核CPU的计算能力。对于需要大量计算资源的CPU密集型应用，单线程模型会成为瓶颈，导致应用性能受限。
PCL 点云视窗类CloudViewer LeonDL168 PCL 算法计算机视觉人工智能视觉检测图像处理
点云视窗类CloudViewer是简单显示点云的可视化工具类，可以让用户用尽可能少的代码查看点云。注意：点云视窗类不能应用于多线程应用程序中。简单点云可视化如果用户想用几行代码可视化程序中所对应的地物，可以使用下面的代码：#include//...voidfoo(){pcl::PointCloud::Ptrcloud;//...为cloud添加对应的场景pcl::visualization::Cl
互联网 Java 工程师面试题（Java 面试题四）苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
下面列出这份Java面试问题列表包含的主题多线程，并发及线程基础数据类型转换的基本原则垃圾回收（GC）Java集合框架数组字符串GOF设计模式SOLID抽象类与接口Java基础，如equals和hashcode泛型与枚举JavaIO与NIO常用网络协议Java中的数据结构和算法正则表达式JVM底层Java最佳实JDBCDate,Time与CalendarJava处理XMLJUnit编程现在是时候给
《Android进阶之光》— Android 书籍王睿丶 Android 永无止境《Android进阶之光》Android书籍 Android phoenix 移动开发
文章目录第1章Android新特性1第2章MaterialDesign48第3章View体系与自定义View87第4章多线程编程165第5章网络编程与网络框架204第6章设计模式271第7章事件总线308第8章函数响应式编程333第9章注解与依赖注入框架382第10章应用架构设计422第11章系统架构与MediaPlayer框架460出版年:2017-7简介：《Android进阶之光》是一本And
《android进阶之光》——多线程编程（上） TAING要一直努力读书笔记
今天了解了下多线程编程，知识点如下：进程与线程：进程是什么？线程是什么？进程可以看作是程序的实体，是线程的容器，是受操作系统管理的基本运行单元，例如exe文件就是一个进程。线程是进程运行的一些子任务，是操作系统调度的最小单元，各线程拥有自己的计数器，堆栈，局部变量等，也可以访问线程间共享的内存。线程的状态有哪些？新创建，可运行，等待，超时等待，阻塞，终止怎么创建一个线程？-三种方法第一种，MyTr
Unity3D多线程UI之ScrollYExtand 胡强_79a4
先附上git地址https://github.com/huqiang0204/huqiang.UnitySubThreadUI示例代码请看ScrollExTestPage可以绑定三种模型，头部，尾部，和中间数据部分这里只用到了中间数据模型和头部模型Listdatas=newList();ScrollYExtand.DataTemplatetmp=newScrollYExtand.DataTempl
多线程相关面试题（2024大厂高频面试题系列）小橘子831 后端面试 java 面试后端
1、聊一下并行和并发有什么区别？并发是同一时间应对多件事情的能力，多个线程轮流使用一个或多个CPU并行是同一时间动手做多件事情的能力，4核CPU同时执行4个线程2、说一下线程和进程的区别？进程是正在运行程序的实例，进程中包含了线程，每个线程执行不同的任务不同的进程使用不同的内存空间，在当前进程下的所有线程可以共享内存空间3、如果在java中创建线程有哪些方式？在java中一共有四种常见的创建方式，
Java多线程相关面试题整理长河落日袁同学不积跬步无以至千里 java 笔记多线程锁面试
目录1.什么是线程和进程？线程与进程有什么区别？那什么是上下文切换？进程间怎么通信？什么是用户线程和守护线程？2.并行和并发的区别？3.创建线程的几种方式？Runnable接口和Callable接口的区别？run()方法和start()有什么区别？4.Java线程状态和方法？描述线程的生命周期？一个线程两次调用start()方法会出现什么情况？sleep()和wait()方法的区别是什么？5.并发
python 多线程抓取xunlei磁力下载链接 weixin_53748624 python pycharm
importurllib.requestimportreimporttimeimportthreadingclassSpider(object):def__init__(self):#定义字典，用于保存影片信息self.films_dict={}self.i=1self.lock1=threading.Lock()defstart(self):#调用下载函数，获取下载连接forpageinrang
Java高并发编程详解系列-深入理解Thread构造 nihui123 高并发 Java高并发 Java 高并发
上篇分享中主要是对线程的基本概念和基本操作做了一个分享，同时提出了两种常用的创建多线程的方法，当然在后期的分享中也会提及到更多的创建线程的方式，到后期的分享的时候再说。这次主要是深入的理解一下Thread的构造函数，通过构造函数对于Thread有一个更加深入的了解。这里首先提供一个JDK1.6的ThreadAPI截图线程命名规范从源码分析可以看到在Thread类中默认提供了线程的命名方式，这个
Redis 为什么这么快？小海海不怕困难 Redis redis
决定Redis请求效率的因素主要是三个方面，分别是网络、cpu、内存。在网络层面，Redis采用多路复用的设计，提升了并发处理的连接数，不过这个阶段，Server端的所有IO操作，都是由同一个主线程处理的这个时候IO的瓶颈就会影响到Redis端的整体处理性能。所以从Redis6.0开始，在多路复用及层面增加了多线程的处理，来优化IO处理的能力不过，具体的数据操作仍然是由主线程来处理的，所以我们可以
Python 课程8-多线程编程和多进程编程可愛小吉 Python教學 python 开发语言 threading multiprocessing
前言在现代编程中，处理并发任务是提高程序性能的关键之一。Python提供了多线程（threading）和多进程（multiprocessing）两种方式来实现并发编程。多线程适用于I/O密集型任务，而多进程则更适合CPU密集型任务。通过这两种技术，你可以高效地处理大规模数据、加速程序执行并优化资源利用。在本篇详细教程中，我们将讨论如何使用Python的threading模块实现多线程，以及如何使用
C++多线程的简单使用好学松鼠 C++C++多线程 async promise
多线程的使用，本文主要简单介绍使用多线程的几种方式，并使用几个简单的例子来介绍多线程，使用编译器为visualstudio。一、AsyncFuture使用的知识点有std::async和std::future1、std::async函数原型templatefuture::type>async(launchpolicy,Fn&&fn,Args&&...args);功能：第二个参数接收一个可调用对象（
C# 多线程操作同一个文件，如何避免冲突 FlYFlOWERANDLEAF c#开发语言
1使用lock经测试，依然存在线程冲突privatestaticobjectlocker=newobject();……lock(locker){stringbText=File.ReadAllText(FPath);returnbText;}……lock(locker){File.WriteAllText(FPath,aContent);}2使用ReaderWriterLockSlim经测试，依然
java基础-线程间通信方式问道飞鱼 Java开发技术 java 开发语言
文章目录1.wait()和notify()2.volatile关键字3.Java.util.concurrent包提供的工具类Semaphore（信号量）BlockingQueue（阻塞队列）4.Atomic类在Java中，线程间的通信是非常重要的，尤其是在多线程编程中，它有助于协调线程的行为，确保资源的正确访问和更新。Java提供了多种方式来实现线程间的通信，主要包括以下几种方法：1.wait(
Java 中自定义线程池胡英俊俊俊 #JUC java 开发语言
Java中自定义线程池的方式在Java开发中，线程池是非常常用的工具，它能够帮助我们更好地管理多线程任务，提升并发性能并避免过度创建线程导致的系统资源消耗。在Java中，线程池主要由ThreadPoolExecutor提供，该类支持自定义线程池的核心参数，如线程数、任务队列以及拒绝策略等。在这篇文章中，我们将讨论如何通过ThreadPoolExecutor来实现自定义线程池，以及常用的配置和使用方
网络编程9.4 江亭棠网络 linux
1、多进程多线程并发服务器，再实现一遍（重点模型）。多进程并发服务器：#include#defineSERPORT9999#defineSERIP"192.168.0.162"#defineBACKLOG10voidhande(intsss){if(sss==SIGCHLD){while(waitpid(-1,NULL,WNOHANG)!=-1);}}intmain(intargc,constch
Java并发复习 vd_vd Java并发安全容器 java 开发语言
Java基础1.为什么要使用并发编程？一般我们工作的电脑都有多核，我们创建多个线程，然后操作系统可以将多个线程分配给不同的CPU去执行，每个CPU执行一个线程，这样就提高了CPU使用效率。在网络购物中，我们买了一个东西的同时，需要减库存，生成订单等等这些操作，就可以进行拆分利用多线程的技术完成。面对复杂业务模型，并行程序串行会比程序更适应业务需求，而并发编程更能吻合这种业务拆分。->充分利用多核C
HashMap 原理解释及其常见面试题 Justdoforever java
HashMap原理解释及其常见面试题在多线程下在javaHashMap的1948或2239行都会出现死循环情况，1948行treeify函数中将链表转为树的时候，2239在balanceInsertion函数中，让树变为平衡时，总之多线程下HashMap在链表转树或涉及树的操作时会出现死循环。测试代码：importjava.util.*;publicclassMainTest{Mapmap=new
微服务分布式架构中，如何实现日志链路跟踪？ 2401_84048542 程序员架构微服务分布式
MDC（MappedDiagnosticContext，映射调试上下文）是log4j和logback提供的一种方便在多线程条件下记录日志的功能。MDC可以看成是一个与当前线程绑定的Map，可以往其中添加键值对。MDC中包含的内容可以被同一线程中执行的代码所访问。当前线程的子线程会继承其父线程中的MDC的内容。当需要记录日志时，只需要从MDC中获取所需的信息即可。MDC的内容则由程序在适当的时候保存
一天认识一个硬件之CPU 哲伦贼稳妥一天认识一个硬件 IT技术电脑硬件电脑运维硬件工程其他
CPU，全称为中央处理器（CentralProcessingUnit），是计算机硬件系统的核心部件之一，负责执行计算机程序中的指令和处理数据。它相当于计算机的大脑，今天就来给大家分享一下台式机和笔记本大脑的对比。性能差异核心数量和频率：台式机CPU通常支持更多的核心数量和更高的运行频率，这使得它们在处理多线程任务和多任务处理方面更具优势。性能释放：笔记本CPU受限于散热和供电条件，功耗通常较低，导
谈谈你对多线程开发的理解？ios中有几种实现多线程的方法？充满活力的早晨
好处：1.使用线程可以把占据时间长的程序中的任务放到后台去处理2.用户界面可以更加吸引人，这样比如用户点击了一个按钮去触发某些事件的处理，可以弹出一个进度条来显示处理的进度3.程序的运行速度可能加快4·在一些等待的任务实现上如用户输入、文件读写和网络收发数据等，线程就比较有用了。缺点：1.如果有大量的线程,会影响性能,因为操作系统需要在它们之间切换。2.更多的线程需要更多的内存空间。3.线程的中止
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他