进击的C语言

【python】爬取网站数据

编码问题

因为涉及到中文，所以必然地涉及到了编码的问题，这一次借这个机会算是彻底搞清楚了。

问题要从文字的编码讲起。原本的英文编码只有0~255，刚好是8位1个字节。为了表示各种不同的语言，自然要进行扩充。中文的话有GB系列。可能还听说过Unicode和UTF-8，那么，它们之间是什么关系呢？

Unicode是一种编码方案，又称万国码，可见其包含之广。但是具体存储到计算机上，并不用这种编码，可以说它起着一个中间人的作用。你可以再把Unicode编码(encode)为UTF-8，或者GB，再存储到计算机上。UTF-8或者GB也可以进行解码(decode)还原为Unicode。

在python中Unicode是一类对象，表现为以u打头的，比如u'中文'，而string又是一类对象，是在具体编码方式下的实际存在计算机上的字符串。比如utf-8编码下的'中文'和gbk编码下的'中文'，并不相同。可以看如下代码：

>>> str=u'中文'

>>> str1=str.encode('utf8')

>>> str2=str.encode('gbk')

>>> print repr(str)

u'\u4e2d\u6587'

>>> print repr(str1)

'\xe4\xb8\xad\xe6\x96\x87'

>>> print repr(str2)

'\xd6\xd0\xce\xc4'

可以看到，其实存储在计算机中的只是这样的编码，而不是一个一个的汉字，在print的时候要知道当时是用的什么样的编码方式，才能正确的print出来。有一个说法提得很好，python中的Unicode才是真正的字符串，而string是字节串

文件编码

既然有不同的编码，那么如果在代码文件中直接写string的话，那么它到底是哪一种编码呢？这个就是由文件的编码所决定的。文件总是以一定的编码方式保存的。而python文件可以写上coding的声明语句，用来说明这个文件是用什么编码方式保存的。如果声明的编码方式和实际保存的编码方式不一致就会出现异常。可以见下面例子：以utf-8保存的文件声明为gbk

#coding:gbk

str=u'汉'

str1=str.encode('utf8')

str2=str.encode('gbk')

str3='汉'

print repr(str)

print repr(str1)

print repr(str2)

print repr(str3)

提示错误 File "test.py", line 1 SyntaxError: Non-ASCII character '\xe6' in file test.py on line 1, but no encodi ng declared; see PEP 263 – Defining Python Source Code Encodings | peps.python.org for details 改为

#coding:utf8

str=u'汉'

str1=str.encode('utf8')

str2=str.encode('gbk')

str3='汉'

print repr(str)

print repr(str1)

print repr(str2)

print repr(str3)

输出正常结果 u'\u6c49' '\xe6\xb1\x89' '\xba\xba' '\xe6\xb1\x89'

更多内容可参见这篇文章Python字符编码详解 - AstralWind - 博客园

基本方法

其实用python爬取网页很简单，只有简单的几句话

1 2	`import` `urllib2` `page=urllib2.urlopen('url').read()`

这样就可以获得到页面的内容。接下来再用正则匹配去匹配所需要的内容就行了。

但是，真正要做起来，就会有各种各样的细节问题。

断线重连

如果只是做到上面的程度，不对open进行包装的话，只要网络状况有些起伏，就直接抛出异常，退出整个程序，是个很不好的程序。这个时候，只要对异常进行处理，多试几次就行了：

def multi_open(opener,*arg):

while True:

retryTimes=20

while retryTimes>0:

try:

return opener.open(*arg)

except:

print '.',

retryTimes-=1

正则匹配

其实正则匹配并不算是一个特别好的方法，因为它的容错性很不好，网页要完全统一。如果有稍微的不统一，就会失败。后来看到说有根据xpath来进行选取的，下次可以尝试一下。

写正则其实是有一定技巧的：

非贪婪匹配。比如这样一个标签：hello，要取出a来，如果写成这样的表达式，就不行了：hello。因为*进行了贪婪匹配。这是要用.?：?>hello。

跨行匹配。实现跨行有一种思路是运用DOTALL标志位，这样.就会匹配到换行。但是这样一来，整个匹配过程就会变得很慢。本来的匹配是以行为单位的。整个过程最多就是O(nc2)，n是行数，c是平均列数。现在极有可能变为O((nc)2)。我的实现方案是运用\n来匹配换行，这样可以明确指出匹配最多跨跃多少行。比如：abc\s*\n\s*def，就指出查找的是隔一行的。(.\n)?就可以指定是匹配尽可能少的行。

这里其实还要注意一个点。有的行末是带有\r的。也就是说一行是以\r\n结尾的。当初不知道这一点，正则就调试了很久。现在直接用\s，表示行末空格和\r。

无捕获分组。为了不对捕获的分组造成影响，上面的(.\n)可以改为(?:.\n)，这样捕获分组时，就会忽略它。

单括号要进行转义。因为单括号在正则里是用来表示分组的，所以为了匹配单括号就进行转义。正则字符串最好用的是带有r前缀的字符串，如果不是的话，则要对\再进行转义。

快速正则。写了那么多模式，也总结出一规律出来。先把要匹配的字符相关的段落拿出来。要匹配的东西用(.?)代替。把换行\n替换为字符串\s\n\s*，再去掉行首行末的空格。整个过程在vim中可以很快就写好。

Excel操作

这次的数据是放进Excel的。到后面才意识到如果放进数据库的话，可能就没有那么多事了。但是已经写到一半，难以回头了。

搜索Excel，可以得出几个方案来，一个是用xlrt/xlwt库，这个不管电脑上是否安装了Excel，都可以运行，但只能是xls格式的。还有一个是直接包装了com，需要电脑上安装了软件才行。我采用的是前一种。

基本的读写没有问题。但是数据量一大起来，就有问题了。

内存不够。程序一跑起来，内存占用就一点一点往上涨。后面再查了一下，知道要用flush_row_data。但是还是会出错。一看内存占用，没有什么问题，一直很平稳。但最后还是会出现memory error。这真是见鬼了。又是反复地查，反复地运行。一点结果都没有。要命的是bug只在数据量大起来才出现，而等数据量大起来往往要好几个小时，这debug的成本实在是太高了。一个偶然的机会，突然发现内存占用，虽然总体平稳，但是会规律性的出现小的高涨，而这规律性，会不会和flush_row_data，有关。一直疑惑的是data被flush到了哪里。原来xlwt的作法是很蛋疼的作法。把数据存在内存里，或者flush到一个temp，到save的时候，再一次性写入。而问题正出在这一次性写入，内存猛涨。那我要flush_row_data何用？为什么不一开始就flush进要写入的地方。

行数限制。这个是xls格式本身决定的，最多行数只能是65536。而且数据一大，文件打开也不方便。

结合以上两点，最终采取了这么一个策略，如果行数是1000的倍数，进行一次flush，如果行数超过65536，新开一个sheet，如果超过3个sheet，则新建一个文件。为了方便，把xlwt包装了一下

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

#coding:utf-8#

import xlwt

class XLS:

    '''a class wrap the xlwt'''

    MAX_ROW=65536

    MAX_SHEET_NUM=3

    def __init__(self,name,captionList,typeList,encoding='utf8',flushBound=1000):

        self.name=name

        self.captionList=captionList[:]

        self.typeList=typeList[:]

        self.workbookIndex=1

        self.encoding=encoding

        self.wb=xlwt.Workbook(encoding=self.encoding)

        self.sheetIndex=1

        self.__addSheet()

        self.flushBound=flushBound



    def __addSheet(self):

        if self.sheetIndex != 1:

            self.wb.save(self.name+str(self.workbookIndex)+'.xls')

        if self.sheetIndex>XLS.MAX_SHEET_NUM:

            self.workbookIndex+=1

            self.wb=xlwt.Workbook(encoding=self.encoding)

            self.sheetIndex=1

        self.sheet=self.wb.add_sheet(self.name.encode(self.encoding)+str(self.sheetIndex))

        for i in range(len(self.captionList)):

            self.sheet.write(0,i,self.captionList[i])

        self.row=1

    def write(self,data):

        if self.row>=XLS.MAX_ROW:

            self.sheetIndex += 1

            self.__addSheet()

        for i in range(len(data)):

            if self.typeList[i]=="num":

                try:

                    self.sheet.write(self.row,i,float(data[i]))

                except ValueError:

                    pass

            else:

                self.sheet.write(self.row,i,data[i])

        if self.row % self.flushBound == 0:

            self.sheet.flush_row_data()

        self.row+=1

    def save(self):

        self.wb.save(self.name+str(self.workbookIndex)+'.xls')

转换网页特殊字符

由于网页也有自己独特的转义字符，在进行正则匹配的时候就有些麻烦。在官方文档中查到一个用字典替换的方案，私以为不错，拿来做了一些扩充。其中有一些是为保持正则的正确性。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

html_escape_table = {

    "&": "&",

    '"': """,

    "'": "'",

    ">": ">",

    "<": "<",

    u"·":"·",

    u"°":"°",

    #regular expression

    ".":r"\.",

    "^":r"\^",

    "$":r"\$",

    "{":r"\{",

    "}":r"\}",

    "\\":r"\\",

    "|":r"\|",

    "(":r"$",

    ")":r"$",

    "+":r"\+",

    "*":r"\*",

    "?":r"\?",

}

def html_escape(text):

    """Produce entities within text."""

    tmp="".join(html_escape_table.get(c,c) for c in text)

    return tmp.encode("utf-8")

结

得出的经验差不多就是这些了。不过最后写出来的程序自已也不忍再看。风格很不好。一开始想着先写着试试。然后试着试着就不想改了。

最终的程序要跑很久，其中网络通信时间占了大部分。是不是可以考虑用多线程重构一下？想想，还是就这样吧。

WPF的异步编程：如何处理UI线程的长时间操作 Singe.Chen wpf ui mvvm c#
WPF的异步编程：如何处理UI线程的长时间操作目录异步编程概述UI线程和后台线程异步编程的基本概念在WPF中使用异步编程实际示例：异步操作总结异步编程概述在WPF应用程序中，UI线程负责处理用户界面的所有更新。如果在UI线程中执行长时间的操作，例如网络请求或复杂的计算，应用程序可能会变得无响应。异步编程可以将这些长时间操作转移到后台线程，从而保持UI线程的流畅性和响应性。1.1异步编程的重要性异步
Linux 内核系统架构 DecentX linux 系统架构 arm开发
Linux内核是一个复杂且高度模块化的系统，负责操作硬件资源、管理进程和内存、提供网络服务、执行文件系统操作、进行设备驱动程序的管理等。它为用户空间提供了一个抽象层，并为应用程序提供了底层服务。本文将深入探讨Linux内核的系统架构，包括其主要组件和功能模块。1.Linux内核架构概览Linux内核的架构可以从功能上划分为多个层次，主要包括：硬件抽象层（HardwareAbstractionLay
linux asio网络编程理论及实现辣椒卷二王网络 boost/asio 网络编程并发编程
最近在B站看了恋恋风辰大佬的asio网络编程，质量非常高。在本章中将对ASIO异步网络编程的整体及一些实现细节进行完整的梳理，用于复习与分享。大佬的博客：恋恋风辰官方博客Preactor/Reactor模式在网络编程中，通常根据事件处理的触发时机和处理逻辑的分工可以分为reactor模式和preactor模式。reator是非阻塞同步网络模式,preactor是异步网络模式。阻塞I/O我们知道re
Docker 深度解析：从入门到精通杰哥的编程世界 javaee docker 容器运维
引言在当今的软件开发领域，容器化技术已经成为一种趋势。Docker作为容器化技术的代表，以其轻量级、可移植性和易用性，被广泛应用于各种场景。本文将从Docker的基本概念入手，详细介绍Docker的安装、基本操作、网络配置、数据存储、镜像管理以及一些高级应用。Docker简介Docker是一个开源的应用容器引擎，它允许开发者将应用及其依赖环境打包到一个可移植的容器中。Docker使用Linux容器
Cisco NX-OS ACI 16.1(1f)F - 适用于 ACI 模式下的 Nexus 9000 系列交换机系统软件 cisco
CiscoNX-OSSystemSoftware-ACI16.1(1f)F适用于ACI模式下的CiscoNexus9000系列交换机系统软件请访问原文链接：https://sysin.org/blog/cisco-aci-16/查看最新版。原创作品，转载请保留出处。作者主页：sysin.orgCiscoNX-OS网络操作系统软件CiscoNX-OS操作系统助力网络紧跟业务发展步伐。NX-OS网络操
2025年：网络安全犯罪活动发展新趋势网安加社区网络安全网络风险网络犯罪
2024年，网络空间经历了一场前所未有的动荡，威胁行为者的活动频繁且多变，这一系列事件为2025年的网络安全形势蒙上了一层阴影，预示着挑战依旧严峻。为了深入了解并有效应对勒索软件及其他网络犯罪活动的新趋势，我们与业界领先的安全专家进行了交流探讨，以期帮助企业组织全面认知可能面临的风险，并据此制定出切实有效的防御策略。勒索软件生态系统的持续扩张勒索软件生态系统正以前所未有的速度发展，不断适应并规避防
2025年企业网络安全：风险预测与应对策略网安加社区网络安全网络风险企业安全
据预测，到2025年，网络犯罪可能给全球经济带来每年高达10.5万亿美元的损失。这一个惊人的数字，为各行各业敲响了警钟。随着网络威胁日益复杂多变，企业要保持领先地位，就必须时刻保持警惕，勇于创新，采取积极主动的防御策略。那么，2025年的企业网络安全领域将面临哪些挑战？企业又该如何做好准备？接下来，我们一同深入探讨企业网络安全的发展趋势与应对策略。2025年企业网络安全风险如今，企业的网络安全已不
k8s和ipvs、lvs、ipvsadm，iptables，底层梳理，具体是如何实现的技术服务于生态 kubernetes 容器云原生
计算节点的功能：提供容器运行的环境kube-proxy的主要功能：术业有专攻，kube-proxy的主要功能可以概括为4个字网络规则那么kube-proxy自己其实是个daemonset控制器跑的每个节点上都有个的pod它负责网络规则其实呢它还是个小领导它不直接去搞网络规则而是告诉别人，网络规则要怎么搞你来搞告诉谁？1.14版本之前是iptables1.14版本之后是ipvsiptables是个命
零碎的知识点（十二）：卷积神经网络CNN通道数的理解！墨绿色的摆渡人零碎知识点 cnn 深度学习神经网络
卷积神经网络CNN通道数的理解！通道数的核心概念解析1.通道数的本质2.单张灰度图的处理示例：3.批量输入的处理通道与批次的关系：4.RGB三通道输入的处理计算过程：示例：5.通道数的实际意义6.可视化理解(1)单通道输入（灰度图）的过滤器(2)三通道输入（RGB）的过滤器总结通道数的核心概念解析1.通道数的本质在卷积神经网络中，通道数（Channels）表示不同过滤器的数量。每个通道对应一个独立
神经网络|(七)概率论基础知识-贝叶斯公式西猫雷婶概率论人工智能概率论
【1】引言前序我们已经了解了一些基础知识。古典概型：有限个元素参与抽样，每个元素被抽样的概率相等。条件概率：在某条件已经达成的前提下，新事件发生的概率。实际计算的时候，应注意区分，如果是计算综合概率，比如A已经发生时，B发生的概率，其实计算的目标是P(AB)。条件概率公式的通用表达式为P(B|A)=P(AB)/P(A)，乘法表达式为P(AB)=P(B|A)P(A)全概率公式：全概率公式综合了所有条
斯坦福吴恩达-深度学习和机器学习全套视频+课件！ Alexquyun 人工智能机器学习深度学习 python
这些课程专为已有一定基础（基本的编程知识，熟悉Python、对机器学习有基本了解），想要尝试进入人工智能领域的计算机专业人士准备。介绍显示：“深度学习是科技业最热门的技能之一，本课程将帮你掌握深度学习。”学生将可以学习到深度学习的基础，学会构建神经网络，并用在包括吴恩达本人在内的多位业界顶尖专家指导下创建自己的机器学习项目。DeepLearningSpecialization对卷积神经网络(CNN
Python从0到100（四十九）：数据库设计及Django ORM使用是Dream呀 python 数据库 django
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Oracle备份恢复工作：Oracle数据库的导出与导入。杨云龙666 数据库
当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障(硬件故障、软件故障、网络故障、进程故障和系统故障)影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库该处理称为数据库恢复，而要进行数据库的恢复必须要有数据库的备份工作。1整库导出与导入注意：（整库导出与导入：数据量比较大，耗
Docker 部署 Nginx 并在容器内配置申请免费 SSL 证书逢生博客 docker nginx ssl
文章目录dockerdocker-compose.yml申请免费SSL证书配置Nginx验证域名所有权安装acme.sh生成SSL证书查看已安装证书dockerhttps://hub.docker.com/_/nginxdockerpullnginx:1.27注：国内网络原因无法下载镜像，nginx镜像文件下载链接https://pan.baidu.com/s/1O35cPbx6AHWUJL1v5
【Docker】搭建 Docker 私有化仓库 cangloe docker docker 容器运维
搭建Docker私有化仓库是一个非常重要的实践，它能够帮助你安全地存储和管理Docker镜像，而无需将其发布到公共DockerHub。通过使用私有化仓库，你可以：提高安全性：镜像存储在受控的环境中。提升效率：在公司网络内传输镜像，速度更快。实现自动化：配合CI/CD系统实现自动镜像管理。本文将详细介绍如何在不同环境下搭建Docker私有化仓库，并提供配置和优化建议。一、Docker私有化仓库的基本
浅析数据中心机架配电母线的应用及监控产品选型安科瑞王兰电气安全电能管理能耗管理系统系统架构网络安全自动化能源
王兰安科瑞电气股份有限公司上海嘉定201801摘要：本文先分析配电母线槽创新点和优势，然后结合湛江数据中心302机房母线槽建设对配电母线槽和列头柜两种供电方式进行经济效益对比，最后总结推广应用建议，以期为相关工程技术人员提供参考。关键词：13641854052；机架配电母线；列头柜；数据中心1引言随着通信网络的快速发展，各地数据中心的建设变得越来越重要，供电优先与客户需求滞后的矛盾越来越突出。在数
网络安全攻防实战：从基础防护到高级对抗一ge科研小菜鸡运维网络
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言在信息化时代，网络安全已经成为企业、政府和个人必须重视的问题。从数据泄露到勒索软件攻击，每一次安全漏洞都可能造成巨大的经济损失和隐私风险。本教程将通过详细的案例、代码示例和实用工具，帮助读者从基础安全防护到高级安全对抗，系统掌握网络安全攻防的核心技术。1.常见网络攻击方式与防御措施1.1SQL注入攻击攻击者在输入字段中插入恶意SQL代码，绕过
Netty的心跳机制怎么实现的？ java1234_小锋 java java 开发语言
大家好，我是锋哥。今天分享关于【Netty的心跳机制怎么实现的？】面试题。希望对大家有帮助；Netty的心跳机制怎么实现的？Netty的心跳机制主要是通过在客户端和服务器之间定期发送特殊的数据包（比如空消息或自定义的控制消息）来保持连接的活跃状态，并检测网络连接的健康性。Netty并没有内建“心跳机制”，但是它通过IdleStateHandler和ChannelPipeline可以很方便地实现这种
谈谈信息安全治理模型 SOA开发者安全 web安全网络
当我们学习ISO/SAE21434标准的时候，会看到网络安全治理（Cybersecuritygovernment）和网络安全管理（Cybersecuritymanagement）两个概念。然而该标准中并没有给出安全治理和安全管理的十分清晰的定义和描述。即使在安全社区内，似乎也是讲安全管理的多，讲安全治理的少。那到底两个概念是什么？两者的区别和联系又是什么呢？笔者通过调研发现安全治理、安全管理和安全
企业级SOA的信息安全保证 Juishl soa 网络 xml 加密 security 通讯
毋庸讳言，“安全”是当前信息技术应用领域热门话题之一，无论是操作系统，还是应用软件，安全总是作为一项重要考量，特别是在商业应用领域，信息安全是业务运作的基本要求之一。企业级SOA在提供价值链上企业之间信息共享和业务流程自动化的同时，也对信息安全提出新的挑战。基于企业级SOA更加容易实现跨越企业边界的业务系统自动化和信息共享，开放的数据访问和网络服务调用给商业运作带来便利，同时也更加容易受到攻击，如
5个实用的IP地址查询网站 ivwdcwso 运维 tcp/ip 网络协议网络
在当今互联网时代,了解自己或他人的IP地址及相关信息变得越来越重要。无论是网络故障排查、安全分析,还是地理位置服务,IP地址信息都扮演着关键角色。本文将为您介绍5个实用的IP地址查询网站,帮助您快速获取所需的网络信息。1.ipinfo.ioipinfo.io是一个功能强大的IP地址信息查询平台。它提供以下特点:全面的IP信息:包括地理位置、ISP(互联网服务提供商)、ASN(自治系统号)等。灵活的
【杂记-浅谈BGP边界网关协议】叫我小虎就行了网络工程进阶知识 BGP BGP 边界网关协议边界网关协议
BGP边界网关协议一、BGP边界网关协议概述二、BGP的特点及与IGP的区别三、BGP的路由属性四、BGP协议中使用的报文一、BGP边界网关协议概述1、BGP，BorderGatewayProtocol，即边界网关协议，是一种在自治系统（AS）之间交换网络层可达性信息的路由选择协议。每个AS通常由一个或多个网络组成，并由单一的技术管理机构管理，使用相同的选路策略。BGP协议运行在TCP之上，端口号
bgp协议怎么知道相邻路由的ip地址_【计算机网络】-边界网关协议(BGP) 段丞博 bgp协议怎么知道相邻路由的ip地址
bgp边界网关协议(BorderGatewayProtocol，BGP)是互联网上一个核心的去中心化自治路由协议bgp本身就是一个多地址的协议簇(mp-bgp，多协议bgp)–地址族(ipv4)bgp刷新很慢，需要手工刷新，加快收敛AS，自治性系统域(16位的号码空间—>会扩展到32位)1、bgp基本概述bgp作用AS内部使用IGP来计算和发现路由，如OSPF，ISIS，RIP等。AS之间使用BG
关于断网事件的海底光缆脆弱性问题探讨 purpleforest 网络安全网络工作数据备份 verizon 电信互联网
本文发表于《信息网络安全》2007.2，欢迎转载，请注明作者和期刊名。关于断网事件的海底光缆脆弱性问题探讨张鉴国家信息中心网络安全部一、引言2006年12月26日晚27日凌晨，在距中国台湾南部约15公里的海域处，连续发生两次7级左右的强烈地震。铺设在该区域附近的中美海缆、亚太1号海缆、亚太2号海缆、FLAG海缆、亚欧海缆、FNAL海缆等多条国际海底通信光缆，在强烈地震下发生断裂。此次海缆断裂中，中
外部网关路由协议-----BGP bugggggggg 外部网关路由协议 bgp
文章目录一、BGP定义1.1、概述1.2、特点1.3、分类1.4、工作原理1、五种报文2、六种状态机3、九个原则1.5、如何建立对等体1.6、相关配置二、实验三、BGP选路3.1、路径属性3.2、BGP选路原则一、BGP定义边界网关协议（BGP）是运行于TCP上的一种自治系统的路由协议。BGP是唯一一个用来处理像因特网大小的网络的协议，也是唯一能够妥善处理好不相关路由域间的多路连接的协议。BGP构
Kafka 压缩算法详细介绍王多鱼的梦想～ kafka 分布式运维 apache
文章目录一、Kafka压缩算法概述二、Kafka压缩的作用2.1降低网络带宽消耗2.2提高Kafka生产者和消费者吞吐量2.3减少Kafka磁盘存储占用2.4减少KafkaBroker负载2.5降低跨数据中心同步成本三、Kafka压缩的原理3.1Kafka压缩的基本原理3.2.Kafka压缩的工作流程3.3Kafka压缩的数据存储格式四、Kafka压缩方式配置4.1Kafka生产者（Produce
TCP丢包原因、解决办法摸金青年v 计算机基础计算机网络 TCP丢包 TCP粘包 TCP拆包
TCP是基于不可靠的网络实现可靠的传输，肯定也会存在掉包的情况，如果通信中发现缺少数据或者丢包，那么，最大的可能在于程序发送的过程或者接收的过程出现问题。例如服务端要给客户端发送大量数据，Send频率很高，那么就很有可能在Send环节出现错误（1.程序处理逻辑错误，2.多线程同步问题，3.缓冲区溢出等），如果没有对Send发送失败做处理，那么客户端收到的数据比理论要收到的数据少，就会造成丢数据，丢
「译」2024 年的 5 个 JavaScript 安全最佳实践泯泷浏览器前端安全 javascript 安全开发语言
链接：https://thenewstack.io/5-javascript-security-best-practices-for-2024/作者：AlexanderT.Williams原标题：5JavaScriptSecurityBestPracticesfor2024网络安全已成为一个瞬息万变的战场，JavaScript应用程序的安全性也不例外。Web应用程序已成为黑客试图获取敏感数据和财务
泷羽sec:蓝队基础之企业网络架构菜鸟小白：长岛icetea 泷羽sec红队全栈课程网络架构
声明：学习视频来自B站up主泷羽sec有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无关，切勿触碰法律底线，否则后果自负!!!!有兴趣的小伙伴可以点击下面连接进入b站主页B站泷羽sec泷羽sec的个人空间-泷羽sec个人主页-哔哩哔哩视频————————————————企业网络架构：全面解析
《企业网络安全架构与实战指南：从蓝队防御到零信任网络部署》 Yimuzhizi 网络安全 web安全安全网络安全人工智能架构网络搜索引擎
项目：《企业网络安全架构与实战指南：从蓝队防御到零信任网络部署》姓名：飞花似梦Flydream日期：2024年11月21日目录蓝队基础企业网络架构高层管理IT管理中央技术团队安全部门企业管理技术信息安全管理成熟度模型（ISM3）安全职能安全团队成员典型企业网络分区模糊的边界外部攻击面身份管理识别Windows典型应用识别Linux典型应用识别WEB服务识别客户端设备身份和访问管理目录服务企业数据存
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

【python】爬取网站数据

编码问题

文件编码

基本方法

登录

断线重连

正则匹配

Excel操作

转换网页特殊字符

结

你可能感兴趣的:(网络)