iofu728

你已经是一个成熟的爬虫了，应该学会自己去对抗反爬码农了

点这里排版好

因为各种原因，这段时间又写了好多爬虫 ~~（不务正业划掉 ?）~~，也顺带接着这个机会来总结一下，自己认为的爬虫进阶技巧

ps: 爬虫千万条，克制第一条。我们也要照顾一下反爬工程师的感受，克制开多线程，降低并发数

以下代码已开源，基本支持开箱即用，自带高可用代理 IP 池，呜呜呜（开源一时爽，一直开源一直爽 ?

开胃菜->`字体`

这基本上已经成了反爬虫工程师最拿手，最常见的一招了。

像猫眼，东方财富，实习僧，天眼查，起点，etc.

简单一点的每次返回一个随机字体(这个随机指的是字形和字符映射关系随机，字形 set，字符 set 还是不变的)

做的狠一点的就连字库也随机一下(是个狠人，这种解决起来成本就有点高了

反爬的基本原理就是利用字体库中不太常用的一些 高位字符字段(比如说 0xEFFF) ，它是uint16。

把原始文本替换成这些高位字符，然后使用自定义的一个 font 表示高位字符和字形之间的关系

字形的表示方式，感性的想象一下，大抵就是用类似 svg 之类的坐标点集合的方式来表示

但总是去匹配这很长的一串坐标点来判断是什么字形就显得很低能，就需要有一个能表示字形的索引，于是就有 Glyph index,
然后还有一大堆表和规划，比如用的最多的camp表，有兴趣的同学可以参考这篇文章cmap — Character to Glyph Index Mapping Table

字形索引值一般是 Unicode，但要注意不同的字形可能字形索引值一样(相当于发生了 hash 碰撞)

在实操中，利用 fonttools 的包可以解析出来字符编码 uint16 和字形索引 Unicode 之间的映射关系

from fontTools.ttLib import TTFont
font_map = TTFont(font_name).getBestCmap() # uint16 -> unicode

一般像这种，操作的字符集不会太大，毕竟太大对自己服务也是一个不小的压力

常见的有数字替换，部分文字替换，像这种反爬模式，利用 selenium，splash，mitm 之类的非网络请求库就没有什么效果了 hhh

因为要考虑到随机 font，即字符 uint16 和字形索引 unicode 之间的关系发生改变，但字形和字形索引 unicode 之间的关系一般不会变。

So, 我们就可以建立一个已知的字形索引 Unicode 与原始字符 str 之间的对应关系 dict_base

当 font 发生改变的时候字形索引 Unicode 和 uint16 字符之间的关系发生改变，根据 dict_base 反推出字符 uint16 和原始字符 str 之间的关系

举个 ?, 比如说爬东方财富(个人觉得这是一个特别适合入门的网站，他代码可读性比较强，注释比较多 hhh 很真实不知道他们前端都是怎么想的)

当然东方财富不是所有页面都采用了 font 欺骗，应该也是出于效率考虑，以http://data.eastmoney.com/bbsj/201806/lrb.html为例

可以看见使用了一个叫做stonefont的 font 来实现字符到字形的映射

经过分析可以发现，table 里面的数据都是预先存放在 html 的 script 里面，直接读 json 的，其格式即已经加密过后的 uint16 字符

既然已经知道了拿到的数据是已经被替换的字符，那么找到 css:stonefont 所引用的字体，把字体 load 都本地分析对比其映射关系即可

因为字体是随机指派的，那么 font_url 就一定不会被写死 css 中为了使得首次加载时间尽量短也一般不会通过 XHR 来获得，一般都是放在 html 的 script 里面动态 compile 生成

在本例中，font_url 和 data 存放在一起，都在 html 的 script 中。

url = 'http://data.eastmoney.com/bbsj/201806/lrb.html'
req = requests.get(url, headers=header, timeout=30) # need headers
origin_str = req.text

''' parse json '''
begin_index = origin_str.index('defjson')
end_index = origin_str.index(']}},\r\n')
json_str = origin_str[begin_index + 9:end_index + 3]
json_str = json_str.replace('data:', '"data":')
                   .replace('pages:', '"pages":')
                   .replace('font:', '"font":')
json_req = json.loads(json_str)
font_url = json_req['font']['WoffUrl']

在经过上面脚本解析出来的 json 中，lz 竟然惊奇的发现一个神奇的东西

竟然直接把 origin_data 和加密之后的字符 uint16 对应关系直接 po 出来 Excuse me！！！ ? 第一反应怕不是烟雾弹哦

但是经过对 js 代码的追踪，我可以很负责的告诉你，这就是真的对应关系，至于他们为什么这么奇葩的做，请往下看:

动态把数据塞到标签中的工作是在http://data.eastmoney.com/js_001/load_table_data_pc.js?201606021831中做的

hhh 康康人家的注释，你还好意思写那种稀烂的代码哇(lz 下线了过于真实但是生产环境放这种代码这不就是给大家做教科书的嘛 hhh

display: function () {
     
    var _t = this;
    try {
     
        if (_t.options.data.font && _t.options.data.font.WoffUrl) {
      // 去找font_map
            _t.options.font = _t.options.data.font;} else {
     //设置默认}
        _t.loadFontFace(); // update css: stonefont
        var _d = _t.options.data.data, _body = _t.options.tbody;
        var trs = _body.childNodes;
        for (var i = trs.length - 1; i >= 0; i--) {
     _body.removeChild(trs[i])} // remove tb
        if (_d && _d.length && _d[0].stats == undefined) {
     
            for (var i = 0; i < _d.length; i++) {
     
                var data, row = rowTp.cloneNode(true);
                _body.appendChild(row);
                _t.uncrypt(data) // 解密
                _t.maketr(row, data, i, ((_p - 1) * _ps + 1 + i)); // 上颜色
                _t.crypt(row)   // 加密
            }
        }
    }
}

来看一下把数据填充到 tb 这个过程的入口函数（省去了一些不太重要的逻辑

从json中找font信息 -> 动态修改css:stonefont -> 删除tb子标签 -> 解密数据(uncrypt) -> 给数据加样式(maketr) -> 对加完样式的文本重新加密(crypt) -> 塞回tb标签

一开始，我看到解密再加密这个过程是懵逼的，‘难不成加密解密用的不是一个秘钥’。看到后面我发现我错了，两个 font_map 一毛一样呀

分析一下，当时他们加这个应该是前端不太好处理样式问题，弄的一个折中方案（对吗，前端也没办法解析 font 内的映射关系

其实加一个映射关系不变的正负标志位不就好了(毕竟你显示样式主要看数字正负号，要处理显示万，千等位数完全可以根据字符位数来

这样改完全就失去了本来反爬设置的效果，当然这给了广大致力于学习爬虫的同学一个入门的机会 ?

分析到这里，理下思路，通过 json 解析出的 font_map 生成一个 base 映射关系（其实你也可以直接用 font_map 进行解析 hhh

然后每次把 font load 到本地对比 base 映射关系，生成这个字体对应的映射关系

具体代码可见eastmoney.eastmoney

稍微提一下自己踩的两个坑

error: unpack requires a buffer of 20 bytes

requests.text -> str,
requests.content -> byte or str
Struct.error: unpack requires a buffer of 16 bytes

How to analysis font

利用 fonttools 包
获得 cmap 表 TTFont().getBestCamp()
和 base 进行对比

冷菜->`js compile`

这个话题，其实最近另外一个 dalao 在知乎讲过，我就大概提一下

一开始看到那个面试题http://shaoq.com:7777/exam的时候也是比较惊奇的，以前遇到 css 里面塞信息的还是比较少的, 上一个还是 goubanjia？？？

只不过 goubanjia 的 css 是静态资源，这边 shaoq 用的是动态编译生成，其实还是差不多的，用一下 execjs + jsdom 进行动态编译 js，得到 style

有关 goubanjia 解析的可以查看之前的一篇博文
shaoq 的思路:

首次请求获得cookie -> 请求image -> 等5.5s（注意一定是获得html后5.5s） -> 编译js 获得css -> 塞css的content到对应的标签（这一步需要把一些无关的标签剔除掉）

具体代码可见exam.shaoq

然后也附一下自己踩得坑

Can’t get true html

Wait time must be 5.5s.
So you can use threading or await asyncio.gather or aiohttp to request image
Coroutines and Tasks

Error: Cannot find module ‘jsdom’

jsdom must install in local not in global

Cannot find module ‘jsdom’

remove subtree & edit subtree & re.findall

subtree.extract()
subtree.string = new_string
parent_tree.find_all(re.compile('''))

extract()
NavigableString
A regular expression

甜点->`websocket`

其实这一块内容就和压测有点像了，用处不只是用来爬取信息，很多时候是用来模拟长连接请求

如果开多进程的话实际上效果就是压测 websocket（所以大家悠着点

首先，什么是长连接, 什么是 websocket，什么是 socket

socket，实际上是一个 unix 的概念。我们知道进程之间的通信问题称之为 IPC(InterProcess Communication, IPC)有管道，消息队列，信号量，共享存储，套接字 Socket 等方式

但这些都是在本机范围的通信，即 Unix 域内 IPC，如果把问题拓展到网络内的通信则变成了网络域套接字

因为网络通信的不可信，需要做一系列的计算校验和，执行协议处理，添加或删除网络报头，产生相应的顺序号，发送确认报文(注意理解这一部分内容，对后面读懂、模拟二进制报文很有帮助)

http 是一种基于 TCP 的短链接，三次握手 ? 之后建立连接，完成任务之后，马上四次握手 ? 关闭连接

长连接则是在完成任务之后不立即关闭连接，而是当连接的一方退出之后才关闭连接，常见的协议有 websocket 和 http 的长连接

我们知道 TCP 是可靠的连接，建立连接的代价比 UDP 大多了，如果有一个需求需要反复建立连接，比如说聊天，直播弹幕数千万用户反复请求短链接，会花费大量时间在协议上

另外也是为了能使得服务器可以主动发生给用户数据，而不是客户端轮询，websocket 就腾空出世

在 java 中建立长连接常用 Netty 解决

在 py 里面就得用一下异步 io 库 asyncio 和异步 httpaiohttp (hhh 竟然还资瓷 websocket)

建立 websocket 连接的过程并不复杂，关键是分析 header 头部字节含义

举个 ?，比如说爬取 b 站 up 主视频的实时访问量，以 18 年百大第一的炒面筋为例https://www.bilibili.com/video/av21061574

分析 network 可以发现视频左下角的 XX 人正在看，XX 条实时弹幕，新增弹幕推送都是基于 websocket 协议进行传输的

再来仔细研究一下具体发送的字节码

`Send`

00000000: 0000 005b 0012 0001 0000 0007 0000 0001  ...[............
00000001: 0000 7b22 726f 6f6d 5f69 6422 3a22 7669  ..{"room_id":"vi
00000002: 6465 6f3a 2f2f 3231 3036 3135 3734 2f33  deo://21061574/3
00000003: 3435 3438 3336 3622 2c22 706c 6174 666f  4548366","platfo
00000004: 726d 223a 2277 6562 222c 2261 6363 6570  rm":"web","accep
00000005: 7473 223a 5b31 3030 305d 7d              ts":[1000]}

00000000: 0000 0021 0012 0001 0000 0002 0000 0002  ...!............  30s heart beat
00000001: 0000 5b6f 626a 6563 7420 4f62 6a65 6374  ..[object Object
00000002: 5d                                       ]

00000000: 0000 0021 0012 0001 0000 0002 0000 0003  ...!............
00000001: 0000 5b6f 626a 6563 7420 4f62 6a65 6374  ..[object Object
00000002: 5d                                       ]
...

可以看出字节码用的是大端字节序，前 18 个字节是 header 头，紧跟着的是 body 内容

`I`	`H`	`H`	`I`	`I`	`H`
0000 005b	0012	0001	0000 0007	0000 0001	0000
0000 0021	0012	0001	0000 0002	0000 0002	0000
0000 0021	0012	0001	0000 0002	0000 0003	0000
`socket 长度`	`header 长度`	`协议版本，1`	`操作码`	`序列号`	0

明白这点之后就比较好构造字节码了，先初始化一个 header_struct,然后往 struct 加入每一部分的内容

HEARTBEAT_BODY = '[object Object]'
HEADER_STRUCT = struct.Struct('>I2H2IH')

def parse_struct(self, data: dict, operation: int):
    ''' parse struct '''
    if operation == 7:
        body = json.dumps(data).replace(" ", '').encode('utf-8')
    else:
        body = self.HEARTBEAT_BODY.encode('utf-8')
    header = self.HEADER_STRUCT.pack(
        self.HEADER_STRUCT.size + len(body),
        self.HEADER_STRUCT.size,
        1,
        operation,
        self._count,
        0
    )
    self._count += 1
    return header + body

需要注意的是建立连接时，所需要 room_id 并不只是 av_id，需要先去 html 中取一下 cid(嗯，只能在 html 中解析，cid 是一个优先级比较高的变量，在基本上后面所有变量中都会使用

def _getroom_id(self, next_to=True, proxy=True):
    ''' get av room id '''
    url = self.ROOM_INIT_URL % self._av_id
    html = get_request_proxy(url, 0) if proxy else basic_req(url, 0)
    head = html.find_all('head')
    if not len(head) or len(head[0].find_all('script')) < 4 or not '{' in head[0].find_all('script')[3].text:
        if can_retry(url):
            self._getroom_id(proxy=proxy)
        else:
            self._getroom_id(proxy=False)
        next_to = False
    if next_to:
        script_list = head[0].find_all('script')[3].text
        script_begin = script_list.index('{')
        script_end = script_list.index(';')
        script_data = script_list[script_begin:script_end]
        json_data = json.loads(script_data)
        if self._p == -1 or len(json_data['videoData']['pages']) < self._p:
            self._room_id = json_data['videoData']['cid']
        else:
            self._room_id = json_data['videoData']['pages'][self._p - 1]['cid']
        print('Room_id:', self._room_id)

注意有些视频可能会有多个 page，每个 page 的 cid 其实是不一样的

Receive

00000000: 0000 002b 0012 0001 0000 0008 0000 0001  ...+............
00000001: 0000 7b22 636f 6465 223a 302c 226d 6573  ..{"code":0,"mes
00000002: 7361 6765 223a 226f 6b22 7d              sage":"ok"}

00000000: 0000 006f 0012 0001 0000 0003 0000 0002  ...o............ every 30s
00000001: 0000 7b22 636f 6465 223a 302c 226d 6573  ..{"code":0,"mes
00000002: 7361 6765 223a 2230 222c 2264 6174 6122  sage":"0","data"
00000003: 3a7b 2272 6f6f 6d22 3a7b 226f 6e6c 696e  :{"room":{"onlin
00000004: 6522 3a32 3232 2c22 726f 6f6d 5f69 6422  e":222,"room_id"
00000005: 3a22 7669 6465 6f3a 2f2f 3231 3036 3135  :"video://210615
00000006: 3734 2f33 3435 3438 3336 3622 7d7d 7d    74/34548366"}}}

00000000: 0000 007b 0012 0001 0000 0005 0000 0000  ...{............ danmuku 1
00000001: 0000 7b22 636d 6422 3a22 444d 222c 2269  ..{"cmd":"DM","i
00000002: 6e66 6f22 3a5b 2237 312e 3137 2c31 2c32  nfo":["71.17,1,2
00000003: 352c 3136 3737 3732 3135 2c31 3535 3435  5,16777215,15545
00000004: 3339 3238 322c 3136 3739 3335 3332 332c  39282,167935323,
00000005: 302c 6562 3636 3033 6161 2c31 3433 3633  0,eb6603aa,14363
00000006: 3937 3436 3136 3231 3936 3530 222c 22e8  974616219650",".
00000007: 9e8d e58c 96e4 bda0 225d 7d              ........"]}

00000000: 0000 0079 0012 0001 0000 0009 0000 0000  ...y............ danmuku2
00000001: 0000 0000 0067 0012 0001 0000 03e8 0000  .....g..........
00000002: 0000 0000 5b22 3731 2e31 372c 312c 3235  ....["71.17,1,25
00000003: 2c31 3637 3737 3231 352c 3135 3534 3533  ,16777215,155453
00000004: 3932 3832 2c31 3637 3933 3533 3233 2c30  9282,167935323,0
00000005: 2c65 6236 3630 3361 612c 3134 3336 3339  ,eb6603aa,143639
00000006: 3734 3631 3632 3139 3635 3022 2c22 e89e  74616219650","..
00000007: 8de5 8c96 e4bd a022 5d                   ......."]

可以看出 header 结构和 send 一毛一样，除了收到 danmuku 的时候序列号为 0(这一点也很好理解，因为不是主动客户端发送得到的返回，而是服务端主动推送给客户端的)

可以看到当 operation=3 的时候，收到了实时在线人数
当 operation=5 时收到一个 body 里面带一个 json 的 commond，其中的cmd内容表示具体的类别
当 operation=9 的时候，实际上是两个嵌套字节码，里面那个 operation=0x03e8=1000, 里面存放的是一个 list

总结一下 operation

操作码	含义
2	发送`心跳包`
3	`在线`数据
5	`cmd` 模式具体看[‘cmd’]
7	`建立`连接
8	连接建立成功
9	`嵌套`header
1000	`danmuka` list

看下效果

具体代码可见bilibili/bsocket.py

另外开发了一套根据排行榜爬取 up 时序累计数据，附带监控评论内容的系统，可用于分析 b 站视频评分原理的分析，支持开箱即用，欢迎 star

如果有做b站直播数据的爬取可以参考另外一位dalao的博客，直播的字节码规则略有不同

好了，大概的爬虫进阶技巧就说到这，欢迎各位 dalao 批评指正，转载请联系博主

你可能感兴趣的:(Spider,websocket,爬虫进阶)

python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
VUE3 + xterm + nestjs实现web远程终端或连接开启SSH登录的路由器和交换机。焚木灵 node.js vue
可远程连接系统终端或开启SSH登录的路由器和交换机。相关资料：xtermjs/xterm.js:Aterminalfortheweb(github.com)后端实现(NestJS)：1、安装依赖：npminstallnode-ssh@nestjs/websockets@nestjs/platform-socket.io2、我们将创建一个名为RemoteControlModule的NestJS模块，
python 多线程抓取xunlei磁力下载链接 weixin_53748624 python pycharm
importurllib.requestimportreimporttimeimportthreadingclassSpider(object):def__init__(self):#定义字典，用于保存影片信息self.films_dict={}self.i=1self.lock1=threading.Lock()defstart(self):#调用下载函数，获取下载连接forpageinrang
Websocket及三次握手/四次挥手小童不学前端网络通信 websocket 网络协议网络
Websocket-实时通信文章目录前言一、目前可实现实时通信的方式1、轮询（polling）2、长轮询（longpolling）3、Websocket3.1、WebSocket心跳机制3.2、WebSocket工作原理3.3、Websocket优点3.4、HTTP和Websocket关系二、HTTP协议-TCP三次握手、四次挥手1、TCP和TCP连接2、HTTP和TCP关系3、关于TCP连接的常
websocket aabbccQBB websocket 网络协议网络
1、概念是一种在单个TCP连接上进行全双工通信的协议。websocket使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据。在WebSocketAPI中，浏览器和服务器只需要完成一次握手，两者之间就直接可以创建持久性的连接，并进行双向数据传输。单工通信：数据传输只允许在一个方向上传输，只能一方发送数据，另一方接收数据并发送。半双工：数据传输允许两个方向上的传输，但在同一时
python类变量初始化_python中用函数初始化类变量 | 学步园 weixin_39573512 python类变量初始化
今天在写python的时候遇到一个问题:定义了一个list类型的类变量,但是这个list需要在初始化的时候给它加很多的url进去.这样的话我们就需要用倒函数了.结果自己刚开始这样写的:classTianyaSpider(CrawlSpider):definit_start():url_l=u'http://search.tianya.cn/s?tn=sty&rn=10&pn='url_r=u'&s
Http协议、TCP协议、WebSocket协议俗人浮生
网络编程大家都不陌生，但平时我们只是知道怎么用，对个中的网络协议倒是没花多少工夫去学习，所以，我们今天特意来对网络协议相关的知识加以总结记录。1）网络七层协议，从上到下依次为：7应用层6表示层5会话层4传输层3网络层2数据链路层1物理层2）Http协议对应于应用层，TCP协议对应于传输层，Http协议是建立在TCP协议基础之上的3）属于应用层的常用协议：Http（超文本传输协议）、FTP（文件传输
ESP32鉴权讯飞科技 qq_42949957 科技运维
#include#include#include#include#include#includeconstchar*ssid="464564";constchar*password="546456.";WebSocketsClientwebSocket;voidwebSocketEvent(WStype_ttype,uint8_t*payload,size_tlength){switch(type
【面试分享】面试题——网络题目_网络面试题程序员西西面试网络职场和发展测试工具 web安全网络安全系统安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包一、题目1、网关、网桥、路由器、中继器作用、实现以及对应的osi层?2、MAC地址是什么?3、webSocket是什么?4、常见的协议有哪些？5、什么是arp协议？6、FTP依赖于哪种协议？7、ip和域名分别是什么，计算机上网如何获取ip?8、http和https是什么，他们的功能、对应的OSI层以及区别?9、你知道有哪些网络通信协议
【漏洞挖掘】——53、 WebSocket安全概览 FLy_鹏程万里【WEB渗透】websocket 安全网络协议渗透测试信息安全网络安全 web渗透
文章前言在一次做项目的时候本来是想去点击Burpsuite的Proxy界面的HTTPHistory选项卡来查看HTTP历史请求记录信息并做测试的，但是在查看的时候却下意识的点击到了HTTPProxy右侧的"WebSocketsHistory"选项卡中，从界面的交互历史中发现网站有使用WebSocket进行通信，虽然之前有对Websocket有一些简单的了解(比如:跨越问题)，但是未对此进行深入研究
Tomcat与JDK版本对应关系，Tomcat各版本特性 2401_84048671 程序员 java tomcat 开发语言
ApacheTomcat8.xApacheTomcat7.xApacheTomcat6.xApacheTomcat是一个开源软件实现了JavaServlet和JavaServerPages技术。不同版本的Servlet和JSP规范可使用不同版本的ApacheTomcat。Tomcat与JDK版本对应关系为：|Servlet规格|JSP规范|EL规格|WebSocket规范|JASPIC规格|Apa
实现两个窗口通信方法之postMessage itKingOne javascript postmessage 页面通讯跨域通讯
两个窗口的通信问题应该是一个比较常见的问题了，通信可以通过很多种方式,如下：localStoragepostMessagewebsocket今天博主先来一篇postMessage干货，后期还会给出websocket的实现代码。首先来看一下基本的语法otherWindow.postMessage(message,targetOrigin,[transfer]);otherWindow其他窗口的一个引
Spring boot 项目作为客户端调用服务端websocket 心之语歌 spring boot websocket 后端
文章目录java客户端请求websocketSpringboot导入包客户端调用方法测试执行方法connectWebSocketHandshakeMessagesendHandshakeWebSocketConfig.queue.take方法对应实体类配置yaml资源WebSocketConfig配置类注入配置websocketUrl：LinkedBlockingQueueLinkedBlocki
Springboot 项目中引入WebSocket后，单元测试出现错误，前端开发揭秘杭州湾Java仔 2024年前端程序员 spring boot websocket 单元测试
java.lang.IllegalStateException:FailedtoloadApplicationContextatorg.springframework.test.context.cache.DefaultCacheAwareContextLoaderDelegate.loadContext(DefaultCacheAwareContextLoaderDelegate.java:12
Linux Nginx 配置 Websocket 攀小黑 linux nginx websocket
直接上代码#负载均衡upstreamgzgc_balancer{#least_conn;ip_hash;#这个是tomcat的访问路径server127.0.0.1:8025weight=1max_fails=2fail_timeout=3s;server127.0.0.1:8026weight=1max_fails=2fail_timeout=3s;}#配置map$http_upgrade$co
基于Spring的消息推送实战（Websocket和前端轮询实现）星月梦瑾 vue java spring websocket 前端
基于Spring的消息推送实战（Websocket和前端轮询实现）本文介绍了基于Spring的消息推送实现方法，主要介绍了websocket实时消息推送方法（ServerEndpoint方式实现），以及前端客户端轮询方式的消息推送。一、消息推送常见的消息推送方式有轮询、websocket、jpush等。传统http协议需要客户端发起请求，不能服务端进行推送，且建立tcp连接需要多次握手（tcp三次
WebSocket的详细介绍（打开你对WebSocket的认识） Digimon-Y websocket 网络协议网络
WebSockets是一种网络通信协议，它允许在客户端（通常是Web浏览器）与服务器之间建立一个持久的双向通信通道。这种协议特别适用于需要实时数据交换的应用场景，如实时聊天、在线协作编辑文档、实时游戏、股票报价系统等。WebSockets的特点全双工通信：WebSockets支持客户端和服务器之间的双向数据流。这意味着客户端和服务器可以同时发送数据，而无需等待另一方完成接收。持久连接：一旦建立了W
spring-websocket基于stomp实现websocket 飘零未归人前端 java websocket 网络协议网络
目录概述后端代码拦截器HandshakeInterceptor拦截器ChannelInterceptor拦截器消息转换器配置类消息处理广播模式用户模式自定义请求头用户信息ChannelInterceptor拦截器设置用户信息DefaultHandshakeHandler的继承类中设置用户对象前端代码概述WebSocket协议是一种相当低级的协议。它定义了如何将字节流转换为帧。帧可以包含文本或二进制
打造实时双人答题对决——WebSocket与JS的完美搭档 8tydegrees websocket websocket javascript 网络协议
本文使用WebSocket+JS实现简单实时双人协同pk答题引入在实时双人PK答题应用中，前端主要负责与WebSocket服务器的交云通信，实现实时互动功能。通过JavaScript建立WebSocket连接后，前端将发送和接收消息以实现玩家匹配、题目显示、答题、分数更新和游戏结束等功能。在用户界面上，通过监听点击事件来触发匹配对手、提交答案和结束游戏的操作，同时动态更新UI以反映游戏状态的变化。
不只是答题：用WebSocket和SpringBoot让双人PK变得刺激又好玩 8tydegrees websocket websocket spring boot 网络协议后端网络 javascript
引入引入与技术选型：在实时互动应用中，实现流畅的多人协同对战功能是一大挑战。WebSocket技术，以其全双工通信能力，提供了解决方案。不同于传统HTTP请求的短连接，WebSocket建立持久连接，极大减少了通信延迟，为实时数据传输提供了理想的环境，极大减少了传统HTTP轮询的延迟，为实时游戏提供了必要的技术基础。架构设计：采用前后端分离，将WebSocket服务独立部署。前端使用JavaScr
Android SSE 单向接收数据 wk灬丨 android
Server-SentEvents（SSE）是一种在客户端和服务器之间实现单向实时通信的技术。它允许服务器向客户端推送数据，但客户端无法使用SSE向服务器发送数据。这使得其适用于需要持续接收服务器数据的应用场景（如实时通知、股票行情、社交媒体更新等）相比于其他技术如WebSocket，SSE更简单和轻量，但仅适用于信息量不大的单向数据流。大多数现代浏览器都支持SSE，并且其内置的自动重连机制进一步
Flask中实现WebSocket需要什么组件 ac-er8888 flask websocket python
在Flask中实现WebSocket功能，通常不会直接使用Flask本身，因为Flask是一个轻量级的Web框架，主要设计用于处理HTTP请求。然而，你可以通过集成一些第三方库来在Flask应用中支持WebSocket。WebSocket是一种在单个TCP连接上进行全双工通讯的协议，它允许服务器主动向客户端发送信息，这对于需要实时数据更新的应用（如聊天应用、实时通知系统等）非常有用。在Flask中
springboot websocket 服务端 java知路 spring boot websocket 后端
在SpringBoot中使用WebSocket实现服务端和Java客户端的实时通信，可以分为几个步骤来完成。这里将详细介绍服务端和Java客户端的具体实现。服务端设置添加依赖：在pom.xml文件中添加SpringWebSocket的依赖。org.springframework.bootspring-boot-starter-websocket配置WebSocket处理器：创建一个配置类来注册We
tio websocket 客户端 java 代码工具类 java知路 websocket 网络协议网络
为了更好地组织代码并提高可复用性，我们可以将WebSocket客户端封装成一个工具类。这样可以在多个地方方便地使用WebSocket客户端功能。以下是使用tio库实现的一个WebSocket客户端工具类。1.添加依赖确保项目中添加了tio的依赖。如果使用的是Maven，可以在pom.xml文件中添加以下依赖：com.github.xiaoymintio-core2.1.10com.github.x
JS实现WebSocket客户端 msw、 JS js
//webSocket服务端地址varwsUrl=''//webSocket对象varws;//webSocket尝试重新创建webSocket定时varreconnectTimeOut;//心跳重试次数服务端3次无响应就断开重连varheartCheckNum=0;//webSocket链接锁，用来保证只有一个客户端与服务端只生成一个连接。varlockReconnect=false;//web
open-spider开源爬虫工具：抖音数据采集_抖音直播爬虫采集 2401_83817769 程序员爬虫
静态内容抓取是指从网页中直接提取信息的过程。这通常涉及到以下几个步骤：使用requests库发送HTTP请求，获取网页的原始数据。例如，你可以使用requests.get(url)来获取抖音首页的HTML内容。利用BeautifulSoup库对获取到的HTML进行解析。BeautifulSoup提供了丰富的方法来处理和提取HTML文档中的数据。例如，你可以使用find()或find_all()方法
Spring Boot 3使用Spring WebFlux + WebSocket(简单实现) 丿凌潇 spring spring boot websocket
效果为什么要使用SpringWebFlux？一部分答案是需要一个非阻塞的网络堆栈来处理少量线程的并发，并使用更少的硬件资源进行扩展。使用Servlet非阻塞I/O，远离ServletAPI的其余部分，因为他们的通信是同步的(Filter,Servlet)或阻塞的(getParameter,getPart)。SpringWebFlux是一个新的通用API作为跨任何非阻塞运行时的基础的动机。这很重要，
记一次spring boot自带的tomcat与websocket冲突 listenFeng. JAVA
记一次springboot自带的tomcat与websocket冲突问题解决方式问题项目新集成了websocket，然后在执行单元测试时报错，报错如下Causedby:org.springframework.beans.factory.BeanCreationException:Errorcreatingbeanwithname'serverEndpointExporter'definedincl
【ttf压缩】网页开发中引入字体文件过大，加载缓慢的解决办法【字蛛】【web Font】 Luckstar_wei 技术 css html 字体 ttf压缩中文字体压缩
yueyemoyanweb中文字体演示与工具使用请前往主页：http://font-spider.org/需要安装node.js输入以下命令：npminstallfont-spider-g运行安装成功之后就开始压缩了我的目录是这样的我的css文件开头是这样的这里要确保ttf文件一定要有，其他的不管在你的html中也引用了相应的css文件接下来就是最后一步了生成新的字体库nodejs命令行输入fon
深度学习项目实践——qq聊天机器人（transformer）（二）配置环境与部署 Linductor qq聊天机器人项目深度学习机器人人工智能
深度学习项目实践——qq聊天机器人（transformer）（二）配置环境与部署上一节我们讲解了qq聊天的原理和qq机器人的框架以及运行流程，这一节我们来讲怎么配置环境，部署qq机器人。第一步——配置环境有关代替qq客户端实现反向websocket连接这一部分内容由于一些原因，我无法在这里具体讲解，我把这部分内容放到了github中我的项目内,请自行查看。机器人主体——nonebot2nonebo
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement