利用插件对网站更新的即时检测

本文主要是利用「Distill Web Monitor」（旧称AlertBox）插件实现对B站直播的即时通知，对新浪微博更新的及时通知并存档。

主要的困难之处在于

信息的抓取
抓取信息的筛选

下面分述两者功能的实现

B站直播的检测

一开始，我大致观察了一下「直播」与「非直播」两者状态的区别，除了视频流外，比较明显的不同就是右上角的按钮。

直播

关闭

然而粗略查了下按钮的网页源码，并没有发现什么有用的信息。

此时我想到可以尝试利用B站的API来返回直播信息。

在经过一番查找后，我终于找到了相关的API接口：

def IsLiving(mid):
    """
    是否在直播
    """
    url = "http://live.bilibili.com/bili/isliving/%s"%(GetString(mid))
    jsoninfo = JsonInfo(url,pre_deal=lambda x:x[1:-2])
    info = LivingInfo()
    if jsoninfo.Getvalue('data'):
        info.url = jsoninfo.Getvalue('data','url')
        info.title = jsoninfo.Getvalue('data','title')
        info.cover = jsoninfo.Getvalue('data','cover')
        info.mid = mid
        return info
    else:
        return None

来源： https://github.com/Vespa314/bilibili-api/blob/master/python%20API/bilibili.py

其中我们得到格式http://live.bilibili.com/bili/isliving/%s"%(GetString(mid))。其中(GetString(mid))即主播的MID号（并不是直播间号！）。

例如，长年直播滚滚卖萌的账号「PANDAPIA」，其MID=12444306。那么我们可以得到链接：http://live.bilibili.com/bili/isliving/12444306，直接用浏览器访问，得到返回结果：

({"code":0,"msg":"","data":{"url":"http:\/\/live.bilibili.com\/36979","title":"\u840c\u56e2\u5b50\u4eec\u7684\u6bcf\u5468\u6210\u957f\u8bb0","cover":"http:\/\/i0.hdslb.com\/bfs\/live\/8d877c1ce42cc1990f43d0b4cef988a2f0ca38e1.jpg","online":107

大概猜得出来，服务器返回了直播间地址、直播间封面、直播间名称和在线人数。总之，别人在直播。

而没有直播的直播间，返回结果如下：

({"code":0,"msg":"","data":""});

少了很多信息。

那么，我们只需要监测返回的信息改变，即可知道直播间是不是有人进来/离开。

但是，不要忘记在直播的时候，在线人数也是在时刻变化的。如果仅仅将信息发生「变化」作为判定条件的话，不直播还不打紧，只要一直播，提示信息就会不停的响起（人数一直在变）。

因此，后面的那一部分信息，我们直接剔除掉就行了。

「Distill Web Monitor」支持正则表达式,因此我们只需写个规则，只截取前面的一部分就够了。

规则如下：

^.{32}

意思就是，从前数，数任意32个字符（换行符除外），从这里掐断。

于是在不同情况下会得到：

({"code":0,"msg":"","data":""});   #未直播
({"code":0,"msg":"","data":{"url  #正在直播

仔细看还是有差别的~

新浪微博更新的检测

这个就比B站难对付多了，因为新浪微博在早些时候封掉了「读取他人微博」的API，除非你花大价钱去买。官方的解释是打击爬虫啊，打击信息贩卖啊（顺便赚外快）。但是没了接口，散户程序猿一片哀嚎。

因此用API来爬信息的方法就行不通了，还是用网页更新得了。

但是微博的排版太复杂了，必须找个简洁点的目标来抓。

这时候我想到了手机微博（weibo.cn），就是以前用那种诺基亚功能机上网看到的页面。

抓了一下，效果还不错。

但是问题来了，每个微博都有「赞」「转发」「评论」，这些数字都是变化的，需要屏蔽掉。这个时候再用正则表达式来过滤就力不从心了。于是我尝试使用XPath来进行过滤。由于各种模块相互错杂，简单的规则非常容易误杀有用的信息，或者过滤不完全。最后我写了6条规则，一起得到了比较满意的结果。config文件如下：

{
  "selections": [
    {
      "frames": [
        {
          "index": 0,
          "excludes": [
            {
              "id": 2,
              "type": "xpath",
              "expr": "/html/body/div//span[@class='ct']"
            },
            {
              "id": 4,
              "type": "xpath",
              "expr": "/html/body/div//span[@class='cmt']"
            },
            {
              "id": 5,
              "type": "xpath",
              "expr": "/html/body/div//a"
            },
            {
              "id": 6,
              "type": "xpath",
              "expr": "/html/body/div//a[@class='cc']"
            }
          ],
          "includes": [
            {
              "id": 1,
              "type": "xpath",
              "expr": "/html/body/div[@class='c']"
            },
            {
              "id": 2,
              "type": "xpath",
              "expr": "/html/body/div//img[@class='ib']"
            }
          ]
        }
      ],
      "dynamic": true
    }
  ],
  "regexp": {
    "expr": "",
    "flags": "gim"
  },
  "ignoreEmptyText": true,
  "includeStyle": false,
  "dataAttr": "text"
}

这个规则较好的保留了图片和文字，同时剥离了经常变化的干扰项。

此外，在Firefox上有一个插件，SiteDelta。它能够在有变化的情况下自动对网页进行备份，这个是上文的Distill所不具备的。但是这个插件其他地方还尚需打磨。我在写入XPath规则的时候居然找不到输入框！最后只能强行修改插件文件将规则写入。

两者合用，还是对网页变化具有比较强的敏感性，但是误报也时有发生，这个我仍无法科学的解释……

======

有个微博用户有个置顶，使用了下面的规则：

{
  "selections": [
    {
      "frames": [
        {
          "index": 0,
          "excludes": [
            {
              "id": 7,
              "type": "xpath",
              "expr": "(html/body//div/div[@class='cmt'])[position()>1]"
            },
            {
              "id": 3,
              "type": "xpath",
              "expr": "/html/body/div//span[@class='ct']"
            },
            {
              "id": 4,
              "type": "xpath",
              "expr": "html/body/div//a"
            },
            {
              "id": 5,
              "type": "xpath",
              "expr": "(//div//span[@class='cmt'])[position()>1]"
            }
          ],
          "includes": [
            {
              "id": 1,
              "type": "xpath",
              "expr": "(/html/body//div[@class='c'])[position()>1]"
            }
          ]
        }
      ],
      "dynamic": true
    }
  ],
  "ignoreEmptyText": true,
  "includeStyle": false,
  "dataAttr": "text"
}

利用插件对网站更新的即时检测

B站直播的检测

新浪微博更新的检测

你可能感兴趣的:(利用插件对网站更新的即时检测)