2019.07——2020.05 整理工作

差不多10个月的断断续续的实习,今天来整理一下做过的app的各自的特点吧

 

上周就像整理来着。。。这周来完成。

 

简单整理一下,期间的比较有特点的APP

 

1.云南通 :这个是第一个做的,主要是熟悉数据采集的流程,年代久远,记不清了,貌似是Url两次跳转。

2.梨视频:这个特点是不仅是频道多,主要还是频道中文章内容多混为微信文章、新华网、中国网事等等外部链接。

需要完全采集,就需要对各自外部链接进行match,然后个性化采集。

3.云上云梦:当时采集的时候挺正常的,现在看起来,应该是带有sign的加密的Url,后续也没有修复。

4.宁夏日报:特点就是首新华网分享页次采集,这个页面在其他的APP中也有采集,所以做个标记。

采集方法,当时是用的fastjson,现在看起来,直接处理一下返回的数据,送给模板处理就好了。

5.爱新疆:首次遇到POST这种Url,post的内容还是json格式的,这里需要注意一下,要记得添加content-type  头部内容。要不然,有的网站不支持,返回404或415。

6.人民智云:第一次遇到加密APP,Url中sign的主要的加密方法就是:随机数+时间戳+频道信息 

然后MD5一下,就得到了相应的Sign值。

还有一个特点:那就是文章列表页是html,之前都是json格式,所以记录一下。

7.掌中惠州:卡了半个月,学习了一下Frida框架,简单的进行了hook一下。

加密Sign方法为:时间戳+随机生成5位字符串+设备+url

卡住的原因在frida之后也得到了结果,那就是头部信息没有填全!!!(晕死)

8.领导者:文章详情页采集是HTML,不是简单的json。第一次采集

 

 

你可能感兴趣的:(实习,java,xml)