智能资讯-学习

标签是英文tag的中文翻译，又叫“自由分类”和“分众分类”，原指商品流通和交易中用户根据自己对事物的理解所添加的描述词。

网络媒体是以多层次超级链接的方式体现作品内容，因此新闻标题或标题中关键词如果没有吸引力和冲击力，受众看过标题之后也就“到此为止”了，其正文内容也就成了永远不会被阅读的无用信息。

新闻标签的制作与选择，需要撰文者具有对热点事件的理解力和概括力、对网民心理的洞察力和剖析力以及对传播指向的预测力和掌控力。

大数据推送要真正实现用户体验的飞跃，基础在于语义分析，即通过用户阅读内容，自动实现标签提取及加权分类。

很多时候用户自己也不是特别明白自己喜欢看什么，或者现有能提供的标签粒度还太粗，比如体育，娱乐，还不够精准。比如我选择了体育标签，其实我只喜欢西甲，很可能也会不断给我推送NBA。现在各大新闻媒体网站的标签大部分是需要编辑自定义标签，通过用户点击文章的标签重合度来实现内容推荐。

推送还不足够精准，标签也还不足以覆盖全文，而大数据要做的就是这个工作，通过机器学习来实现文章标签自动生成，包含各标签的权重等。不同意大数据无用这个说法，主要还是技术或理念没有达到。

产品冷启动时期，让用户选择兴趣标签，是一种保险、不易出错的入门方式，也是用户数据收集的手段之一。如果长期按照用户选择的标签，提供资讯推荐，时间久了，真正感兴趣的内容逐渐被缩小，用户也会感到乏味。那么，系统积累到这个阶段，也是可以通过“猜你喜欢”或者其他更友好的方式，向用户推荐口味相似的用户浏览历史，甚至可以把其他领域的热门内容推荐过来，尝试着扩散兴趣体系。

大数据分析用户，其实就是利用内容的兴趣体系，来创建“用户画像”。如果真有这么好的数据、画像体系，那么，能做出的App，就不止资讯整合类了。

1. 个性化推荐服务：为每个用户定制的个性化的推荐，常以“猜你喜欢”或“发现”、或“你可能还需要”等形式出现，根据每个用户的喜好夺身定制。

2. 相关推荐服务：根据当前所浏览的商品，推荐相关的商品，常以“相关的商品”、“经常一起购买的商品”、“同类型商品”、“看了又看”等形式出现。

3. 热门推荐服务：各种数据计算得到的排行榜，支持全局排行以及分类热门排行等。

快速解决冷启动问题

当一个用户到来时，如果这个用户之前没有任何行为数据，这时的推荐就要面临用户“冷启动”问题。解决方法也有很多，首先可以考虑基于用户的人口统计学信息进行推荐，包括性别、地域、职业、婚否等，比如上海的话推荐一些上海的新闻资讯、男生推荐一些体育资讯、职业是互联网行业的话推荐一些科技资讯等。其次可以引导用户选择自己的兴趣标签和分类，比如对娱乐感兴趣的话可以推荐一些明星八卦。当然还可以在新用户启动时，推荐各种各样的高质量新闻资讯，让用户用自己的手进行投票，然后实时更新推荐结果迎合用户的阅读兴趣。

如果用户是一个老用户，也就是用户有历史行为数据，那么还可以结合这些数据挖掘用户的兴趣偏好，形成用户画像。用户画像通过对海量的用户行为数据进行深入的分析和挖掘，从多个维度来描述用户的基础属性、标签及兴趣点等，清晰并且准确地勾勒出用户的轮廓概貌。这些数据帮助应用方更好了解用户行为路径，明确用户流失情况和原因，为应用方的产品功能优化决策提供可靠参考依据。

用户偏好生成过程中，还需要考虑两个因素：行为类型和兴趣周期。在新闻资讯阅读过程中，用户行为类型有很多。用户看到了一篇新闻，可能是用户感兴趣的，就点击了，然后看了一点觉得很不错，就沉浸下来进入深度阅读阶段直到看完整篇资讯，最后觉得写得太好了，不仅点赞还收藏了这篇文章。像深度阅读、点赞、收藏等和用户兴趣的正向的行为，生成偏好时应当加强，最后在推荐时要多推荐一些类似文章。像不喜欢、不点击等和用户兴趣反向的行为，生成偏好时应当削弱，推荐时也要尽可能少推荐。

兴趣周期，一般来说分三个层次，分别是长期兴趣、短期兴趣和实时兴趣，对应的时间间隔的不同。一般长期兴趣是取最近3个月或者半年的用户行为数据进行分析挖掘生成，短期兴趣则是最近一周时间间隔内，而实时兴趣则是最近N分钟之内的行为挖掘。长期兴趣主要处理用户一直存在的兴趣偏好，短期兴趣主要是处理用户正在变化的或者正在养成的兴趣，而实时兴趣主要是迎合用户的猎奇心理，当然实时兴趣也会是长期兴趣和短期兴趣的持续。

实体识别：人名、公司名、产品名、时间、地点

博客、 CMS（网易新闻、腾讯新闻）之类的系统，核心就是文章，一切的一切都围绕着文章进行，所以设计一个好的文章分类和标签的数据库关系模型，对后续编码及维护将会起到至关重要的作用。

一. 分类

一篇文章，比如《大陆＊＊明星又离婚了》这属于「娱乐」类新闻，又属于「中国」分类下的新闻，所以文章和分类的关系一般是 1 对 N 。

数据库表结构设计

article ：

category:

就以只有分类为例（是否含子分类其实原理类似），这样其实 left join 就可以出来结果，但是这样的结果不适合展示，因为多个分类查出的一篇文章就有几行结果（对于 SQL 来说几个分类就几条数据），所以在后台管理的文章列表页面中，一次查文章，还有一次根据文章 id 查出所有分类，两次查询结果和起来才能显示一条结果，如下表格所示：

二. 标签

还是以《大陆＊＊明星又离婚了》为例，可以打上标签「明星」、「大陆」、「离婚」、「娱乐」，是一种 N 对 N 的关系。

标签的作用是什么呢？一个是你可以根据标签更快地搜索到你想要看到的所有文章，一个是网站可以利用标签的使用次数展示出热门标签（如某些博客展示一个部分标签，有的字体大，有的字体小，可能就是根据标签的引用数来设置字体大小，从而突出展示热门标签）。

数据库表结构设计

tag

article_to_tag (文章和标签关系中间表):

新闻类网站设计特点主要有以下五方面:

第一：战略层设计

主要体现在两方面：一是用户核心需求的分析，二是网站商业的主要目的等。

第二：范围层设计

主要体现在内容需求和实现内容的功能方式上。具体讲是指从新闻事件的核心信息，周边信息以及辐射信息三个层次深度挖掘内容，从中组织相关文字，图片以及音频视频资料。并确定内容信息呈现的优先级，即栏目设定及层次。

第三：结构层设计

新闻网站的结构层设计包含信息结构和信息交互设计。

第四：框架层设计

框架层包括界面设计、信息设计等。

第五：表现层设计

主要指的是视觉设计。

其中战略层和范围层由于每个新闻网站的定位不同，所以也会不同。在这里全面梳理结构层设计，框架层设计和视觉设计。从各方面阐述如何设计新闻类网站。

结构层设计

新闻网站的结构层体现在网页的组织分类和导航设计上。目标是要有足够清晰的结构来包含不同类别的新闻信息，让受众进入网页时就能明确地了解网站内容，并轻松地选择自己需要浏览的新闻类别。

下面从海淘科技小编从七方面一一细致剖析。

1 内容类别网站导航展示形式

就是否能引起用户进一步浏览网页的欲望?

(1) 全局网站导航之一：文字单元网站导航

大部分传统新闻网站使用这种形式。在网页上方有分类十分广泛的单元导航模块，通过譬如国内新闻/国际新闻/军事/娱乐/财经等诸多关键词将网站信息进行分类，在点击任意单元后立即载入相关独立网页。

这类的导航分类设计能区分出不同类别，结构相对清晰，但当栏目过多时，较考验设计师水平。如容易因为太拥挤的文字让用户产生视觉疲劳，导致无法从导航中获得继续浏览网站的兴趣。

(2)全局网站导航之二：二级菜单形式网站导航(推荐)

?级菜单形式。即首页导航模块数量尽可能少，设置为当鼠标移动到某个导航目录时，自动出现二级菜单，将目录进行更具体的分类。这样在视觉上更简洁清晰，在视觉符号间有足够的留白，能有效杜绝受众产生生视觉疲劳。

设计注意事项

1.市场上此类产品非常多，同质化非常严重，如何脱颖而出并不仅仅是技术层面决定的，技术方面的实力带来的体验提高并不会给用户直观的感受，如果技术确实强到了能使用户“明显”感到不一样，那就可以另当别论。

2.广大用户并不能真正明显的区分哪些消息是自己喜欢或者不喜欢，通过用户行为分析推送过来的消息，只是沾点边。用户的行为有时候并无特定目的，无意识的行为很普遍，如何去除无意识的用户行为，只保留用户有意识的行为进行分析，这是非常考验技术方面的能力。

3.在给用户提供一些感兴趣的项进行选择时，注意人都是贪婪的，很多用户都会选择订阅很多项，甚至不同类别，平时自己不是很感兴趣的一些行业方向甚至也都会试着订阅，这会导致推送的消息非常庞杂，使用户感兴趣的信息和一些一般的消息混杂在一起，如何解决用户订阅的确实是他感兴趣的信息，并且能提供用户能够在碎片化时间或者一定时间内可读完的有价值的符合用户期望的信心非常重要。

目前个性化的新闻推荐机制主要根据：

1、用户资料

性别、年龄段、所在城市、兴趣特征

2、协同过滤

基于文章的协同过滤。阅读了文章A的用户60%都阅读了文章B，那会给阅读了文章A的用户推荐文章B。

基于用户的协同过滤。如果用户A与B的兴趣特征相似，则会给用户A推荐用户B看过而用户A没有看过的文章。

3、建立模型

新闻内容相似度匹配。抽取文章实体词，对文章进行分析并归类。细化用户资料，例如用户资料跟科技相关，文章也跟科技相关，就推荐给用户。

4、正负反馈

通过正负反馈来判断推荐给用户的文章是否精准。

正反馈包括了点击、阅读时长、分享、收藏、评论。

负反馈类似目前今日头条在内容上设置了一个×，点击之后，会咨询用户不感兴趣的理由。

5、其他

因为是资讯类，所以文章的发布时间可能也有权重。

实际会综合这些算法<可能不止这些>来确保推荐的内容是用户感兴趣的内容。用户阅读的文章越多，被记录的历史行为越多，则推荐给用户的文章越让用户感兴趣。这就是为什么今日头条会说「越来越懂你」。

不足：

一旦形成了一定的阅读习惯，推荐的内容将局限于用户感兴趣的内容，可能不会涉及到新领域及热点，所以考虑到热点内容的推荐，部分APP中有固定置顶某条新闻或热点频道的功能。

文章冷启动的问题。新的文章没有用户行为记录，难以被推荐。

今日头条推荐机制

机器通过计算得出的用户阅读兴趣

用户阅读过的文章分类和关键词；

用户聚类：相似类型用户还喜欢阅读的其他文章类型；

用户在今日头条客户端主动标记「不感兴趣」的实体词或文章类型

根据以上数据，系统对用户的阅读兴趣就能有个基本的判断。一般来讲，用户使用产品时间越长，系统积累的阅读数据越多，对其兴趣的判断也就越准确。使用产品的用户越多，系统对用户聚类的判断也越准确。通过对数据的处理，每位用户将被机器打上各种标签，如一个用户阅读的文章中关键词排名靠前的是：C罗、皇家马德里、欧洲杯、小米、魅族、苹果。那么，这位用户可能被打上「足球、「皇马」、「科技」、「手机」、「米粉」等标签。不同的用户会被打上不同的标签。当一篇带有「C 罗」、「足球」标签的文章在进行推荐时，系统会将其自动匹配给带有「C 罗」或「足球」标签的用户，这便是推荐引擎的个性化推荐。当然，系统推荐的实际情况会远比这复杂得多，但推荐的基本原理便是，机器通过数据来理解文章和用户，并对两者进行匹配。文章的首次推荐，如果点击率低，系统认为文章不适合推荐给更多的用户，会减少二次推荐的推荐量；如果点击率高，系统则认为文章受用户喜欢，将进一步增加推荐量。以此类推，文章新一次的推荐量都以上一次推荐的点击率为依据。此外，文章过了时效期后，推荐量将明显衰减，时效期节点通常为24小时、72小时和一周。例如，一篇文章首次推荐给了1000个用户，如果这批用户的点击率较高，系统判定用户非常喜欢这篇文章，将其扩大推荐给10000个用户，如果这轮推荐用户的点击率仍然维持在较高水平，那么系统会将文章再次扩大推荐给30000个用户、50000个用户、100000个用户 ······推荐量和阅读量便如滚雪球一般节节攀升。直到文章过了24小时时效期，新一轮推荐的推荐量才会逐渐衰减。

投资日历

投资日历虽然九成以上为无用事件,但是只要有一个事件有投资价值也就够一个月吃的了,所以深度挖掘显得尤为重要。看投资日历注意以下几点:

1)国内博览会、展览会、交流会、研讨会等一律砍掉,这类事件没有参与价值,闭上眼扔掉。

2)国际级别的产业大会可跟踪,可跟踪不代表有参与价值,还要进行深度分析,比如世界互联网大会,如果Leader Xi参加那么将会产生一波不错的行情,比较冷门的国际级别的大会也要扔掉;有参与价值的国际级别大会,最好有Leader Xi 或者 Second Leader Li 出席。

3)重大政策文件发布需要重点关注,这类容易产生确定性强的行情,比如XX五规划发布,“土十条”颁布等,大的政策文件的下发比某某大会有价值的多。

4)欧美发达国家Leader出访中国应密切跟踪,这类出访涉及的概念股容易产生炒作机会。

投资日历是一把双刃剑,能帮你赚钱,也能让你亏得连底裤都没有,关键在于你怎么运用。

【重大投资机会来源于深度挖掘】

做事件驱动并非想的那么简单,找一个事件,然后从网上搜几个概念股,埋伏起来,最后等待账号里的钱鼓起来。投资真的是这么简单吗,如果真是这么简单,为什么股市上亏钱的人那么多。没有深入研究投资日历用法的,绝大部分人要吃亏。简单谈一下本人运用投资日历炒股的经验,一个月事件那么多,真正有操作价值的很少,至少大部分事件不在自己的能力圈范围内。

1)别人总结好的投资日历,可以参考,但不能全信。你要相信,好的投资机会很难有人拿出来去免费分享。别人公布出来的投资日历,绝大部分是有所保留的投资日历,雪藏了干货,把一些可有可无的事件给列出来,吸引眼球。

2)真正有操作价值的事件性机会,要自己动手去从繁琐的信息中去寻找,深度挖掘。本人操作的有价值的事件性机会,大多都是无意间浏览新闻发觉的。

3)事件性机会要满足以下条件:规模大、级别高、好对标。什么是规模大、级别高,国际级别的事件炒作效应强于国内事件,国家Leader参加的大会就优于省级Leader参加的大会,Leader访问就比Second Leader访问影响大;一个事件性机会,如果没有好的标的,那么该机会就谈不上是机会。一个好的事件性机会,要有受益逻辑清晰的标的,这个标的辨识度高,才能获得资金认同。

4)事件性机会,一般是事件爆发前介入,爆发时出。如果你在事件兑现时进,那么九成概率要吃套,事件性机会绝对、绝对不能追涨,爆发之时也即是行情结束之日。

5)95%的事件从来不会产生投资机会,不是所有的事件都要做。在做之前,你要考虑假如被套,这个事件兑现时能否让你解套,如果不能,那么不做。

智能推荐回声效应

当我们主观上倾向于某一观点时，我们往往会主动或被动地去接收那些有利于我们观点的信息，而对于那些有悖于我们观点的信息，我们通常会选择忽视，这在心理学上叫做证实偏见。

而互联网的这种个性化推荐放大了这种偏见，它使得我们在由自己兴趣编织的笼子里只看到自己想看到的内容，只接收自己赞同的观点。长此以往，这种智能推荐是否会将一个人逐渐推向偏执甚至极端呢？

以今日头条为例，精准的个性化资讯分发的确降低了用户阅读成本，最大限度地保证用户看到的都是自己想看的，但这种以用户喜好作为判断条件来迎合用户的做法带来的回声室效应也是不容忽视的。长期只接受特定的信息，只会让我们在自己狭小的圈子里自娱自乐、故步自封。

有句话我很认同，“在精准的用户画像里，机器算法自动过滤了异样的声音，同时也杜绝了惊喜的可能”。

回声室效应：在一个相对封闭的环境下，一些意见相近的声音不断被重复和加强，最终使得处于该环境下的大多数人都认为这些扭曲的观点就是事实的全部。

舆情热点定义

舆情即舆论，是指网络上关于现代社会中的各种现象、问题所表达的信念、态度、意见和情绪表现的总和，具有相对一致性、持续性和强烈程度。网络舆情是社会舆情在互联网空间的映射，是社会舆情的直接反映。

网络舆情事件可以用微观和宏观两个角度进行分析。微观上，体现在与舆情事件直接相关的总文章数、讨论人数、发言时间密集程度、点击率、回复率等；宏观上，通常采用热点、焦点来判定舆情的重要程度。由于模型中设计的某些参数较难获取，目前舆情态势分析主要是简单统计出话题的热度，并用经典概率理论简单图示代替舆情分析判据复杂性，主要通过主题检测和跟踪技术发现并追踪社会热点和焦点内容及舆情，图1是网络舆情热点发现模型结构图。

在网络热点事件检测的过程中，主要涉及网络事件识别技术和网络事件热度分析两个问题。在网络事件识别方面，事件检测依据各种事件及其相应报道，能够识别网络中新出现的事件并跟踪事件的后续发展动态。在舆情热点监测上，由于舆情的动态变化特征是同一事件可能在多个侧面被讨论，呈现多个讨论中心，热点事件追踪的主要目的是针对事件演化过程中发生的动态变化进行准确识别，如果发现有危机性质的事件，能够及时做出预警，促使检测人员做出合理的反应措施。

热点发现算法本质上来说是属于数据挖掘中的文本聚类算法，通过将预处理后的文本信息归入不同的话题并在需要的时候建立新话题，按照话题将文档进行聚类，发现热点的质量与文本聚类算法本身的特性以及算法应用中的各种阀值的设置是密切相关的。

为了有效、客观的评价热门程度，进行热门新闻排序，需要选择出有效的并易于处理的排序特征。因此选择排序的特征依据是：

1.特征具有普遍性

2.能够量化

3.能够客观体现话题的热门程度。

显然，新闻的参与人数及评论数可以作为重要的排序特征。所以提供的三种排序方法：

1.按照新闻的参与人数排序

2.按照新闻的评论数排序

3.按照两个特征的综合值排序

今日头条的文章个性化推荐机制主要是：

相似文章主题相似性的推荐：通过获取与用户阅读过文章的相似文章来进行推荐。

基于相同城市的新闻：对于拥有相同地理信息的用户，会推荐与之相匹配的城市的热门文章。

基于文章关键词的推荐：对于每篇文章，提取关键词，作为描述文章内容的一种特征。然后与用户动作历史的文章关键词进行匹配推荐。

基于站内热门文章的普适性推荐：根据站内用户阅读习惯，找出热门文章，对所有没有阅读过该文章的用户进行推荐。

基于社交好友关系的阅读习惯推荐：根据用户的站外好友，获取站外好友转发评论或发表过的文章进行推荐。

基于用户长期兴趣关键词的推荐：通过比较用户短期和长期的阅读兴趣主题和关键词进行推荐。

基于相似用户阅读习惯的列表推荐：计算一定时期内的用户动作相似性，进行阅读内容的交叉性推荐。

基于站点分布来源的内容推荐：通过用户阅读的文章来源分布为用户计算出20个用户喜欢的新闻来源进行推荐。