一、选题方向
选择优势:
选择不确定性:
2-高速公路交通流
选择优势:
(2)项目基础:有以往的研究经验和报告作为参考(但是感觉里边的方法使用不是很难,仍然需要我们探索更加合适的办法)
选择不确定性:
3-量化策略(研报,金融数据的挖掘)
选择优势:
选择不确定性:
5-进化神经网络(用遗传算法自动调参)
选择优势:
(2)自动调参比手动调参确实优化不少,以后调参道路中也有不少帮助
选择不确定性:
主题方向:知识图谱
应用领域1:输入实时爬取的新闻,得出检索关键词所检索到的所有新闻整合出的关键词,形成图网络,网络中的实体为企业相关的事件或者行为动作
应用领域2:输入企业的名称,得出我们已经训练好的公司之间的投资,供应,借贷关系数据
Q1:爬取语料的难易程度?如何获取企业之间的投资、供应、借贷关系数据
Q1.1、企查查也是自行爬取的,企查查能够获取哪些市面上的信息,企业之间的关系数据能否实现——公司官网——行业研究报告,找一找研究投资关系的企业一般上什么网站
重点是反应实体之间的关系,最好优化之后,利用关联的杠杆体现出其中的深度,看好企业之间的实体关系,然后做确定性的股东,投资,供应,借贷等关系
1.信息源获取难度以及合法性
自然语言处理较为依赖于信息源的获取,本团队不希望将重心放在前期的语料爬取中,虽然这对于结果很重要,但是发展初期的主要方向还是把整个框架能够成功跑出来结果。
信息源获取的难度决定了本团队在项目初期产品框架设定中的投入成本和精力大小,不希望在此处耗费过多人力物力。对于前期可以直接先从企查查等二次信息获取网站进行二次获取,以方便、快速为目的,哪怕爬取数据不完整有差错,先求有再求好。等到产品可以商用之后,需要扩大规模,签署商业协议的时候再改为从原新闻渠道进行获取。采用照猫画虎的方式,已有的企查查、天眼查等二次信用检索网站用什么数据源,我们就用什么爬取,他们不行的话,我们肯定也不行。
1.1、信息源获取难度
详见链接(待补充详解)
1.2、信息源获取合法性
必须先做出来个东西,然后尽快申请知识产权保护起来,外包给王闻申请经费。跟风做数据,已经有的征信产品在做的,肯定是能够爬取,允许爬取的数据源!你不行他们肯定也不行,墙倒猢狲散
天眼查、企查查、启信宝这类第三方企业信息查询公司有什么不同吗? - 知乎
天眼查,企查查,启信宝三类第三方企业信息查询公司数据来源
做出来的产品预期,可以做出个推荐系统,推荐的是企业,并且检索出真正的可联系对象,明了其业务以及投资额,重点新闻,快速排查
这类产品宣传的都是全国企业信息查询系统,但是如果你是做TO B业务的,通过这类产品找大客户、找批量企业KP的联系方式,或者是作为老板、业务负责人想为销售团队提供大批量的目标客户,那么两查一宝的信息就不太适用,即便是开了会员。
它们之间的区别在哪儿呢?
首先就是数据源:
依靠更先进的爬虫技术,市面上主流的获客系统攻克了全网1000+网站数据源,其中数据源包含:
政府公开数据
比如工商信息网、资质网、招标网、融资网、税务网、法律信息网等
商务型网络数据
比如企业官网、垂直网站、行业网站、招聘网站、门户网站、地图网站等其他和公司业务贴合更紧密的数据。
新闻媒体网站数据
比如新浪、微博、头条、凤凰、贴吧、小程序、app、脉脉等
至少3倍以上的主流数据源,其实就完爆了上述三类产品。
更重要的是丰富的数据来源,其实就决定了数据的精准程度、完整程度。尤其是对于TO B客户的联系方式。
相比两查一宝仅收录了年报信息。此类系统收录了至少8个主要渠道数千个来源:1.官网 2.年报 3.B2B网站 4.地图 5.企业信息 6.行业网站 7.招聘网站 8.招标信息等其他平台。
空号检测、智能推荐功能帮助用户全方位触达企业相关负责人。并非只是挂在公司旗下的法人。解决的痛点和问题——直接检索也不确定到底怎么样,点击进去之后可以更加深入的了解这个工具如何去实现
目前to B的线索平台主要有以下几种:
1、企查查、天眼查、启信宝等等。这类平台一般是会员制,价格比较亲民,可以说职场人人手一套。其定位主要是查企业信息,信息里有联系人这一栏,来源比较单一,主要是公商年检信息,无效联系方式也比较多。这个平台适合产品面向众多大众的业务,可结合群呼或者机器人批量外呼,做客户筛选。
2、探迹、搜客宝、销氪等,这类平台数据整合的比较好。相比较企查查这种平台,主要有以下几点不同:(1).数据的来源维度更丰富,它包函了这些企业的官网、百度地图、招聘信息、各类平台发布的信息(B2B网站、本地服务类网站、分类门户信息网站等等)、工商年检信息等等,且筛选条件精细,出来的数据相对更精准。(2).每日更新,可以第一时间获取最新的号码资源。其中,探迹的筛选条件更精细和丰富,价格也比较高。搜客宝最近功能迭代迅速,在ToB数据层面以及筛选维度和探迹基本类似。搜客宝的价格相对低,性价比更高。(3)号码清洗和代理记账号码标记功能,可以过滤掉无效号码。
以上的数据平台都可以给到明号,除了探迹以外都可支持数据导出。
3、联通等电信通讯体系运营商大数据平台,这类可抓取指定的app或者网站的访问用户,一般按照每条数据/元来收费,综合成本较高,数据也相对精准。不过,一般是给个平台,通过平台外呼,号码是脱敏的。
2、产品的技术路线方向
结果的产出以产品为导向,并入其他赛道共同参赛,最直接的成果产出就是软件著作权、论文(等级低的不投)、比赛(非金融类赛道不投),为日后的履历打下基础。
从履历方向去考虑,加强自身在机器学习、深度学习、神经网络方向的应用以及经历的学习,以自己获取的目的为导向,进行反向倒推出自己所需要的项目经历,并且几个经历最好有关联,作为自身的特征,最好跟自己申请的项目能够关联上,目前这些经历还是太数据(文本数据),没有太涉及到商业数据分析(数据科学的竞赛得多参加参加)或者金融数据策略构建,下一步方向需要考虑转变一下,如何引导项目的方向更加的商业化(用户流的形成,多看看别人的实习岗位和项目经历具体是做什么的)
单纯的知识图谱和神经网络是不同领域,必须考虑好如何将图神经网络的力量赋能于知识图谱,检索方式:1、自己有知识图谱的相关报告,但是应用和解说的技术路线较为局限 2、检索微信、知乎中图神经网络的应用以及大致思路(开题阶段大致的文献综述需要了解完毕)
注意:考虑到项目的工程量大小的影响,最好是选取技术路线已经非常成熟,网络中有较多现成代码和前人解说,只是更换了不同的应用场景、对象或者领域而造成的不同,比如将图神经网络在社交网络的应用转化为研究图神经网络在企业之间的“社交”关系网络,形成一个推荐系统
应用领域1没有做出知识图谱本身在实体之间的相关度,跟词云没有本质差别,希望能够做出一个有市场规模的产品(外包售卖,转向自身产出,打造实验室对于老一辈成员的正向输入,还没有太看懂股权的效果与作用,注意做好对本年级知识产权的保护措施和手段,你也得考虑一下实习需要你再加些什么方面的经历)
1.1、项目的可实现性
关系到该项目能否在你申请之前产出发挥其最大化的效用,考虑到项目所需要的人员规模(比如前端页面的搭建,前后端的链接,爬虫的获取和清洗,内部模型的搭建),需要的时间(预期、安排好规划,半年内产出)
1.2、项目的本身价值
借鉴于社交媒体中的推荐系统,利用了社交网络(根据用户的点击、购买、访问等信息数据,进行语义网络的构建)形成智能推荐以及关系检索。我们进行对象的替换,采取研究不同的企业之间的投资、供应、竞争、合作等关系,点击进入后可以转化到情感分析的界面得出该企业前10条重点新闻
1.3、项目的依附与延续价值
创立实验室开牌,成立正式组织对外开拓赛道,明确反馈机制,纳入采用短期和长期两种,短期主要以比赛作为媒介和载体。
清华大学图神经网络综述:模型与应用
深度学习时代的图模型,清华发文综述图网络