大数据时代的『十面埋伏』

前段时间,家里的电饭锅因为煮粥,短路了。就打算换一个,就是在微信群里问了问,没想到第二天打开淘宝,首页推荐的就是好几款电饭锅。

好恐怖的感觉,联想到之前,全面屏手机的升降摄像头无故升起缩回,手机像一个不眠不休的间谍,全时段全方位窥探我们,我们像是赤裸裸一样暴露在阳光之下。

当下的年轻人将主要的时间都消费在移动互联网与智能手机上。平均每个人,每天使用智能手机的时间基本超过3小时,浏览手机已经成为工作和睡觉之外的第三大生活习惯,移动APP也成为各大领域各大企业的用户入口、消费入口和数据入口。

在过去的一段时间中,从阿里飞猪、携程、滴滴等一系列“大数据杀熟”的行为,到腾讯系微信被指根据文字聊天精准推送广告,美团、饿了么的“偷听门”风波,再到“微信被指监控用户聊天记录”再上微博热搜。

我们在大数据时代,陷入了『十面埋伏』。

19年初,微信曾发布数据报告,对不同年龄层用户进行了画像描述。

部分用户就曾质疑微信“监控”聊天数据,表示“微信不读取聊天内容,怎么统计表情使用画像?”

而微信当时则回应表示,所有数据均已脱敏。

随着大数据、AI的迅速发展,隐私泄露早已成为普遍问题,也是当下大多数互联网用户频遇信息骚扰、产生安全隐私焦虑的源头。


用户画像:用户特征标签化

用户画像作为大数据的根基,抽象出一个用户的信息全貌,精准快速地分析用户行为习惯、消费习惯等信息,为用户打上“标签”,而这样的标签通常是具体且精炼的特征标识,如年龄、性别、地域、用户偏好等,最后将用户的所有标签综合来看,就可以勾勒出该用户的立体“画像”。

比如:

李某,男,32岁,北京人,已婚,有孩子,收入1万以上,团购达人,喜欢红酒和手表。

这样一串描述即为用户画像的典型案例。如果用一句话来描述,即:用户信息标签化。

“打上标签之后”就可以做出分类统计:喜欢红酒的用户有多少?喜欢红酒的人群中,男、女比例是多少?

同时也可以做数据挖掘工作:利用关联规则计算,喜欢红酒的人通常喜欢什么手表品牌?

利用聚类算法分析,喜欢红酒的人年龄分布情况如何?

完成对用户画像分析后,就可以为用户画像的标签建模,从原始数据进行统计分析,得到事实标签,再进行建模分析,得到模型标签,再进行模型预测,得到预测标签。于是搜索引擎、推荐引擎、广告投放等各种应用领域,都能精准地掌握用户的喜好。


某知名社交软件的广告平台也解释道,用户使用软件的一切行为,比如消费记录、打车频率、手机理财习惯、是否有房贷车贷、发过多少红包,都可以成为标签被记录下来,成为大数据算法的一部分,在用户画像完成之后,广告投送方可以自由的组合目标受众的特征标签,最后选定广告位和投放时间,当符合广告主需求的用户出现时,通过算法让用户看到后“最想买”的那个广告,就会自动弹出。

大数据下的用户画像已经为移动端提供了一个“标签化的你”,移动端也会在各大平台反馈一个“猜测标签”给你。

用户画像可能比你自己还了解你。这种时候,我就想感叹:“我并不是用户,我只是一个活体互联网大数据。”


隔屏有耳:听声辨息猜心思?

微信里聊完旅游就能看到机票广告;日常聊天时,和朋友聊完家具,电商平台就会推荐家具;提到鳗鱼饭,外卖平台就会出现鳗鱼饭,这样的情况,让人不禁会想,我的手机APP是否窃听了对话?真的“隔屏有耳”吗?

而此前,知名互联网科技博主梓泉曾表示:

APP安装的时候都会问你要长期的一个权限,只有像电话、像微信这样的会长期要求一个权限,就是以后录音不需要弹出提示。
绝大多数软件像是外卖,小红书,这些都是每次使用录音前都必须询问的,你可以看一下后台那个设置,就是绝大多数都是使用录音权限前必须要点允许的。

即便APP绕过了系统限制,或者用户赋予了录音权限,通过录音方式获取用户日常信息的效率实在太低了,因为绝大多数时间,手机都没法录到用户对话,捕捉对商家有用的有效信息更为困难。以各大外卖APP、小红书等软件动辄上亿的安装量,得不偿失,把大量录音进行语意分析,从商业上没有价值。

这一定程度上否定了某些APP“偷听”的可能,但是,除了这些APP呢?

据悉,在腾讯广告平台的推广上,他们自己可以筛选出今年3月1日到15日,去过上海虹桥机场3次以上的人,再加上电商购买记录、搜索记录,和手机唯一的手机识别码IMEI绑定在一起,即便不注册、不登录账户,用户的行为数据一样会被采集。那么,在一些拥有长期语音权限的软件和手机本身上是否也会出现语音记录被识别与绑定的情况呢?

“隔屏有耳”的隐患不止是隐私信息的可被盗取,更恐怖的是在于它全天候在线的特性。

在离不开手机的移动互联网时代,身边随时跟着一只耳朵,而它还能通过算法分析你语音中的关键信息。

比如你打了一通电话,这“耳朵”能从你的一通电话里提取到哪些信息呢?

你是谁?你从哪里来?你身居何处?讲什么语言?

你的健康状况、有无疾病、情绪状态如何?

甚至,通过收集背景声掌握你周围环境的动态。

简而言之一句话,通话5分钟就能扒到你的大部分特征标识。

音频数据被添上指示标签,算法通过处理数据建立音频特征与标签之间的关联性,就能给出一个大致的用户画像。

我们生活在一个科技高速发展的时代,我们体验着前人体会不到的便利,但同时大数据时代又通过无数“手段”将我们团团包围,我们陷入了『十面埋伏』。

你可能感兴趣的:(大数据时代的『十面埋伏』)