CDA数据分析师出品
妥善管理的大量数据对包括军事在内的许多行业都是福音。如果不知道何时,何地以及在什么资源上进行部署,就不可能进行有效的军事行动。因此,军事大数据可以帮助国防领导人做出更好的决策,前提这些数据不是" 黑暗数据"。
在1997年的可视化IEEE会议中,术语"大数据"被提出。
当时,计算机内存以兆字节为单位,最强大的内存为128 MB。由于科学家之间通过互联网共享信息,使得越来越多的数据以越来越快的速度涌现,因此开发处理大数据的技术面临着如此巨大的压力也就不足为奇了。
如今,最便宜的智能手机可在1 GB(1000 MB)的内存上运行,因此不断增长的数据量已不再像以前那样成为问题。用今天的话来说,2013年的全球数据量为4.4 ZB(1 ZB = 44万亿GB),到2020年,这一数据可能会增加到44 ZB或更多。但是,先进的计算机硬件使数据收集和存储相对便宜又容易。此外, 人工智能(AI)和机器学习(ML)技术的最新发展,分析也变得更加易于管理。
但是,在军队中,大数据的收集经常引起争议。最近的一个喧闹话题涉及使用开源机器学习平台收集视觉数据。在这种情况下,无人机是用于数据收集或军事术语,情报收集的方法。抗议本身并不是关于数据,而是针对ML进行攻击的潜在用途。
这种对军事技术的突然使用是一种奇怪的事情,因为将其用于情报收集并不是什么新鲜事。当然,今天使用的方法是不同的,但是数据本身的性质和重要性却没有。
军方继续与 情报界一起收集各种学科的情报,这些学科可能被有趣地称为" INTS"。IC下有17个组织,但它们在军事领域的道路在以下学科中相交:
· HUMINT(人类情报)
· GEOINT(地理空间情报)
· SIGINT(信号智能)
· OSINT(开源情报)
人类情报收集(HUMINT)通过与人的私人接触来收集信息。信息采取文件,照片,数字文件和其他材料的形式,这些信息是通过非官方渠道秘密获得的,或者是通过外交或领事人员公开获得的,以及与外国官员的授权通信。军队还可能通过对敌人的讯问或旅行者的汇报来获取情报。
大多数人将HUMINT与间谍活动联系起来,有时被戏称为世界第二古老的职业,他们大多是正确的。间谍在该学科的情报收集中仍继续发挥重要作用,尽管它与其他廉政局相比更为互补。例如,人员可以提供使SIGINT操作员远程访问系统的代码。
HUMINT在技术进步这一天的重要性也与环境相关,这是基于AI的监视可能会错过的。在地面上有人可以在评估军事目标的有效性和观察其发展过程中提供有价值的(人类)见识。
通过HUMINT收集的数据通常采用不同的格式,包括模拟和数字格式。它可能是音频,视频,文本或图像,必须经过分析才能将其与通过其他学科收集的数据集成在一起。基于AI的软件可以标记,组织和分析HUMINT数据,目前军方正在评估的此类软件之一是雷神公司的FoxTen。
但是,AI可能很快会在对抗跟踪技术方面发挥更积极的作用,其中一些技术是专门为间谍设计的,而另一些则是不为人知的工具。 中央情报局(Central Intelligence Agency)正在进行多个AI项目,包括想出一些方法来欺骗跟踪设备或绘制敌对或未知地区监视摄像机的位置。
根据美国法典, 地理空间情报是指使用和研究图像和地理空间数据来解释,审查和以视觉方式表示地面特征和活动。简而言之,GEOINT包括从空中,地面或水下拍摄的图像,视频和其他视觉表示中收集的所有情报。
从军事意义上来说,GEOINT的价值在于提供物体活动的精确位置,解释其含义,并为其提供有助于做出军事决定的框架。视觉数据通常来自卫星,无人机(UAV),自主水下航行器(AUV)和其他测量技术。
在大多数情况下,GEOINT数据是来自不同来源的地理空间数据的集成,以创建情况的三维表示。进而将其集成到multi-INT数据中。
本节中特别提到的是无人机的使用,这种无人机通常被称为无人机。军方一直在使用无人机搜集情报,以支持军事人员和运营多年。
但是,通信速度,存储容量和机器视觉软件自主操作无人机的能力提高,导致数据过载。
军方库存中有8,000多架无人机,并且使用效果良好。员工每天必须经历大约1600个小时的录像,这还不包括图像。数据对地面的士兵和总部的指挥官来说是无价的,但前提是分析是准确和及时的。
AI和ML算法可以比人类操作员更快,更彻底地分析视频并检测威胁。这是Project Maven的基础,Project Maven当前使用基于TensorFlow的平台进行无人机镜头的预测分析。在Google决定不续签AI开发项目之后,五角大楼求助于初创公司Anduril Industries,以开发用于军事无人机的传感器融合平台。
根据该公司的网站,使用莱迪思AI平台,“只有最终信息才传回给用户。这使功能强大的计算机的大规模可扩展网状网络可以进行数字处理,而无需部署服务器场或命令中心。”
信号情报是有关通过拦截信号和传输获得的外来目标的动作,目标和能力的信息。根据传输类型,存在SIGINT的三个子集。COMINT来自通信系统,雷达和武器系统来自ELINT(电子情报),以及正在开发或测试中的武器系统来自FISINT(外国仪器信号情报)。
国家安全局(NSA)通常使用各种方法来搜集有关恐怖分子,组织以及具有国际或外国协会的人的SIGINT,但往往 比其他任何方式都使用无人机。只有 在美国政府正式要求时才这样做。NSA会将原始数据转换,解码和分析为非NSA分析人员(例如CIA和IC中的分析人员)可用的形式。这些机构将NSA资料与其他廉政局的数据相结合,以描绘出完整的图景。
SIGINT一直有足够多的数据,用以工作,因为它具有这样的来源广泛的阵列。电话对话,电子邮件,无线电波,卫星传输,无线连接甚至键盘振动一直在持续进行,为NSA提供了大量信息。
面临的挑战是从大量的随机信号中挖掘出有价值的信息内核。所述收集过程包括首先从对话的潺潺提取某些类型的信号从信号或谈话层。提取后,SIGINT分析人员将筛选候选项目,以根据一组参数选择要保留的项目。然后,国家安全局存储这些选定的项目,并将其发送给请求机构以进行进一步分析。
这个过程是艰苦的,并不总是尽其所能。IC不可避免地会寻求先进的AI和ML技术来使此过程变得更快更好。SIGINT的主要目的是防御。知道敌人的位置,意图和能力可以大大防止对士兵和平民的伤害。
但是,研究人员越来越希望SIGINT做其他事情。一种是提供见解,以帮助他们从收集到的数据中准确预测未来事件。
IC研究部门"情报高级研究计划活动"(IARPA)与学术和商业领域的数据科学家和ML工程师联系,以开发连续的,自动化的SIGINT分析技术。 该奖项被称为" 水星挑战",将用于有效地"预测涉及军事行动,内乱或传染病的事件,特别是在中东和北非讲阿拉伯语的国家发生的事件"的算法。
此外,先进的迅速崛起 的网络和电磁活动(CEMA)和电子战从对手迫使陆军 收敛的信号情报,网络和电磁系统整合到一个平台: 地面层的智能系统。陆军正在积极寻求加速集成的建议,包括开发机器学习软件以减少工作量。
SIGINT技术的另一个潜在用途是担当更积极的防御角色。检测,识别和评估信号威胁级别(例如地对空导弹雷达)的能力可以拼写出任务成功与失败之间的区别。
该波音EA-18G咆哮者保持士兵干扰敌方雷达信号的安全。有计划通过集成可以更快地检测信号并更准确地分辨出友好和敌对信号之间的区别的AI软件,使Growler在防御方面更加有效。
SIGINT收集和分析的世界不再是关于拦截消息和破解代码以供他人采取行动。在完善的数据和机器学习的帮助下,SIGINT迎接了迅速发展的电子战的挑战。
正如该术语所暗示的那样,开源情报是从公开或可公开获得的来源收集数据以用于特定目的的开发。这是OSINT的非常宽泛的定义,而在存在OSINT的50年中,很难找到更详细的定义。据 RAND Corporation说,原因是公开可用的数据源一直在变化。自从Internet使用变得普遍并且社交网络使用发生爆炸以来,这一点变得更加明显。
多年来,OSINT的来源不断发展。在第一次迭代中,最多产的OSINT来源是电视,广播和印刷媒体。过去,人工操作人员会手动浏览这些数据源。后来,情报机构使用了商用的现成(COT)软件来收集,清理和分析OSINT数据。
传统媒体仍然是OSINT的来源,但是数据收集的真正动力是互联网。即时访问随时可用并不断更新的数据有利于情报收集操作。这些内容包括博客,在线报纸,社交网络,视频流服务,论坛和其他用户提供的内容,以及网站后端的隐藏宝石。
问题在于可用数据的绝对数量和复杂性。来自Internet的数据流具有细微的层次,分析人员必须执行所有操作,从事实检查到情感分析,并始终牢记数据的上下文。
要 为这项工作的艰巨性增加视角,请考虑社交媒体。Twitter用户平均每天上传6.56亿条推文,Facebook用户每天发布43亿条消息。这只是来自两个社交网络的数据。再加上每天Google的搜索量(52亿),观看的YouTube视频(每分钟400万),发布的博客文章,这为军队提供了大量的数据。
在军事领域,分析人员必须能够过滤这些数据流,以识别和分类对军事战略和行动有任何用途或影响的所有事物。这可能与某些国家,特定个人,高风险人群,武器等有关。他们必须在人类行为的背景下并实时地彻底做到这一点。
没有人工协助,对于操作人员来说,这显然是不可能完成的任务,IC也知道。为了满足这一需求,中央情报局目前正在研究 使用AI进行OSINT的几个项目,而不仅仅是进行分析。它计划使用AI软件和自然语言处理算法来系统地浏览社交网络和其他OSINT来源的数据流。该软件将仅选择相关项目,从理论上讲将OSINT收集器的工作量减少75%。
这个想法是在5年的时间里与私人公司合作进行OSINT实验以及使用机器学习进行大数据收集和分析。中央情报局于2018年5月宣布了梅萨佛得角项目,但该提案目前尚无更新。
然而,商业部门并未如此谨慎。像Google这样的公司已经拥有专门设计用于处理大数据的工具和API。
军事中的大数据来自许多来源,信息过载是一个非常现实的问题。人工智能和机器学习可能是一种有效的解决方案,但是要比重新发明轮子更了解力量。寻求商业和学术机构处理大数据是军队采取的合乎逻辑且最具战略意义的举措。