言之无物

我说的一切都是错的

大数据安全愚见

《大数据安全愚见》

DT时代,数据就好比是水,电,石油一样,成为一种生产资料。数据价值的发挥则依赖于计算能力,因此,各行各业都在构建自己的大数据分析平台。利用大数据分析的结果为业务提供决策支持,比如信用卡额度评估,个性化新闻推送等。这类分析系统只对外提供分析结果,并不暴露底层的数据接口,数据保密性较好。另一类分析系统则直接把数据开放给终端用户,用户通过系统提供的搜索工具、可视化建模工具等,实现自主分析。对这类系统来说,数据很容易通过使用者传播出去。行业的数据一般都是保密的,像笔者所在的行业,泄露数据可以定为危害国家安全罪。 但仅仅因为安全问题而禁止使用,显然是因噎废食。如何既能满足业务人员需要,又能防止少数别有用心的人利用系统谋取私利,是行业大数据平台要解决的问题。

本文不讨论如何预防系统攻击、黑客入侵问题,仅从用户正常使用角度,来谈谈如何保障数据的安全性,从主动预防、事后追踪两个方面来分析。

主动预防

1. 数据授权
严格控制数据的访问权限,数据授权由专人负责,全国范围的数据访问权必须要领导审批同意后才授予。系统功能上,一是细化数据授权的粒度,控制到字段级别,表中的每个字段,都可以单独授权。 二是数据范围控制,同一个数据表,不同级别的用户只能查看被允许查看的数据。比如,公司总部人员能查询各分公司的数据;某分公司的员工,就只能查看所属分公司的数据。

2. 数据不落地
数据只能在线分析查看,不提供导出下载功能。这一定程度上会影响使用,毕竟用户都习惯了把数据放到excel中再做二次分析处理。后期可以考虑提供类似excel的在线分析操作。

3. 终端安全防护
限制终端访问,只有特定的终端才能访问系统,终端电脑无法使用打印机、邮件、U盘等工具,防止数据外泄。 终端安装摄像头,在用户使用过程中不定期拍摄图片。

4. 异常操作警告
根据实际业务使用场景,定义一些非常规操作,当用户触发这些操作时,主动弹出警告信息。比如:在非上班时间访问系统,异地登录系统,敏感词查询等。

5. 数据脱敏
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。

事后追踪:

1. 水印追踪
通过添加数字水印的方法,防止页面被截图,拍照。当初沸沸扬扬的阿里月饼事件,某员工把内部论坛的消息截图发出去了,hr就是通过水印发现的。数字水印是指人感知不到的水印,包括看不到或听不见(没错,数字盲水印也能够用于音频)。其主要应用于音像作品、数字图书等,目的是,在不破坏原始作品的情况下,实现版权的防护与追踪。

数字水印主要有两种方法:

  • 空域算法:将信息嵌入到随机选择的图像点中最不重要的像素位 (LSB:least significant bits)上,这可保证嵌入的水印是不可见的。但是由于使用了图像不重要的像素位,算法的鲁棒性差,水印信息很容易为滤波、图像量化、几何变形的操作破坏。
  • 频域添加数字水印的方法:是指通过某种变换手段(傅里叶变换,离散余弦变换,小波变换等)将图像变换到频域(小波域),在频域对图像添加水印,再通过逆变换,将图像转换为空间域。相对于空域手段,频域手段隐匿性更强,抗攻击性更高。

2. 日志分析
用户从登陆系统开始,所有涉及数据相关的操作都会记录下来。比如什么时间查询过什么数据,搜索关键字是什么,打开的页面链接,页面停留的时间,创建/运行过什么模型等等。 通过用户行为分析模型,过滤出行为异常的用户,为后续调查提供依据。

水能载舟,亦能覆舟。大数据这把双刃剑,如何把它用好,欢迎探讨。

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注