日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務,提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

一、背景

據(jù)統(tǒng)計表明,全球的數(shù)據(jù)量每過兩年翻一番,不知道什么時候開始,“大數(shù)據(jù)”已經(jīng)成了我們經(jīng)常掛在嘴邊的詞。隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)無疑是企業(yè)和用戶最為重要和寶貴的數(shù)字資產(chǎn),那么安全體系的建設尤為重要和關(guān)鍵,而其中數(shù)據(jù)安全和隱私保護則是安全體系的重中之重。

2018年7月,中國信通院發(fā)布了大數(shù)據(jù)安全白皮書,標志著數(shù)據(jù)安全正式作為國家大數(shù)據(jù)戰(zhàn)略。本文將從數(shù)據(jù)安全的定義和目標入手,逐步介紹有贊的大數(shù)據(jù)安全體系的發(fā)展和建設過程。

二、什么是大數(shù)據(jù)安全

2.1 大數(shù)據(jù)安全定義和目標

說到安全,我們都熟悉計算機系統(tǒng)安全性的 CIA 原則(保密性、完整性、可用性),而數(shù)據(jù)安全亦離不開這個原則。所謂數(shù)據(jù)安全,其實就是保障數(shù)據(jù)全生命周期的安全和處理合規(guī)。其中數(shù)據(jù)的全生命周期,包括數(shù)據(jù)生產(chǎn)、使用、存儲、傳輸、披露、銷毀等等;處理合規(guī)其實就是在數(shù)據(jù)處理的過程中符合各項法律法規(guī)的要求。

數(shù)據(jù)安全體系的建設圍繞著以上的原則,重點關(guān)注數(shù)據(jù)的應用場景和隱私保護,主要有如下目標:

  • 滿足基本數(shù)據(jù)安全需求,敏感數(shù)據(jù)、數(shù)據(jù)合規(guī)和基本數(shù)據(jù)保護
  • 不能只局限于單一平臺或產(chǎn)品,需要覆蓋數(shù)據(jù)的所有環(huán)節(jié)和應用場景
  • 數(shù)據(jù)支持分類分級,重視數(shù)據(jù)角色權(quán)限管理和數(shù)據(jù)全生命周期管理
  • 時刻關(guān)注合規(guī)性處理,需要體系化的合規(guī)處理機制

2.2 大數(shù)據(jù)安全總體架構(gòu)

明確了數(shù)據(jù)安全的定義和目標后,我們構(gòu)建了一套數(shù)據(jù)安全體系,如下圖所示:

淺談有贊大數(shù)據(jù)安全體系

 

總體從下至上分為三個層次,數(shù)據(jù)平臺安全、數(shù)據(jù)管理安全、隱私保護安全,其中合規(guī)處理會貫穿整個過程,保障每個環(huán)節(jié)的合規(guī)性。數(shù)據(jù)平臺安全作為最底層、最基礎的組件為其上運行的數(shù)據(jù)和應用提供安全機制的保障;數(shù)據(jù)管理安全則會在數(shù)據(jù)的流轉(zhuǎn)或者全生命周期中提供功能和手段防護數(shù)據(jù)的安全;最上層的隱私保護安全是在數(shù)據(jù)安全管理的基礎上對個人敏感數(shù)據(jù)和企業(yè)數(shù)據(jù)資產(chǎn)的保護。

三、大數(shù)據(jù)平臺安全

3.1 邊界安全

邊界安全是指只有合法的用戶才能訪問大數(shù)據(jù)集群,確保大數(shù)據(jù)平臺運行的邊界數(shù)據(jù)進出的安全,主要從網(wǎng)絡、接口、存儲等角度保障數(shù)據(jù)平臺運行的安全。

3.1.1 身份認證

目前我們已經(jīng)收斂禁止所有數(shù)據(jù)開發(fā)涉及到的大數(shù)據(jù)基礎組件的 client 使用方式和入口,統(tǒng)一使用 DP(數(shù)據(jù)研發(fā)平臺)或者實時計算平臺等平臺型工具作為數(shù)據(jù)開發(fā)的入口和平臺,登陸這些平臺則需要進行一定的身份驗證才能使用大數(shù)據(jù)基礎組件相關(guān)能力。

3.1.2 網(wǎng)絡隔離

大數(shù)據(jù)集群目前通過網(wǎng)絡層面的隔離做到不同環(huán)境,不同機房的網(wǎng)絡安全和數(shù)據(jù)隔離,從而保證網(wǎng)絡的安全。

3.1.3 接口鑒權(quán)

接口鑒權(quán)主要分為兩部分,一個是內(nèi)部平臺之間的接口鑒權(quán),一個是內(nèi)部平臺與外部系統(tǒng)之間的接口鑒權(quán)。接口鑒權(quán)主要是在大數(shù)據(jù)平臺能力輸出的時候確保被合法性使用,防止一些接口和能力被非法使用、竊聽或旁路嗅探,造成安全事故。

3.2 訪問控制和權(quán)限控制

3.2.1 數(shù)據(jù)訪問權(quán)限控制

在3.1.1節(jié)中介紹到目前我們將數(shù)據(jù)開發(fā)處理入口收斂到相關(guān)上層平臺(比如 DP 等),用戶通過平臺訪問數(shù)據(jù)時,會經(jīng)過數(shù)據(jù)解析服務分析出用戶和需要訪問的數(shù)據(jù)等信息,用戶和數(shù)據(jù)之間的權(quán)限判斷目前我們是托管到開源的大數(shù)據(jù)權(quán)限管理組件ranger來處理(關(guān)于ranger的介紹可以移步有贊大數(shù)據(jù)平臺安全建設實踐)

3.2.2 權(quán)限審計

ranger只能控制具體權(quán)限的規(guī)則,而權(quán)限的申請和審批我們是通過平臺提供能力讓用戶自行操作。同時我們也會記錄用戶的申請和審批者的審批信息,作為重要的審計內(nèi)容。

在用戶申請數(shù)據(jù)訪問權(quán)限的時候,我們也會要求用戶提供數(shù)據(jù)的使用期限。平臺會用定期的權(quán)限清理任務定期清理過期的權(quán)限,不會存在數(shù)據(jù)無限期的被用戶使用的情況。

3.3 審計和備份

3.3.1 數(shù)據(jù)審計

除了權(quán)限的審計和控制之外,我們同樣也對數(shù)據(jù)的使用進行了審計和監(jiān)控。目前我們是通過T+1的離線調(diào)度任務,采集平臺和組件本身的相關(guān)審計日志。平臺同時提供審計日志查詢功能供管理員進行定期審計復查和排查問題時的重要依據(jù)。

3.3.2 備份和恢復

備份作為大數(shù)據(jù)平臺安全中存儲安全不可缺少的一環(huán),我們花了不少的精力在數(shù)據(jù)備份的整個事上。首先將數(shù)據(jù)的備份和數(shù)據(jù)的生命周期結(jié)合在一起,在數(shù)據(jù)創(chuàng)建的時候需要指明數(shù)據(jù)的生命周期,并且推進存量數(shù)據(jù)的生命周期設置。

在數(shù)據(jù)有了生命周期的設定后,會有備份程序會定期根據(jù)數(shù)據(jù)的生命周期,將數(shù)據(jù)自動備份到只做存儲的冷備集群中,這里的技術(shù)棧主要涉及到一些對 hive server 的配置改造。這樣操作的意義是,減少機器成本,不浪費計算資源,根據(jù)需要只備份明確需要的數(shù)據(jù)。

四、隱私保護與個人數(shù)據(jù)安全

4.1 數(shù)據(jù)安全能力保障

數(shù)據(jù)安全能力保障主要是指通過平臺提供安全功能,支撐數(shù)據(jù)在生命周期內(nèi)流轉(zhuǎn)的安全,主要包括敏感信息脫敏、分類分級、元數(shù)據(jù)管理、存儲加密、數(shù)據(jù)溯源等功能。

淺談有贊大數(shù)據(jù)安全體系

 

4.1.1 數(shù)據(jù)分類分級標準

為了支撐隱私保護和個人數(shù)據(jù)安全,首先要做的是對數(shù)據(jù)進行分類分級。只有做好分類分級后,才能對不同層級的數(shù)據(jù)采取不同的措施,從而實現(xiàn)數(shù)據(jù)的“可用不可見”。

目前有贊將數(shù)據(jù)分為三類,每類分為四級,安全等級隨數(shù)字增大而增大。三類數(shù)據(jù)為:

  • 公司數(shù)據(jù):屬于公司自身所有的財務、技術(shù)、人事、行政等信息
  • 業(yè)務數(shù)據(jù):公司在業(yè)務開展過程中所使用和產(chǎn)生的數(shù)據(jù)
  • 客戶數(shù)據(jù):客戶的基本信息,以及客戶在使用公司產(chǎn)品及服務的生命周期中產(chǎn)生的信息

然后根據(jù)數(shù)據(jù)類型、數(shù)據(jù)保密性要求、數(shù)據(jù)訪問授權(quán)的對象不同,詳細的數(shù)據(jù)級別分類如下:

淺談有贊大數(shù)據(jù)安全體系

 

4.1.2 數(shù)據(jù)安全策略控制

做好數(shù)據(jù)分類分級后,還需要對不同類別不同等級的數(shù)據(jù)進行相應的數(shù)據(jù)安全策略控制,如訪問權(quán)限、文件傳輸、測試使用等場景下不同等級的數(shù)據(jù)應該如何操作,這里不做詳細介紹。

4.1.3 數(shù)據(jù)打標

明確數(shù)據(jù)分類分級標準后,需要做的是將類別等級應用到具體的數(shù)據(jù)。我們主要采用的自動采集+手動打標的方式。首先我們在源頭創(chuàng)建MySQL表時需要額外選擇字段的類別等級,rds(管理 Mysql 的工具平臺)提供這樣的標記功能。

淺談有贊大數(shù)據(jù)安全體系

 

數(shù)據(jù)資產(chǎn)平臺采集數(shù)據(jù)的元數(shù)據(jù)時同時采集字段的這部分信息,獲取到源頭數(shù)據(jù)的分類分級信息。根據(jù)數(shù)據(jù)資產(chǎn)平臺的字段血緣功能,將類別等級根據(jù)血緣關(guān)系繼承下去,這樣能夠在數(shù)據(jù)地圖中將分類分級信息蔓延開來。同時數(shù)據(jù)資產(chǎn)平臺提供額外的標記入口,作為補充分類分級信息的入口,在用戶有額外類別等級要求的時候能夠快速更改和標識數(shù)據(jù)的類別等級信息。

淺談有贊大數(shù)據(jù)安全體系

 

4.2 敏感數(shù)據(jù)識別

根據(jù)上一節(jié)的數(shù)據(jù)分類,敏感數(shù)據(jù)也分為個人敏感數(shù)據(jù)和企業(yè)敏感數(shù)據(jù),本篇著重介紹個人敏感數(shù)據(jù)的識別流程以及優(yōu)化細節(jié)。

4.2.1 敏感數(shù)據(jù)定義

顧名思義敏感數(shù)據(jù)屬于個人息息相關(guān)的不能輕易透露的信息,這些都屬于用戶重要的數(shù)據(jù)資產(chǎn),我們暫時采集的個人敏感數(shù)據(jù)主要分為八種:

  • 地址
  • qq號
  • 微信號
  • 郵箱
  • 手機號
  • 姓名
  • 身份證
  • 銀行卡號

4.2.2 敏感數(shù)據(jù)識別優(yōu)化

敏感數(shù)據(jù)識別程序作為個人隱私保護的重要技術(shù)保障,如何快速以及準確的定位到敏感數(shù)據(jù)是急需解決的問題。以前,有贊也部署過一套簡易的敏感字段識別程序,但是缺陷很多:

  • 單機部署,程序宕機容易造成安全漏洞
  • 一次全量識別時間過長,一次全量采樣分析脫敏流程時間在兩天左右。
  • 運行透明度低,流程失敗了無法感知,恢復成本代價高。

基于以上缺陷,我們對原有的敏感數(shù)據(jù)識別流程進行優(yōu)化和升級,達到以下效果:

  • 優(yōu)化全量采樣流程,縮短全量識別時間至1~2個小時
  • 支持增量數(shù)據(jù)的采樣和分析,分鐘級響應敏感數(shù)據(jù)脫敏
  • 同時打通和數(shù)據(jù)資產(chǎn)平臺的交互渠道,支持相關(guān)責任人自定義數(shù)據(jù)敏感等級
  • 優(yōu)化原有采樣規(guī)則,增加對敏感數(shù)據(jù)類別識別的準確性

完整的敏感數(shù)據(jù)識別流程主要包含采樣-識別-等級判定-權(quán)限寫入,下面詳細介紹部分步驟的內(nèi)容和優(yōu)化點。

(1)引擎自動選擇
采樣是對每個表進行抽樣數(shù)據(jù),供后續(xù)特征識別和脫敏用。在表的數(shù)據(jù)量過大時,其實可以采取更快的大數(shù)據(jù)查詢引擎來執(zhí)行采樣sql以提高效率,比如spark、presto等對于大數(shù)據(jù)量的查詢都是比較快速的。在實際的生產(chǎn)環(huán)境中,我們會首先根據(jù)數(shù)據(jù)資產(chǎn)平臺采集到的表數(shù)據(jù)量和行數(shù),設定一定閾值,超過閾值會使用presto引擎,未超過閾值的則選擇基本的hive引擎。之所以不全部統(tǒng)一采取presto引擎執(zhí)行是為了不跟生產(chǎn)環(huán)境正常任務搶占計算資源,盡可能小的對調(diào)度任務產(chǎn)生影響。

(2)采樣表優(yōu)化
在實際的采樣過程中,我們發(fā)現(xiàn)大部分表屬于長期不更新或者更新周期較長,比如周表、月表之類的,這些其實沒必要每天都重復采樣分析,從而浪費過多的時間和計算資源。所以我們定義了需要采樣表的標準:

  • 從未采集過的,即新表
  • 采集過且在一天之內(nèi)更新過的

在采樣之后我們會記錄采樣結(jié)果,以便下一次采樣時作對比,確定是否已采集過。在判斷更新時間時,主要依賴對hdfs文件系統(tǒng)的更新時間讀取,判斷表是否一天內(nèi)更新。

(3)分區(qū)表/非分區(qū)表
在實際采樣過程中,我們還會判斷表的分區(qū)屬性,根據(jù)是否為分區(qū)表采取不同的采樣策略:

(4)過濾字段
在采樣過程中,我們沒必要對一張表所有字段進行采樣工作,所以我們通過對字段類型和字段名稱進行過濾,最后得到具體需要采集的字段。這樣做的好處是能夠避免對不可能包含敏感信息的大字段或者復雜結(jié)構(gòu)的字段進行查詢采樣,大大提高單表的查詢速度。具體的,我們的過濾有:

  • string/數(shù)值類型的字段
  • 非time字段
  • 名稱非id、par等明確含義的字段

(5)采樣數(shù)據(jù)豐富性
如何保證敏感信息識別的準確性,首先要保證的是采樣數(shù)據(jù)的足夠性和隨機性。為了達到以上的需求,我們做了一下幾點優(yōu)化:限定采樣數(shù)量的閾值,對于第一次采樣語句只限定數(shù)量要求,同時采用一定的隨機采樣方法。對于第一次采樣結(jié)果進行非空過濾,如果不夠數(shù)量要求,則會第二次采樣,執(zhí)行附加更多限制條件的采樣語句,確保采樣數(shù)據(jù)的數(shù)量達到要求。對于 string 類型的字段限制長度,過長的 string 類型字段某種意義上不可能是敏感字段,所以我們需要采集的是合理范圍長度的信息。對于非 string 類型字段的限制不為 null 值,null 值的數(shù)據(jù)采了也是沒有意義的,我們核心遵守的理念是保證采樣的數(shù)據(jù)是合理的,有意義的,最后分析的結(jié)果才有意義。

(6)增量采樣識別脫敏
為了增加數(shù)據(jù)安全的及時性,天級的全量敏感數(shù)據(jù)識別任務其實已經(jīng)比較滯后了。所以除了天級的全量調(diào)度措施作為兜底方案外,我們還增加了增量的敏感數(shù)據(jù)識別的措施。由于現(xiàn)在數(shù)據(jù)開發(fā)的入口都已經(jīng)收斂到 DP ,所以我們和 DP 打通渠道,監(jiān)聽數(shù)據(jù)開發(fā)的更新數(shù)據(jù)的動作,在用戶新建或者更新數(shù)據(jù)后,觸發(fā)敏感數(shù)據(jù)識別的流程,及時收斂敏感數(shù)據(jù)泄漏的風險。

(7)血緣繼承敏感等級
同時我們會利用數(shù)據(jù)資產(chǎn)平臺的血緣關(guān)系,進行一定程度的敏感等級繼承。在實際的開發(fā)過程中,數(shù)據(jù)與數(shù)據(jù)之間其實是存在鏈路或者血緣關(guān)系的,舉個例子:A 表的字段 c1是從上游 B 表的 c2 表字段 select 過來的,這個時候敏感信息一樣會跟著血緣關(guān)系從 c1 到 c2 字段中。所以血緣關(guān)系也作為了敏感數(shù)據(jù)識別的參考依據(jù)之一。

4.3 數(shù)據(jù)脫敏

4.3.1 敏感數(shù)據(jù)識別

經(jīng)過上述的步驟我們已經(jīng)采集到每個表的抽樣數(shù)據(jù),接下來要做的是對采樣數(shù)據(jù)進行特征識別,匹配是否為八種敏感數(shù)據(jù)類型。對于敏感數(shù)據(jù)類型的識別主要分為兩種:

  • 對于手機號、郵箱之類規(guī)則比較明確的,采取正則表達式進行匹配
  • 對于姓名、地址之類的,我們采取開源的自然語言特征識別工具HanLP進行這類信息的識別判斷
  • 微信號、qq號的,由于隨機性較大,我們會額外對字段的名稱進行特定的過濾以增加匹配的準確性

敏感數(shù)據(jù)等級
對于識別的敏感數(shù)據(jù)類型,我們根據(jù)類型的敏感程度分為三級(和上文的數(shù)據(jù)分類分級標準匹配),從而進行不同程度的脫敏效果,目前我們的等級定義為如下(僅供參考):

淺談有贊大數(shù)據(jù)安全體系

 

4.3.2 數(shù)據(jù)脫敏

對于敏感數(shù)據(jù)的識別結(jié)果,我們采用的是依賴ranger的mask功能進行不同等級的脫敏。在敏感數(shù)據(jù)等級確定后,我們會通過 HTTP 的方式,將敏感數(shù)據(jù)的控制規(guī)則作為 policy 寫入 ranger mask,實際的效果如下:

淺談有贊大數(shù)據(jù)安全體系

 

經(jīng)過上述的數(shù)據(jù)脫敏流程后,用戶在實際的數(shù)據(jù)開發(fā)過程時,涉及到敏感字段的信息都會自動進行一定程度的脫敏,如果需要具體敏感字段的權(quán)限,用戶可自行在 DP 上申請敏感字段的訪問權(quán)限。

五、合規(guī)處理

在 2.1 節(jié)中我們介紹了大數(shù)據(jù)安全的定義和目標,而數(shù)據(jù)的合規(guī)處理是每個時刻都需要關(guān)注的內(nèi)容。成立合規(guī)處理小組,介入數(shù)據(jù)的流轉(zhuǎn)過程,這樣用戶使用有贊的數(shù)據(jù)才能放心和安心。有贊在2020年下半年也進行了合規(guī)相關(guān)內(nèi)容的改造,拿到了隱私合規(guī)資質(zhì)非常高的 ISO 27701 認證證書。下面對合規(guī)處理的一些方面的做一下簡單介紹:

5.1 數(shù)據(jù)導出控制

為了提供更好的數(shù)據(jù)對外服務,保護有贊商家的數(shù)據(jù)資產(chǎn)和用戶的個人信息,同時保證有贊小伙伴的工作效率,我們定義了許多數(shù)據(jù)導出的流程規(guī)范。主要分為兩個場景,一個是內(nèi)部調(diào)用數(shù)據(jù),一個是有贊數(shù)據(jù)對外提供導出服務。

5.1.1 內(nèi)部調(diào)用控制

內(nèi)部的數(shù)據(jù)調(diào)用出口我們同樣控制到 DP 的服務范圍內(nèi),用戶可以自行下載導出相關(guān)的數(shù)據(jù)內(nèi)容。我們會調(diào)用數(shù)據(jù)解析服務根據(jù)條數(shù)和敏感信息的程度進行一定的審批操作,可以內(nèi)部調(diào)用使用。

5.1.2 數(shù)據(jù)對外導出控制

當數(shù)據(jù)的流轉(zhuǎn)超出有贊范圍時,比如提供給商家時,我們會啟用數(shù)據(jù)對外導出流程控制,商家需要提供《商家授權(quán)函》等等。

5.2 其他

除了數(shù)據(jù)導出控制外,在合規(guī)處理方面我們還做了很多,比如數(shù)據(jù)泄漏的應急預案、采購外部服務數(shù)據(jù)的安全規(guī)范定義等等,其實都是為了從數(shù)據(jù)的各個方面提前定義安全的規(guī)范和標準,并且按照規(guī)范和標準去執(zhí)行每個數(shù)據(jù)流轉(zhuǎn)的動作,讓我們和商家在數(shù)據(jù)安全方面吃下一顆定心丸。

六、總結(jié)和展望

在上述的大數(shù)據(jù)安全體系架構(gòu)中,我們從數(shù)據(jù)的生命周期和處理合規(guī)的角度建設了大數(shù)據(jù)安全體系。然而我們其實還有很多做的不好或者說可以做的更好的地方,比如審計只有計沒有審、缺少對數(shù)據(jù)的監(jiān)控和危險動作的提前預測等等,這些也都在未來的規(guī)劃日程中。

一個系統(tǒng)結(jié)構(gòu)的設計和開發(fā)中,開發(fā)人員為了高效,安全往往是容易忽視的一點,大數(shù)據(jù)安全亦是如此。在這里,也希望大家重視數(shù)據(jù),提高數(shù)據(jù)安全意識,牢記“行車不規(guī)范,親人兩行淚”。

分享到:
標簽:數(shù)據(jù)
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定