隨着大數據的進一步發展,重視數據隱私和安全已經成為全世界的共識,各國都在加強對數據安全和隱私的保護,我國也在積極的開展個人信息保護工作。2016年11月7日,全國人大常委會通過的《中華人民共和國網絡安全法》中明確了對個人信息收集、使用及保護的要求,並規定了個人對其個人信息進行更正或刪除的權利。2019年,中央網信辦發佈了《數據安全管理辦法(徵求意見稿)》,向社會公開徵求意見,明確了個人信息和重要數據的收集、處理、使用和安全監督管理的相關標準和規範。
這些法律法規在促進數據合規使用、保障個人隱私和數據安全等方面發揮了重要作用,但也在一定程度上增加了數據流通的成本,降低了數據綜合利用的效率。
一方面,由於缺乏數據用於分析,各個行業對數據共享開放的需求十分迫切,迫切希望得到海量、高質量的數據資源來進行分析和挖掘;另一方面,擁有大量數據的數據平台,由於國家數據安全法律法規的限制,不敢、不願、不能完全開放數據……這使得數據隱私與數據價值挖掘存在着巨大的矛盾,亟需一種兼顧隱私保護、數據安全和數據流動利用的新技術來平衡該矛盾。如何兼顧數據開放共享和數據隱私保護,既保障安全合規,又不阻礙大數據價值的挖掘利用,成為數據治理過程中必須面對的課題。
秉承“數據不動程序動”“數據可用不可見”的安全理念,奇安信創新性地推出數據安全開放平台,形成數據安全開放解決方案,既不需要事先對數據進行脱敏損害挖掘價值,也不需要把原始數據發送給數據使用方造成失控,確保數據所有權和使用權分離的方式,幫助數據擁有方合法、合規、安全地對外開放數據,將商業模式從原始數據交易升級為數據增值服務。
方案整體架構如下圖所示:
• 數據擁有方
彙集大量多行業重要數據的大數據平台,希望在數據隱私不泄露的前提下,充分發揮數據最大價值。
• 數據需求方
缺乏數據的科研院校、AI公司等,希望能夠獲取大量數據,對多種數據源進行融合分析,得到最優分析結果。
數據安全開放解決方案主要由數據安全開放平台組成,通過將調試環境與運行環境分離,實現數據可用不可見,更大限度挖掘數據價值。方案支持多種數據源,支持對數據訪問權限的嚴格控制,支持對所有數據操作的留痕審計,支持行為風險分析和識別,具備數據訪問申請與授權體系和輸出結果申報與審核機制,實現數據所有權和使用權分離,從而確保數據安全可控。
方案分為運行環境和調試環境兩部分:
• 運行環境
數據擁有方在運行環境存儲全量數據,通過對全量數據進行數據置換得到樣本數據,樣本數據不包含敏感信息,可供調試環境的數據分析師分析和使用,預覽樣本數據無誤後可送到調試環境中。
• 調試環境
調試環境供數據需求方使用,分為管理員系統和數據分析師系統。
管理員通過配置訪問控制策略,為不同的數據分析師授予不同的數據權限,真正實現細粒度數據授權,同時通過審計功能對用户的所有操作進行留痕,實現所有數據操作可追溯。
數據分析師可在數據安全開放平台上查看並使用被授權的樣本數據,添加樣本數據到實驗中,通過機器學習工作台進行數據分析,將調試好的工作流運行到全量數據,實現隱私保護下的數據價值挖掘。
調試環境與運行環境分離的數據分析模式,既保證數據安全,又能充分發揮數據的最大價值。
1.大數據分析平台
方案提供一站式的大數據分析平台,從數據收集、處理、分析,到機器學習、深度學習,所有流程都可以通過平台完成。
2.數據不動程序動,數據可用不可見
方案採用數據沙箱新技術,將調試環境和運行環境分離,實現“數據不動程序動,數據可用不可見”,數據分析方只能帶走不含敏感數據的分析模型文件和分析結果,既確保原始數據不泄露,又充分發揮了數據的最大價值。
3.多源數據融合分析
數據安全開放平台能夠分佈式部署在不同的數據中心,在數據不流出各自數據中心的前提下,實現融合分析。
4.多環境部署
數據安全開放平台支持雲平台、虛擬化平台及物理機等異構基礎設施上進行部署,滿足客户不同環境下的部署需求。
5.高擴展、高可用
數據安全開放平台基礎設施組件採用高拓展性的虛擬化架構,深度融合虛擬化擴展能力,一站運維,統一部署,為數據交換保留了適應業務發展的橫向擴展能力。
方案具備數據沙箱、隱私保護前提下的數據挖掘、數據訪問安全管控等能力,在保障數據所有權的前提下,將赤裸裸的數據交易升級為數據服務,為擁有海量數據的大數據平台實現更大化的數據挖掘價值,可廣泛用於政府、金融、醫療、教育等有數據共享開放需求的大型企業單位。
近年來,政府踐行國家大數據戰略,建設大數據平台,基於數據安全開放平台技術,方案可向社會企業安全開放數據,既能保證數據隱私安全,又能充分發揮政務數據價值,實現以安全促興業,形成基於數據的創新服務產業。
各地衞健委響應國家健康醫療大數據戰略,紛紛建設醫療大數據平台,基於數據安全開放平台技術,方案可實現健康醫療大數據的安全共享,在保證數據可用不可見、原始數據不流出的情況下,提供給醫院或第三方企業,用於醫療數據的充分挖掘。