近年來,數據的融合應用驅動各行各業走向數字化、網絡化和智能化,數據安全、個人隱私保護等問題也愈發受到社會廣泛關注。如何在合規的前提下做好數據融合,成為一個亟需解決的難題。
近期,騰訊公司發布《騰訊隱私計算白皮書2021》(以下簡稱《白皮書》),深入探討隱私計算作為在數據融合應用過程中保障數據安全合規的關鍵技術路徑、商業模式、應用場景、技術變革、產業趨勢、法律問題及合規痛點,并從技術、應用、法律等視角對隱私計算的發展進行了展望。
1、隱私計算的定義
隱私計算(Privacy Computing)是指一種由兩個或多個參與方聯合計算的技術和系統,參與方在不泄露各自數據的前提下通過協作對他們的數據進行聯合機器學習和聯合分析。隱私計算的參與方既可以是同一機構的不同部門,也可以是不同的機構。在隱私計算框架下,參與方的數據明文不出本地,在保護數據安全的同時實現多源數據跨域合作,以破解數據保護與融合應用難題。
2、隱私計算三大流派
聯邦學習
聯邦學習是一種分布式機器學習技術和系統,包括兩個或多個參與方,這些參與方通過安全的算法協議進行聯合機器學習,可以在各方數據不出本地的情況下聯合多方數據源建模和提供模型推理與預測服務。在聯邦學習框架下,各參與方只交換密文形式的中間計算結果或轉化結果,不交換數據,保證各方數據不露出。聯邦學習可以通過同態加密、差分隱私、秘密分享等提高數據協作過程中的安全性。
安全多方計算
安全多方計算是一種在參與方不共享各自數據且沒有可信第三方的情況下安全地計算約定函數的技術和系統。通過安全的算法和協議,參與方將明文形式的數據加密后或轉化后再提供給其他方,任一參與方都無法接觸到其他方的明文形式的數據,從而保證各方數據的安全。安全多方計算的基本安全算子包括同態加密、秘密分享、混淆電路、不經意傳輸、零知識證明、同態承諾等。
可信計算
可信計算指借助硬件CPU芯片實現可信執行環境(TEE),從而構建一個受保護的“飛地”(Enclave),對于應用程序來說,它的Enclave 是一個安全的內容容器,用于存放應用程序的敏感數據與代碼,并保證它們的機密性與完整性。
3、隱私計算的應用場景
《白皮書》中提到,數據協作需求正推動隱私計算應用從金融、醫療等向其他行業延伸。以金融反欺詐模型為例,隱私計算能夠助力銀行聯合建模,提升反欺詐模型水平。傳統上,銀行通常基于歷史還款信息、征信數據和第三方的通用征信分來做貸前反欺詐,該方式存在數據維度缺乏、數據量較少等情況,需融合多方數據聯合建模才能構建更加精準的反欺詐模型,但這一過程中隱私保護和數據安全是不可忽視的重要環節,《白皮書》指出,聯邦學習可解決合作中數據隱私與特征變量融合矛盾,在雙方或多方合作中線上保障特征變量交換時的信息安全。
4、隱私計算助力數據安全的合規價值
《白皮書》指出,隱私計算助力數據安全合規的價值凸顯,有望成為數據協作過程中數據合規和隱私保護的技術工具。
一是隱私計算在無需轉移數據物理存儲服務器的情況下實現數據建模分析,從而減少數據協作過程中風險。對于個人信息保護來說,可以有效降低個人信息在應用過程中泄露的風險;對于企業的跨界數據合作而言,由于隱私計算能夠實現數據可用不可見,幫助不同企業和機構與產業鏈上下游的主體進行聯合分析,打造數據融合應用,同時在數據協作的過程中履行數據安全和合規義務,實現數據價值最大化。
二是隱私計算從技術層面滿足數據最小化、完整性和機密性原則要求。傳統的數據融合方式需要先將盡可能多的數據集中至一個數據中心,然后再訓練模型。因此很可能存在數據過度采集的問題,同時面臨數據傳輸、存儲的安全風險。而采用隱私計算技術,尤其是隱私計算和區塊鏈等技術結合形成的整體解決方案,對數據真實性、準確性進行記錄,如數據被篡改、可進行精準定位和追溯,防止數據被篡改,也能夠有效防止數據被無權限人員隨意訪問、修改、導出等,保障數據的完整性和機密性,與當前數據保護相關立法目的和原則高度契合。
三是隱私計算可證明、記載企業是否履行數據安全保障義務。
5、隱私計算的合規痛點
盡管隱私計算實現的數據保護功能與數據保護相關立法精神高度契合,具有廣闊的發展前景,但隱私計算仍存在一些合規痛點。
隱私計算的用戶授權機制仍需明確。
根據《網絡安全法》及《民法典》相關規定,數據處理者在處理數據時應公開收集、使用規則,并經用戶同意。從隱私計算的特點來看,數據合作方通過隱私計算技術實現數據分析與建模,不需實際流轉數據,且處理過程中的數據都進行了匿名化處理,或不需要獲得用戶授權同意。但在數據采集階段,數據合作各方仍需獲得用戶授權同意。此外,個人信息的匿名化標準尚存爭議,因此仍需做好告知同意的授權管理。
另外,《白皮書》指出,隱私計算在本地服務器中建模的行為也存在用戶授權的問題。即使企業在采集數據時通過隱私政策取得了用戶對本地建模行為的授權,但該授權仍需保持在與數據實際處理目的直接或合理關聯的范圍內。因此,在借助隱私計算技術解決用戶授權問題時,也需關注數據處理目的合法合規性。
隱私計算仍存在數據安全風險。
隱私計算盡管無需參與者直接共享原始數據,但模型更新仍然會泄露參與者訓練數據的相關信息,攻擊者可以采用推理攻擊判斷具體的數據點或數據屬性是否被用于訓練,或采用逆向學習的方法還原原始數據。如果有切實的證據證明經過隱私計算的數據結果具有可逆性且已被泄露,那么它便不再屬于法律規定的“經過處理無法識別特定個人且不能復原”的數據。因此,企業需從模型隱私、輸入隱私、訓練數據隱私、輸出隱私四方面保障數據的安全。
隱私計算參與各方權利義務的邊界有待進一步明確。隱私計算涉及個人信息主體、數據持有方、計算方、結果方,各方之間的法律關系尚需厘清,如發生數據泄露且溯源取證困難時,后三者間應如何進行責任劃分,這些都將影響隱私計算商業模式的發展?!栋灼方ㄗh在現階段,隱私計算參與者宜通過協議方式,約定彼此的數據安全權利和義務邊界,以便在發生爭議時,明確各自的責任范圍。
報告全文如下