當隱私計算的齒輪轉到“可算不可識”

數科社行者2021-12-03 18:54 新基建

如此看來，只要數據脫離了消費者本身持有終端的掌控，就存在被泄露的風險，而這點是可用不可見的理論無法彌補的。

近年來，相關法律法規的不斷完善讓一眾互聯網公司從對算法和數據使用的狂熱中清醒過來，開始逐漸重視個人隱私保護和消費者數據安全的問題。剛剛發布的三季報，很多互聯網公司都調整了自己發展的規劃，并對一些之前高談闊論的未來技術研發目標做了不同程度的“遮掩”。

從2015年之后，不管是字節系的崛起，還是美團在外賣業務上深耕，亦或是滴滴在出行領域的布局，包括國外的互聯網企業在內，絕大多數解決用戶數據安全的技術，都是從數據的發生端入手，試圖通過隱藏用戶最關鍵的信息來達到保證用戶信息安全，同時還能繼續實現互聯網企業算法加大數據的運營優勢。

發展過程中，企業對用戶個人的隱私保護絕不是當下才被喚醒的意識。曾經有幾家國際互聯網巨頭公布過脫敏后的用戶數據，希望行業能對這樣的用戶數據安全技術進行標準化認定，以此來確認個人隱私保護可以用技術的手段予以解決。遺憾的是，這些信息無一例外都讓媒體或者行業專家找到了可以逐一對應到用戶本身的特征，開放的高維關聯之下，絕對的匿名化宣告失敗，相關平臺“收獲”了一波市場質疑：企業的算法機制或者技術手段到底會加劇隱私保護的風險，還是會反哺數據安全，按照法律要求保護個人隱私？

某種意義上說，這已經變成當下困擾中國乃至世界互聯網平臺型公司的問題。在滿足匿名化要求的同時，來提升數據要素應用的能力，最終實現隱私保護和數據要素行業發展的平衡點，難題的“正解”在哪里？

#01

數據和算法是命門

先了解一下“題面”。

隨著移動互聯網的普及以及頭條系的崛起，以人工編輯為核心的傳統信息分發模式逐漸衰落，以算法為核心的智能分發模式興盛崛起。

當前的各大平臺，基于算法的傳播呈現出可計算的特質，后臺將每個用戶內容消費的行為數據，比如用戶瀏覽時長、轉發、評論等，個體屬性數據以及社交關系數據進行大數據的統計和分析，進而挖掘用戶的愛好習慣和社交興趣網絡，最終生成精準的用戶畫像，向用戶推送最具個性化需求的信息、商品或者服務。

而平臺可以依據這樣的能力，獲取在精準廣告、產品銷售以及服務推薦中的利益，從而建立自己的業務圈層。

一定程度上來說，算法推薦讓編輯篩選模式下的“人找信息”變為“信息找人”，用戶成為了算法架構或程序編碼的價值落點。

通過算法和大數據的挖掘，很多互聯網平臺在最近兩年誕生了一系列新的商業模式，他們不光在滿足用戶信息需求上向前跨出了一大步，同時還能利用各種碎片化的服務和工具，幫助用戶實現以前所不能想象的互聯網服務。

尤其在互聯網信息超載時代，以大數據驅動的智能算法推薦系統逐漸應用到社會生活的各個領域。面對海量信息，智能算法會根據用戶的在線行為計算分析出個人的興趣愛好和行為趨向，從而幫助用戶做出自動化決策。大量無序的、雜亂的數據存儲進數據庫，積累、沉淀之后成為企業的信息資產和核心驅動力。

然而，風險也如影隨形。從抖音侵犯用戶信息權，到曠視科技等人臉識別公司被推至輿論焦點，到智聯招聘用戶簡歷流向黑市，到知乎4天獲取3w+用戶信息，再到美團被質疑差異化定價“殺熟”客戶......經濟利益的驅動下，用戶個人信息在被各類主體競相挖掘和利用的同時，因信息泄露引發的欺詐事件司空見慣、侵犯個人隱私的現象在多領域多平臺泛濫。

“善治病者必醫其受病之處，善救弊者，必塞其起弊之原”。在大數據應用逐漸深入社會生產生活每一個“毛細血管”的今天，相關法律法規和監管政策對個人隱私保護筑起安全墻，企業也應積極采取相關措施，設置合規機制，注重技術安全升級，從根本上避開那些不該觸碰的“雷”。

#02

“可用不可見”的失效

很長一段時間，各大互聯網公司都在積極探討合理合法，保護用戶隱私的數據使用方式。

隱私計算或者說是隱私保護計算，此前被視為從技術角度實現了數據流通與隱私保護之間的平衡的最優解，即做到了數據的“可用不可見”，既實現了數據價值的流通與共享，又實現了數據的隱私保護。

很長一段時間，“可用不可見”被視為隱私計算的精髓。“不可見”指的從技術角度屏蔽了敏感信息和隱私數據，為不可分享或者不能的數據加上一層安全的“防護罩”，以實現事實上對隱私數據的保護，也就是不明文泄露、不直接明示。

從這一角度來說，“隱私計算”讓數據開放、共享、流通成為一種可能。但需要注意的是，“隱私計算”只解決了流通過程中的安全問題，在數據流通之前和之后的權屬和收益問題仍不明確，另外“隱私計算”技術產品的安全分級標準與行業信任共識也有待建立。

尤其是，通過密碼學或者是分布式機器學習加密碼的方式，來對于信息加密傳輸到中心再進行解密，解密過程和加密過程全部在計算機系統內完成，確實可以實現可用不可見，但實際處理過程中仍存在大量安全隱患，比如有的密文可以被反推出明文。

西方世界知名的網絡視頻平臺奈飛曾經就保護用戶隱私做過一次算法的印證和比賽。當時奈飛公布了一部分做了去標識脫敏處理的用戶評分，結果被UTAustin的兩位研究者關聯到了相應用戶的ID，并識別出了其中一些用戶身份。2010年 Netflix為此被罰款900萬美金。此前的2006年，為了學術研究，“是美國在線”（AOL）公開了一些做了去標識和脫敏處理的匿名化的搜索記錄。但是《紐約時報》通過這些記錄，找到了真實世界中對應的一個人。后來AOL遭到起訴，為此賠償了大概總額高達500萬美金的罰款。

這一過程中“可用不可見”帶來的匿名化實現主要表現在個人身份識別信息（PII）的泄露，和個人的屬性行為數據導致的個人身份泄露。由于某些個人屬性行為數據的獨特性，可以間接識別出特定自然人的身份。

也就是說，在此案例中，數據還是要從用戶自己持有的終端，例如手機上傳到網站或者機構的服務器再進行后續計算的操作，這一過程數據會在一個開放空間中存在，那么只要掌握足夠多的數據，就可以跟脫敏后的數據進行關聯來查找相關性，最終可能會通過各種算法找到真正能對應的人。

如此看來，只要數據脫離了消費者本身持有終端的掌控，就存在被泄露的風險，而這點是可用不可見的理論無法彌補的。

#03

“可算不可識”更進一步

那么有沒有真的能解決個人隱私安全，同時還能保證互聯網企業算法為基礎的業務模式繼續推行的方法？

11月26日，螞蟻集團副總裁、螞蟻集團安全隱私科技委員會主席韋韜在第七屆中國互聯網法治大會上提出，可以通過隱私計算技術達到“可算不可識”，這是實現個人隱私保護和數據要素行業發展平衡的關鍵。

根據他的想法，與“可用不可見”相比，“可算不可識”更進一步。“首先要滿足匿名化的要求，不能夠識別到特定的自然人。另外，要可算，假如說數據完全沒有辦法計算，沒有辦法產生數據價值，那么這個數據要素行業也無法發展。”

因為“可用不可見”還是要把數據利用加密方式通過個人的終端傳遞到互聯網平臺，再進行后續的數據挖掘和算法處理，整個過程確實存在信息泄露的問題和風險。而“可算不可識”，整個過程并不傳輸數據，只是通過加密性的算法調整，同時對符合標準的個人數據進行分散式的計算，最終將計算結果傳遞到平臺，而不是傳導隱私數據本身。

總體而言，“可用不可見”是關于數據如何處理的維度，而“可算不可識”則集中在數據無授權的情況下如何來保障個人信息隱私權益。

韋滔表示，在未來的實踐中，數據要素價值要實現“可算不可識”強依賴于安全的受控環境。這一環境中下，“可算不可識”要對數據的過程，結果和生命周期進行掌控。這就要對所有可能產生數據關聯的通道進行強管控：包括研發過程的中間數據，可以通過如動態匿名等方法防止重識別；另外在結果輸出的時候，要防止輸出結果由于精度過高，有機會導致原始屬性行為數據通過數據信息傳導導致個人身份的間接泄露。

安全的受控環境對“可算不可識”過程中數據的處理和輸出是否能夠嚴格按照規范或者共識來做管控提出了更高的要求。

而可信計算技術的成熟，給了實現“可算不可識”的底氣。這是隱私計算技術中的底層技術，最初是由可信計算組(TCG)推動和開發的技術，可以在計算機啟動時刻就開始進行安全度量，而且有硬件可信模塊TPM/TCM以及軟硬件協同保障的完整的驗證鏈。在國內已得到了廣泛推廣，并成為等保四級的關鍵支撐技術。

在韋滔看來，將可信計算技術應用在相對匿名化領域，是一個非常好的契合：它能夠提供運行環境隔離，能夠把數據的存儲、傳輸和處理有效的和外部隔離，能夠支撐技術保障的遠程驗證能力，能夠使得數據的處理輸出管控機制可以遠程驗證和審計，而且支持后期上鏈等操作。

可以說，可信技術加持下，“可算不可識”確實在個人隱私保護與平臺數據和算法發展之間找到了一個動態的平衡。

而這很可能成為打動國內各家互聯網平臺未來積極轉型的關鍵。

畢竟只有保證安全與合規，平臺發展才能健康可持續。

【本文為合作媒體授權派財經轉載，文章版權歸原作者及原出處所有。文章系作者個人觀點，不代表派財經立場，轉載請聯系原作者及原出處獲得授權。有任何疑問都請聯系（paicaijing314@126.com）。
免責聲明：本網站所有文章僅作為資訊傳播使用，既不代表任何觀點導向，也不構成任何投資建議。】