康謀分享 | 突破傳統匿名化：先進技術解鎖數據價值新維度

更新時間：2025-02-18 點擊次數：761

海量數據的收集使得新舊企業能夠利用機器學習技術開發新產品并革新舊產品。近年來，數據質量因直接影響了人工智能系統的性能和魯棒性而備受關注。然而，這對通常通過破壞像素信息（如模糊化、馬賽克等）來實現匿名化的方法提出了挑戰，這些方法導致合規性與數據質量之間難以兼得。

我們探索了一種不是簡單移除像素信息，而是對其進行自然替換的深度自然匿名化（Deep Natural Anonymization，DNAT）方法，致力于提高匿名化數據價值，助力企業開發創新。

一、匿名化數據的傳統矛盾

DNAT能夠檢測人臉、車牌等可識別信息，并為每個對象生成人工替換。每個替換都盡可能匹配源對象的屬性，但這種匹配是有選擇性的，我們可以靈活控制保留哪些屬性。

例如，對于人臉，保留性別和年齡等屬性可能對后續分析至關重要。對于可識別信息以外的內容，不包含敏感個人數據的信息則保留不做修改。通過這種方式，DNAT成功打破了數據消除與匿名化之間的傳統矛盾。

康謀分享 | 突破傳統匿名化：先進技術解鎖數據價值新維度

圖1: 匿名化工具的比較，從左至右依次為：Facepixelizer，YouTube，Fast Redaction，DNAT，原圖

為了衡量匿名化方法對數據質量的影響，我們從Labeled Face in the Wild（LFW）數據集中采樣了圖像。所有圖像均取自測試集。我們比較了代表匿名化技術的四種不同的匿名化工具，圖1顯示了這些示例的一部分。

二、匿名化的結構一致性

首先，我們分析了圖像在匿名化處理后的整體結構變化。為此，我們仔細研究了圖像分割結果。圖像分割是將圖像的像素劃分為多個片段的過程，每個片段代表一個對象類別。在我們的示例中，最重要的對象是個人資料圖片中的人物和背景。

圖2和圖3展示了LFW數據集中兩位名人的分割圖。這些分割圖是由語義分割模型DeepLabv3+生成的，采用了TensorFlow存儲庫中的實現和模型權重。

康謀分享 | 突破傳統匿名化：先進技術解鎖數據價值新維度

圖2: AI Pacino DeepLabv3+ 分割結果對比

康謀分享 | 突破傳統匿名化：先進技術解鎖數據價值新維度

圖3: Reese witherspoon DeepLabv3+ 分割結果對比

從圖2和圖3中可以看出，傳統匿名化方法的分割圖明顯退化，其中一些甚至很多錯誤。然而，深度自然匿名化（DNAT）保留了語義分割。分割圖與原始圖像幾乎非常相同。從圖3中可以看出，經過傳統匿名化方法處理的人臉圖像不僅產生了較差的分割邊界，還使分割模型推斷出原始圖像中從未出現的新對象類別，如貓、狗或瓶子。

為了量化每種匿名化技術的影響，我們計算了整個測試集的平均交并比（mIOU）。計算是在不同方法生成的圖像分割圖與原始圖像分割圖之間進行的。結果如表1所示。

表1：用mIOU測量的語義分割一致性（越高越好）

康謀分享 | 突破傳統匿名化：先進技術解鎖數據價值新維度

三、匿名化的內容一致性

為了評估匿名化圖像與原始圖像之間的整體內容一致性，我們使用了Clarifai的獨立圖像標注模型。“通用圖像標注模型能夠識別超過11,000種不同的概念，包括對象、主題、情緒等。"這些標簽描述了模型從輸入圖像中推斷出的內容。

此外，模型還為每個標簽提供了置信度。圖4展示了Clarifai公共圖像標注模型對原始圖像及其DNAT版本預測的前5個概念。

康謀分享 | 突破傳統匿名化：先進技術解鎖數據價值新維度

圖4:來自clarifai的Reese Witherspoon前5個概念。（左原始圖像，右DNAT）

理想情況下，通用圖像標注模型應該為原始圖像和匿名化圖像預測一樣的概念。為了衡量一致性，我們使用Clarifai為每種匿名化技術的所有測試樣本預測概念。然后，我們計算了匿名化圖像與原始圖像之間前N個預測概念的平均精度（mAP）（其中N代表不同概念的數量）。

通過mAP，我們評估了兩點：預測概念的一致性及其相關分數。例如，考慮一個匿名化圖像及其原始圖像對，經過圖像標注模型處理后，如果某個概念在匿名化圖像中的置信度值低于其在原始圖像中的置信度值，則對最終mAP分數的影響較小；而如果某個概念僅出現在匿名化圖像中，而未出現在其原始圖像中，則影響較大。

前5和前50個概念的結果如表2所示。

表2：用mAP測量圖像概念一致性（越高越好）

康謀分享 | 突破傳統匿名化：先進技術解鎖數據價值新維度

四、總結

本文探討了如何通過深度自然匿名化（DNAT）技術提升匿名化數據的價值，打破了傳統匿名化方法在合規性與數據質量之間的固有權衡。DNAT通過生成自然替換而非破壞像素信息，不僅有效保護了個人隱私，還最大限度地保留了數據的分析價值。

實驗表明，DNAT在圖像分割和內容一致性方面顯著優于傳統匿名化方法，能夠更好地支持后續的AI分析和應用。

上一篇：無線溫度記錄器在環境監測中的廣泛應用
下一篇：多通道壓力泵在長時間使用后如何維護？