限制性資料

  無論是中央研究院學術調查研究資料庫(Survey Research Data Archive 以下簡稱SRDA)或是國外的各大數據資料庫,皆是以募集、儲存與推廣次級資料使用為建置目的。資料庫收集的內容越豐富,就能提供越多的資料給使用者,也越能彰顯其的功能,不過許多的普查或抽查資料,常常包含著個人或地區的限制性(或隱私性)資訊,所以在資料釋出時就需考量這些資料的保護機制,有可能是直接刪除敏感變項,也可能限制使用者資格或是限制其使用方式。


  所謂的限制性資料,簡單來說,就是不能曝光或被辨識的資料。在資料中通常可以區分為兩種形式,一種是欄位本身就具有隱私性,例如:身份證字號、出生年月日、地址等等;另一種則是欄位本身不見得很敏感,但綜合某些特定欄位後,就容易產生洩漏隱私的問題,例如:受訪者居住的地區(鄉鎮或村里)、行職業、出生年、婚姻狀況、教育程度等,這些資訊原本都不算太敏感,但是當樣本數不大時,就有可能透過整合上述的資訊而辨識出受訪者。關於上述二種資料形式,第一種的限制性資料問題,比較容易處理,只要刪除或加工這些敏感變項即可,而第二種連結相關變項而得之資訊的狀況,若決定釋出這些變項,就必須考量資料的提供對象與方式,而目前SRDA針對限制性資料,除了將使用對象限定在較嚴格的會員申請審查方式外,也將資料釋出方式規劃為onsite現場使用與remote遠距服務兩種。

 

Survey Research Data Archive, srda@gate.sinica.edu.tw