大咖TALK | 邱志剛:開放數據的“邊界”如何影響經濟與市場?
在數字經濟的浪潮中,數據已經成為推動社會與經濟運行的“新型石油”。不同于石油的有限性,數據似乎可以無限生成、無限使用。尤其是那些由政府、機構或通過網絡抓取獲得的“開放數據”,正在以驚人的速度滲透到各行各業。開放數據的價值不容置疑,它不僅是公共信息的重要來源,更是創新技術的“燃料”。但與此同時,它也伴隨著隱私泄露、商業秘密暴露甚至算法歧視等風險。如何在釋放數據潛能與保護個人、企業權益之間找到平衡,成為政策制定者、技術企業乃至公眾都無法回避的問題。本文將結合邱志剛和王子悅(2025)的最新研究成果,解讀開放數據的雙重角色、潛在風險,以及如何劃定其“使用邊界”。

什么是開放數據?
開放數據是指任何人都可以自由獲取、使用、再分發的數據,其來源十分廣泛。它既可能來自政府或城市級的開放數據平臺,如美國政府的 data.gov、紐約市的 NYC Open Data,(圖1)以及中國廣東省的開放數據目錄(圖2);也可能通過網絡爬蟲技術,從公開網頁中抓取,例如公司注冊信息、新聞報道、交通狀況等。
開放數據具有三大核心特點:開放獲取、非競爭性使用與多樣性。所謂“非競爭性使用”,意味著一個人使用數據并不會減少他人使用同樣數據的機會,這與礦產等稀缺資源完全不同,更像空氣和陽光:你用,我也能用。

圖1:美國政府和紐約市提供的開放數據平臺

圖2:廣東省開放數據平臺示例
在現實應用中,數據發揮著兩大重要作用。第一重角色是信息源。經過專業處理與分析,數據可以揭示經濟、社會、環境等領域的重要信號。
例如,衛星圖像可用于監測商場停車場車流量,從而預測零售銷售額;港口貨物吞吐量分析有助于判斷進出口貿易走勢;夜間燈光亮度能夠反映某地區的工業產出水平。金融領域中,對沖基金利用氣象、消費、物流等開放數據尋找投資機會,風險投資機構則跟蹤初創企業的專利申請、招聘動態和社交媒體熱度來評估其成長潛力。在宏觀經濟預測方面,電力負荷、貨運量、網絡搜索指數等高頻開放數據,能夠彌補官方統計數據更新滯后的不足,使決策者更快把握經濟全貌。因此,開放數據的第一重角色也是信息源。
開放數據第二重角色是創新驅動。數據是人工智能、自動駕駛、智慧農業、醫療研發等領域的關鍵“燃料”,而開放數據提升了數據可得性。
例如,人工智能領域的 ChatGPT,其訓練數據中包含了大量開放的互聯網文本,使其具備寫作、翻譯、問答等多種能力。更多可獲取的開放互聯網數據擴充了訓練數據集。另外,有研究顯示部分我國AI企業利用政府開放的合規、脫敏監控數據訓練算法,取得了全球領先的識別精度。
例如,在自動駕駛領域,其發展依賴開放的交通流量、路況與事故數據持續優化算法。在智慧農業領域,通過整合開放的氣象和土壤數據,幫助農民科學施肥與灌溉。在醫療研究中,開放的基因組和醫療影像數據加快了新藥研發與疾病預測。可以說,沒有開放數據,許多如今看似理所當然的技術突破將難以實現。因此,開放數據作為一種生產要素,為實體經濟提供了創新的思想和產品。
開放數據的隱私與風險
然而,開放數據并非毫無代價。由于其“開放”特性,相較于企業內部的私有數據,更容易引發隱私風險與安全問題。首先是個人隱私暴露。即便數據經過脫敏處理,也可能通過技術手段被反向推導出個人身份。
例如,通過多源數據的交叉匹配,一個原本匿名的醫療記錄,也有可能被關聯到具體的個人信息,造成隱私泄漏。其次是商業秘密泄露。開放數據中有時包含企業的運營細節,例如生產節奏、供應鏈布局、庫存周轉情況等。
一旦這些信息被競爭對手獲取并利用,可能會給企業帶來嚴重的競爭劣勢甚至直接的經濟損失。第三是算法歧視。如果開放數據本身存在結構性偏見,人工智能模型在訓練過程中往往會放大這種偏見,進而導致對某些群體的不公平待遇,甚至在招聘、醫療等領域引發社會問題。
最后是生成式AI的推演能力。大型語言模型等生成式AI工具能夠在長期分析開放數據的過程中,推導出敏感信息,即便這些信息并未直接出現在原始數據中,也可能被模型推斷出來。正因如此,“該開放多少數據、開放哪些數據”成為一個需要謹慎權衡的難題。只有技術手段(如差分隱私、聯邦學習)與法律框架(如數據爬取限制、數據使用規范)協同配合,才能在數據利用與隱私保護之間找到穩妥的平衡點。
開放數據的“邊界”
如何影響經濟與市場?
邱志剛與王子悅(2025)的研究構建了一個分析框架,將開放數據的使用場景放入金融市場—實體經濟—政府決策的閉環體系中進行考察。
模型設定了三類核心參與者:第一類是數據提供者(如政府部門或數據平臺),負責決定開放數據的供給規模與內容;第二類是金融市場投機者,他們利用開放數據與自身掌握的私有數據,對經濟基本面進行預測,并通過交易行為影響資產價格形成;第三類是資本提供者(如私募股權基金、風險投資機構),他們會結合價格信號、開放數據以及私有數據,判斷是否向新的增長機會進行投資。
研究表明,如果開放數據僅具有信息作用,而私營部門已經擁有大量私有數據,那么信息替代效應會導致開放數據的邊際價值顯著下降。在這種情況下,出于降低隱私風險和減少不必要數據暴露的考慮,政府可以適度減少開放數據供給,將更多精力放在數據安全與隱私保護上。
因此,如果只把開放數據當做一個信息源來用,算法的提升和私營部門對數據的積累會對開放數據提到一種“替代作用”。也就是說,如果有足夠高級的算法和足夠多的私有數據,政府沒必要提供很多的開放數據。而這也是當前開放數據的主要爭議之一!
然而,邱志剛與王子悅(2025)提出開放數據不僅具有信息作用,也是一種重要的生成資料,具備創新作用。在考慮創新作用時,情形就完全不同。開放數據與私有數據可以相互補充,為人工智能等新興技術提供規模更大、類型更豐富的訓練集,從而顯著提高生產率與技術創新水平。在這種情況下,即便私有數據資源已經很豐富,繼續維持甚至增加開放數據的供給,依然有助于推動新技術的研發和新產業的發展。
在金融市場層面,私有數據和數據分析技能的提升存在雙重效應:一方面,它們能直接提高市場定價的精準度,減少錯誤定價的概率(直接效應);另一方面,若市場主體可以從價格中獲取更多信息,會減少對開放數據的需求,可能會間接降低開放數據的整體供給水平(間接效應)。兩種效應的凈結果,取決于市場的不確定性程度、數據技能水平的高低以及數據使用過程中隱私成本的大小。總體來說,私有數據的增加有可能減弱政府提供開放數據的動力,因此會降低市場有效性
在實體經濟層面,開放數據的創新作用在低不確定性環境下更容易被充分釋放,帶來更高的生產率與投資回報。而在高不確定性環境中,信息作用的權重會顯著上升,這時如果私有數據過多,可能會擠壓開放數據的應用空間,反而削弱整體經濟運行的效率。這說明,開放數據的供給規模與使用邊界應當結合經濟環境與技術條件進行動態調整,而不是固定不變的配額式管理。
結論
開放數據是一把“雙刃劍”。一方面,它是現代經濟的重要“加速器”,推動信息透明化、技術創新和產業升級;另一方面,其開放特性也讓隱私泄露、商業秘密暴露以及算法歧視等風險不容忽視。
研究表明,開放數據的供給不應采取“一刀切”的方式,而應結合其在當前環境中扮演的角色(是主要的信息源,還是創新驅動器),再綜合考慮私有數據的豐富程度、數據分析能力的水平以及隱私成本的大小,動態調整開放的“邊界”。
簡而言之,如果私有數據已經非常豐富、隱私風險又較高,且開放數據的功能主要集中在信息提供方面,那么可以適當收緊開放范圍;而如果開放數據在創新驅動方面的作用顯著,特別是在人工智能等對數據依賴度極高的領域,則應保持甚至擴大其供給,以發揮更大的經濟與社會價值。
政策建議
首先,應當分類分級開放數據。不同類型的數據具有不同的敏感度和使用風險,政府與平臺應建立科學的分類分級制度,對低風險且具有高創新潛力的數據優先開放,而對涉及敏感信息的高風險數據設置更嚴格的訪問與使用門檻。
其次,需要強化技術護欄與隱私增強措施。應推廣差分隱私、聯邦學習等先進技術手段,在提升數據可用性的同時,最大程度降低個體信息被反向推斷的可能性;并且應針對生成式 AI 等新技術對開放數據的訪問進行有針對性的限制和監管。
第三,應鼓勵私有數據與開放數據互補使用。通過制定稅收優惠、資金扶持等激勵政策,引導企業在保護商業秘密的前提下,將私有數據與開放數據結合使用,開發出更多新技術與新應用,從而形成創新合力。
第四,建立動態調整開放邊界的機制。應當根據市場反饋和技術發展水平,定期評估開放數據對創新能力、市場效率以及隱私安全的綜合影響,并據此適時增減數據開放的范圍與力度,使政策具有靈活性和前瞻性。
最后,要提升公眾的數據素養。加強數據知識普及,幫助公眾理解開放數據、隱私保護和數據權利的重要性,增強個人在數字化時代的自我保護能力與參與意識,讓整個社會更好地應對數字化進程中的機遇與挑戰。
參考文獻:1. The Boundary of Open Data: Implications for the Financial Market and Real Efficiency, (with Ziyue Wang), 2025, forthcoming in Management Science.
免責聲明:本網站所有文章僅作為資訊傳播使用,既不代表任何觀點導向,也不構成任何投資建議。】
猜你喜歡
大咖TALK | 陳蘭蘭:打擊非法代理維權,提升金融消保力度【金融教育宣傳月】
打擊金融黑灰產非法代理維權,有助于引導金融消費者更加注重對個人信息安全、財產安全的保護。大咖TALK | 中國普惠金融研究院:金融健康助力中小企業高質量發展
本期我們邀請到中國普惠金融研究院研究員侯力銘圍繞“金融健康助力中小企業高質量發展”相關議題展開回答。大咖TALK | 邱志剛:塑造數據經濟時代的“數字信任”
中國人民大學財政金融學院教授邱志剛老師圍繞“數據經濟時代的數字信任”相關議題展開回答。