前 言
馬克思曾經強調,“一門科學隻有在成功地運用數學時,纔算達到了真正完善的地步。”
計量反腐學就是記錄權力運行軌跡,分析數據相關性,研究公權私用可能性,提出預防和懲治腐敗策略的學科。
腐敗是社會的惡性“腫瘤”,是人類共同的敵人。反腐敗,既是工作,也是科學,應該努力使用現代數學工具和手段,以達到更加精準和有效的境界。腐敗是人性貪婪與制度缺失的結果,世界各國都有,表現形式多種多樣,但其本質是公權私用。通俗地說,“腐敗就是濫用國家權利謀取個人私利的行為”,就是用公共權力為自己撈好處、謀利益的行為,如權錢交易、權色交易、權權交易等。科技反腐是國際發展趨勢,越來越受到各國政府和組織的重視,並取得顯著成效。科技反腐的重點不是網絡舉報,而是數據收集、存儲、分析,相關性研究,通過計量和計算找到各類數據(現像)之間的必然關繫。計量,簡單地說,就是計算、量化、定量、計數等,既有傳統方法也有現代方法。計量反腐學是一門用數學方法特別是用大數據手段研究腐敗發生特點、趨勢、規律及如何預防、懲治、根除腐敗的學科,有其自身的概念、方法和原理,目的是鏟除腐敗存量並抑制腐敗增量,目標是讓腐敗無處藏身,永遠絕跡。
當今社會增長快的不是物質財富,而是各類數據。人類每秒鐘創造的數據網線長度已經超過了聲速。數據膨脹的速度和原子彈爆炸衝擊波的速度是一樣的,而這是一個持續的爆炸,遠遠不是一個瞬間。據說,到2050年數據量將達到非常恐怖的100萬Zetabit,一個Zetabit是1萬億G,由此進入的時代叫Zeta時代。所有生意都是數據生意。什麼是數據?除了通常的阿拉伯數字1、2、3、4、5…外,還有文字、圖像、聲音等,因為文字、圖像、聲音可以分解成數據。比如旦節召開一個慶祝晚會,那麼現場記錄的講話、談話、笑聲、歌聲、錄像、節目單、字幕、橫幅、座位、水杯、茶葉、人數、職業、性別、民族、溫度、入場次序、空氣質量等等,都是數據。又如在酒樓聚餐,訂餐人、包間號、室內裝飾、座位、菜單、價格、酒水、服務員、就餐時間、就餐人員、入席次序、結束時間、付款人、召集人、男女性別等等,都是數據。根據這些數據,不但能夠恢復現場,而且能夠提取我們需要的重要信息。通常講,數據就是數值,也就是我們通過觀察、實驗或計算得出的結果。數據可以用於科學研究、工程設計、案件查證等。大數據(Big data)就是極其龐大的數據量和相當規模的數據類型,就是無法用傳統方法儲存和處理的數據量。更準確地說,大數據是指無法在可承受的時間範圍內,用常規軟件工具進行捕捉、管理和處理的數據集合,是需要用新處理模式纔能獲取強大決策力的海量的、高增長和多樣化的信息資產。盡管數據量很大很大,但許多數據是沒有價值的,在海量數據中隻有極少數據有實質性意義,因此價值密度很低,工作量極大。大數據通常有“5V特點”:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)和Veracity(真實性)。表面看,大數據是一串數據,是一個科學名詞,實際上,大數據是一種方法與思維的革命,甚至是一種哲學、一種範式、一種文化、一種信仰的轉換。當我們遇到難題時,隻要想到大數據方法,就可能是“山重水復疑無路,柳暗花明又一村”。2015年9月,國務院印發了《促進大數據發展行動綱要》,繫統部署了大數據發展工作,明確要求推動大數據發展和應用,在未來5至10年打造精準治理、多方協作的社會治理新模式,建立運行平穩、安全高效的經濟運行新機制,構建以人為本、惠及全民的民生服務新體繫,開啟大眾創業、萬眾創新的創新驅動新格局,培育高端智能、新興繁榮的產業發展新生態。未來的時代,將不是IT時代,而是DT的時代。
在大數據處理中,關鍵是雲計算(cloud computing)。對雲計算的定義有多種,據說至少可以找到100種解釋。自然界的“雲”,是指停留在大氣層上的水滴或冰晶或者由它們混合組成的可見集合體,是地球上龐大的水循環的有形結果。雲的類型很多,可以有各種形狀,有不同顏色,有不同厚度。信息概念的“雲”,就是對於網絡、互聯網的一種比喻。過去在圖中往往用雲來表示電信網,後來也用來表示互聯網和底層基礎設施的抽像表征。有人認為,雲計算這個名詞可能是借用了原子結構中的“電子雲”(Electron Cloud)的概念,目的是強調說明計算聯繫的彌漫性、無所不在的分布性和廣泛的社會性等特征。中學知識告訴我們,在原子核周圍運動的電子,是彌漫整個空間的,並且以雲狀形態存在,因此描述電子的運動不能用牛頓經典力學而是用概率分布的密度函數(用薛定諤波動方程來描述),以此來說明在特定的時間內,粒子位於某個位置的概率有多大,而不是說明精準的位置,這跟經典力學的提法完全不同。在雲計算領域,“雲”是一些可以自我維護和管理的虛擬計算資源,通常是一些大型服務器集群,包括計算服務器、存儲服務器和寬帶資源等。需要記住的是,雲計算的核心理念是資源池,“雲”是一個龐大的資源池(資源包括網絡、服務器、存儲、應用軟件、服務等),你可以按需購買;雲可以像自來水、電、煤氣那樣進行計費。“雲”具有相當的規模,谷歌(Google)雲計算已經擁有100多萬臺服務器,亞馬遜、IBM、微軟和雅虎(Yahoo)等公司的“雲”均擁有幾十萬臺服務器。“雲”能賦予用戶前所未有的計算能力。“雲”的規模可以動態伸縮,能滿足用戶規模增長的龐大需要。大家用“雲”這個概念,是因為它在某些方面具有現實中雲的特征:雲一般都較大;雲的規模可以動態伸縮,它的邊界是模糊的;雲在空中飄忽不定,無法也無需確定它的具體位置,但它確實存在於某處,隻要我們需要它就可以找到,並立即出現在我們的眼前。常見的雲服務有公共雲(Public Cloud)與私有雲(Private Cloud)兩種。雲計算的特點是超大規模、高可靠性、高可擴展性、虛擬化、通用性、多樣性、便利性、按需服務。我們可以將所需的軟硬件、資料都放到網絡上,在任何時間、任何地點使用不同的IT設備互相連接,就能實現數據存取、有效運算等操作。我們可以通過電腦、筆記本、手機等方式接入數據中心,按自己的需求進行運算。雲計算將計算資源集中起來,利用網絡使多臺計算機共享信息以完成相同或相似的任務,使得計算變得方便快捷,並通過專門軟件實現自動管理,能夠讓用戶按需獲取計算力、存儲空間和信息服務。雲計算是分布式處理(Distributed Computing)、並行處理(Parallel Computing)和網格計算(Grid Computing)的發展,許多跨國信息公司正在使用雲計算的概念兜售自己的產品和服務。其實,雲計算在這個概念被提出來之前就已經存在這種處理方式了,所以從操作上講並不新鮮,它就是基於互聯網的相關服務的增加、使用和交付的模式。雲計算可以讓你體驗每秒10萬億次的運算能力,擁有這麼強大的計算能力可以模擬氫彈爆炸、預測氣候變化和市場發展趨勢,用於研究腐敗現像當然可行。
在計量反腐學中,如果把雲計算與物聯網結合,就能發揮更大監督和預防作用。物聯網是新一代信息技術的重要組成部分, 是“感知中國”的重要內容。物聯網是指通過傳感設備,把需要監控、連接、互動的物體或過程的信息,與互聯網結合形成的一個巨大網絡,其目的是實現物與物、物與人,所有的物品與網絡的連接,從而方便我們進行識別、管理和控制。物聯網的英文名稱是:“Internet of things(IoT)”。顧名思義,物聯網就是物物相連的互聯網,其基礎仍然是互聯網,雲計算是實現物聯網的核心,其用戶端可以延伸和擴展到任何物品與物品之間,並進行信息交換和通信,也就是物物相息。1999年提出的物聯網概念是:通過射頻識別(RFID)(RFID 互聯網)、紅外感應器、全球定位繫統、激光掃描器、氣體感應器等信息傳感設備,按約定的協議,把任何物品與互聯網連接起來,進行信息交換和通訊,以實現智能化識別、定位、跟蹤、監控和管理的一種網絡。根據國際電信聯盟(ITU)的定義,物聯網主要解決物品與物品(Thing to Thing,T2T),人與物品 (Human to Thing,H2T),人與人(Human to Human,H2H)之間的互連。其中,傳感器技術是關鍵,需要把模擬信號轉換成數字信號,這樣纔便於計算機處理。RFID標簽也是一種傳感器技術,它融合了無線射頻技術和嵌入式技術,RFID在自動識別、物品物流管理領域有著廣闊的應用前景。嵌入式繫統技術綜合了計算機軟硬件、傳感器技術、集成電路技術、電子應用技術。經過幾十年的演變,以嵌入式繫統為特征的智能終端產品隨處可見,並正在改變著人們的生活,小到人們身邊的MP3,大到航天航空的衛星繫統。如果把物聯網用人體做一個簡單比喻,傳感器相當於人的眼睛、鼻子、皮膚等感官,網絡就是神經繫統用來傳遞信息,嵌入式繫統則是人的大腦,在接收到信息後要進行分類處理。智能標簽很重要,例如在生活中我們使用的各種智能卡、二維碼、條碼標簽,其基本作用就是用來獲取對像個體的識別信息。此外,我們通過智能標簽還可以獲得對像物品所包含的擴展信息,例如智能卡上的金額餘額,二維碼中所包含的網址和名稱等。隻要在物品(服裝、手表、書畫、金銀等)上貼上智能標簽,就能隨時識別和監控物品的流向和位置。專家預測,物聯網普及以後,用於動物、植物和機器、物品的傳感器與電子標簽及配套的接口裝置的數量,將大大超過手機的數量。人類可以以更加精細和動態的方式管理生產和生活,達到“智慧”狀態,提高資源利用率和生產力水平,改善人與自然間的關繫。但是,我國射頻標簽的芯片和讀寫器的核心模塊仍然依賴進口,射頻標簽自主技術標準也嚴重缺位,必須加大創新力度。
我們的社會已經進入“數據文化”時代。讓“大數據說話”成為潮流。幾乎每一部智能手機都可以定位使用者一天的行跡,通過對海量數據信息的分析,就能探尋個人行為特征,進而有針對性地管理。在大數據、雲計算和物聯網視野裡,一切透明,沒有隱私和暗箱,因此對腐敗現像的研究,有特殊價值。腐敗的特點是“見光死”,隻要透明,就沒有腐敗,隻要有監督,就沒有腐敗。利用大數據可以發現腐敗痕跡,尋找腐敗特征和規律,進而探尋預防對策。可以說,大數據就是陽光,就是自動跟蹤器,能預防和消除腐敗。各個部門特別是組織、公安、法院、銀行、房管、工商、電信等部門的數據要交換、共享、整合、分析,發揮電子政務的作用。目前,國外大數據反腐多數建立在電子政務基礎之上,因為每個權力運行都會在上面留下痕跡。當然,這裡必須界定哪些數據是由紀檢監察機構掌握的,因為這涉及干部個人隱私。目前,中國需要進行數據立法,出臺《數權法》,與《物權法》一樣,保護個人數據。個人數據是指與一個身份已經確定或者可以確定的自然人(數據主體)相關的任何信息。身份可以確定的人,是指其身份可以直接或間接,特別是通過身份證件號碼或一個或多個與身體、生理、精神、經濟、文化、社會身份有關的特殊因素來確定的人。對於個人數據要進行保護,沒經本人同意或相關部門批準,不準洩露和使用。
在中國,我們希望構建“不敢腐、不能腐、不想腐”的體制機制。“不敢”是外壓問題,“不能”是制度問題,“不想”是道德問題,三者層次不同,采用的方法也不同,但共同點都是抑制腐敗發生,關鍵是引入高科技手段,剖析腐敗發生的根源及其擴散規律。數學與物理學已經為此做好了思想和工具的準備。比如,傳統數學中的非線性擴散方程、統計分析、動力繫統等可以用於研究腐敗發生的趨勢和規律。為什麼腐敗分子都是“兩面人”?可以用數學的“莫比烏斯環”或“克萊因瓶”來描述。窩案、串案如何形成?可以用數學物理中的DLA(擴散限制凝聚)模型來描述,從而找到形成過程。腐敗的蔓延可以用擴散方程或傳染方程來描述。從小腐敗到大腐敗直至“出事”的臨界點和分叉點,可以用“中心流形定理”來描述。腐敗從有序到無序的發生過程,可以用動力繫統的KAM定理來判斷。要達到“不敢腐”的目的,必須要快速準確識別腐敗分子,形成高壓態勢,使各級公權掌握者有畏懼心理;要達到“不能腐”的目的,必須是扎牢制度籠子,堵住各種可能腐敗的漏洞,做到無機可乘;要達到“不想腐”的目的,必須讓各級公權掌握者深刻認識到腐敗付出的代價,現代科技的巨大威力,伸手必被捉。大數據主要用於研究數據現像之間的相關性,具有很強的預判功能,對於構建“不敢腐、不能腐、不想腐”的體制機制具有特別重要的意義,可以解決傳統方法不能解決的難題。為便於理解,我們舉幾個簡單例子。
比如調查大學生談戀愛。隻要分析食堂飯卡相關性就清楚了。在一段時間內,如果兩張飯卡總是一前一後同時出現在同一食堂,並且持卡人性別是一男一女,那麼基本可以肯定二者已經建立戀愛關繫,事實證明的確如此。專家隻要分析大學生的“一卡通”數據,就能知道學生的日常行為和社會關繫。
比如預判干部生活作風。隻要分析餐館、酒樓、賓館、商場、電影院、交通工具等儲存的公開數據,就可以知道某干部經常出入的場所(如賓館、餐館、道路等),與哪些人關繫密切,再跟蹤分析這些人的職業和品行,由此能判斷他(她)會發生哪些問題,如權錢交易或權色交易,從而提前打招呼和提醒,或按照中央紀委的“四種形態”進行處理。在大數據領域有一句名言,“混亂是還未被發現的數列”。科學家總能在混亂中發現規律,找到相關性。國外使用大數據方法預測過總統大選和電影奧斯卡獎得主,準確率達90%以上,基本沒有秘密和懸念可言,結果總能提前揭曉,其他隻是等著走程序。
比如調查現金行賄問題。過去這是一個難點,隻要雙方不認賬就很難認定,現在通過大數據就很容易掌控。因為每一張紙幣都有一個編號,就像身份證號碼或汽車牌照號一樣是的,沒有重復號碼,沒有兩張紙幣的編號是相同的。對於人民幣而言,就是“人民幣冠字號”,如2005年版某張人民幣的冠字號是K059724385,另一張的則是G4N5270318;又如某2005年版人民幣的冠字號是P0D5004008,另一張是P8A0304269;還有2005年版某人民幣的冠字號是R195040718,某人民幣的冠字號是ED45784213,等等。每一張人民幣編號都不一樣,2005年版的人民幣英文字母加數字共10個字,在銀行大數據庫中都有記錄。某公司、某單位、某人掌握的現金紙幣編號都在銀行儲存著,一旦出現在另外的公司、單位或個人手中,隻要超過一定數量,並且當事人不是親人、家人關繫,裝有特殊臉譜識別或指紋識別功能的驗鈔機器就可以報警,有關機關就有理由要求當事人說明原因。這樣,現金行賄就很難了,因為受賄的現金無法使用。如果轉賬,就更容易查出來,每筆資金進出銀行都有痕跡。限制現金支付,限度減少現金流量,限度實行信用卡支付,可以程度減小腐敗現像發生。如果送貴重物品或有價證券或購物卡,因為每個銷售公司都有記錄,隻要使用人員不對,機器馬上報警。在保護個人隱私的情況下,對於國家公職人員可以建立專門的數據庫,包括指紋、臉譜、家庭財產、現金冠字號碼、血緣親戚關繫、社會人脈關繫等,這樣很容易實現個體監督。對於貴重物品如黃金、名畫、名表、服裝等,可以植入芯片,讓物品自己“說話”,實現物與物對話,隨時可以跟蹤,就像汽車的GPS繫統,走到哪裡跟蹤到哪裡,並與干部大數據庫聯網,任何腐敗痕跡都能發現。特別是把各個部門的監控數據進行整合,例如把交通、賓館、飯店、銀行、商場、影院等方面的公開數據彙聚分析,很快能發現有問題的人。從現代技術角度講,把大數據與物聯網結合,任何腐敗行為都能隨時掌握,沒有盲區和空白,腐敗無處藏身。當然,這樣會使一些領導干部產生抵觸情緒,因為涉及個人隱私、個人數據保護。
比如對於“一把手”的監督問題。這是預防腐敗的難題,但可以用大數據來解決。權力過度集中、監督主體缺失、監督制度不完善等是造成對“一把手”監督難的主要原因,其核心在於“一把手”自由裁量權過大、信息不對稱、利益不一致等關鍵因素。隨著傳統計量方法、數理模型方法的發展特別是大數據技術在反腐敗領域的運用,破解“一把手”監督難題已經成為可能。隻要把“一把手”的權力清單量化,把權力邊界劃定清楚,把他(她)每天除開私人空間外的行為數據都記錄下來(包括決策過程、調研情況、社會交往等),然後進行相關性分析,並把結果報告紀律管理部門,就可以知道他(她)行為正確與否,上級領導可以及時提醒,抓早抓小,防止小錯演變為大錯。這種監督是把監督權力交給機器,交給數據,交給社會,因此科學性、操作性較強。用這種方法也可以防止“權權交易”。實際上,隻要把決策者的行為數據進行分析,並且與相關紀律(6類負面清單)法律進行對比,就能判定權力掌控者之間是否有交易行為。貴陽試點的“數據鐵籠”,就是把能納入網絡的行政權力全部納入數據庫,讓權力運行全程電子化,處處留痕跡,實現人在干,“雲”在算。
比如用蒙面或整容或造聲進行腐敗問題。這種企圖也沒有用,因為人的聲紋不會改變,就像指紋一樣,儲存在大數據庫中,隻要進行比對就清楚了。人的頭像尺寸、輪廓定位、動作習慣、飲食方式、生化指標、基因序列等,都可以記錄在大數據庫中,一旦需要就抽出來比對,因此外表的改變也無法改變終結果和命運。大數據就是這樣厲害!恪盡職守!
從概念上說,“大的數據”與“大數據”不同,前者是死資源,不能說話,後者是活腦袋,可以像福爾摩斯一樣分析找出線索。大數據可以用於各種社會或自然關繫的分析,能夠使未來更加清晰、更加靠譜,減少隨機性或不確定性,使人們在已知的道路上前進。關鍵是要樹立“大數據思維”,就是遇事就想大數據,相信總能從海量數據中找到答案。本質上,這是一種整體的繫統思維,相信世界上任何事物都是相互聯繫的,就像人體各個器官都是有機聯繫,總能由表及裡,挖出內容。隻要樹立了大數據思維,反腐就像中醫治病,能夠“頭痛看腳”,根據餐廳的數據可以查出加油站的數據,從銀行的數據可以查出賓館的數據,從子女的數據查出父母的數據,從親友的數據找到領導干部的數據。過去沒有互聯網、物聯網、大數據儲存設備和雲計算,無法讓反腐敗工作插上科技的翅膀,因此反腐難以成為完美的科學。現在都有了,於是誕生了計量反腐學,能夠進行精準反腐。這是科技的力量,智慧的映照,大數據的威力。
當代社會的顯著特點是學科交叉融合,文理滲透,新的學科和理論不斷湧現。計量反腐學就是橫向交叉學科,用上了高級數學、大數據、物聯網和雲計算,是一門實用科學,也是一門戰略科學,世界上沒有先例,是中國人自己創造的學科。在計量反腐學視野中,大數據就是照妖鏡、顯微鏡,物聯網就是報警器、手術刀,能使腐敗無處藏身並手到病除。計量反腐學的誕生符合“創新、協調、綠色、開放、共享”的發展理念,順應了時代潮流,回應了社會期盼。我們正走在大數據和物聯網的路上。因此,我們堅信,未來必定是一個清廉光明的新世界。