大數據的來源
在下一代的革命中,無論是工業4.0(國內叫中國制造2025)還是物聯網(甚至是一個全新的協議與標準),隨著數據科學與云計算能力(甚至是基于區塊鏈的分布式計算技術)的發展,唯獨數據是所有系統的核心。
萬物互聯、萬物數據化之后,基于數據的個性化、智能化將是一次全新的革命,將超越100多年前開始的自動化生產線的工業3.0,給人類社會整體的生產力提升帶來一次根本性的突破,實現從0到1的巨大變化。正是在這個意義上,這是一場商業模式的范式革命。商業的未來、知識的未來、文明的未來,本質上就是人的未來。而基于數據智能的智能商業,就是未來的起點。大數據的第一要務就是需要有數據。
關于數據來源,普遍認為互聯網及物聯網是產生并承載大數據的基地?;ヂ摼W公司是天生的大數據公司,在搜索、社交、媒體、交易等各自的核心業務領域,積累并持續產生海量數據。能夠上網的智能手機和平板電腦越來越普遍,這些移動設備上的App都能夠追蹤和溝通無數事件,從App內的交易數據(如搜索產品的記錄事件)到個人信息資料或狀態報告事件(如地點變更,即報告一個新的地理編碼)。非結構數據廣泛存在于電子郵件、文檔、圖片、音頻、視頻以及通過博客、維基,尤其是社交媒體產生的數據流中。這些數據為使用文本分析功能進行分析提供了豐富的數據源泉,還包括電子商務購物數據、交易行為數據、Web服務器記錄的網頁點擊流數據日志。
物聯網設備每時每刻都在采集數據,設備數量和數據量都在與日俱增,包括功能設備創建或生成的數據,例如智能電表、智能溫度控制器、工廠機器和連接互聯網的家用電器。這些設備可以配置為與互聯網絡中的其他節點通信,還可以自動向中央服務器傳輸數據,這樣就可以對數據進行分析。機器和傳感器數據是來自物聯網(IoT)所產生的主要例子。
這兩類數據資源作為大數據金礦,正在不斷產生各類應用。比如,來自物聯網的數據可以用于構建分析模型,實現連續監測(如當傳感器值表示有問題時進行識別)和預測(如警示技術人員在真正出問題之前檢查設備)。國外出現了這類數據資源應用的不少經典案例。還有一些企業,在業務中也積累了許多數據,如房地產交易、大宗商品價格、特定群體消費信息等。從嚴格意義上說,這些數據資源還算不上大數據,但對商業應用而言,卻是最易獲得和比較容易加工處理的數據資源,也是當前在國內比較常見的應用資源。
在國內還有一類是政府部門掌握的數據資源,普遍認為質量好、價值高,但開放程度差。許多官方統計數據通過灰色渠道流通出來,經過加工成為各種數據產品?!洞髷祿V要》把公共數據互聯開放共享作為努力方向,認為大數據技術可以實現這個目標。實際上,長期以來,政府部門間的信息數據相互封閉割裂是治理問題而不是技術問題。面向社會的公共數據開放愿望雖十分美好,但恐怕一段時間內可望而不可即。
對于某一個行業的大數據場景,一是要看這個應用場景是否真有數據支撐,數據資源是否可持續,來源渠道是否可控,數據安全和隱私保護方面是否有隱患;二是要看這個應用場景的數據資源質量如何,是“富礦”還是“貧礦”,能否保障這個應用場景的實效。對于來自自身業務的數據資源,具有較好的可控性,數據質量一般也有保證,但數據覆蓋范圍可能有限,需要借助其他資源渠道;對于從互聯網抓取的數據,技術能力是關鍵,既要有能力獲得足夠大的量,又要有能力篩選出有用的內容;對于從第三方獲取的數據,需要特別關注數據交易的穩定性。數據從哪里來是分析大數據應用的起點,如果一個應用沒有可靠的數據來源,再好、再高超的數據分析技術都是無本之木。我們經??吹?,許多應用并沒有可靠的數據來源,或者數據來源不具備可持續性,只是借助大數據風口套取資金。這是很可悲的。
-
走進可持續發展大數據國際研究中心[2021-09-14]
-
常州大數據產業園入選省級現代服務業集聚示范區[2022-04-13]
-
專訪每日互動CTO 葉新江丨數據智能的未來,是不提大數據但其無所不在的時代[2020-12-28]
-
聚焦315 | 人臉識別引爭議!央視曝光多家企業違法收集人臉信息[2021-03-16]
-
貴州貴陽:大數據融入大健康 智慧醫療觸手可及[2021-05-06]
-
為數字經濟發展釋放政策動力和監管紅利[2021-06-07]
-
網絡安全報告(2022)[2022-02-21]
-
2021大數據發展新趨勢,推動產業數字化轉型[2021-08-30]
-
OneMO模組賦能物聯新趨勢 攜手共創智聯新時代[2020-12-03]
-
四大融合,助力高校優教育人的新基建建設[2020-12-30]
-
新基建加持,大數據產業進入快車道[2020-11-30]