未來十年,AI迎來“小數據”時代?
“不要相信那種(基于海量數據的AI優勢)炒作?!弊鳛槿駻I和機器學習領域最權威的學者之一,吳恩達教授近期談到自己對下一步AI趨勢的看法。
從事AI研究的人都非常清楚,數據在AI發展中扮演著至關重要的角色。
傳統觀點認為,大量數據支撐起了尖端AI的發展,大數據也一直被奉為打造成功機器學習項目的關鍵之匙。作為深度學習的引擎,大數據與大模型已經成功運行了15年。
如今,預訓練大模型已成為各家打造AI基礎設施的利器,業界出現了各種由大數據構建出的大模型,例如:
Switch Transformer
谷歌于2021年1月11日提出,聲稱參數量從GPT-3的1750億提高到1.6萬億。Switch Transformer基于稀疏激活的專家模型(Mixture of Experts),論文中提到在計算資源相同的情況下,訓練速度可以達到T5(Text-To-Text Transfer Transformer)模型的4-7倍。
MT-NLG
2021年年底,英偉達與微軟聯合發布了MT-NLG,該模型含參數5300億個,宣稱是目前最大的且最強的語言生成預訓練模型。
悟道2.0
2021年6月,北京智源研究院發布悟道2.0,參數規模達到1.75萬億,是GPT-3的10倍,超過了谷歌Switch Transformer的1.6萬億參數記錄。
“封神榜”
2021年11月,在深圳IDEA大會上,粵港澳大灣區數字經濟研究院(簡稱“IDEA”)理事長沈向洋正式宣布,開啟“封神榜”大模型開源計劃,涵蓋五個系列的億級自然語言預訓練大模型,其中包括了最大的開源中文BERT大模型“二郎神”系列。
但值得注意的是,在某些場景下,大數據并不適用,“小數據”才是更好的解決方案。
未來AI從大數據轉向小數據
盡管業界在大數據和大模型取得了飛躍性的成果,但是這種規?;椒?,并不適用于數據集不夠龐大的新興行業或傳統行業。
在傳統行業,基于公開數據的預訓練的大模型幾乎派不上用場。
“龐大的搜索數據、經濟數據對于檢測零部件缺陷毫無用處,對于醫療記錄也沒有太大的幫助。”吳恩達教授表示。
更困難的是,與可獲取海量用戶數據的互聯網公司不同,傳統企業沒有辦法收集海量的特定數據來支撐AI訓練。
例如,在汽車制造業中,由于精益6-sigma管理技術的廣泛應用,大多數零件制造商和一級供應商都盡量保證每百萬批次的產品中最多出現4個不合格產品。于是,制造商們就缺少了不合格產品的樣本數據,從而很難訓練出性能良好的用于產品質檢的視覺檢測模型。
最近一次的MAPI調查顯示:58%的研究對象認為,部署AI解決方案最主要的困難是數據源的缺乏。
正如吳恩達教授所言:“過去十年,AI最大的轉變是深度學習,而接下來的十年,我認為會轉向以數據為中心。隨著神經網絡架構的成熟,對于許多實際應用來說,瓶頸將會存在于“如何獲取、開發所需要的數據”。
隨著各國數據和隱私安全法規紛紛落位,對AI技術監管收緊,AI的大數據紅利期已經一去不復返。
根據Gartner的報告,到2025年,70%的組織將被迫將重點從大數據轉移到小數據和泛數據,為分析提供更多上下文——并減少AI對數據的需求。
但這并不意味著AI的發展會受阻。相反,在小數據時代,AI同樣大有可為。
吳恩達教授認為,基于融合式學習、增強式學習、知識轉移等方法,小數據也可以發揮大的作用,未來AI的趨勢之一是將從大數據向小數據過渡。
小數據如何驅動AI?
需要注意的是,小數據的“小”并不僅僅代表數據量小,也要求質量高的數據,這一點尤為重要。小數據是指使用符合需求的數據類型構建模型,從而生成商業洞察和實現自動化決策。
我們經常會看到有人對AI期望過高,僅僅收集幾張圖片數據,就期望獲得一個高質量的模型。在實際部署時,是要找出最適合用于模型構建的那部分數據,用于輸出正確內容。
對此,吳恩達教授舉例道:一個經過訓練的機器學習系統在大部分數據集上的表現還不錯,卻只在數據的一個子集上產生了偏差。這時候,如果要為了提高該子集的性能,而改變整個神經網絡架構,這是相當困難的。但是,如果能僅對數據的一個子集進行設計,那么就可以更有針對性的解決這個問題。
例如,當背景中有汽車噪音時,有一個語音識別系統的表現會很差。了解了這一點,就可以在汽車噪音的背景下收集更多的數據,而不是所有的工作都要收集更多的數據,那樣處理起來會非常昂貴且費時。
再比如,智能手機上有許多不同類型的缺陷,可能會是劃痕、凹痕、坑痕、材料變色或者其它類型的瑕疵。如果訓練過的模型在檢測缺陷時總體表現很好,但在坑痕上表現得很差,那么合成數據的生成就可以更有針對性地解決這個問題,只為坑痕類別生成更多的數據。
事實上,小數據并不是一個全新的課題,在機器學習領域,小數據的處理方法已經越來越多。
少樣本學習
通過少樣本學習技術,為機器學習模型提供少量訓練數據,適合在模型處于完全監督學習狀態而訓練數據不足時使用。
少樣本學習技術經常應用于計算機視覺領域。在計算機視覺中,模型可能不需要很多示例來識別某一對象。例如,具有用于解鎖智能手機的面部識別算法,無需數千張本人的照片便可開啟手機。
知識圖譜
知識圖譜屬于二級數據集,因為知識圖譜是通過篩選原始的大數據而形成的。知識圖譜由一組具有定義含義并描述特定域的數據點或標簽組成。
例如,一個知識圖譜可能由一系列著名女演員名字的數據點組成,共事過的女演員之間以線(或稱之為邊)連接起來。知識圖譜是一種非常有用的工具,以一種高度可解釋和可重復使用的方式組織知識。
遷移學習
當一個機器學習模型作為另一模型的訓練起點,以幫助此模型完成相關任務時,就需要用到遷移學習技術。
從本質上講,是將一個模型的知識遷移到另一個模型。以原始模型為起點,再使用額外數據來進一步訓練模型,從而培養模型處理新任務的能力。如果新任務不需要原始模型的某些構成部分,也可以將其刪除。
在自然語言處理和計算機視覺等需要大量計算能力和數據的領域,遷移學習技術尤為有效。應用遷移學習技術可以減少任務的工作量和所需時間。
自監督學習
自監督學習的原理是,讓模型從現有的數據中收集監督信號。模型利用現有數據來預測未觀測到的或隱藏的數據。
例如,在自然語言處理中,數據科學家可能會在模型中輸入一個缺少單詞的句子,然后讓這個模型預測所缺少的單詞。從未隱藏的單詞中獲得足夠的背景線索后,模型便學會識別句中隱藏的單詞。
合成數據
當給定數據集存在缺失,而現有數據無法填補時,就可以利用合成數據。
比較普遍的示例是面部識別模型。面部識別模型需要包含人類全部膚色的面部圖像數據,但問題是,深色人臉的照片比淺色人臉的照片數據要少。數據科學家可以人工創建深色人臉數據,以實現其代表的平等性,而不是創建一個難以識別深色人臉的模型。
但機器學習專家必須在現實世界中更徹底地測試這些模型,并在計算機生成的數據集不足時,添加額外的訓練數據。
小數據的大潛力
如今,小數據的潛力正在被業界所重視。
2021年9月,美國網絡安全和新興技術局(簡稱CSET)發布的《小數據人工智能的巨大潛力》報告指出,長期被忽略的小數據(Small Data)人工智能潛力不可估量!
一是,縮短大小實體間AI能力差距。
由于不同機構收集、存儲和處理數據的能力差異較大,AI的“富人”(如大型科技公司)和“窮人”之間正在拉開差距。使用小數據構建AI系統,能夠大幅降低中小型企業進入AI的壁壘,減少傳統企業項目的研發時間和成本,將成為數以萬計的商業項目的重要突破口。
二是,促進數據匱乏領域的發展。
對于許多亟待解決的問題如:為沒有電子健康記錄的人構建預測疾病風險的算法,或者預測活火山突然噴發的可能性,可用數據很少或者根本不存在。
小數據方法以提供原則性的方式來處理數據缺失或匱乏。它可以利用標記數據和未標記數據,從相關問題遷移知識。小數據也可以用少量數據點創建更多數據點,憑借關聯領域的先驗知識,或通過構建模擬或編碼結構假設去開始新領域的冒險。
三是,避免臟數據問題。
小數據方法能讓對“臟數據”煩不勝煩的大型機構受益。不可計數的“臟數據”需要耗費大量人力物力進行數據清理、標記和整理才能夠“凈化”,而小數據方法中數據標記法可以通過自動生成標簽更輕松地處理大量未標記的數據。遷移學習、貝葉斯方法或人工數據方法可以通過減少需要清理的數據量,分別依據相關數據集、結構化模型和合成數據來顯著降低臟數據問題的規模。
四是,減少個人數據的收集。
全球各國都陸續出臺了針對個人數據保護的政策法規,用小數據方法能夠很大程度上減少收集個人數據的行為,通過人工合成數據或使用模擬訓練算法,讓使用機器學習變得更簡單,從而讓人們對大規模收集、使用或披露消費者數據不再擔憂。
結語
AI依賴巨量數據、數據是必不可少的戰略資源,但也絕不能低估小數據的潛力,尤其是在AI走向應用落地的下一個十年中,是時候從大數據轉向小數據、優質數據了。