今天的高級人工智能開發(fā)仍然深深植根于 1950 年代的計(jì)算機(jī)科學(xué)哲學(xué),包括“垃圾進(jìn),垃圾出”這句話。這句格言提醒我們,人工智能模型的好壞取決于它所訓(xùn)練的數(shù)據(jù)。
從晚期癌癥篩查到推薦一部新電影,數(shù)據(jù)科學(xué)家需要大量多樣的數(shù)據(jù)集來訓(xùn)練 AI 模型。對于現(xiàn)實(shí)世界的數(shù)據(jù)來說,這可能是一個(gè)重大挑戰(zhàn)。通常出于隱私原因受到保護(hù),真實(shí)數(shù)據(jù)可能很難獲得,而且獲取成本也很高,而且可能不像預(yù)期的那樣多樣化。
Rev Lebaredian(來源:英偉達(dá))
幸運(yùn)的是,人工智能可以通過合成數(shù)據(jù)集自行救援——計(jì)算機(jī)生成的模擬可確保提供充足的多樣化和匿名訓(xùn)練數(shù)據(jù)。數(shù)據(jù)是完全匿名的,可以使用各種方法創(chuàng)建,例如通用對抗網(wǎng)絡(luò)或使用更多非 AI 程序的模擬器,以確保與真實(shí)數(shù)據(jù)非常相似。通過使用合成數(shù)據(jù)集,人工智能開發(fā)人員可以從更高性能和更健壯的模型中受益。
數(shù)據(jù)的騙局
隨著開發(fā)人員達(dá)到現(xiàn)成數(shù)據(jù)的極限,他們很快將需要尋找其他地方來改進(jìn)他們的模型。合成數(shù)據(jù)是計(jì)算機(jī)模擬或算法生成的信息,可替代現(xiàn)實(shí)世界的數(shù)據(jù),以填補(bǔ)模型需求和數(shù)據(jù)可用性之間的差距。
數(shù)據(jù)科學(xué)家有很多方法可以生成合成數(shù)據(jù)。模擬和 3D 渲染是很好的起點(diǎn)。例如,一輛自動(dòng)駕駛汽車通常是通過讓它在真正的道路上行駛之前駕駛數(shù)千英里的虛擬道路來訓(xùn)練的。通用對抗網(wǎng)絡(luò),即創(chuàng)建新數(shù)據(jù)的生成模型,也可用于數(shù)據(jù)生產(chǎn)。多虧了這些,合成數(shù)據(jù)收集變得比以往任何時(shí)候都更容易獲得和更有效。
分析公司 Gartner 最近報(bào)告*,合成數(shù)據(jù)正處于從一個(gè)雜耍變成未來人工智能背后的主要力量的軌道上。Gartner 在一項(xiàng)研究中指出,“合成數(shù)據(jù)通過允許較小的組織在沒有大量數(shù)據(jù)的情況下創(chuàng)建 AI 模型,有效地解決了他們的冷啟動(dòng)問題,從而使競爭環(huán)境民主化。”
人工數(shù)據(jù)滿足 AI 的關(guān)鍵需求
AI 已經(jīng)無處不在,因?yàn)樗呀?jīng)通過智能設(shè)備和技術(shù)融入我們的生活,涵蓋醫(yī)療保健、零售、娛樂、自動(dòng)駕駛汽車、智能空間等領(lǐng)域,這些智能設(shè)備和技術(shù)正在加速我們走向未來。
將人工智能用作數(shù)字鏡子是其發(fā)展的下一步。然而,特定環(huán)境中的變化可能是無數(shù)的。襯衫的顏色可能有多種色調(diào)和色調(diào)。房間的燈光隨著太陽的移動(dòng)或燈具的開啟而變化。
這個(gè)隧道中車輛的場景使用了間接照明。這是一個(gè)難以實(shí)時(shí)準(zhǔn)確渲染的場景示例,但在 Nvidia Drive Sim 中由 Nvidia Omniverse RTX 渲染器啟用(來源:Nvidia)
捕捉條件的復(fù)雜性使得各種合成數(shù)據(jù)集對于 AI 模型制作至關(guān)重要。與從主要來源收集數(shù)據(jù)所需的時(shí)間和費(fèi)用相比,可以收集合成數(shù)據(jù)為數(shù)字雙胞胎提供動(dòng)力。這可以最大限度地訪問大量不同的數(shù)據(jù),并增加免于隱私問題的好處。
Gartner 注意到這一人工智能資產(chǎn)的重要性,還指出,“合成數(shù)據(jù)通常被視為質(zhì)量較低的替代品,只有在真實(shí)數(shù)據(jù)難以獲取、價(jià)格昂貴或受到監(jiān)管限制時(shí)才有用。這錯(cuò)過了合成數(shù)據(jù)的真正潛力。事實(shí)是,如果沒有合成數(shù)據(jù),您將無法構(gòu)建高質(zhì)量、高價(jià)值的 AI 模型。”
現(xiàn)實(shí)真的很隨機(jī)
多樣化的訓(xùn)練數(shù)據(jù)集是構(gòu)建 AI 模型的關(guān)鍵,但現(xiàn)實(shí)世界的數(shù)據(jù)可能不足。域隨機(jī)化的內(nèi)置功能使機(jī)器人模擬應(yīng)用程序和合成數(shù)據(jù)生成工具 Nvidia Isaac Sim 能夠隨機(jī)改變模擬中的紋理、顏色、照明和位置。
Nvidia Drive Sim 也是如此,這是一個(gè)用于測試自動(dòng)駕駛汽車的模擬平臺(tái)。它能夠改變路牌的大小或語言或太陽的位置。
O'Reilly Media 的報(bào)告“使用合成數(shù)據(jù)加速 AI ”中強(qiáng)調(diào)了這些功能,該報(bào)告強(qiáng)調(diào)安全和效率是模擬中的優(yōu)先事項(xiàng)。根據(jù)該報(bào)告,“使用合成數(shù)據(jù)可以解決的一些問題成本太高或太危險(xiǎn)(例如,在訓(xùn)練模型控制自動(dòng)駕駛汽車的情況下),無法使用更傳統(tǒng)的方法解決,或者根本無法解決。”
Nvidia Isaac 模擬引擎創(chuàng)建了更好的逼真環(huán)境,并簡化了合成數(shù)據(jù)生成和域隨機(jī)化,為工程師和開發(fā)人員在廣泛的應(yīng)用程序中訓(xùn)練和部署機(jī)器人構(gòu)建數(shù)據(jù)集(來源:Nvidia)
隨機(jī)化條件(例如照明、顏色和對象放置)對于創(chuàng)建各種合成訓(xùn)練數(shù)據(jù)以實(shí)現(xiàn)更準(zhǔn)確的 AI 模型至關(guān)重要。這些數(shù)字世界的變化反映了現(xiàn)實(shí)生活中經(jīng)常出現(xiàn)的意外和不可預(yù)測的變化。
例如,在工廠中,當(dāng)不同的工人處理同一個(gè)物體時(shí),一個(gè)工人處理的物體可能最終處于不同的位置。在訓(xùn)練機(jī)器人如何使用合成數(shù)據(jù)和模擬在真實(shí)工廠中工作時(shí),環(huán)境條件(如定位)的變化非常重要。這些能力使強(qiáng)大的智能工廠和城市的生產(chǎn)成為可能。
圖形與人工智能之間的關(guān)鍵環(huán)節(jié)
除了虛擬城市和工廠,合成數(shù)據(jù)為計(jì)算機(jī)圖形學(xué)的復(fù)興鋪平了道路,因?yàn)槟M 3D 世界現(xiàn)在是訓(xùn)練 AI 模型的關(guān)鍵組成部分。在 3D 世界中,物體應(yīng)該下落,身體部位應(yīng)該彎曲,皮膚應(yīng)該被貼上紋理以與人類的所有運(yùn)動(dòng)部位非常相似。
個(gè)人在虛擬世界中出現(xiàn)的不同方式,具有自然的身體變化、面部特征和行為,說明了合成數(shù)據(jù)的真正力量。多樣化的合成數(shù)據(jù)可以準(zhǔn)確地彌合虛擬世界和現(xiàn)實(shí)世界之間的差距,其特征從萬有引力定律到身體動(dòng)作再到皮膚紋理。
人類因不同的膚色、反應(yīng)和表情而彼此不同,這些都可以在媒體制作和數(shù)字復(fù)制品中展示。數(shù)字人類只是難題的一部分,因?yàn)檎彰骱臀矬w定位等環(huán)境條件在計(jì)算機(jī)圖形和模擬中同樣重要。
例如,自動(dòng)駕駛汽車需要能夠在太陽低落時(shí)做出反應(yīng),這可能會(huì)妨礙能見度。合成數(shù)據(jù)可以通過創(chuàng)建更真實(shí)的虛擬環(huán)境來幫助改善模擬世界,這些虛擬環(huán)境是真正的數(shù)字雙胞胎。生成物理上準(zhǔn)確的、基于物理的環(huán)境和人類極具挑戰(zhàn)性,需要高級模擬、高性能計(jì)算資源和大量數(shù)據(jù)。
Nvidia Drive Sim 使用高保真和物理精確的模擬來創(chuàng)建一種安全、可擴(kuò)展且具有成本效益的方式,將自動(dòng)駕駛汽車帶到我們的道路上(來源:Nvidia)
人工智能推進(jìn)自己的未來
人工智能使用合成數(shù)據(jù)進(jìn)行自我改進(jìn)的能力使其成為一項(xiàng)獨(dú)特而強(qiáng)大的技術(shù)。綜合數(shù)據(jù)是提高用于高級模型和模擬的穩(wěn)健訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量的關(guān)鍵。
每一波人工智能創(chuàng)新都建立在上一波的基礎(chǔ)上。合成數(shù)據(jù)的機(jī)會(huì)將超越其在當(dāng)前人工智能應(yīng)用中的應(yīng)用,擴(kuò)展到農(nóng)業(yè)、自動(dòng)駕駛汽車、醫(yī)療保健、機(jī)器人等行業(yè)。
在為 AI 開發(fā)數(shù)據(jù)源時(shí),不要讓“人工”和“合成”這兩個(gè)詞阻止您。數(shù)據(jù)可能是人為創(chuàng)建的,但結(jié)果對于真正的成功至關(guān)重要。很快,將出現(xiàn)一個(gè)極其精確的數(shù)字現(xiàn)實(shí)鏡像,使用合成數(shù)據(jù)高效準(zhǔn)確地構(gòu)建。
——Rev Lebaredian 是 Nvidia 的仿真技術(shù)副總裁
*Gartner,“Maverick Research:忘記你的真實(shí)數(shù)據(jù)——合成數(shù)據(jù)是 AI 的未來”,Leinar Ramos,Jitendra Subramanyam,2021 年 6 月 24 日。
審核編輯 黃昊宇
-
AI
+關(guān)注
關(guān)注
87文章
31042瀏覽量
269391 -
人工智能
+關(guān)注
關(guān)注
1792文章
47377瀏覽量
238881 -
先進(jìn)技術(shù)
+關(guān)注
關(guān)注
0文章
24瀏覽量
6244
發(fā)布評論請先 登錄
相關(guān)推薦
評論