InfoQ 趨勢報告為 InfoQ 讀者提供了一個關于我們認為架構師和技術領導者應該關注的主題的高層級概述。此外,它們還可以幫助 InfoQ 的編輯團隊專注于撰寫新聞和招募文章作者來報道創新技術。
在這份年度報告中,InfoQ 的編輯們討論了人工智能(AI)、機器學習(ML)和數據工程的現狀,以及作為軟件工程師、架構師或數據科學家應該關注的新興趨勢。文章將編輯們的討論整理成了一條技術采用曲線,并提供了支持性評論,以幫助大家了解事物是如何演進的。
在今年的播客(podcast) 中,來自 Chime 的軟件工程師 Sherin Thomas 加入了 InfoQ 編輯團隊。本文中下面的內容總結了其中的一些趨勢,以及不同技術在技術采用曲線中的位置。
生成式 AI
生成式 AI,包括 GPT-3、GPT-4 和 Chat GPT 等大語言模型,現已成為人工智能(AI)和機器學習(ML)行業的主要力量。這些技術已經引起了極大的關注,特別是考慮到它們在過去一年中取得的進展。我們已經看到這些技術被用戶廣泛采用,特別是在 ChatGPT 的推動下。谷歌和 Meta 等多家公司已經宣布了自己的生成式 AI 模型。
我們期望的下一步是更多地關注 LLMOps,以便在企業環境中操作這些大語言模型。對于 prompt 工程是否會成為未來的一個大主題,或者它是否會被廣泛采用以至于每個人都能夠為自己所使用的 prompt 做出貢獻,我們存在分歧。
向量數據庫和嵌入存儲
隨著 LLM 技術的興起,人們越來越關注向量數據庫和嵌入存儲。一個吸引人的應用是使用句子嵌入來增強生成式 AI 應用程序的可觀察性。
對向量搜索數據庫的需求源于大語言模型的限制,這些模型具有有限的 token 歷史記錄。向量數據庫可以將文檔摘要存儲為這些語言模型生成的特征向量,從而可能產生數百萬或更多的特征向量。對于傳統數據庫,隨著數據集的增長,查找相關文檔會變得很有挑戰性。向量搜索數據庫實現了高效的相似性搜索,允許用戶定位查詢向量的最近鄰居,從而增強了搜索過程。
一個顯著的趨勢是對這些技術的投資激增,這表明投資者認識到了它們的重要性。然而,開發人員的采用速度較慢,但預計在未來幾年會加快。Pinecone、Milvus 等向量搜索數據庫和 Chroma 等開源解決方案正在獲得關注。數據庫的選擇取決于特定的應用程序和所搜索數據的性質。
在包括對地觀測在內的各個領域,向量數據庫已顯示出它的潛在實力。例如,美國國家航空航天局(NASA)利用自監督學習和向量搜索技術來分析地球的衛星圖像,以幫助科學家追蹤颶風等天氣現象。
機器人的成本正在下降。過去,腿型平衡機器人很難實現,但現在已經有一些型號的機器人售價約為 1500 美元。這使得更多的用戶可以在他們的應用程序中使用機器人技術。機器人操作系統(ROS)仍然是該領域的領先軟件框架,但像 VIAM 這樣的公司也在開發中間件解決方案,以使集成和配置機器人開發插件變得更加容易。
我們預計,無監督學習和基礎模型的進步將轉化為能力的提升。例如,通過將大語言模型集成到機器人的路徑規劃中,以實現使用自然語言來進行規劃。
負責任且合乎道德的人工智能
隨著人工智能開始影響全人類,人們對負責任且合乎道德的人工智能越來越感興趣。人們同時呼吁對大語言模型進行更嚴格的安全保護,同時也對此類模型提醒用戶的現有保障措施輸出感到沮喪。
對于工程師來說,重要的是要牢記需要改善所有人的生活,而不僅僅是改善少數人的生活。我們預計人工智能監管將產生與幾年前 GDPR 類似的影響。
我們已經看到一些人工智能因為糟糕的數據而失敗。數據發現、操作、數據沿襲、標記和良好的模型開發實踐將成為中心。數據對可解釋性至關重要。
數據工程
現代數據工程的特點是動態地轉向更加分散和靈活的方法來管理不斷增長的數據量。數據網格(Data Mesh) 是一個新穎的概念,它的出現是為了解決集中式數據管理團隊成為數據運營瓶頸所帶來的挑戰。它主張建立一個跨域分區的聯邦數據平臺,將數據視為一種產品。這允許域所有者擁有對其數據產品的所有權和控制權,從而減少了對中心團隊的依賴。盡管數據網格的采用前景廣闊,但可能面臨與專業知識相關的障礙,需要先進的工具和基礎設施來實現自助服務功能。
數據可觀察性在數據工程中已經變得至關重要,類似于應用程序架構中的系統可觀察性。可觀察性在所有層面上都是必不可少的,包括數據的觀察性,尤其是在機器學習的背景下。對數據的信任是人工智能成功的關鍵,數據可觀察性解決方案對于監測數據質量、模型漂移和探索性數據分析至關重要,以確保可靠的機器學習結果。數據管理的這種范式轉變以及跨數據和機器學習(ML)管道的可觀察性集成反映了現代數據工程的發展前景。
曲線的更新的相關解釋
這份趨勢報告還提供了一張更新的圖表,顯示了我們對某些技術的看法。這些類別基于 Geoffrey Moore 的 《跨越鴻溝》(“Crossing the Chasm”) 一書。在 InfoQ,我們主要關注那些尚未跨越鴻溝的類別。
從創新者到早期采用者的一個顯著升級是“人工智能編碼助手”。盡管它們在過去一年非常新,幾乎沒有使用過,但我們看到越來越多的公司將其作為一項服務提供給員工,以提高他們的效率。它并不是每個技術棧的默認部分,我們仍在探索如何最有效地使用它們,但我們相信其采用率將會繼續增長。
我們認為現在正在跨越鴻溝的是自然語言處理。這對任何人來說都不會感到驚訝,因為在 ChatGPT 取得巨大成功之后,許多公司目前都在試圖找出如何在他們的產品中采用生成式人工智能的功能。因此,我們決定讓它跨越鴻溝,進入早期多數的類別。它在這里仍然有很大的增長潛力,時間會告訴我們更多關于這項技術的最佳實踐和能力。
有一些值得注意的類別根本沒有移動。這些技術包括合成數據生成、腦機接口和機器人技術。所有這些似乎都一直被困在創新者的范疇里。在這方面最有希望的是合成數據生成主題,最近隨著 GenAI 的炒作,該主題受到越來越多的關注。我們確實看到越來越多的公司在談論生成更多的訓練數據,但還沒有看到足夠多的應用程序在它們的技術棧中實際使用這些數據來保證它進入到早期采用者的類別。多年來,機器人技術一直備受關注,但它的采用率仍然太低,我們無法保證它的發展。
我們還在圖中引入了幾個新的類別。一個值得注意的是向量搜索數據庫,這是 GenAI 炒作的副產品。隨著我們對如何將概念表示為向量有了更多的理解,我們也更需要有效地存儲和檢索所述向量。我們還將可解釋的人工智能添加到創新者的類別中。我們相信,計算機解釋它們為什么會做出某個決定,對于廣泛采用以對抗幻覺和其他危險至關重要。然而,我們目前還沒有看到足夠的行業工作來保證它進入更高的類別。
結 論
人工智能(AI)、機器學習(ML)和數據工程領域每年都在不斷發展。在技術能力和可能的應用方面仍有很大的增長。對于我們 InfoQ 的編輯來說,能夠如此接近這一進展是令人興奮的,我們期待著明年能做出同樣的報告。在播客中,我們對未來一年做了一些預測,從“將不會有 AGI”到“自動代理將成為一件事”。我們希望你喜歡聽播客并閱讀這篇文章,并希望能在本文的下面看到你的預測和評論。
-
數據庫
+關注
關注
7文章
3822瀏覽量
64506 -
人工智能
+關注
關注
1792文章
47409瀏覽量
238924 -
機器學習
+關注
關注
66文章
8424瀏覽量
132765
原文標題:InfoQ 2023 年趨勢報告:數據工程、AI 和 ML
文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論