在此以前,從未有過一個算法或者技術能同時出現在我的大學專業群(學術)、工作群(業務)、娛樂群(搞笑)、B站首頁和小紅書首頁之中。
而在過去半年里, text2img generative model技術成功出現在上述所有平臺,大家在校友群討論Stable Diffusion算法,在工作群討論商業化路徑,在沙雕群討論鮭魚洄游和不能游泳的小女孩,在小紅書有博主玩彩妝藝術生成,在B站也有各路up主開發出種種神奇的應用……在剛剛截稿的ICLR(一個橫跨vision, NLP, ML/RL, robotics的會議)的5000篇投稿中,title/abstract帶有diffusion字樣的文章達到了200篇,在233篇得分為7分(含)及以上的論文中,共有13篇涉及擴散模型。
在這類生成式AI出現以前,人們對AI的應用主要在于決策性歸納行為,比如利用機器分析一組數據,并在其中找到許多用例的模式;比如垃圾郵件檢測、人臉識別、發貨時間預測和抖音視頻推送,算法在大量數據中變得越來越聰明而精確,這被稱為分析型AI。
在當年的“AI會搶走人類哪些工作”預測中,自從AlphaGo擊敗人類冠軍棋手后,我們對于AI決策能力的質疑就畫上了句號,從數據分析、生產管理到自動駕駛等,我們開始把許多領域的控制權都交到AI手里。
繪畫領域本是人類長期保留的自留地,原有的分析型AI無法在創造性工作上與人類競爭——它們被降格為只做分析和機械性的認知工作。我們人類對比機器來說,最大的優勢在于創造。隨著生成式AI的出圈,創作也開始失守。人們意識到機器開始嘗試創造有意義和美麗的東西,在更多領域與傳統工作方式和產品競爭,比如在美國科羅拉多州博覽會的數字藝術類美術比賽中獲得第一名的“太空歌劇院”就是AI的產物。
璞躍中國移動出行團隊通過對“文本自動生成”和“圖像自動生成”兩個領域的研究,認為AIGC確實會搶走一部分的“舊蛋糕”,但隨著元宇宙和內容經濟的底層、硬件的迅速發展,這兩個領域的內容自動生成卻同時也是做蛋糕的手,可以幫助迅速搭建尚不成熟的內容生態。
在它逐步發展的過程中,璞躍中國移動出行團隊認為:
在標準化強度越高、越結構化的內容中,AI生成內容徹底替代人工創作者的可能性越大;
隨著AIGC越來越同質化、高效化,生成內容的可控性決定了其是否會成為商業創作者助手的存在,還是替代原有內容產出者的角色;
AI批量生成的非結構化內容,如3D視頻、VRAR領域內容,可以幫助硬件和平臺廠商打破生態瓶頸,迎來行業爆發。
生成式AI能應用的場景非常多,從不同類別的文本、圖像到策略的生成都可以裝進各個口袋,在這些領域中,文本的結構化屬性最強,發展最早,因此文本和語音生成是目前生成式AI最成熟的領域。
AI生成文本
非交互式文本生成
文本生成又分為交互式和非交互式,非交互式更接近常規寫作這個領域,AI應用最多的在于自動輸入更正或者輸出一些中短篇內容。
璞躍中國移動出行團隊認為,未來在新聞播報等更為結構化、標準化的領域,可以完全適用算法生成的稿件;但對用于創意寫作、營銷寫作或者劇情續寫的非結構化寫作來說,模型的可控性還不足以做到給AI一個題目,讓AI生成可以直接使用的千字文萬字文,它只能在文字和用詞上做一些擴展,人們還需要對自動生成的內容進行迭代。
此模型的作用,是在創作者寫作的過程當中,根據現有的文本產生新的想法,或者重寫已有文句,從而幫助創作者突破創作瓶頸。隨著數量和模型的累積,未來將有更高質量的輸出、更多形式的內容和更好的垂直領域深度內容產生。比如谷歌的LaMDA ,本身的設計功能只是句子補全;比如通過給定的一個單詞,來預測下一個最有可能的單詞是什么。
隨著時間的積累,LaMDA的模型規模和訓練數據量大到讓它獲得了一種潛意識的能力,可以從語言中學習很多更高層次的概念和聯想,從而對于創作者的工作流程帶來非常大的幫助。現在的創作者可以用這個模型重寫語句,生成文章細節內容,也可以讓它遣詞造句,讓原有的行文“更有趣”或者“更憂郁”一點。
交互式文本生成
自動客服、聊天機器人和交互式文本游戲都屬于交互式文本生成,目前現有的交互式文本都是基于給定的語句庫給出答案,而不能創造新的回答方式。生成式AI可以做到徹底地代替傳統人工客服,回答更復雜、開創性的問題。
代碼生成
如果說AI文字生成用的是常規人類文本,AI代碼生成則是機器語言的自動生成。GitHub基于 OpenAI 推出的Copilot,可以說是程序員神器了,它是在數十億行開源代碼上訓練,并在寫代碼的同時默默給出整行,甚至只要填寫注釋和調用的包,它就能給出完整算法的建議。在短期內,這一技術的應用將大大提升開發人員的生產力和效率,未來更多的非開發人員也將能利用代碼生成,完成自己的內容開發。
AI文字生成的蛋糕在哪里:
1/ 結構化自動創作:新聞稿、公文件等標準化強度高的創作領域適用于AI文字生成;
2/ 非結構化創意輔助:創意創作者的細節優化、文采優化;
3/ 交互式文本:對比普通人完成交互,AI更適合滿足長時間、高反應速度的客服及娛樂需求;
4/ 代碼生成:降低開發人員門檻,讓更多普通技術人員參與開發過程,優化低代碼、無代碼平臺研發。
AI文字生成切走的蛋糕在哪里:
1/ 標準化強度高的文案內容創作;
2/ 傳統NLP文本客服將依然存在,用于滿足簡單問題解答,但需求會顯著降低;
3/ 代碼生成將與此前的低代碼、無代碼平臺融合,拉低開發人員和非開發人員的差距。
圖片生成出現的時間最短,但是最有成為殺手級應用的傳播能力的一種。比起單調乏味的文字和專業性更強的代碼開發,過去對AI的運用“更多像是學術界的自嗨”,今年AI創作的技術利用了基于大模型的diffusion model帶來了文字轉圖像的交互方式,允許大眾參與自主創作,大眾屬性和圖片生成自帶的傳播能力是最近AIGC爆火的主要原因。
2D創意圖像生成
2D創意圖像生成是最近爆火的diffusion的主要功能,目前這個功能主要面向C端用戶,而且多以免費的形式出現。在創意圖像生成,功能性圖像生成方面,如根據指定要求生成商業用途的海報、模特圖、logo等,這些商業圖片盡管目前尚未廣泛應用,但在未來有望落地大規模低成本創作的機會。除了版權問題,AI生成的圖像離商業化最大的阻礙在于現在絕大多數AI對圖畫細節的處理、可控性和文本理解能力尚有欠缺,所以常常會出現比例失調,看起來怪異猙獰,或者對著類似“鮭魚洄游”有著獨特的理解的情況。
功能性圖像生成
當下的圖片生成更多是做到了好看,但是沒有細節。如果想在工業級別或者企業級別上使用內容生成,現在的模型還缺少科學的精準和可控性,這也是目前AI的創作技術的發展方向之一。
如果可以達到過程可控,相關技術就可以成為創作者的輔助插件,正如之前當PS剛剛推出各種筆刷,盡管剛出現時藝術家也有反感態度,但時至如今,筆刷已經做到了節能增效的作用,幫助藝術家更快速簡便地完成創作,幫助創作者完成構建創意與實現的分離。
從這個角度來看,可以把創作者和AIGC的關系比作攝影師和照相機,創作者(攝影師)構建拍攝思路并進行規劃,對相機進行參數配置,正如人們對AI模型進行參數配置,即可直接點擊輸出作品。創意和實現呈現出分離狀態,實現過程變為一種可重復勞動,可以由AIGC來完成,并逐步將成本推向趨近于0。
視頻、3D模型、VR圖像
比起普通2D圖像更進一步的是視頻、3D模型和VR圖像,在這幾個領域AI并沒有太多的積累,卻可以打破目前內容的投入產出比極低的痛點。無論是VRAR硬件設備廠商,還是元宇宙平臺運營商,目前都面臨“生態內容不足的痛點”,不足5秒的3D鏡頭需要耗費超2個月的時間完成,難以規模化生產,通過AI快速生成這類進階圖像則可以打破這一生態瓶頸。
RCT Studio打造的Morpheus引擎能夠通過深度學習,輸入目標文字即可渲染成3D資源和動畫;同樣NeRF能夠利用幾張靜態圖像生成多視角的3D動畫。隨著AI技術迭代,引擎渲染過程加速,人們期待在未來1-2年內看到基礎的3D和視頻模型的出現,打開電影、游戲、虛擬現實、建筑和實物產品設計等大型創意市場,同時帶動硬件、影視、游戲等其他產業。
AI圖像生成的蛋糕在哪里:
1/ 2D領域:批量藝術性內容,如海報、藝術頭像等生成,藝術家創作輔助插件;
2/ 3D/VR/AR領域:模型快速渲染,數字人、仿真人等元宇宙內容生態搭建;
3/ 視頻領域:廣告內容生成。
無論是元宇宙平臺、還是車企、互聯網公司的營銷需求,AI生成的內容都可以低成本、高效率的滿足。
AI圖像生成切走的蛋糕在哪里:
1/ “獨一無二”版權在不同領域的應用,如服裝、電子產品、建筑藝術品等
無論生成式AI的出現搶走了蛋糕還是做大了蛋糕,璞躍中國移動出行團隊認為,一切新技術和應用的出現,最終目的都應該是提高人們的工作效率,從而進一步提升生活體驗。本文僅給大家列舉了一部分有意思的生成式AI應用場景和舊市場之間的關系,在AIGC系列的下一篇中,我們將從商業模式出發,探討商業化落地更快,變現能力更強的案例。
審核編輯黃昊宇
-
AI
+關注
關注
87文章
30758瀏覽量
268903 -
生成式AI
+關注
關注
0文章
502瀏覽量
471
發布評論請先 登錄
相關推薦
評論