一個(gè)詞來(lái)介紹我,我是個(gè)經(jīng)歷者,但更像一個(gè)觀察者。我其實(shí)是整個(gè)軟件行業(yè)過(guò)去 20 多年的一個(gè)見(jiàn)證者和觀察者。作為觀察者要有客觀總結(jié)能力,然后包括對(duì)未來(lái)的一些看法,但是未來(lái)的看法不一定對(duì),比如說(shuō) GPT 的看法沒(méi)有人能打包票。
——PingCAP 副總裁 劉松
每個(gè)時(shí)代都需要觀察者,尤其是在技術(shù)變革加速的今天。在 GPT 帶來(lái)的震蕩之中,各領(lǐng)域技術(shù)都在尋找新的方向, 數(shù)據(jù)庫(kù)技術(shù)也不例外,動(dòng)作快的數(shù)據(jù)庫(kù)和服務(wù)廠(chǎng)商也已經(jīng)集成了 AI 工具做SQL 自動(dòng)生成與性能優(yōu)化。然而,面對(duì) “來(lái)勢(shì)洶洶” 的 AI 技術(shù)浪潮,數(shù)據(jù)庫(kù)技術(shù)的方向在哪?又該如何用好 AI?OSCHINA 采訪(fǎng)了 GOTC2023 出品人、PingCAP副總裁劉松,請(qǐng)他談?wù)勛罱鬅岬?AI 技術(shù),以及在新浪潮之下,數(shù)據(jù)技術(shù)的未來(lái)。
劉松,PingCAP 副總裁
簡(jiǎn)介:曾經(jīng)擔(dān)任甲骨文大中國(guó)區(qū)技術(shù)戰(zhàn)略部總經(jīng)理,阿里云副總裁等職務(wù),曾負(fù)責(zé)阿里云的云計(jì)算生態(tài)構(gòu)建,智庫(kù)合作,人才培養(yǎng)計(jì)劃等工作。劉松長(zhǎng)期活躍于中國(guó)軟件產(chǎn)業(yè),親身觀察互聯(lián)網(wǎng)與信息化產(chǎn)業(yè)融合趨勢(shì),在軟件與互聯(lián)網(wǎng)行業(yè)發(fā)展趨勢(shì),云計(jì)算和開(kāi)源產(chǎn)業(yè)的商業(yè)模式構(gòu)建,數(shù)據(jù)庫(kù)技術(shù)發(fā)展趨勢(shì),企業(yè)數(shù)字化轉(zhuǎn)型等方面多年的實(shí)踐經(jīng)驗(yàn)。
5 月 28 日,劉松擔(dān)任 GOTC 2023 “數(shù)據(jù)與數(shù)據(jù)庫(kù)技術(shù)” 分論壇出品人,并發(fā)表《從 HTAP 到 Serverless,TiDB 的技術(shù)演進(jìn)之路》主題演講,敬請(qǐng)期待!
OSCHINA:您最近這段時(shí)間很關(guān)注GPT的動(dòng)態(tài),到目前為止,對(duì)它最深的感觸是什么?
劉松:
我覺(jué)得可以用一個(gè)詞 —— 涌現(xiàn),Emergency。
我個(gè)人是一個(gè)復(fù)雜性系統(tǒng)科學(xué)的愛(ài)好者,大家可能聽(tīng)說(shuō)過(guò)圣達(dá)菲研究所,致力于復(fù)雜系統(tǒng)科學(xué)的研究。在八九十年代的美國(guó),涌現(xiàn)有一個(gè)時(shí)代特定的含義 —— 當(dāng)一個(gè)復(fù)雜性系統(tǒng)超過(guò)某個(gè)臨界點(diǎn),就會(huì)誕生很多按照原本系統(tǒng)的線(xiàn)性思維下預(yù)測(cè)不可能發(fā)生的事情。
首先是大模型,過(guò)了千億級(jí)別以后,一下子就變得有智能了,這是一種涌現(xiàn)。
第二個(gè)涌現(xiàn)現(xiàn)在正在發(fā)生,當(dāng) GPT 這類(lèi)大模型的技術(shù)與我們熟悉的軟件事業(yè)、各行業(yè)場(chǎng)景結(jié)合后會(huì)有更大一輪的涌現(xiàn)。現(xiàn)在發(fā)生了很多原來(lái)我沒(méi)想過(guò)的一些非線(xiàn)性的爆發(fā),短時(shí)間內(nèi)突然產(chǎn)生了原來(lái)沒(méi)有的東西,這些東西的形態(tài)又是一個(gè)爆發(fā)狀態(tài),像所謂寒武紀(jì)大爆發(fā)的邏輯。
ChatGPT 從去年 12 月開(kāi)放,中文世界到了今年 2 月之后,一下子話(huà)題爆了。一方面是技術(shù)過(guò)了臨界點(diǎn),讓每個(gè)人都有所觸動(dòng),發(fā)現(xiàn)自己懂的東西原來(lái) AI 更懂。另外一點(diǎn)就是,尤其 IT 圈以外的人,都覺(jué)得它能改變我的工作甚至是未來(lái)的命運(yùn),都是有可能的,所以我想這可能是最重要的感觸,是一個(gè)涌現(xiàn)的開(kāi)始。
OSCHINA:您最近還說(shuō)過(guò)一句話(huà) —— 十年云舞臺(tái),新的舞者是Serverless+HTAP+AI。怎么理解這句話(huà)?
劉松:
我成為一個(gè)云的從業(yè)者剛好是十年前,2013 年是我在 Oracle 的最后一年,從那時(shí)候開(kāi)始,Oracle 中國(guó)的人給我的稱(chēng)謂是 Mr. Cloud。那時(shí)候 Oracle 剛開(kāi)始轉(zhuǎn)型做云,包括數(shù)據(jù)庫(kù)、SAAS。后來(lái)第二年我就去了阿里云,算是阿里云商業(yè)化的第一批人,主要負(fù)責(zé)云生態(tài),也做了一些垂直行業(yè)比如金融云的工作。所以對(duì)云的理解差不多正好是十年。
到了前兩年我認(rèn)為云 1.0 差不多算是收官了,以資源型為主的云是基礎(chǔ)設(shè)施,可以讓所有行業(yè)應(yīng)用可以快速、彈性上云。我在云舞臺(tái)上已經(jīng)待了十年。現(xiàn)在回頭看,云最大的方向是承擔(dān)全社會(huì)數(shù)字化轉(zhuǎn)型的最終命題,其中隱含的兩個(gè)關(guān)鍵技術(shù),一個(gè)是數(shù)據(jù)技術(shù),一個(gè)是人工智能,而且這兩個(gè)東西都強(qiáng)調(diào)是以云為主。
在數(shù)字化里面,所有用戶(hù)都希望要有以 HTAP 技術(shù)為代表的一體化的數(shù)據(jù)服務(wù)。AI 技術(shù)方面,這一波 GPT 的涌現(xiàn)已經(jīng)告訴所有人,要有巨大的算力支撐才能將 AI 訓(xùn)練到這個(gè)級(jí)別。
那么這三種技術(shù)在未來(lái)會(huì)有更深地融合。
我們?cè)?1 月 10 發(fā)布了一個(gè)小產(chǎn)品,在 TiDBCloud 上面發(fā)布了基于 AIGC 的智能數(shù)據(jù)探索功能 -Chat2Query。大家可以很容易看到自然語(yǔ)言秒內(nèi)生成SQL,然后通過(guò)HTAP 這種技術(shù),快速用行存列存混合的方式返回一個(gè)要查詢(xún)的結(jié)果。當(dāng)資源不夠的時(shí)候,會(huì)通過(guò)Serverless 自動(dòng)擴(kuò)展。
Serverless+ HTAP + AI,這三種技術(shù)在今天也有一個(gè)共同的承諾或者說(shuō)特點(diǎn) —— 在秒級(jí)別去反饋人類(lèi)的需求,秒級(jí)別把你說(shuō)的話(huà)變成SQL、秒級(jí)別做復(fù)雜查詢(xún)、當(dāng)資源不夠時(shí)再秒級(jí)地做用戶(hù)無(wú)感的云資源調(diào)用。
過(guò)去十年,很多互聯(lián)網(wǎng)公司、大型企業(yè)數(shù)字化講上云,但本質(zhì)上是做兩件事,第一件事是買(mǎi)云端資源,用戶(hù)采用租用的模式,付費(fèi)方式并不是因?yàn)槟硞€(gè)特定 Query 的查詢(xún)來(lái)付費(fèi)。過(guò)去十年云計(jì)算市場(chǎng)形成了通過(guò)互聯(lián)網(wǎng)的方式提供資源租用的形態(tài),但這個(gè)形態(tài)大家已經(jīng)進(jìn)入到同質(zhì)化的階段。向上延伸就是把云 1.0 的底座夯實(shí)。
夯實(shí)算力基礎(chǔ),不管是 CPU 還是 GPU 都是非常重要的。大模型訓(xùn)練也是靠這個(gè),OpenAI 訓(xùn)練的背后很大程度上也是靠微軟的云。今天亞馬遜云,阿里云也都快速跟進(jìn),因?yàn)檫@對(duì)云廠(chǎng)商來(lái)說(shuō)絕對(duì)是一個(gè)機(jī)會(huì)。
OSCHINA:未來(lái)的關(guān)鍵塑造因素在哪?數(shù)據(jù)庫(kù)技術(shù)可能的服務(wù)場(chǎng)景是什么樣的?
劉松:
如果說(shuō)過(guò)去的十幾年亞馬遜在全球靠基礎(chǔ)設(shè)施的創(chuàng)新,包含軟硬件的創(chuàng)新領(lǐng)先。那么往下五到十年,云 2.0 的最大舞臺(tái)依賴(lài)三個(gè)關(guān)鍵塑造因素,一個(gè)是云自己的云原生,二是數(shù)據(jù)技術(shù),第三個(gè)是 AI 變成一種類(lèi)似基礎(chǔ)服務(wù)?當(dāng)然還有另外一點(diǎn)是,新的大模型和數(shù)據(jù)庫(kù)技術(shù)能不能在 B 端融合創(chuàng)造出更多新場(chǎng)景,這也是大家非常關(guān)注的話(huà)題。
云端的 AI 和數(shù)據(jù)庫(kù)的融合可能是發(fā)生在 B 端。我們現(xiàn)在用 GPT類(lèi)產(chǎn)品主要還是普通人在一個(gè)公共廣場(chǎng)上解決一些科普性的問(wèn)題,而且大部分是非結(jié)構(gòu)化數(shù)據(jù)。但是我們?cè)囅胍幌拢粋€(gè)企業(yè)的 CEO,他非常關(guān)注的話(huà)題,GPT類(lèi)產(chǎn)品是不能直接解決的,比如說(shuō)我希望讓我的企業(yè)的下個(gè)月人才提效指標(biāo)10% 應(yīng)該從哪些部門(mén)入手?
對(duì)于這個(gè)問(wèn)題,一方面需要企業(yè)內(nèi)部的數(shù)據(jù)庫(kù)里有大量的專(zhuān)業(yè)應(yīng)用的模型和算法,另一方面還要比對(duì)外界的同行、考慮經(jīng)濟(jì)環(huán)境是怎么樣的。所以我們?cè)O(shè)想一下,假如我們列一個(gè) CEO 的 100 個(gè)常見(jiàn)問(wèn)題。那么未來(lái)五到十年,能不能通過(guò)自然語(yǔ)言的方式詢(xún)問(wèn)?通過(guò) AI 和數(shù)據(jù)庫(kù)結(jié)合,包括大模型,內(nèi)外部數(shù)據(jù)的結(jié)合,給到 CEO這些問(wèn)題,這個(gè)是我們可以憧憬的一個(gè)地方。
OSCHINA:數(shù)據(jù)技術(shù)和AI技術(shù)發(fā)展的不同在哪?
劉松:
數(shù)據(jù)庫(kù)行業(yè)是四世同堂,到今天,你還是可以在云端,比如說(shuō) AWS 上買(mǎi)到 Oracle 的數(shù)據(jù)庫(kù)服務(wù),無(wú)論是之后的開(kāi)源 MySQL、Redis,還是我們的分布式數(shù)據(jù)庫(kù) NewSQL 像 TiDB 這樣的數(shù)據(jù)庫(kù)云都有市場(chǎng)。數(shù)據(jù)庫(kù)相對(duì)來(lái)說(shuō)格局更清晰,四世同堂,每一個(gè)都能盡量尋找自己的價(jià)值和體驗(yàn)。價(jià)值就是你能不能以更好、更快的方式兌現(xiàn)數(shù)據(jù)價(jià)值,體驗(yàn)是指在云端的數(shù)據(jù)庫(kù)體驗(yàn)會(huì)不會(huì)更好。
在數(shù)據(jù)庫(kù)領(lǐng)域,數(shù)據(jù)庫(kù)領(lǐng)域的多種技術(shù)都有存在的意義,另外一方面反過(guò)來(lái)說(shuō),沒(méi)有一種新技術(shù)能夠完全替代原來(lái)所有的技術(shù)。
但 AI 技術(shù)正好相反,AI 技術(shù)的屬性是弒父。新的技術(shù)只要一出來(lái),原有的技術(shù),不管是爺爺還是父親全部都沒(méi)有意義了,這個(gè)就是從 GPT 對(duì)于 NLP 的顛覆就能夠看出來(lái),這思路就完全變了。那下一代出來(lái)的東西很有可能也會(huì)把當(dāng)前的GPT模式完全殺掉。這方面看大模型類(lèi)的AI 應(yīng)用確實(shí)風(fēng)險(xiǎn)等大,但機(jī)會(huì)也會(huì)更大。
我覺(jué)得 AI 相關(guān)的大模型或者應(yīng)用生存的關(guān)鍵在于專(zhuān)業(yè)門(mén)檻,未來(lái)無(wú)非就是向上和向下兩個(gè)方向發(fā)展。一個(gè)是底層技術(shù)的先進(jìn)性,比如大模型本身的先進(jìn)性,這個(gè)大家都看得到。然后 AI 技術(shù)向場(chǎng)景延伸時(shí),有兩個(gè)地方必須閉環(huán),形成門(mén)檻:一個(gè)是專(zhuān)業(yè)領(lǐng)域的數(shù)據(jù),比如醫(yī)療、汽車(chē)等領(lǐng)域,如果大模型能訪(fǎng)問(wèn)到其數(shù)據(jù),在這個(gè)領(lǐng)域里就會(huì)更強(qiáng);還有向上應(yīng)用的創(chuàng)建性,面向用戶(hù)的,可以想象,未來(lái)無(wú)論是人力資源管理還是所有的客服體系、數(shù)字營(yíng)銷(xiāo)、新一代的BI,廣義上的新一代搜索等等,這些可能都會(huì)被 GPT 這樣的智能技術(shù)重新做一遍。
那么重復(fù)的門(mén)檻在哪里?一個(gè)是模型本身,一個(gè)就是專(zhuān)業(yè)數(shù)據(jù)的提煉和學(xué)習(xí)能力,還有一個(gè)就是應(yīng)用構(gòu)建的友好度,或者說(shuō)是體驗(yàn)。即 AI 在垂直行業(yè)的體驗(yàn)加上價(jià)值,在這個(gè)基礎(chǔ)上,AI 可能要比數(shù)據(jù)技術(shù)面臨更大的或然性和挑戰(zhàn)。
OSCHINA:PingCAP現(xiàn)在對(duì)未來(lái)是什么看法,采取了哪些行動(dòng)?
劉松:
我們現(xiàn)在有一個(gè)新的信念,認(rèn)為 AI 和數(shù)據(jù)融合會(huì)對(duì)于企業(yè)用戶(hù)產(chǎn)生巨大的、全方位的價(jià)值。
有三個(gè)層次,第一個(gè)層次是用戶(hù)最容易見(jiàn)到的,像 Chat2Query里做的,就是自然語(yǔ)言代替了 SQL,成為主要的查詢(xún)語(yǔ)句。在用戶(hù)想要獲取一些洞察及服務(wù)的時(shí)候,比如一個(gè)快遞小哥、外送小哥、或者每個(gè)消費(fèi)者去查詢(xún)你的商品、外賣(mài)到哪里了的行為,其實(shí)是一種數(shù)據(jù)消費(fèi)。如果這樣的查詢(xún)都用自然語(yǔ)言來(lái)解決,整個(gè)數(shù)據(jù)庫(kù)的使用人數(shù)和頻次可能會(huì)大 100 倍、1000 倍,甚至更大。反過(guò)來(lái),這對(duì)數(shù)據(jù)技術(shù)與 AI 技術(shù)的融合帶來(lái)了更高的要求。
第二個(gè)層次,以數(shù)據(jù)庫(kù)技術(shù)的處理和查詢(xún)優(yōu)化為例,這幾年數(shù)據(jù)庫(kù)技術(shù)領(lǐng)域主要有兩個(gè)流派,一個(gè)是 AI For DB,一個(gè)是 DB For AI。簡(jiǎn)單來(lái)說(shuō),一個(gè)是數(shù)據(jù)庫(kù)的 “自動(dòng)駕駛”,維護(hù)可以用機(jī)器學(xué)習(xí)去優(yōu)化,這樣就不用花太多人力成本,尤其是在云端。另外一個(gè)是查詢(xún)的優(yōu)化,包括性能的調(diào)優(yōu),這是數(shù)據(jù)庫(kù)領(lǐng)域老大難的問(wèn)題,現(xiàn)在可以通過(guò) GPT 和相關(guān)的 AI 技術(shù)來(lái)解決。那么這些數(shù)據(jù)運(yùn)維,以及數(shù)據(jù)架構(gòu)師的工作量就大幅降低了,任何一個(gè)項(xiàng)目都會(huì)以比之前更快的速度迭代。
最后一層對(duì)于數(shù)據(jù)庫(kù)技術(shù)本身的要求,當(dāng) AI 變成每個(gè)人通用的、用來(lái)做查詢(xún)和獲取洞察的工具的時(shí)候,中間有一些工程調(diào)優(yōu),包括對(duì)算法的調(diào)用等等,那么數(shù)據(jù)技術(shù)到底應(yīng)該以什么方式來(lái)組織?
我們認(rèn)為,可能傳統(tǒng)數(shù)據(jù)庫(kù)的未來(lái)會(huì)變成一種在線(xiàn)數(shù)據(jù)服務(wù)的形態(tài) ——OnlineData Service,這是廣義的,還不是簡(jiǎn)單的數(shù)據(jù)庫(kù)變成了服務(wù)。這也是 PingCAP在過(guò)去幾年一直在演進(jìn)的。
我想我們最大的變化是從一個(gè)更多地服務(wù)互聯(lián)網(wǎng)場(chǎng)景的分布式數(shù)據(jù)庫(kù),變成了一個(gè)以云端為主的數(shù)據(jù)服務(wù)廠(chǎng)商,這是一個(gè)廣泛意義上的數(shù)據(jù)服務(wù),不管是交易還是查詢(xún)都有,我們現(xiàn)在也是一個(gè)開(kāi)放式的架構(gòu)。
所以我想總結(jié)一下,這一波 AI 變成了一個(gè)新一代的 GUI,會(huì)增加千倍萬(wàn)倍的使用數(shù)據(jù)的用戶(hù)。首先對(duì)于數(shù)據(jù)庫(kù)的所有的從業(yè)人員,AI 是提升性能調(diào)優(yōu)和各種項(xiàng)目工程進(jìn)度的巨大助力。另外在現(xiàn)在這種數(shù)據(jù)服務(wù)這種形態(tài),可能更能夠和 AI 做很好地結(jié)合。這也回到我剛剛講的小例子,關(guān)于 Chat2Query,用戶(hù)用秒級(jí)自然語(yǔ)言提問(wèn)的問(wèn)題,變成 Query,再到通過(guò) HTAP 技術(shù)來(lái)實(shí)現(xiàn)查詢(xún),這其實(shí)就是一個(gè)數(shù)據(jù)服務(wù),然后很快給用戶(hù)反饋結(jié)果、帶來(lái)一個(gè)決策,那這個(gè)閉環(huán)是在秒級(jí)。這就是我們認(rèn)為未來(lái),AI 和數(shù)據(jù)技術(shù)在云端,三者形成了一個(gè)全新的、組合式的創(chuàng)新,變成了一種新的數(shù)據(jù)服務(wù)形態(tài)。
0635
“數(shù)據(jù)與數(shù)據(jù)庫(kù)技術(shù)” 分論壇將在 5 月 28 日與大家見(jiàn)面,屆時(shí)多位數(shù)據(jù)與數(shù)據(jù)庫(kù)技術(shù)領(lǐng)域大咖將到現(xiàn)場(chǎng)分享自己項(xiàng)目經(jīng)驗(yàn),歡迎感興趣的小伙伴點(diǎn)擊下文鏈接,報(bào)名參會(huì)!
全球開(kāi)源技術(shù)峰會(huì)(Global Open-source Technology Conference),簡(jiǎn)稱(chēng) GOTC,是由開(kāi)放原子開(kāi)源基金會(huì)、上海浦東軟件園、Linux 基金會(huì)亞太區(qū)和開(kāi)源中國(guó)聯(lián)合發(fā)起的,面向全球開(kāi)發(fā)者的一場(chǎng)盛大開(kāi)源技術(shù)盛宴。 5 月 27 日至 28 日,GOTC 2023 將于上海舉辦為期 2 天的開(kāi)源行業(yè)盛會(huì)。大會(huì)將以行業(yè)展覽、主題發(fā)言、專(zhuān)題論壇、開(kāi)源市集的形式展現(xiàn),與會(huì)者將一起探討元宇宙、3D 與游戲、eBPF、Web3.0、區(qū)塊鏈等熱門(mén)技術(shù)主題,以及開(kāi)源社區(qū)、AIGC、汽車(chē)軟件、AI 編程、開(kāi)源教育培訓(xùn)、云原生等熱門(mén)話(huà)題,探討開(kāi)源未來(lái),助力開(kāi)源發(fā)展。
GOTC 2023報(bào)名通道現(xiàn)已開(kāi)啟,誠(chéng)邀全球各技術(shù)領(lǐng)域開(kāi)源愛(ài)好者共襄盛舉!
審核編輯黃宇
-
IT
+關(guān)注
關(guān)注
2文章
866瀏覽量
63556 -
AI
+關(guān)注
關(guān)注
87文章
31086瀏覽量
269414 -
數(shù)據(jù)庫(kù)
+關(guān)注
關(guān)注
7文章
3822瀏覽量
64506 -
GPT
+關(guān)注
關(guān)注
0文章
354瀏覽量
15431
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論