大約在 24 年前,Google 由兩名研究生創立,當時 Google 擁有一個產品,以及一個遠大的使命:整合全球信息,供大眾使用,使人人受益。在那之后的幾十年里,我們一直在推進我們的技術來實現這一使命。
我們所取得的進步源于我們多年來對先進技術的投入,從人工智能到為這一切提供動力的技術基礎設施。每年一次,在我一年中最喜歡的一天:) 我們在 Google I/O 與大家分享最新進展。
今天,我談到了我們如何提高我們使命的兩個基本方面——知識和計算的發展——來創造能夠提供幫助的產品。開發這些產品是令人興奮的;更令人興奮的是看到這些產品能夠幫助大家做些什么。
感謝所有幫助我們完成這項工作的人,尤其是 Google 的同事們。我們很感激有這次機會。
- Sundar
以下是 Sundar Pichai 在今天的 Google I/O 開發者大會開幕式上發表的主題演講全文。
大家好,歡迎大家!時隔三年,能再回到海岸線圓形劇場的感覺真好!我想對成千上萬的開發者、合作伙伴和 Google 的同事們說:“很高興見到大家”,也想對在世界各地收看此次大會的數百萬觀眾朋友們說,“很高興大家能來”。
去年,我們分享了在一些最具技術性挑戰的計算機科學領域中的新突破,以及這些突破如何能讓 Google 的產品在關鍵時刻發揮更大作用。我們做的這一切都是為了實現 Google 永恒的使命:整合全球信息,供大眾使用,使人人受益。
我也迫不及待地想給大家展示 Google 是如何通過兩種關鍵方式來推進這一使命的實現:其一,深化我們對信息的理解,從而將信息轉化為知識;其二,推動計算機技術發展,不論大家身在何處,都能方便快捷地獲取信息和知識。
今天,大家將看到我們在上述兩種方式上取得的進展,以及這些進展是怎樣確保 Google 的產品能夠惠及大眾。我先舉幾個簡單的例子。在新冠疫情期間,Google 一直致力于提供準確的信息,幫助大家保持健康。去年,有近 20 億次搜索是使用 Google Search 和 Google Maps 來尋找疫苗接種點的。
去年,Google 的洪水預測技術向在印度及孟加拉國的 2300 萬人發送了洪水預警
我們還提升了 Google 的洪水預測技術,能讓面臨自然災害的人們平安無恙。在去年的季風季,我們向在印度及孟加拉國的 2300 多萬人發送了洪水預警。據我們估計,這幫助了成千上萬的人及時疏散。
Google 翻譯新增了 24 種語言
在世界各國,Google 翻譯已經成為了外來客與當地居民互相溝通的重要工具。
通過機器學習技術,我們給 Google 翻譯新增了包括蓋丘亞語在內的新語種
實時翻譯的存在證實了知識和計算機技術能夠一起讓人們的生活更加美好?,F在,使用 Google 翻譯的人數之多,遠超以往,但我們不能止步于此,還應讓 Google 翻譯更加普及。現在還有很多語言在互聯網上出現得沒有那么頻繁,翻譯這些語言是一個技術難題,因為用來訓練翻譯模型的文本通常是雙語文本,像是同一個短語的英語和西班牙語版本,但并非所有語言都有足量的公開雙語文本。
因此,隨著機器學習的進步,我們開發了一種單語方式,能讓翻譯模型在從未見過某種新語言的直譯版本的情況下,直接去學習翻譯此新語言。通過與母語人士及當地機構合作,我們發現用單語方式進行的翻譯質量達標,我們也將進一步提升翻譯質量。
我們為 Google 翻譯新增了24種新語言
今天,我很激動地宣布,我們為 Google 翻譯新增了 24 種新語言,包括首批增加的美洲原住民語言。共計有 3 億多人在使用這 24 種語言,這樣的突破正在推動我們獲取知識和使用電腦的方式發生根本性轉變。
Google Maps 新升級
許多關于我們這個世界的可知信息都超越了語言的范疇——它們存在于我們周圍的物理和地理空間中。超過 15 年來,Google Maps 一直致力于將這些信息以豐富且有用的形式呈現出來,以幫助用戶導航。AI 的進步正在將這項工作推向新的高度,無論是將我們的覆蓋范圍擴大到偏遠地區,還是重新設想如何以更直觀的方式探索世界。
AI 的進步有助于繪制偏遠和農村地區的地圖
到目前為止,我們已在世界各地繪制了大約 16 億座建筑和超過 6000 萬公里的道路。由于缺乏高質量的圖像和清晰的建筑類型和地貌特征,以前一直難以繪制一些偏遠地區和農村地區的建筑和道路信息。為了解決這個問題,我們正在使用計算機視覺和神經網絡技術,從衛星圖像中探測建筑物。自 2020 年 7 月以來,Google Maps 上的非洲建筑物數量增加了 5 倍,從 6000 萬幢增加到了近 3 億幢。
今年,我們在印度和印度尼西亞繪制的建筑物數量也增加了一倍。在全球范圍內,Google Maps 上超過 20% 的建筑物都已經使用這些新技術進行了探測。在此基礎上,我們還向公眾公開了非洲的建筑物數據集,聯合國和世界銀行等國際組織已經在使用這些信息,以更好地了解當地人口密度,并提供支持和緊急援助。
Google Maps 中的沉浸式視圖將航拍和街景圖像融合
我們也為 Google Maps 帶來了新的功能。利用 3D 繪圖和機器學習技術的進步,我們正在融合數十億張航拍和街景圖像,以創建一個新的高保真的地圖。我們將這些突破性的技術結合在一起,為用戶提供了一種沉浸式視圖的新體驗,使用戶能夠以前所未有的方式探索一個地方。
讓我們去倫敦看看吧。假設用戶計劃和家人一起參觀威斯敏斯特。用戶現在可以直接從手機上的 Google Maps 獲得這種身臨其境的視野,還可以在景點周圍移動。..。..這就是威斯敏斯特大教堂。如果用戶想前往大本鐘,那么可以在地圖上看到去往大本鐘的道路交通是否擁堵,甚至可以看到天氣預報。如果還想在參觀期間吃點東西,用戶可以查看附近的餐廳,并且到餐廳的里面看看。
令人驚奇的是,這并不是有一架無人機在餐廳里飛行拍攝——這是我們使用神經渲染技術,僅通過圖像來創造的體驗。Google Cloud Immersive Stream 讓這種體驗可以在幾乎所有智能手機上運行。這項功能將于今年晚些時候在 Google Maps 中針對全球部分城市推出。
Google Maps 的另一個重大升級是我們推出了環保路線。這項功能已于去年落地,它能夠為用戶顯示最節約油耗的路線,提供更加節約并且減少碳排放的選擇。環保路線已經在美國和加拿大推出,用戶已經按照這些路線行駛了約 860 億英里,減少了約 50 萬公噸的碳排放,相當于路面上減少了 10 萬輛正在行駛的汽車。
環保路線將于今年晚些時候擴展到歐洲
我很高興與大家分享,我們正在將這項功能擴展到更多的地方,包括在今年晚些時候將擴展到歐洲。在柏林地圖的示例中,用戶可以選擇僅慢三分鐘的路線,將油耗降低 18%。這些微小的決定將產生巨大的影響。隨著這項功能擴展至歐洲及其他地區,我們預計到今年年底可以節約的碳排放量將增加一倍。
我們同樣在 Google Flights 上增加了一個類似的功能。當用戶搜索兩個城市之間的航班時,我們也會向用戶顯示碳排放估值以及價格和時間表等其他信息,讓用戶輕松選擇更加環保的航班。Google Maps 和 Google Flights 中的這些環保功能是我們非常重要的目標,即讓 10 億人通過我們的產品做出更可持續的選擇,我們非常高興能夠看到這些進展。
YouTube 新功能幫助用戶輕松訪問視頻內容
除了 Google Maps 之外,視頻正在成為我們分享信息、互相交流和學習必不可少的載體。很多時候用戶在進入 YouTube 后,是希望在 YouTube 中找到一個視頻中的特定片段,我們希望幫助用戶更快地獲取所需信息。
去年,我們推出了自動生成的章節,讓用戶可以更輕松地跳轉到最感興趣的部分。這對創作者來說也是很棒的功能,因為它節省了創作者制作章節的時間。我們現在正在應用 DeepMind 的多模式技術,這項技術可以同時使用文本、音頻和視頻,并以更高的準確性和更快的速度自動生成章節。有了這個功能,我們現在的目標是將自動生成章節的視頻數量增加 10 倍,從目前的 800 萬到明年的 8000 萬。
通常,了解視頻內容的最快方法是閱讀它的腳本,所以我們也在使用語音識別模型來轉錄視頻?,F在所有 Android 和 iOS 的用戶都可以獲取視頻的腳本。
YouTube 上的自動生成章節
接下來,我們將把 YouTube 上的自動翻譯字幕應用到移動設備上。這意味著觀眾現在可以獲取 16 種自動翻譯的視頻字幕,創作者也可以借此吸引全球觀眾。
正如我們使用 AI 來改進 YouTube 的功能一樣,我們也正在將 AI 構建到 Workspace 系列產品中,以幫助人們提升工作效率。無論你是在小型企業還是大型機構工作,可能都需要花費大量時間閱讀文件。也許你現在就回想起了當你有一份 25 頁的文件要閱讀,而會議將在 5 分鐘后開始的那種恐慌。
在 Google,每當我收到一份長的文件或電子郵件時,我都會在頂部尋找“TL;DR”——“太長未讀“的縮寫。這讓我們想到,如果更多的事情可以有“TL;DR”,生活不是會更好嗎?
這就是為什么我們為 Google Docs 引入了自動總結功能。將我們其中一個機器學習模型應用在文本總結功能中,Google Docs 將自動解析單詞并提取出要點。
這標志著自然語言處理的一個大飛躍??偨Y需要理解長段落、壓縮信息并生成語言,而這些已經超出過去最好的機器學習模型的能力。
而文檔只是一個開始。我們正努力將總結功能引入 Google Workspace 的其他產品。在接下來的幾個月里,Google Chat 將使用該功能,為聊天對話提供摘要,幫助用戶迅速加入群聊,或回顧重點信息。
在未來幾個月內,我們將在 Google Chat 中加入總結功能
而且我們正在努力將轉錄和總結功能引入 Google Meet。這樣,用戶可以快速補上重要會議中錯過的部分。
改進 Google Meet 視頻
當然,很多時候你真的非常希望有一個虛擬房間,可以讓你和別人待在一起。這就是為什么我們在 Project Starline 的啟發下,繼續提高音頻和視頻質量。我們在去年的 I/O 大會上介紹了 Project Starline。我們一直在 Google 的各個辦公室進行測試,尋求反饋并為未來改進技術。在這個過程中,我們發現了一些可以立刻應用于 Google Meet 的技術。
Project Starline 啟發了機器學習驅動的圖像處理,可以自動改善 Google Meet 的圖像質量。而且這項技術適用于所有類型的設備,因此無論你在哪里,都能展現你的最佳形象。
機器學習驅動的圖像處理,自動提高了 Google Meet 的圖像質量
我們還為 Google Meet 帶來了攝影棚規格的虛擬燈光。你可以調整燈光的位置和亮度,所以即使用戶身處黑暗的房間或坐在窗前仍然可以被清晰看到。我們正在測試這項功能,以確保人像更加真實,這也是我們在 Pixel 手機上的 Real Tone 和 Monk Scale 所做的工作的推進。
這些只是使用 AI 改進我們產品的其中一些方式:使產品更有幫助,更容易獲得,并為每個人提供創新的新功能。
今天在 I/O 大會上,Prabhakar Raghavan 分享了我們如何幫助人們利用 Google Search 以更直觀的方式找到有用的信息
通過計算使知識更易獲得
我們已經談到了我們如何推進知識的獲取作為我們使命的一部分:從更好的語言翻譯到改進的跨圖像和視頻的搜索體驗,到使用地圖對世界進行更豐富的探索。
現在我們致力于通過計算使這些知識更容易獲得。我們在計算方面所走過的旅程令人興奮。從桌面到網絡到移動設備到可穿戴設備的每一次轉變,以及環境計算都使知識在我們的日常生活中更加有用。
盡管我們的設備很有幫助,但我們不得不相當努力地去適應它們。我一直認為應該由計算機來適應人,而不是人來適應計算機。我們將繼續追尋這方面的進展。
這里是我們如何利用 Google Assistant 使計算更加自然和直觀地呈現。
推出 LaMDA 2 和 AI Test Kitchen
我們研發的用于對話應有的生成語言模型 LaMDA 的 Demo,以及 AI Test Kitchen
我們在繼續努力提升人工智能的對話能力。對話和自然語言處理都能讓人們以更簡單的方式使用計算機。大型語言模型是實現這一目標的關鍵。
去年,我們發布了 LaMDA,這是一個用于對話應用的生成語言模型,可就任何主題展開對話。今天,我們很高興能公開 LaMDA 2,Google 目前打造的最先進的對話 AI。
目前,這些模型的實際應用還處于初始階段,我們有責任去不斷完善它們。為了取得進展,我們需要使用者體驗技術并提供反饋。我們已經向數千名愿意參與測試和了解其功能的 Google 同事們開放了 LaMDA,顯著提升了它的對話質量,減少了不準確或冒犯性的回復。
這就是我們要研發 AI Test Kitchen 的原因,這是一種與更大范圍的用戶一起探索 AI 功能的新方式。AI Test Kitchen 有數種不同的體驗方式,每種方式都旨在讓用戶了解自己在現實生活中如何使用 LaMDA。
第一個 Demo 是“想象”,測試模型是否可以理解用戶提供的創意,生成富有想象力的相關描述。這些體驗方式不是產品,只是讓我們和你能一起探索 LaMDA 能做什么。用戶界面非常簡單。
假設你正在寫一個故事,需要一些靈感。也許你的角色之一正在探索深海,那么你可以問 LaMDA,在這種情境下會有什么感覺。在此,LaMDA 描繪了馬里亞納海溝里的一個場景,它甚至還可以即時生成后續問題。你可以讓 LaMDA 想象一下那里可能生活著什么樣的生物。需要強調的是,我們并沒有為一些特定話題,比如潛水艇或生物發光進行手動編程,而是 LaMDA 自己根據訓練數據整合了這些概念。這就是為什么你幾乎可以詢問任何話題:土星環,甚至是“由冰淇淋制成的星球”。
不跑題是語言模型的一大挑戰。在打造機器學習體驗的過程中,我們希望它既足夠開放,讓人們能夠探索好奇心會把他們帶到哪里,又集中于話題本身。我們的第二個 Demo 展示了 LaMDA 如何做到這一點。
在這個 Demo 中,我們設置模型專注于與狗相關的主題。它首先生成了一個能開啟對話的問題:“你有沒有想過為什么狗這么喜歡玩撿東西?”如果你問一個后續問題,你會得到更細化的答案:狗覺得很有趣,這和狗的嗅覺和狩獵感有關。
用戶可以就任何方面展開后續對話。也許你對狗的嗅覺的工作原理感到好奇,并且想更深入地研究。那么,你也能得到專門的回復。無論你問什么,LaMDA 都會努力將對話限定在與狗相關的這一話題范圍內。如果我開始問板球相關的問題,那么模型可能會以一種有趣的方式將對話帶回狗身上。
保持不離題是個很棘手的挑戰,要想使用語言模型打造有用的應用程序,這是很重要的一個研究領域。
AI Test Kitchen 的這些體驗表明了語言模型有幫助我們進行計劃、了解世界和完成很多其它事情的潛力。
當然,在這些模型真正有用之前,還需要解決一些重大挑戰。雖然我們提高了安全性,但該模型仍可能生成不準確、不適當或冒犯性的回應。這就是我們積極邀請用戶提供反饋的原因,這樣他們就可以反饋問題。
我們將按照 Google AI 的原則進行所有工作。我們將不斷迭代 LaMDA,在未來幾個月逐步開放,并仔細、廣泛地評估利益相關者的反饋——從 AI 研究人員和社會科學家到人權專家。我們將把這些反饋整合到 LaMDA 的未來版本中,并隨時分享我們的發現。
將來,我們計劃在 AI Test Kitchen 中添加其它新興 AI 領域。你可以在 g.com/AITestKitchen 中了解更多。
讓 AI 語言模型更強大
LaMDA 2 擁有不可思議的對話能力。此外,為了探索自然語言處理和 AI 的其它方面,我們最近還公開了新模型 Pathways Language Model(PaLM)。這是我們迄今為止研發的最大規模的模型,基于 5400 億參數訓練而成。
PaLM 在許多自然語言處理任務上都有著突破性的表現,例如從文本生成代碼,回答數學問題,甚至解釋一個笑話。
PaLM 通過擴大模型規模實現了這一點。當我們將這種大規模模型與一種名為“思維提示鏈(chain-of- thought)”的新技術結合起來時,結果是令人充滿希望的?!八季S提示鏈”讓模型可以將需要多步解決的問題轉化為一系列的中間步驟來處理。
讓我們以一個需要推理的數學問題為例。通常,我們在使用模型前需要先以其它問題和答案訓練它,然后再提問。在這個例子里,問題是:五月有多少個小時?可以看到,模型并沒有給出正確的答案。
在“思維提示鏈”中,我們給模型輸入一對“問題—答案”,同時解釋了答案是如何得出的。這有點像你的老師一步一步地向你講解如何解題?,F在,如果我們再問模型“五月有多少個小時”或者其它相關問題,它能給出正確答案和解答過程。
“思維提示鏈”技術讓模型能更好地進行推理,給出更準確的答案
“思維提示鏈”大大提高了 PaLM 的準確性,讓它在包括數學問題在內的多個推理基準測試(reasoning benchmarks)中達到了最頂級水平。我們在不改變模型訓練方式的情況下完成了這一切。
此外,功能強大的 PaLM 還能做到更多。例如,網絡上現在可能沒有足夠多的以你所使用的語言提供的信息。更令人沮喪的是,你所搜尋的答案可能就在某處,只是沒有以你看得懂的語言呈現,而PaLM 提供了一種有望讓每個人都更容易獲得知識的新方法。
讓我展示一個示例,PaLM 可以用孟加拉語(一種有 2.5 億人使用的語言)回答問題,就像我們用孟加拉語的問題,以及孟加拉語和英語的答案訓練了它一樣。
就是這樣,現在我們可以開始用孟加拉語提問:“孟加拉國的國歌是什么?” 順便說一句,答案是“Amar Sonar Bangla”——PaLM 也答對了。這并不令人驚訝,因為在孟加拉語資料中很顯然能找到相關答案。
你還可以嘗試一些不太可能以孟加拉語找到相關信息的問題,比如:“紐約流行的披薩配料是什么?”該模型再次以孟加拉語做出了正確回答。雖然它的回答到底有多“正確”,這一點很可能在紐約人之間引發辯論。
令人印象深刻的是,PaLM 從未見過孟加拉語和英語之間的對譯。我們也從未訓練過它如何回答問題或翻譯!該模型自己將所有功能結合在一起,可以用孟加拉語正確回答問題。我們可以將這些技術擴展到更多的語言和其他復雜的任務。
我們對語言模型的潛力非常樂觀。有朝一日,我們希望我們能以用戶說的任何語言回答更多問題,讓知識在 Google Search 和其它 Google 的工具中更容易被獲取。
推出全世界最大的開放機器學習中心
我們今天所分享的進步之所以能成為現實,離不開我們在基礎設施方面的持續創新。我們最近還宣布了 Google 計劃向美國各地的數據中心和辦公室投資 95 億美元。
我們最先進的數據中心之一位于俄克拉荷馬州的梅斯縣。我激動地宣布:我們將為 Google Cloud 客戶推出全世界最大的開放機器學習中心。
我們最先進的數據中心之一,位于美國俄克拉荷馬州梅斯縣
此機器學習中心擁有 8 個 Cloud TPU v4 芯片,是 Google 定制,建在為 Google 最大的神經模型提供支持的網絡基礎設施之上,能提供接近 9 x 10^18 FLOPS 的算力,可以為 Google 的客戶提供前所未有的運行復雜模型和工作負荷的能力。我們希望這將推動眾多領域的創新,從醫學、物流,到可持續性發展等等。
說到可持續發展,該機器學習中心已達到 90% 的無碳能源運營。這能幫助我們實現自己的目標,即到 2030 年時,旗下所有的數據中心和園區實現全天候無碳運營,我們要成為第一個做到這一點的大公司。
在投資數據中心的同時,我們也在努力創新 Google 的移動平臺,這樣更多的數據處理就可以在本地設備上進行。Google 定制的 Google Tensor 芯片是朝此方向邁進的重要一步。Pixel 6 和 Pixel 6 Pro 旗艦手機已搭載 Google Tensor 處理器,讓你的手機直接擁有 AI 功能,包括我們所應用的最好的語音識別技術。這也是向“讓設備更安全”這一目標邁出的一大步。與 Android 的 Private Compute Core 結合后,這項技術可以直接在設備上運行數據驅動的功能,保護你的隱私。
不管是至關重要還是微不足道的時刻,每天都有人向我們的產品尋求幫助。讓這一點成為可能的關鍵就是在每一步都保護用戶的隱私信息。盡管技術正變得日益復雜,但我們的產品是安全的,從設計上保護隱私,讓用戶擁有控制權,因此,在讓全世界更多人能安全上網這一點上,我們比其他人走得更遠。
我們今天還分享了 Android 等平臺的更新,這些更新正通過智能手機和其他可連接設備,像電視、汽車、手表,向數十億人提供訪問、連接和信息。
我們還分享了最新的 Pixel 系列產品,包括Pixel 6a, Pixel Buds Pro, Google Pixel Watch, Pixel 7 和 Pixel 平板電腦,所有產品均融入了環境計算的設計。我們也很高興能通過一系列設備更好地為用戶提供幫助。
計算技術新前沿——增強現實技術
今天,我們討論了所有正在改變我們的技術,它們改變了我們使用計算機的方式和獲取知識的方式。無論何時何地,只要有需求,我們都可以找到互聯互通、緊密協作的設備。而對話界面的加持更為完成任務提供便利。
展望未來,信息技術領域有了一個新戰線,它擁有推動現有技術繼續發展的潛質,它就是增強現實技術(AR)。Google 在 AR 領域投入頗多:我們已將 AR 引用到許多產品當中,包括Google Lens、多重搜索(multisearch)、場景探索(scene exploration)以及 Google Maps 的 Live Views 和沉浸式視圖功能。
AR 各項性能已應用于手機終端,其神奇之處在于它可以在現實世界中為我們帶來最真實、自然的體驗,仿佛我們并非在使用科技。
最令人振奮的是 AR 的潛力,也就是它能使我們去關注真實的世界、真實的生活。要知道,我們所生活的這個世界本就精彩無限!
我們基于現實世界進行創作設計,絕不脫離現實,這一點至關重要。AR 恰恰是能夠幫助我們實現這種設計理念的新方法。
以語言為例,語言是人與人之間溝通的基礎。然而,如果對方講著另一種語言,或者會話的一方有聽覺障礙時,溝通就變得困難重重。我們來看看當我們將最新技術應用在翻譯和語言轉錄中,并在早期測試原型中呈現出來時,會出現什么效果。
如你所見,視頻中的人們能夠自然、順暢地與他人溝通,他們的臉上洋溢著喜悅。理解與被理解,那聯通的一刻正是我們在知識和計算機技術方面所關注的,是我們通過產品幫助人們實現的,也是我們每日奮斗追逐的目標。
每一年,我們都在向我們的終極使命邁進,未來的路還很長。Google 真切地為此感到振奮!我們抱以樂觀的態度,堅信我們取得的突破將引領我們完成使命。感謝所有與會開發者、合作伙伴和消費者。我們期待與各位一起共筑未來。
-
Google
+關注
關注
5文章
1762瀏覽量
57507 -
Ar
+關注
關注
24文章
5096瀏覽量
169474 -
增強現實
+關注
關注
1文章
712瀏覽量
44945 -
機器學習
+關注
關注
66文章
8408瀏覽量
132572
發布評論請先 登錄
相關推薦
評論