色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Facebook 人工智能團隊已經創建并正在開放源代碼 PyTorch Biggraph

電子工程師 ? 來源:YXQ ? 2019-04-04 11:12 ? 次閱讀

有效處理大規模圖對于促進人工智能的研究和應用至關重要,但特別是在工業應用中的圖,包含數十億個節點和數萬億個邊,這超出了現有嵌入系統的能力。

因此,Facebook 人工智能團隊已經創建并正在開放源代碼 PyTorch Biggraph(PBG)。

PBG 是一個用于學習大規模圖嵌入的分布式系統,特別適用于處理具有多達數十億實體和數萬億條邊的大型網絡交互圖。它在 2019 年的 SysML 會議上發表的大規模圖嵌入框架論文中提出。

PBG 比常用的嵌入軟件更快,并在標準基準上生成與最先進模型質量相當的嵌入。有了這個新工具,任何人都可以用一臺機器或多臺機器并行地讀取一個大圖并快速生成高質量的嵌入。

PBG 對傳統的多關系嵌入系統進行了多次修改,使其能夠擴展到具有數十億個實體和數萬億邊的圖。PBG 使用圖分區來在單個機器或分布式環境中訓練任意量級的嵌入。研究人員在通用基準測試中展示了與現有嵌入系統相當的性能,同時允許在多臺機器上擴展到任意大的圖和并行化。他們在幾個大型社會網絡圖以及完整的 Freebase 數據集上訓練和評估嵌入,其中包含超過 1 億個實體和 20 億條邊。

具體而言,PBG 通過攝取圖的邊列表來訓練輸入圖,每條邊由其源實體和目標實體以及可能的關系類型進行標識。它為每個實體輸出一個特征向量(嵌入),試圖將相鄰實體放置在向量空間中彼此靠近,同時將未連接的實體分開。因此,具有相似鄰近分布的實體最終將位于附近位置。

可以使用在訓練中學習的參數(如果有的話),用不同的方法配置每種關系類型來計算這個“接近度得分(proximity score)”,這允許在多個關系類型之間共享相同的基礎實體嵌入。

其模型的通用性和可擴展性使得 PBG 能夠從嵌入文獻的知識圖譜中訓練出多種模型,包括 TransE、RESCAL、DistMult 和 ComplEx。

PBG 的設計考慮到了規?;?,并通過以下方式實現:

圖分區(graph partitioning),這樣模型就不必完全加載到內存中;

每臺機器上的多線程計算;

跨多臺機器的分布式執行(可選),所有機器同時在圖的不相交部分上運行;

批量負采樣(batched negative sampling),允許處理的數據為> 100 萬邊/秒/機器。

作為一個示例,Facebook 還發布了包含 5000 萬維基百科概念的 Wikidata 圖的首次嵌入版本,該圖用于 AI 研究社區中使用的結構化數據。這些嵌入是用 PBG 創建的,可以幫助其他研究人員在維基數據概念上執行機器學習任務。

需要注意的是,PBG不適用于小規模圖上具有奇怪模型的模型探索,例如圖網絡、深度網絡等。

安裝步驟及更多信息,請參考 GitHub 相關介紹和 PyTorch-BigGraph 文檔:

https://github.com/facebookresearch/PyTorch-BigGraph

https://torchbiggraph.readthedocs.io/en/latest/

建立數十億個節點的嵌入圖

圖是表示多種數據類型的核心工具。它們可以用來對相關實體的網絡進行編碼,例如關于世界的事實。例如,像 Freebase 這樣的知識庫具有不同的實體(如“Stan Lee”和“New York City”),作為描述它們之間關系的節點和邊(例如“出生于”)。

圖嵌入方法通過優化目標來學習圖中每個節點的向量表示,即具有邊的節點對的嵌入比沒有共享邊的節點對更接近,這類似于 word2vec 等詞嵌入在文本上的訓練方式。

圖嵌入是一種無監督學習,因為它們只使用圖結構學習節點的表示,而不使用基于任務的節點“標簽”。與文本嵌入一樣,這些表示可用于各種下游任務。

超大規模圖形嵌入

當前,超大規模圖形有數十億個節點和數萬億條邊,而標準的圖嵌入方法不能很好地擴展到對超大規模圖的操作,這主要有兩大挑戰:首先,嵌入系統必須足夠快,以便進行實際的研究和生產使用。例如,利用現有的方法,訓練一個具有萬億條邊的圖可能需要幾周甚至幾年的時間。

另外,存儲也是一大挑戰。例如,嵌入每個節點具有 128 個浮點參數的 20 億個節點,這需要 1TB 的數據,超過了商用服務器的內存容量。

PBG 使用圖的塊分區來克服圖嵌入的內存限制。節點被隨機劃分為 P 分區,這些分區的大小可以使內存容納兩個分區。然后,根據邊的源節點和目標節點,將邊劃分為 P2 簇(Buckets)。

大規模圖的 PBG 分區方案。節點被劃分為 P 分區,分區大小適合內存。邊根據其源節點和目標節點的分區劃分為簇。在分布式模式下,可以并行執行具有非重疊分區的多個存儲簇(如藍色方塊所示)。

節點和邊進行分區之后,就可以一次在一個簇上執行訓練。bucket(i,j)的訓練只需要將節點分區 i 和 j 嵌入存儲在內存中。

PBG 提供了兩種方法來訓練分區圖數據的嵌入。在單機訓練中,嵌入件和邊在不使用時被交換到磁盤上。在分布式訓練中,嵌入分布在多臺機器的內存中。

分布式訓練

PBG 使用 PyTorch 并行化原語(parallelization primitives)進行分布式訓練。由于一個模型分區一次只能由一臺機器調用,因此一次最多可以在 P/2 機器上訓練嵌入。只有當機器需要切換到新的簇時,模型數據才會進行通信。對于分布式訓練,我們使用經典參數服務器模型,同步表示不同類型邊的共享參數。

APBG 分布式訓練體系結構。我們使用鎖服務器協調機器在不相交的存儲簇上進行訓練。分區模型參數通過分片分區服務器交換,共享參數通過分片參數服務器異步更新。

負采樣

圖嵌入和文本嵌入相似,構造隨機的“假”邊與真正的邊一起作為負訓練樣例。這大大加快了訓練速度,因為每個新樣本只需更新一小部分權重。通常,這些消極的例子是由隨機源節點或目標節點的“腐蝕”真邊構成的。然而,我們發現對標準負抽樣的一些修改對于大規模圖是必要的。

首先,我們注意到在傳統的圖嵌入方法中,幾乎所有的訓練時間都花在了負邊上。我們利用函數形式的線性特點,重用一批 N 個隨機節點,生成 N 個訓練邊的損壞負樣本。與其他嵌入方法相比,此技術允許我們以很小的計算成本在每個真邊上訓練許多負示例。

我們還發現,為了生成在各種下游任務中有用的嵌入,一種有效的方法是破壞邊,將 50% 的節點和另外 50% 的節點(根據其邊數進行采樣)混合在一起。

最后,我們引入了“實體類型”的概念,它限制了如何使用節點構造負樣本。例如,考慮一個包含歌曲、藝術家和流派節點的圖,并假設藝術家和歌曲之間存在“創作”關系。如果我們為這個關系統一抽樣源實體,我們將絕大多數抽樣歌曲(因為歌曲比藝術家多),但這些不是有效的潛在邊(因為歌曲只能由藝術家制作)。PBG 可以基于關系的實體類型限制構造哪些負樣本。

評估 PyTorch-BigGraph

為了評估 PBG 的性能,我們使用了公開的 Freebase 知識圖,它包含超過 1.2 億個節點和 27 億條邊。我們還使用了一個較小的 Freebase 圖子集(FB15K),它包含 15000 個節點和 600000 條邊,通常用作多關系嵌入方法的基準。

T-SNE 繪制的由 PBG 訓練的 Freebase 知識圖嵌入。國家、數字和科學期刊等實體也有類似的嵌入。

可以看出,對于 FB15k 數據集,PBG 和最新的嵌入方法性能相當。

圖:FB15K 數據集的鏈路預測任務上嵌入方法的性能。PBG 使用其模型來匹配 transe 和復雜嵌入方法的性能。我們測量了 MRR,并在 FB15K 測試集上對鏈接預測進行 hit@10統計。Lacroix 等人使用非常大的嵌入維數實現更高的 MRR,我們可以在 PBG 中采用同樣的方法,但這里暫不涉及。

下面,我們使用 PBG 對完整的 Freebase 圖訓練嵌入?,F代服務器可以容納這個規模的數據集 但 PGB 分區和分布式執行既節約了內存,也縮短了訓練時間。我們發布了 Wikidata 的首次嵌入,這是一個相似數據中更新的知識圖。

我們還評估了幾個公開的社交圖數據集的 PBG 嵌入,發現 PBG 優于其他競爭方法,并且分區和分布式執行減少了內存使用和培訓時間。對于知識圖、分區或分布式執行使得訓練對超參數和建模選擇更加敏感。然而對于社交圖來說,嵌入質量似乎對分區和并行化選擇并不敏感。

利用分布式訓練的優勢進行嵌入

PBG 允許 AI 社區為大規模圖(包括知識圖譜)以及其他如股票交易圖、在線內容圖和生物數據圖訓練嵌入,而無需專門的計算資源(如 GPU 或大量內存)。我們還希望 PBG 將成為小型公司和機構的有用工具,他們可能擁有大型圖數據集,但沒有將這些數據應用到其 ML 應用程序的工具。

雖然我們在 Freebase 等數據集上演示了 PBG,但 PBG 真正的設計意圖是處理比此圖大 10~100 倍的圖。我們希望這能鼓勵實踐者發布和試驗更大的數據集。計算機視覺(通過對標簽的 Deep Learning 來改進圖像識別質量)和自然語言處理(word2vec、BERT、Elmo)的最新突破是對海量數據集進行未知任務預訓練的結果。我們希望通過對大規模圖的無監督學習,最終能夠得到更好的圖結構化數據推理算法

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Facebook
    +關注

    關注

    3

    文章

    1429

    瀏覽量

    54788
  • 人工智能
    +關注

    關注

    1791

    文章

    47350

    瀏覽量

    238750
  • 開源
    +關注

    關注

    3

    文章

    3363

    瀏覽量

    42531
  • pytorch
    +關注

    關注

    2

    文章

    808

    瀏覽量

    13238

原文標題:Facebook開源圖嵌入“神器”:無需GPU,高效處理數十億級實體圖形 | 極客頭條

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Tomcat開放源代碼的Web應用服務器

    Tomcat 簡介 Tomcat 服務器是一個免費的開放源代碼的Web 應用服務器,屬于輕量級應用服務器,在中小型系統和并發訪問用戶不是很多的場合下被普遍使用,是開發和調試JSP 程序的首選
    的頭像 發表于 12-23 11:24 ?203次閱讀
    Tomcat<b class='flag-5'>開放源代碼</b>的Web應用服務器

    嵌入式和人工智能究竟是什么關系?

    、連接主義和深度學習等不同的階段。目前,人工智能已經廣泛應用于各種領域,如自然語言處理、計算機視覺、智能推薦等。 嵌入式系統和人工智能在許多方面都存在密切的關聯性。首先,嵌入式系統可
    發表于 11-14 16:39

    《AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感

    幸得一好書,特此來分享。感謝平臺,感謝作者。受益匪淺。 在閱讀《AI for Science:人工智能驅動科學創新》的第6章后,我深刻感受到人工智能在能源科學領域中的巨大潛力和廣泛應用。這一章詳細
    發表于 10-14 09:27

    《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

    ,無疑為讀者鋪設了一條探索人工智能(AI)如何深刻影響推動科學創新的道路。在閱讀這一章后,我深刻感受到了人工智能技術在科學領域的廣泛應用潛力以及其帶來的革命性變化,以下是我個人的學習心得: 1.
    發表于 10-14 09:12

    risc-v在人工智能圖像處理應用前景分析

    和使用該技術,無需支付專利費或使用費。這大大降低了人工智能圖像處理技術的研發成本,吸引了大量的開發者、企業和研究機構參與其生態建設。 靈活性則體現在RISC-V可以根據不同的應用場景進行定制和優化,從而
    發表于 09-28 11:00

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅動科學創新

    AI for Science的基礎知識,梳理了產業地圖,給出了相關政策啟示。 內容提要 人工智能驅動科學創新(AI for Science)帶來的產業變革與每個人息息相關。本書聚焦于人工智能
    發表于 09-09 13:54

    FPGA在人工智能中的應用有哪些?

    FPGA(現場可編程門陣列)在人工智能領域的應用非常廣泛,主要體現在以下幾個方面: 一、深度學習加速 訓練和推理過程加速:FPGA可以用來加速深度學習的訓練和推理過程。由于其高并行性和低延遲特性
    發表于 07-29 17:05

    PyTorch的介紹與使用案例

    PyTorch是一個基于Python的開源機器學習庫,它主要面向深度學習和科學計算領域。PyTorch由Meta Platforms(原Facebook)的人工智能研究
    的頭像 發表于 07-10 14:19 ?413次閱讀

    PyTorch的特性和使用方法

    PyTorch是一個開源的Python機器學習庫,由Meta Platforms(前身為Facebook)的人工智能研究團隊開發,并于2017年1月正式推出。
    的頭像 發表于 07-02 14:27 ?575次閱讀

    如何使用PyTorch構建更高效的人工智能

    隨著人工智能技術的迅猛發展,深度學習作為其重要分支,已經在各個領域展現出了強大的潛力和應用價值。PyTorch作為由Facebook研發和維護的開源深度學習框架,因其易用性、靈活性和高
    的頭像 發表于 07-02 13:12 ?389次閱讀

    智能嵌入式系統設計大賽--龍芯2K500先鋒板

    伍針對真實世界的醫療難題,在國產龍芯開發板上實現基于人工智能算法的解決方案(注冊完成資質驗證的隊伍,開發板將由龍芯郵寄提供)。 該比賽向全球各地的團隊開放,成績優異的
    發表于 05-14 21:15

    Meta為營銷人員提供新的人工智能工具來創建廣告活動

    Meta Platforms,Facebook和Instagram的母公司,正積極探索生成式人工智能在廣告營銷領域的新應用。最新推出的工具允許廣告商通過簡單的提示,利用生成式AI技術快速創建各種營銷材料,包括圖片和文本信息。
    的頭像 發表于 05-09 09:29 ?310次閱讀

    最新開源代碼證實!“鴻蒙原生版”微信正在積極開發中

    開放源代碼項目等代碼, **僅支持鴻蒙內核和鴻蒙系統的應用 ** —— 不再兼容 Android 應用。 既然不再兼容 Android 端 APP,那各大 APP 開發商的適配進度也要提上日程。 近
    發表于 05-08 17:08

    嵌入式人工智能的就業方向有哪些?

    嵌入式人工智能的就業方向有哪些? 在新一輪科技革命與產業變革的時代背景下,嵌入式人工智能成為國家新型基礎建設與傳統產業升級的核心驅動力。同時在此背景驅動下,眾多名企也紛紛在嵌入式人工智能領域布局
    發表于 02-26 10:17

    智能制造行業--客戶現場調試源代碼如何防泄密

    的困難,因為源代碼研發員工在工作過程中有一個版本管理服務器,這個不能完全禁止,也不能完全開放。安秉信息源代碼防泄密方案在前幾期已經詳細的介紹過,可以很好的幫助企業做
    的頭像 發表于 01-11 16:27 ?516次閱讀
    <b class='flag-5'>智能</b>制造行業--客戶現場調試<b class='flag-5'>源代碼</b>如何防泄密
    主站蜘蛛池模板: 美女乱草鲍高清照片| 在线观看国产精美视频| caoporen超碰在线视频| 亲伦在线观看| 国产成人亚洲精品无广告| 亚婷婷洲AV久久蜜臀无码 | www.色小姐| 无码精品AV久久久奶水| 久草在线在线精品观看| G0GO人体大尺香蕉| 亚洲国语在线视频手机在线| 久久这里只有精品国产精品99| 超碰caoporon最新视频| 亚洲国产精品久久又爽黄A片| 美女视频黄a视频全免费网站色窝| 成人伊人青草久久综合网| 艳妇臀荡乳欲伦岳TXT下载| 青娱乐极品视觉盛宴av| 精品国产手机视频在在线| 操中国老太太| 又色又爽又黄gif动态视频| 日韩中文网| 美女被爽cao免费漫画| 国产精品日本一区二区在线播放| 中文字幕专区高清在线观看| 熟女人妻AV五十路六十路| 美女张开腿露出尿口扒开来摸动漫| 国产欧美精品一区二区三区-老狼| 99精品电影| 野花日本手机观看大全免费3 | 1V1各种PLAY女主被肉| 丫鬟粗大狠狠贯穿h| 人妻中文字幕乱人伦在线| 久久久GOGO无码啪啪艺术| 国产精品美女久久久久浪潮AV| 91九色麻豆| 一本久道视频无线视频| 午夜免费小视频| 人妻熟妇乱又伦精品视频中文字幕| 久久观看视频| 国产亚洲视频中文字幕|