色悠久久久久综合网小说,亚洲精品自拍愉拍第二页,一区二区三区视频在线播放

在IJCAI-2019期間舉辦的騰訊TAIC晚宴和Booth Talk中，來自TEG數據平臺的張長旺向大家介紹了自己所在用戶畫像組的前沿科研結果：

1. 非監督短文本層級分類；

2. 大規模復雜網絡挖掘和圖表示學習。

其所在團隊積極與學術界科研合作，并希望有夢想、愛學習的實力派加入，共同研究和應用半監督/弱監督/無監督學習、小樣本學習、大規模復雜網絡挖掘和圖表示學習等做大數據挖掘。

科研結果1：非監督短文本層級分類

首先以下用戶和AI算法的對話，顯示了現實業務中使用現有監督文本分類算法的遇到的一些困境和問題：

算法需要海量訓練數據

算法模型用戶不可控

算法不能很好的適應類目的變化

我們分析現有監督算法的主要問題在于沒有真正的知識, 沒有對于文本和類目的真正的理解?，F有算法只是在學習大量人工標注訓練樣本里面的模式。為了解決這個問題，我們啟動了一個叫做: 基于關鍵詞知識與類目知識的非監督短文本層級分類的探索項目。

項目的主要思想是引入關鍵詞和類目兩種知識來幫助算法理解關鍵詞和類目的含義。然后基于知識進行文本的分類和標注。關鍵詞知識主要來自3個方面包括：關鍵詞的網絡搜索上下文、關鍵詞的百科上下文、關鍵詞到類目詞的后驗關聯概率。我們提出類目語義表達式來支持用戶表達豐富的類目本身和類目之間的關系的語義。這兩樣知識的引入幫助算法擺脫了對于大量人工標注訓練樣本的依賴，同時算法分類的過程做到了人工可理解，人工可控制。

基于關鍵詞和類目知識的無監督文本層級分類算法流程如下:

對文本提取關鍵詞

根據關鍵詞知識計算關鍵詞到類目詞的相關度詞向量

根據關鍵詞的相關度詞向量計算文本的相關度詞向量

根據文本的相關度詞向量和類目語義表達式計算文本與每個類目的匹配度

每個文本被分為與之匹配度最高的類目

通過在兩個文本分類數據集合上面的實驗，我們發現，我們自研的算法能夠在沒有訓練樣本的情況下提供質量可用的結果，其一級類目準確率能夠達到80%，并且明顯高于現有其他非監督算法。

科研結果2：大規模復雜網絡挖掘和圖表示學習

Network Representation Learning 或者說 Graph Embedding 是復雜網絡最新的研究課題，意在通過神經網絡模型，把圖結構向量化，為節點分類、鏈路預測、社團發現等挖掘任務提供方便有效的特征，以克服圖結構難以應用到機器學習算法中的難題。

本次我們在IJCAI發表的學術論文“Identifying Illicit Accounts in Large Scale E-payment Networks - A Graph Representation Learning Approach”創新性提出結合邊屬性的圖卷積神經網絡模型，彌補了現有算法無法利用邊屬性為節點分類提供更多信息的不足。

現有的圖學習算法，絕大部分都忽視了邊上信息的價值。在這里我們提出了一種可以把邊的信息傳輸到節點表示結果的改進的GCN算法。算法主要思路是在做GCN里面周邊鄰居節點向量的聚合計算之前，把每個節點連接邊的Embedding向量拼接在對應鄰居節點的Embedding向量后面。實驗顯示，我們的算法對于金融分類問題具有更優的結果。我們團隊正在進一步優化模型，正在研發利用時序的GCN模型，以可以利用邊的時序交互信息，從而更好的表示動態網絡。

同時，數平數據中心研發的Angel參數服務器平臺，針對關系型數據結構，在計算性能上對圖算法做了優化，極大加速了PageRank等算法的計算速度，比如計算用戶中心度的Closeness算法，性能比基于Spark GraphX的算法提升了6.7倍。下圖顯示對于大型圖的計算，我們Angle框架的速度具有明顯的優勢。

我們所在團隊積極與學術界科研合作，并希望有夢想、愛學習的實力派加入，共同研究和應用半監督/弱監督/無監督學習、小樣本學習、復雜網絡挖掘和圖表示學習做大數據挖掘。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

算法

算法

+關注

關注
23

文章
4607

瀏覽量
92840
大數據

大數據

+關注

關注
64

文章
8882

瀏覽量
137403

原文標題：IJCAI2019報告：基于無監督學習和圖學習的大數據挖掘

文章出處：【微信號：Tencent_TEG，微信公眾號：騰訊技術工程官方號】歡迎添加關注！文章轉載請注明出處。

時空引導下的時間序列自監督學習框架

【導讀】最近，香港科技大學、上海AI Lab等多個組織聯合發布了一篇時間序列無監督預訓練的文章，相比原來的TS2Vec等時間序列表示學習工作，核心在于提出了將空間信息融入到預訓練階段，即在預訓練階段

發表于 11-15 11:41 ?240次閱讀

基于大數據與深度學習的穿戴式運動心率算法

性能的關鍵手段。然而，在復雜多變的運動環境中，準確測量心率數據對于傳統算法而言具有較大的技術瓶頂。本文將探討如何運用大數據和深度學習技術來開發創新的穿戴式運動心率算

發表于 09-10 08:03 ?256次閱讀

基于<b class='flag-5'>大數據</b>與深度<b class='flag-5'>學習</b>的穿戴式運動心率算法

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習，還包括對語言的深層次理解，如文化背景、語境含義和情感色彩等。自監督學習：模型采用自

發表于 08-02 11:03

【《大語言模型應用指南》閱讀體驗】+ 基礎篇

章節最后總結了機器學習的分類：有監督學習、無監督學習、半監督學習、自監督學習和強化

發表于 07-25 14:33

神經網絡如何用無監督算法訓練

神經網絡作為深度學習的重要組成部分，其訓練方式多樣，其中無監督學習是一種重要的訓練策略。無監督學習旨在從未標記的

發表于 07-09 18:06 ?776次閱讀

深度學習中的無監督學習方法綜述

應用中往往難以實現。因此，無監督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的無監督學

發表于 07-09 10:50 ?683次閱讀

機器學習在數據分析中的應用

隨著大數據時代的到來，數據量的爆炸性增長對數據分析提出了更高的要求。機器學習作為一種強大的工具，通過訓練模型從數據中

發表于 07-02 11:22 ?612次閱讀

基于FPGA的類腦計算平臺 —PYNQ 集群的無監督圖像識別類腦計算系統

STDP 無監督學習算法，可運用于圖像的無監督分類。從平臺設計角度： (1)本設計搭建的基于 PYNQ 集群的通用低功耗的大規模類腦計算平臺，搭載 PYNN，NEST 等

發表于 06-25 18:35

圖機器學習入門：基本概念介紹

圖機器學習（GraphMachineLearning，簡稱GraphML）是機器學習的一個分支，專注于利用圖形結構的數據。在圖形結構中，數據

發表于 05-16 08:27 ?497次閱讀

無監督深度學習實現單次非相干全息3D成像

論文信息背景引入數字全息術因其能夠從單一視點對3D場景進行成像而備受關注。與直接成像相比，數字全息是一種間接的多步驟成像過程，包括光學記錄全息圖和數值計算重建，為包括深度學習在內的計算成像方法

發表于 05-13 17:38 ?431次閱讀

機器學習基礎知識全攻略

有監督學習通常是利用帶有專家標注的標簽的訓練數據，學習一個從輸入變量X到輸入變量Y的函數映射。Y = f (X)，訓練數據通常是(n×x,y)的形式，其中n代表訓練樣本的大小，x和y分

發表于 02-25 13:53 ?240次閱讀

Meta發布新型無監督視頻預測模型“V-JEPA”

Meta，這家社交媒體和科技巨頭，近日宣布推出一種新型的無監督視頻預測模型，名為“V-JEPA”。這一模型在視頻處理領域引起了廣泛關注，因為它通過抽象性預測生成視頻中缺失或模糊的部分來進行學習，提供了一種全新的視頻處理方法。

發表于 02-19 11:19 ?1009次閱讀

數據挖掘的應用領域,并舉例說明

數據挖掘（Data Mining）是一種從大量數據中提取出有意義的信息和模式的技術。它結合了數據庫、統計學、機器學習和人工智能等領域的理論和

發表于 02-03 14:19 ?3068次閱讀

描繪未知：數據缺乏場景的缺陷檢測方案

Neuro-T 視覺平臺克服了數據缺乏狀況的困難，通過零代碼設置 GAN模型和無監督學習模型，輕松實現缺陷圖像的標注、繪制和導出。工業應用中存在較多的缺陷檢測需求。針對缺陷檢測需求，常見的解決方案有兩種：基于目標正

發表于 01-25 10:46 ?563次閱讀

2024年AI領域將會有哪些新突破呢？

傳統的機器學習需要大量的標記數據進行訓練，但自監督學習可以通過無監督的方式從大規模未標記的數據中

發表于 01-24 09:58 ?2008次閱讀