色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

構建中文網頁分類器對網頁進行文本分類

電子設計 ? 作者:電子設計 ? 2018-09-13 08:06 ? 次閱讀

網絡原指用一個巨大的虛擬畫面,把所有東西連接起來,也可以作為動詞使用。在計算機領域中,網絡就是用物理鏈路將各個孤立的工作站或主機相連在一起,組成數據鏈路,從而達到資源共享和通信的目的。凡將地理位置不同,并具有獨立功能的多個計算機系統通過通信設備和線路而連接起來,且以功能完善的網絡軟件(網絡協議、信息交換方式及網絡操作系統等)實現網絡資源共享的系統,可稱為計算機網絡。網絡的迅速發展,使人們不僅面臨信息爆炸,同時也面臨著如何從浩如煙海的信息中獲取自己所需信息的難題。如何有效地組織和處理海量的信息,并過濾和管理網絡資源,已成為必須面對的問題。

為了網頁信息的有效組織和檢索,人們開發了各種網絡信息搜索器,在一定程度上確實提高了網絡信息的利用率。與文本分類技術相比較,網頁分類更加復雜,這是由網頁的結構特征決定的,但是網頁的信息主要是通過文本的方式向人們傳遞的,所以在對網頁分類之前,首先要對其中的文本進行提取,對所提取的文本分類,最終使網頁分類問題轉化為文本分類問題。

目前,文本分類技術的研究比較活躍,已經出現了多種文本分類算法,并且被廣泛應用于多個領域:信息檢索、搜索引擎、文本數據庫等。文本分類算法基本是基于概率統計模型,本文就是基于互信息(MI)提出一種改進的特征提取方法,并根據TFIDF提出一種新的特征權值計算方法構建中文網頁分類器。

1 網頁預處理

網頁分類之前首先要進行預處理,實際上就是HTML解析,把解析出來的內容用于文本分類,選取網頁中的下面這些文本用于分類:

(1)錨文本。錨文本是網頁中用于指示所連接網頁內容的提示,由于后面要對提取的文本進行分類,所以只提取文字形式的錨文本。

(2)title文本。這樣的文本可能是網頁中最重要的標簽,必須取得。

(3)meta標簽。其重要的功能就是設置關鍵字,網頁的制作者往往都設置了關鍵字,來提高網頁的搜索點擊率。可以利用meta標簽中的有關文本內容進行網頁分類。

(4)主文本。上面這些信息獲取之后,網頁中剩余的文本信息還在各種HTML標簽中,在HTML源文件中,主文本有可能不是連續出現的。主文本一般是網頁中文字最集中的較長的字符串,查看源文件,那些比較長的字符串是整個出現在1個標簽中的。

文本首先要確定的問題就是表示文本的基本單位,用于表示文本的基本單位通常稱為文本的特征或特征項。中文文本不同于英文文本,英文文本以空格為分隔符,非常明確。而中文文本需要對其進行分詞處理才能得出每個特征。本文采用中科院計算技術研究所漢語詞法分析系統ICTCLAS3.0進行分詞。如果把這些對文本分類沒有意義的虛詞作為特征,將會帶來很大噪音,降低文本分類的效率和準確率。因此,在提取文本特征時,應首先考慮剔除這些對文本分類沒有用處的虛詞,而在實詞中,又以名詞和動詞對于文本的類別特性的表現力最強。

2 特征提取

特征提取就是提取出最能代表某篇文章或某類的特征項,以達到降維的效果從而減少文本分類的計算量。典型特征提取方法:信息增益(Information Gain),互信息(MI)、文檔頻度(DF)。傳統的MI特征提取方法:

計算出所有特征詞的統計值后,從大到小進行排序,然后根據需要從上到下選取一定數量的特征詞構建文本分類的特征詞庫。

3 特征加權及向量化

TFIDF算法及其改進型[5]有多種公式,本文使用一種新的改進的TF-IDF公式來計算特征詞的權重。TF-IDF公式有很多變種,比較常見的TF-IDF公式:

文本分類



:

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • HTML
    +關注

    關注

    0

    文章

    278

    瀏覽量

    35874
  • 分類器
    +關注

    關注

    0

    文章

    152

    瀏覽量

    13202
  • 文本
    +關注

    關注

    0

    文章

    118

    瀏覽量

    17092
收藏 人收藏

    評論

    相關推薦

    pyhanlp文本分類與情感分析

    得到一個分類,利用該分類,我們就可以進行文本分類了。IClassifier classifier = new NaiveBayesCla
    發表于 02-20 15:37

    TensorFlow的CNN文本分類

    在TensorFlow中實現CNN進行文本分類(譯)
    發表于 10-31 09:27

    NLPIR平臺在文本分類方面的技術解析

    一下NLPIR大數據語義智能分析系統是怎樣實現文本分類的。NLPIR大數據語義智能分析平臺的文本分類有兩種模式:專家規則分類與機器學習分類。專家規則
    發表于 11-18 17:46

    基于文本分類網頁排序算法

             隨著web 技術的發展,好的網頁排序算法越來越重要。本文主要討論了網頁排序應當考慮的因素如網頁更新時間等。在對這些因素
    發表于 09-12 11:29 ?8次下載

    基于AdaBoost_Bayes算法的中文文本分類系統

    基于AdaBoost_Bayes算法的中文文本分類系統_徐凱
    發表于 01-07 18:56 ?2次下載

    融合詞語類別特征和語義的短文本分類方法

    LDA主題模型從背景知識中選擇最優主題形成新的短文本特征,在此基礎上建立分類進行分類。采用支持向量機SVM與是近鄰法k-NN
    發表于 11-22 16:29 ?0次下載
    融合詞語類別特征和語義的短<b class='flag-5'>文本分類</b>方法

    基于級聯式分類網頁分類方法

    針對海量網頁在線自動高效獲取網頁分類系統設計中如何更有效地平衡準確度與資源開銷之間的矛盾問題,提出一種基于級聯式分類
    發表于 12-05 08:44 ?0次下載
    基于級聯式<b class='flag-5'>分類</b><b class='flag-5'>器</b>的<b class='flag-5'>網頁</b><b class='flag-5'>分類</b>方法

    textCNN論文與原理——短文本分類

    是處理圖片的torchvision,而處理文本的少有提及,快速處理文本數據的包也是有的,那就是torchtext[1]。下面還是結合上一個案例:【深度學習】textCNN論文與原理——短文本分類(基于pytorch)[2],使用
    的頭像 發表于 12-31 10:08 ?2542次閱讀
    textCNN論文與原理——短<b class='flag-5'>文本分類</b>

    基于深度神經網絡的文本分類分析

      隨著深度學習技術的快速發展,許多研究者嘗試利用深度學習來解決文本分類問題,特別是在卷積神經網絡和循環神經網絡方面,出現了許多新穎且有效的分類方法。對基于深度神經網絡的文本分類問題進行
    發表于 03-10 16:56 ?37次下載
    基于深度神經網絡的<b class='flag-5'>文本分類</b>分析

    結合BERT模型的中文文本分類算法

    針對現有中文短文夲分類算法通常存在特征稀疏、用詞不規范和數據海量等問題,提出一種基于Transformer的雙向編碼表示(BERT)的中文文本分
    發表于 03-11 16:10 ?6次下載
    結合BERT模型的<b class='flag-5'>中文文本分類</b>算法

    基于LSTM的表示學習-文本分類模型

    的關鍵。為了獲得妤的文本表示,提高文本分類性能,構建了基于LSTM的表示學習-文本分類模型,其中表示學習模型利用語言模型為文本分類模型提供初
    發表于 06-15 16:17 ?18次下載

    帶你從頭構建文本分類

    文本分類是 NLP 中最常見的任務之一, 它可用于廣泛的應用或者開發成程序,例如將用戶反饋文本標記為某種類別,或者根據客戶文本語言自動歸類。另外向我們平時見到的郵件垃圾過濾器也是文本分類
    的頭像 發表于 03-22 10:49 ?3618次閱讀

    深度學習——如何用LSTM進行文本分類

    簡介 主要內容包括 如何將文本處理為Tensorflow LSTM的輸入 如何定義LSTM 用訓練好的LSTM進行文本分類 代碼 導入相關庫 #coding=utf-8 import
    的頭像 發表于 10-21 09:57 ?1623次閱讀

    PyTorch文本分類任務的基本流程

    文本分類是NLP領域的較為容易的入門問題,本文記錄文本分類任務的基本流程,大部分操作使用了**torch**和**torchtext**兩個庫。 ## 1. 文本數據預處理
    的頭像 發表于 02-22 14:23 ?1127次閱讀

    NLP中的遷移學習:利用預訓練模型進行文本分類

    遷移學習徹底改變了自然語言處理(NLP)領域,允許從業者利用預先訓練的模型來完成自己的任務,從而大大減少了訓練時間和計算資源。在本文中,我們將討論遷移學習的概念,探索一些流行的預訓練模型,并通過實際示例演示如何使用這些模型進行文本分類。我們將使用擁抱面轉換庫來實現。
    發表于 06-14 09:30 ?459次閱讀
    主站蜘蛛池模板: 久久久影院亚洲精品| 青青久在线| 视频成人永久免费下载| 3D内射动漫同人资源在线观看| 国产精品久久久久久搜索| 日本老妇一级特黄aa大片| jazzjazzjazz欧美| 欧美gay69| xxx粗大长欧美| 噼里啪啦免费观看视频大全| 99精品福利视频| 啪啪啪社区| 国产精品第1页| 亚洲福利视频导航| 国精产品一区一区三区有限公司 | 国产WW久久久久久久久久| 琪琪色原网20岁以下热热色原网站 | 神马电影我不卡4k手机在线观看 | 国产二区自拍| 亚洲地址一地址二地址三| 国产在线精品一区二区在线看| 亚洲成a人片777777久久| 国产真实乱对白精彩| 野花日本手机观看大全免费3| 久久超碰国产精品最新| 91成品视频| 色人阁综合| 精品国产午夜肉伦伦影院| 一区二区三区四区国产| 欧美末成年videos在线| 超碰视频在线| 亚洲男人天堂2018av| 明星三级电影| 国产露脸无码A区久久| 再插深点嗯好大好爽| 欧美日韩亚洲一区二区三区在线观看| 一品道门在线视频高清完整版| 老师真棒无遮瑕版漫画免费| 柏木舞子在线| 伊人久久大香线蕉综合99| 日本亚洲精品色婷婷在线影院|