色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

通過使用PL/SQL編程改進Web日志挖掘中的會話識別方法

電子設計 ? 來源:郭婷 ? 作者:電子設計 ? 2019-05-09 08:12 ? 次閱讀

Web挖掘是針對包括Web頁面內容,頁面之間的結構,用戶訪問信息等在內的各種Web數據源。在一定基礎上應用數據挖掘的方法以發現有用的隱含的知識的過程。Web挖掘與傳統的數據挖掘相比有其自身的特點。Web本身是半結構化或無結構的數據,缺乏機器可理解的語義,Web挖掘的對象是大量,異質,分布的Web文檔,對Web服務器上的日志、用戶信息等數據所開展的挖掘工作也屬于Web數據挖掘的范疇。Web信息的多樣性決定了挖掘任務的多樣性。按照Web處理對象的不同,一般將Web挖掘分為3類: Web內容挖掘,Web結構挖掘和Web使用記錄挖掘(如圖1所示),針對這3種不同的處理對象,能夠挖掘出許多有用的信息。

Web日志挖掘現已成為Web挖掘研究的重點。其主要分為數據預處理、模式發現、模式分析3個階段[。數據預處理階段是要把從各種數據源得到的使用信息、內容信息和結構信息轉換成模式發現階段需要的數據抽象;模式發現階段旨在使用各種數據挖掘技術發掘隱藏在數據背后的規律和模式;模式分析階段旨在根據具體的實際應用,過濾掉在模式發現階段沒有用的規則或模式,并把有用的規則和模式轉換為知識。

本文主要研究數據預處理階段的會話識別。在分析現有的會話識別方法基礎上,提出一種基于訪問站點首頁和導航頁的改進會話識別方法,最后通過實驗驗證了改進的會話識別方法比現有方法更有效。

1 數據預處理

數據預處理是Web日志中最基礎、最頻繁的工作,是整個數據準備的核心工作。數據預處理的結果將直接影響到挖掘算法產生的規則和模式,因此預處理過程在整個Web日志挖掘過程中占據著非常重要的地位,是挖掘質量的保證。

數據預處理包括數據清理、用戶識別、會話識別、路徑補充和事務識別5個階段。(1)數據清理是指刪除Web日志中與挖掘算法無關的數據;(2)用戶識別是識別出訪問網站的每個用戶;(3)會話識別是在用戶識別之后,把每個用戶在一段時間內的訪問序列進行分解,從而得到相應的會話。會話是指同一用戶在一次瀏覽過程中連續請求的頁面序列,它代表了用戶對服務器的一次有效訪問;(4)路徑補充是對識別出的用戶會話進行優化的步驟,以使得其更加準確地描述用戶的瀏覽請求;(5)事務識別是將用戶會話進行語義分組,形成適合挖掘需要的事務。

2 會話識別分析

用戶會話[3]是指用戶從進入站點到離開站點期間所訪問的一系列頁面序列集合。可表示為:

通過使用PL/SQL編程改進Web日志挖掘中的會話識別方法

其中SessionID是會話標識,{(Pid1,t1)…(Pidk,tk)…(Pidn,tn)}是此次用戶會話的頁面訪問序列,Pid是訪問頁面的標識,t是訪問該頁面的時間。(Pid1,t1)表示用戶此次會話訪問的第一個頁面和時間,(Pidn,tn)表示用戶此次會話訪問的最后一個頁面和時間。

2.1 常用會話識別方法

目前常用會話識別方法主要有兩大類:一類是基于時間閾值,另一類是基于用戶訪問頁面時的參引頁面。基于時間閾值的會話識別方法又可細分為以下3類:

(1)設定會話的持續時間閾值θ。即一個會話總的持續時間不超過θ。國外學者Catledge和Pitkow由實驗得出θ設為25.5 min較好[4],許多商業產品都采用30 min作為缺省值。

(2)設定頁面的訪問時間閾值η[5]。假設(Pidi,ti)、(Pidi+1,ti+1)為一個用戶訪問序列中的兩條相鄰訪問記錄。只有當ti+1-ti≤η時,才認為這兩條記錄屬于同一個會話。當ti+1-ti>η時,(Pidi,ti)是上一次會話的最后一條訪問記錄,而(Pidi+1,ti+1)是新會話的第一條訪問記錄。一般η取10 min。

(3)上述方法(2)是對所有頁面設定同一個頁面訪問時間閾值,并沒有因頁面的不同而不同。參考文獻[6]中,根據統計的頁面的訪問時間,在正態分布的假設下為每個頁面設定一個訪問時間作為切分會話閾值,并結合頁面內容及站點結構來確定頁面重要程度,對該閾值進行調整。這是一種個性化的時間閾值設置方法。

通過使用PL/SQL編程改進Web日志挖掘中的會話識別方法

2.2 常用會話識別方法評估

第(1)、(2)兩種方法使用單一時間閾值來識別用戶會話顯然是不合理的。方法(1)不能識別出訪問時間大于30 min的會話,且識別不出兩個連續較短的會話;方法(2)的不足在于,若一個用戶在訪問站點期間暫時離開電腦,但并沒有退出站點,過10 min后回來繼續瀏覽該站點,這實際上屬于同一個會話,而方法(2)則會錯誤地認為用戶開始了一個新的會話;方法(3)使用的統計學方法雖然大大減小了上限閾值,但仍然無法準確描述對頁面感興趣的用戶閱讀網頁的平均時間,無法區分超短時間用戶訪問記錄。

基于參引頁面的會話識別方法引入了時間限制?駐,主要是考慮到下面這種情況:訪問頁面的引用頁面為空,用戶可能是通過點擊瀏覽器上的”BACK”按鈕,回溯到之前某個曾經瀏覽過的頁面,進而訪問到該頁。這顯然也是不合理的,用戶從p頁面回退到上級頁面后,用戶要在此頁面搜尋到感興趣的p頁面,并點擊鏈接進入該頁面,所需時間一般不止10 s,且用戶可能是回退多次后再點擊鏈接進入p頁面。因此,此處設置這個時間閾值并不合理。

3 改進的會話識別方法

3.1 會話劃分思考

要準確地識別出用戶會話,關鍵在于識別出兩次相鄰會話的分割點。即上一次會話結束時訪問的頁面及下一次會話開始時訪問的頁面。而找出新會話開始時訪問的頁面,也就意味著上一會話的結束。因此,研究重點放在尋找標記新會話開始的訪問頁面。

用戶開始訪問某一站點,一般是通過在瀏覽器的地址欄中輸入站點的URL或是通過點擊收藏欄中的收藏,通過站點的首頁進入此站點的,此時用戶也就開始了自己的一次會話。在Web服務器日志中,可以查看用戶訪問的URL是否是首頁來判斷用戶的這種行為。當用戶瀏覽完畢退出該站點,此時會話結束,而在Web服務器端日志中,無法判斷這種用戶行為。但當該用戶下一次通過首頁來訪問站點時,在Web日志中發現用戶又鍵入了首頁URL,則很顯然上一次會話在本條記錄之前結束,本條記錄標志用戶開始了一個新的會話。

3.2 改進的會話識別方法

上述思想以訪問站點的首頁作為新會話開始的標記,基于這一前提用戶開始訪問站點時總是由站點首頁進入站點。但真實的訪問情況并不是所有的用戶每次開始訪問站點時都由首頁進入。一般的站點分若干版塊,而每一版塊都有自己的導航頁。如一門戶網站有新聞、體育、娛樂各版塊,有的用戶只對體育感興趣,那么他可能就會將體育版塊的導航頁做為收藏,每次訪問站點時,點擊收藏,直接進入體育導航頁開始訪問,而非先通過站點首頁,再進入體育版塊導航頁。因此,識別用戶會話,不能只以站點首頁作為開始標記,還應考慮各導航頁,因為很多用戶是直接通過導航頁訪問自己感興趣的頁面而非站點首頁。

改進的會話識別方法如圖1所示,以站點首頁或導航頁作為新會話開始的標識。

通過使用PL/SQL編程改進Web日志挖掘中的會話識別方法

改進的會話識別方法具體描述如下:

(1)首先用戶訪問序列中的第一條訪問記錄是第一個會話的開始序列,置入第一個會話中;

(2)讀取用戶訪問序列中的下一條訪問記錄,直至序列中所有記錄都處理完畢;

(3)判斷本次訪問的頁面是否是站點的首頁,若是首頁,則當前會話結束,新會話開始,將該次訪問置入新會話的訪問序列中,然后轉步驟(2)處理下一條訪問記錄。否則,轉步驟(4);

(4)判斷本次訪問的頁面是否是站點的導航頁之一,若不是(即該頁面為內容頁),則將本次訪問置入當前會話的訪問序列中,然后轉步驟(2)繼續處理下一條訪問記錄。否則(即該頁面是導航頁之一),轉步驟(5)判斷它的上一條訪問記錄;

(5)判斷上一條訪問記錄,若上一條訪問記錄訪問的頁面是首頁,則本次訪問記錄和上次訪問記錄同屬一個會話;若上一條訪問記錄訪問的頁面不是首頁,則本次訪問就標識了新會話的開始,將其置入新會話的訪問序列中。轉步驟(2),處理下一條訪問記錄。

4 實驗與結果分析

4.1 實驗過程

4.1.1 數據準備

選用了安研星空站點http://www.ahusky.cn/從2009年2月17日至2009年3月5日的Web服務器日志,共計1 251 331條記錄,作為實驗數據,如圖2所示。

通過使用PL/SQL編程改進Web日志挖掘中的會話識別方法

4.1.2 會話識別

將這些Web訪問日志通過SQL Loader載入Oracle數據庫中,經過數據清理,共有有效訪問記錄35 273條,存放在表log中,如圖3所示。

通過使用PL/SQL編程改進Web日志挖掘中的會話識別方法

此處,以Web訪問日志中的IP地址作為用戶標識,利用Oracle PL/SQL編程實現上述改進的會話識別算法。為了與其他的會話識別方法進行比較,分別用2.1節中的方法(1)和方法(2)對同樣的Web日志進行會話識別,其中方法(1)取時間閾值30 min,方法(2)取時間閾值10 min。實驗結果如表1所示。

通過使用PL/SQL編程改進Web日志挖掘中的會話識別方法

4.2 實驗分析

通過實驗發現,改進的會話識別方法識別出的會話數(11 325條)要遠多于方法(1)(5 073條)和方法(2)(5 226條)。另外,為了比較這三種會話識別方法識別會話的準確率,將三種方法中識別出的關于用戶220.178.4.195的會話分別與原始的Web日志記錄比較,發現改進的會話識別方法識別會話的準確率(82.19%)也要高于方法(1)(62.47%)和方法(2)(64.85%)。由此可見,改進的會話識別方法能夠識別出更多的會話,且識別會話的準確率也更高。

數據預處理階段的會話識別為模式分析階段提供了挖掘數據,即每一個有效的用戶會話,因此它直接影響到模式分析階段能否發現有效的模式。本文提出的基于站點首頁和導航頁的改進會話識別方法能識別出更多的會話,識別會話的準確率更高。

5 結束語

進一步的工作我們可以將Web訪問日志的挖掘和其他的Web內容和Web鏈接結構挖掘結合起來用于Web頁面的等級劃分、Web文檔的分類和多層次Web信息庫的構造等方面,總之對Web數據進行進一步的數據挖掘是非常有意義的。當然,數據挖掘所帶來的好處,是與用戶的需求及數據挖掘技術本身的發展相關的。從而提供更好的服務。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 服務器
    +關注

    關注

    12

    文章

    9206

    瀏覽量

    85563
  • 編程
    +關注

    關注

    88

    文章

    3621

    瀏覽量

    93785
  • 機器
    +關注

    關注

    0

    文章

    783

    瀏覽量

    40748
收藏 人收藏

    評論

    相關推薦

    電阻識別方法

    電阻識別方法
    發表于 08-02 21:59

    基于用戶會話數據的Web測試方法

    為確保Web 應用程序的可靠性,滿足Web 應用程序功能測試的需求,提出2 種改進的基于用戶會話數據的方法,從功能角度對
    發表于 03-28 09:47 ?9次下載

    基于訪問路徑的WEB事務聚類改進方法

    聚類分析是Web日志挖掘系統的重要組件,聚類分析的質量決定挖掘結果的有效性。本文引入一種向量聚類方法,并針對原有
    發表于 01-15 14:00 ?4次下載

    Web結構挖掘HITS算法改進的研究

    隨著Internet技術的發展,Web網頁成為人們獲取信息的有效途徑,Web數據挖掘逐漸成為國內外研究的熱點。基于Web結構挖掘
    發表于 02-25 15:16 ?8次下載

    色環電阻識別方法

    色環電阻識別方法 首先,從電阻的底端,
    發表于 07-17 17:42 ?1.3w次閱讀
    色環電阻<b class='flag-5'>識別方法</b>

    硬盤標識識別方法

    硬盤標識識別方法 Seagate硬盤的編號比較簡單,其識別方法為:"ST+硬盤尺寸+容量+主標識+副標識+接口類型"。    為了另大家容易理解,簡單的
    發表于 09-04 12:56 ?6562次閱讀

    常用塑料識別方法

    常用塑料識別方法
    發表于 11-19 10:30 ?569次閱讀

    電容的識別方法

    電容的識別方法 電容的識別方法與電阻的識別方法基本相同,分直標法、色標法和數標法3種。 電容的基本單位用法拉(F)表示,其它單位還
    發表于 02-06 18:13 ?6492次閱讀

    電容識別方法及換算

    電容的識別方法與電阻的識別方法基本相同,分直標法、色標法和數標法3種。 電容的基本單位用法拉(F)表示,其它單位還有:毫法(mF
    發表于 06-10 11:57 ?2674次閱讀

    基于MapReduce的新會話識別方法

    識別結果的準確率,在分析會話識別算法研究現狀的基礎上,提出一種基于網絡拓撲結構和動態閡值相結合的新會話識別方法并討論其優勢所在,接著用Map
    發表于 12-04 15:13 ?0次下載
    基于MapReduce的新<b class='flag-5'>會話</b><b class='flag-5'>識別方法</b>

    Web使用挖掘的數據預處理模塊、實現方法及發展前景

    數據預處理是Web使用挖掘的第一個環節。預處理的對象是Web 日志文件。由于Web 日志文件的格
    的頭像 發表于 11-06 09:32 ?3603次閱讀
    <b class='flag-5'>Web</b>使用<b class='flag-5'>挖掘</b><b class='flag-5'>中</b>的數據預處理模塊、實現<b class='flag-5'>方法</b>及發展前景

    基于改進YOLOv的靜態手勢實時識別方法

    針對基于人工建模方式的手勢識別方法準確率低、速度慢的問題,提岀一種基于改進YOLOⅴ3的靜態手勢實時識別方法。采用卷積神經網絡YOLOⅴ3模型,將通過 Kinect設備采集的R
    發表于 05-27 14:52 ?9次下載

    Oracle.10g.Pl.SQL編程入門及開發

    Oracle.10g.Pl.SQL編程入門及開發教程免費下載。
    發表于 03-28 17:06 ?0次下載

    電容的識別方法與電阻的識別方法.pdf

    識別方法: 電容的識別方法與電阻的識別方法基本相同分直標法、色標法和數標法3種電容的基本單位用法拉(F)表示其它單位還有:毫法(mF)、微法(uF)、納法(nF)、皮法(pF)其中:1法拉=103
    發表于 10-17 09:40 ?8次下載

    貼片電感的識別方法及故障更換方法

    貼片電感的識別方法及故障更換方法 貼片電感是現代電子設備中常用的一種電子元件,它們通常用于電源濾波、電感耦合和振蕩電路。在使用和維修過程,有時需要
    的頭像 發表于 02-03 15:23 ?2041次閱讀
    主站蜘蛛池模板: 青青伊人网| 国产亚洲精品第一区香蕉| 日本 稀土矿| 精品久久久久久久国产潘金莲| 99久久蜜臀AV免费看蛮| 亚洲精品乱码久久久久久中文字幕| 哪灬你的鸣巴好大| 国产亚洲美女精品久久久2020| 饱满奶大30p| 最新国产在线视频在线| 亚洲AV成人无码网天堂| 秋秋影视午夜福利高清| 久久全国免费久久青青小草| 国产人妻人伦精品熟女麻豆 | 99精品视频在线观看| 亚洲精品嫩草AV在线观看| 色狠狠婷婷97| 欧美激情一区二区三区AA片| 久草精品在线| 国产在线公开视频| 国产精品视频成人| 第一会所欧美无码原创| 99久久免费看少妇高潮A片| 中文字幕乱码一区久久麻豆樱花| 亚洲精品成人久久久影院| 无码国产成人777爽死| 日本中文字幕巨大的乳专区| 欧美506070| 免费人妻AV无码专区五月| 久久综合网久久综合| 九色PORNY蝌蚪视频首页| 国产在线自天天人人| 国产精品乱人无码伦AV在线A| 东北老妇xxxxhd| 怪物高h粗暴无尽| 国产69精品久久久久麻豆| 大胆国模一区二区三区伊人| 成人免费视频在线观看| 成人小视频在线观看免费| 超污视频带污疼免费视频| 超碰97人在线视频|