色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Kaggle知識點(diǎn):使用大模型進(jìn)行特征篩選

穎脈Imgtec ? 2024-12-03 01:06 ? 次閱讀

本文轉(zhuǎn)自:Coggle數(shù)據(jù)科學(xué)


數(shù)據(jù)挖掘的核心是是對海量數(shù)據(jù)進(jìn)行有效的篩選和分析。傳統(tǒng)上數(shù)據(jù)篩選依賴于數(shù)據(jù)驅(qū)動的方法,如包裹式、過濾式和嵌入式篩選。隨著大模型的發(fā)展,本文將探討如何利用大模型進(jìn)行特征篩選。

afea0562-b0cf-11ef-8084-92fbcf53809c.png

篩選思路

數(shù)據(jù)驅(qū)動方法依賴于數(shù)據(jù)集中的樣本點(diǎn)進(jìn)行統(tǒng)計(jì)推斷,而基于文本的方法需要描述性的上下文以更好地在特征和目標(biāo)變量之間建立語義關(guān)聯(lián)。

b01e086c-b0cf-11ef-8084-92fbcf53809c.png

這種方法利用了大型語言模型(LLMs)中豐富的語義知識來執(zhí)行特征選擇。大模型將利用數(shù)據(jù)集描述(desd)和特征描述(desf),描述特征的重要性。

  • LLM生成的特征重要性得分(LLM-Score)
  • LLM生成的特征排名(LLM-Rank)
  • 基于LLM的交叉驗(yàn)證篩選(LLM-Seq)

實(shí)驗(yàn)設(shè)置

  • 模型:實(shí)驗(yàn)中使用了不同參數(shù)規(guī)模的LLMs,包括LLaMA-2(7B和13B參數(shù))、ChatGPT(約175B參數(shù))和GPT-4(約1.7T參數(shù))。
  • 比較方法:將基于LLM的特征選擇方法與傳統(tǒng)的特征選擇基線方法進(jìn)行比較,包括互信息過濾(MI)、遞歸特征消除(RFE)、最小冗余最大相關(guān)性選擇(MRMR)和隨機(jī)特征選擇。
  • 數(shù)據(jù)集:使用了多個數(shù)據(jù)集進(jìn)行分類和回歸任務(wù)的評估,包括Adult、Bank、Communities等。

實(shí)現(xiàn)細(xì)節(jié):對于每個數(shù)據(jù)集,固定特征選擇比例為30%,并在16-shot、32-shot、64-shot和128-shot的不同數(shù)據(jù)可用性配置下進(jìn)行評估。使用下游L2懲罰的邏輯/線性回歸模型來衡量測試性能,并使用AUROC和MAE作為評估指標(biāo)。


實(shí)驗(yàn)結(jié)果

將LLM-based特征選擇方法與傳統(tǒng)的特征選擇基線方法進(jìn)行比較,包括LassoNet、LASSO、前向序貫選擇、后向序貫選擇、遞歸特征消除(RFE)、最小冗余最大相關(guān)性選擇(MRMR)、基于互信息(MI)的過濾和隨機(jī)特征選擇。

b04b950c-b0cf-11ef-8084-92fbcf53809c.png
  • 發(fā)現(xiàn)1:在小規(guī)模數(shù)據(jù)集上,基于文本的特征選擇方法比數(shù)據(jù)驅(qū)動的方法更有效。在幾乎所有的LLM和任務(wù)中,基于文本的特征選擇方法的性能都超過了數(shù)據(jù)驅(qū)動方法。
  • 發(fā)現(xiàn)2:使用最先進(jìn)的LLMs進(jìn)行基于文本的特征選擇,在每種數(shù)據(jù)可用性設(shè)置下都能與傳統(tǒng)特征選擇方法相媲美。
  • 發(fā)現(xiàn)3:當(dāng)樣本數(shù)量增加時,使用LLMs的數(shù)據(jù)驅(qū)動特征選擇會遇到困難。特別是當(dāng)樣本大小從64增加到128時,分類任務(wù)的性能顯著下降。
  • 發(fā)現(xiàn)4:與數(shù)據(jù)驅(qū)動特征選擇相比,基于文本的特征選擇顯示出更強(qiáng)的模型規(guī)模擴(kuò)展性。
b0700e78-b0cf-11ef-8084-92fbcf53809c.pngb0a18124-b0cf-11ef-8084-92fbcf53809c.png

GPT-4基于LLM-Score在folktables數(shù)據(jù)集上整體表現(xiàn)最佳,在MIMIC-IV數(shù)據(jù)集上顯著優(yōu)于LassoNet和隨機(jī)特征選擇基線。LLM-Score在選擇前10%和30%的特征時,與最佳數(shù)據(jù)驅(qū)動基線的性能相媲美,且明顯優(yōu)于隨機(jī)選擇。在醫(yī)療保健等復(fù)雜領(lǐng)域,LLM-Score即使在沒有訪問訓(xùn)練數(shù)據(jù)的情況下,也能有效地進(jìn)行特征選擇。

參考文獻(xiàn)

https://arxiv.org/pdf/2408.12025

  • https://arxiv.org/pdf/2407.02694


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    520

    瀏覽量

    10268
  • 海量數(shù)據(jù)
    +關(guān)注

    關(guān)注

    0

    文章

    3

    瀏覽量

    888
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2423

    瀏覽量

    2640
收藏 人收藏

    評論

    相關(guān)推薦

    C語言鏈表知識點(diǎn)(2)

    C語言鏈表知識點(diǎn)(2)
    發(fā)表于 08-22 10:38 ?325次閱讀
    C語言鏈表<b class='flag-5'>知識點(diǎn)</b>(2)

    使用PADS軟件進(jìn)行PCB設(shè)計(jì),有哪些基礎(chǔ)知識點(diǎn)

    使用PADS軟件進(jìn)行PCB設(shè)計(jì),有哪些基礎(chǔ)知識點(diǎn)?發(fā)現(xiàn)知識點(diǎn)很多、很雜、很亂,有沒有聚合歸納統(tǒng)一的內(nèi)容給到
    發(fā)表于 08-20 12:07

    BFC的基礎(chǔ)知識點(diǎn)有哪些?

    BFC的基礎(chǔ)知識點(diǎn):css盒模型清除浮動 div水平垂直居中原型和原型鏈
    發(fā)表于 11-05 06:02

    計(jì)算機(jī)組成原理考研知識點(diǎn)歸納

    計(jì)算機(jī)組成原理考研知識點(diǎn)歸納 寫在前面的話:理科知識重在于理解知識點(diǎn)本身,對于每一個知識點(diǎn),大家都有自己理解的方式。這篇
    發(fā)表于 04-13 14:06 ?1922次閱讀

    基于知識點(diǎn)的改進(jìn)型遺傳組卷算法的研究

    為了實(shí)現(xiàn)無紙化考試系統(tǒng)題庫的自動組卷需求,提出了一種基于知識點(diǎn)的改進(jìn)型遺傳組卷算法,該算法主要是先對知識點(diǎn)進(jìn)行多次隨機(jī)篩選,然后利用改進(jìn)型遺傳組卷算法對其它多個約
    發(fā)表于 01-08 15:28 ?0次下載
    基于<b class='flag-5'>知識點(diǎn)</b>的改進(jìn)型遺傳組卷算法的研究

    高一數(shù)學(xué)知識點(diǎn)總結(jié)

    高一數(shù)學(xué)知識點(diǎn)總結(jié)高一數(shù)學(xué)知識點(diǎn)總結(jié)高一數(shù)學(xué)知識點(diǎn)總結(jié)
    發(fā)表于 02-23 15:27 ?0次下載

    高二數(shù)學(xué)知識點(diǎn)總結(jié)

    高二數(shù)學(xué)知識點(diǎn)總結(jié)高二數(shù)學(xué)知識點(diǎn)總結(jié)高二數(shù)學(xué)知識點(diǎn)總結(jié)
    發(fā)表于 02-23 15:27 ?0次下載

    PWM知識點(diǎn)詳解

    PWM知識點(diǎn)
    發(fā)表于 03-16 08:00 ?44次下載

    嵌入式知識點(diǎn)總結(jié)

    嵌入式知識點(diǎn)總結(jié)(arm嵌入式開發(fā)led過程)-嵌入式知識點(diǎn)總結(jié)? ? ? ? ? ? ? ? ? ??
    發(fā)表于 07-30 14:20 ?23次下載
    嵌入式<b class='flag-5'>知識點(diǎn)</b>總結(jié)

    電力基礎(chǔ)知識點(diǎn)合集

    電力基礎(chǔ)知識點(diǎn)合集
    發(fā)表于 03-14 16:35 ?0次下載

    詳解射頻微波基礎(chǔ)知識點(diǎn)

    詳解射頻微波基礎(chǔ)知識點(diǎn)
    的頭像 發(fā)表于 01-29 10:28 ?2364次閱讀

    C語言最重要的知識點(diǎn)

    C語言知識點(diǎn)總結(jié).doc
    發(fā)表于 02-16 16:37 ?9次下載

    數(shù)字電路知識點(diǎn)總結(jié)

    本文整理了數(shù)字電路課程中的相關(guān)基本的知識點(diǎn)和較為重要的知識點(diǎn),用于求職的數(shù)電部分的知識準(zhǔn)備,差缺補(bǔ)漏。
    的頭像 發(fā)表于 05-30 15:07 ?4836次閱讀
    數(shù)字電路<b class='flag-5'>知識點(diǎn)</b>總結(jié)

    滾珠螺桿的基本知識點(diǎn)

    滾珠螺桿的基本知識點(diǎn)
    的頭像 發(fā)表于 07-07 17:40 ?1517次閱讀
    滾珠螺桿的基本<b class='flag-5'>知識點(diǎn)</b>

    STM32 RTOS知識點(diǎn)

    電子發(fā)燒友網(wǎng)站提供《STM32 RTOS知識點(diǎn).pdf》資料免費(fèi)下載
    發(fā)表于 08-01 14:28 ?3次下載
    STM32 RTOS<b class='flag-5'>知識點(diǎn)</b>
    主站蜘蛛池模板: 成年人视频在线免费| JAVAPARSER丰满白老师| 99精品影视| 国产精品无码亚洲区艳妇| 久久精品综合电影| 天美麻豆成人AV精品视频| 91热久久免费精品99| 国产偷抇久久精品A片蜜臀A| 男人吃奶摸下弄进去好爽| 亚洲AV噜噜狠狠网址蜜桃尤物| 97色伦图片97色伦图影院久久| 国产三级精品三级在线观看 | 2022年国产精品久久久久| 国产乱码二卡3卡四卡| 欧美精品久久久久久久久大尺度 | 琪琪色原网站ying| 语文老师扒开胸罩喂我奶| 国产剧果冻传媒星空在线观看| 热热久久超碰精品中文字幕| 尤物久久99国产综合精品| 国产久青青青青在线观看| 色内射无码AV| 东京热 百度影音| 欧美人与禽zoz0性伦交app| 伊人激情综合网| 久久国产精品麻豆AV影视| 亚洲高清无在码在线无弹窗| 国产精品青青草原app大全| 色欲久久综合亚洲精品蜜桃| 成人免费看片又大又黄| 人妻 中文无码 中出| japanesen女同| 青柠高清在线观看完整版| 99久久夜色精品国产亚洲AV卜| 曼谷av女郎| 99热久久爱五月天婷婷| 欧美精品一区二区在线电影| sihu国产精品永久免费| 三级黄色网| 国产精品亚洲欧美| 亚洲欧美视频在线|