色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

常用數(shù)據(jù)清洗的SQL對比版

人工智能與大數(shù)據(jù)技術(shù) ? 來源:數(shù)據(jù)管道 ? 作者:寶器 ? 2022-09-13 10:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

日常工作中,分析師會接到一些專項分析的需求,首先會搜索腦中的分析體悉,根據(jù)業(yè)務(wù)需求構(gòu)建相應(yīng)的分析模型(不只是機(jī)器學(xué)習(xí)模型),根據(jù)模型填充相應(yīng)維度表,這些維度特征表能夠被使用的前提是假設(shè)已經(jīng)清洗干凈了。

但真正的原始表是混亂且包含了很多無用的冗余特征,所以能夠根據(jù)原始數(shù)據(jù)清洗出相對干凈的特征表就很重要。

前兩天在Towards Data Science上看到一篇文章,講的是用Pandas做數(shù)據(jù)清洗,作者將常用的清洗邏輯封裝成了一個個的清洗函數(shù)。

而公司的業(yè)務(wù)數(shù)據(jù)一般存儲在數(shù)據(jù)倉庫里面,數(shù)據(jù)量很大,這時候用Pandas處理是不大方便的,更多時候用的是HiveSQL和MySql做處理。

基于此,我拓展了部分內(nèi)容,寫了一個常用數(shù)據(jù)清洗的SQL對比版,腳本很簡單,重點是這些清洗場景和邏輯,大綱如圖:

adc1ad48-3305-11ed-ba43-dac502259ad0.png

01 刪除指定列、重命名列

場景

多數(shù)情況并不是底表的所有特征(列)都對分析有用,這個時候就只需要抽取部分列,對于不用的那些列,可以刪除。

重命名列可以避免有些列的命名過于冗長(比如Case When 語句),且有時候會根據(jù)不同的業(yè)務(wù)指標(biāo)需求來命名。

刪除列Python版:
df.drop(col_names,axis=1,inplace=True)

刪除列SQL版:
1、selectcol_namesfromTable_Name

2、altertabletableNamedropcolumncolumnName

重命名列Python版:
df.rename(index={'row1':'A'},columns={'col1':'B'})

重命名列SQL版:
selectcol_namesascol_name_BfromTable_Name

因為一般情況下是沒有刪除的權(quán)限(可以構(gòu)建臨時表),反向思考,刪除的另一個邏輯是選定指定列(Select)。

02 重復(fù)值、缺失值處理

場景:比如某網(wǎng)站今天來了1000個人訪問,但一個人一天中可以訪問多次,那數(shù)據(jù)庫中會記錄用戶訪問的多條記錄,而這時候如果想要找到今天訪問這個網(wǎng)站的1000個人的ID并根據(jù)此做用戶調(diào)研,需要去掉重復(fù)值給業(yè)務(wù)方去回訪。

缺失值:NULL做運(yùn)算邏輯時,返回的結(jié)果還是NULL,這可能就會出現(xiàn)一些腳本運(yùn)行正確,但結(jié)果不對的BUG,此時需要將NULL值填充為指定值。

重復(fù)值處理Python版:
df.drop_duplicates()

重復(fù)值處理SQL版:
1、selectdistinctcol_namefromTable_Name

2、selectcol_namefromTable_Namegroupbycol_name

缺失值處理Python版:
df.fillna(value=0)

df1.combine_first(df2)

缺失值處理SQL版:
1、selectifnull(col_name,0)valuefromTable_Name

2、selectcoalesce(col_name,col_name_A,0)asvaluefromTable_Name

3、selectcasewhencol_nameisnullthen0elsecol_nameendfromTable_Name

03 替換字符串空格、清洗*%@等垃圾字符、字符串拼接、分隔等字符串處理

場景:理解用戶行為的重要一項是去假設(shè)用戶的心理,這會用到用戶的反饋意見或一些用研的文本數(shù)據(jù),這些文本數(shù)據(jù)一般會以字符串的形式存儲在數(shù)據(jù)庫中,但用戶反饋的這些文本一般都會很亂,所以需要從這些臟亂的字符串中提取有用信息,就會需要用到文字符串處理函數(shù)。

字符串處理Python版:
##1、空格處理
df[col_name]=df[col_name].str.lstrip()

##2、*%d等垃圾符處理
df[col_name].replace('&#.*','',regex=True,inplace=True)

##3、字符串分割
df[col_name].str.split('分割符')

##4、字符串拼接
df[col_name].str.cat()

字符串處理SQL版:
##1、空格處理
selectltrim(col_name)fromTable_name

##2、*%d等垃圾符處理
selectregexp_replace(col_name,正則表達(dá)式)fromTable_name

##3、字符串分割
selectsplit(col_name,'分割符')fromTable_name

##4、字符串拼接
selectconcat_ws(col_name,'拼接符')fromTable_name

04 合并處理

場景:有時候你需要的特征存儲在不同的表里,為便于清洗理解和操作,需要按照某些字段對這些表的數(shù)據(jù)進(jìn)行合并組合成一張新的表,這樣就會用到連接等方法。

合并處理Python版:

左右合并
1、pd.merge(left,right,how='inner',on=None,left_on=None,right_on=None,
left_index=False,right_index=False,sort=True,
suffixes=('_x','_y'),copy=True,indicator=False,
validate=None)
2、pd.concat([df1,df2])

上下合并
df1.append(df2,ignore_index=True,sort=False)

合并處理SQL版:

左右合并
selectA.*,B.*fromTable_aAjoinTable_bBonA.id=B.id

selectA.*fromTable_aAleftjoinTable_bBonA.id=B.id

上下合并
## Union:對兩個結(jié)果集進(jìn)行并集操作,不包括重復(fù)行,同時進(jìn)行默認(rèn)規(guī)則的排序;
## Union All:對兩個結(jié)果集進(jìn)行并集操作,包括重復(fù)行,不進(jìn)行排序;

selectA.*fromTable_aA
union
selectB.*fromTable_bB

# Union 因為會將各查詢子集的記錄做比較,故比起Union All ,通常速度都會慢上許多。一般來說,如果使用Union All能滿足要求的話,務(wù)必使用Union All。
05、窗口函數(shù)的分組排序

場景:假如現(xiàn)在你是某寶的分析師,要分析今年不同店的不同品類銷售量情況,需要找到那些銷量較好的品類,并在第二年中加大曝光,這個時候你就需要將不同店里不同品類進(jìn)行分組,并且按銷量進(jìn)行排序,以便查找到每家店銷售較好的品類。

addca792-3305-11ed-ba43-dac502259ad0.png

Demo數(shù)據(jù)如上,一共a,b,c三家店鋪,賣了不同品類商品,銷量對應(yīng)如上,要找到每家店賣的最多的商品。
窗口分組Python版:

df['Rank']=df.groupby(by=['Sale_store'])['Sale_Num'].transform(lambdax:x.rank(ascending=False))

窗口分組SQL版:

select
*
from
(
Select
*,
row_number()over(partitionbySale_storeorderbySale_Numdesc)rk
from
table_name
)bwhereb.rk=1

ae012900-3305-11ed-ba43-dac502259ad0.png

可以很清晰的看到,a店鋪賣的最火的是蔬菜,c店鋪賣的最火的是雞肉,b店鋪?

嗯,b店鋪很不錯,賣了888份寶器狗。

總結(jié),上面的內(nèi)容核心是掌握這些數(shù)據(jù)清洗的應(yīng)用場景,這些場景幾乎可以涵蓋90%的數(shù)據(jù)分析前數(shù)據(jù)清洗的內(nèi)容。而對于分析模型來說,SQL和Python都是工具,如果熟悉SQL,是能夠更快速、方便的將特征清洗用SQL實現(xiàn)。

所以,請別張口閉口數(shù)據(jù)科學(xué),你竟SQL都不會。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SQL
    SQL
    +關(guān)注

    關(guān)注

    1

    文章

    783

    瀏覽量

    45034
  • MySQL
    +關(guān)注

    關(guān)注

    1

    文章

    853

    瀏覽量

    27829
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8500

    瀏覽量

    134476
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4826

    瀏覽量

    86593

原文標(biāo)題:5大SQL數(shù)據(jù)清洗方法!

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    超聲波清洗機(jī)相對于傳統(tǒng)清洗方法有哪些優(yōu)勢?

    超聲波清洗機(jī)相對于傳統(tǒng)清洗方法的優(yōu)勢超聲波清洗機(jī)是一種高效、環(huán)保的清洗技術(shù),相對于傳統(tǒng)清洗方法具有多項顯著的優(yōu)勢。本文將深入分析超聲波
    的頭像 發(fā)表于 06-26 17:23 ?138次閱讀
    超聲波<b class='flag-5'>清洗</b>機(jī)相對于傳統(tǒng)<b class='flag-5'>清洗</b>方法有哪些優(yōu)勢?

    數(shù)據(jù)數(shù)據(jù)恢復(fù)—SQL Server數(shù)據(jù)庫被加密如何恢復(fù)數(shù)據(jù)

    SQL Server數(shù)據(jù)庫故障: SQL Server數(shù)據(jù)庫被加密,無法使用。 數(shù)據(jù)庫MDF、LDF、log日志文件名字被篡改。
    的頭像 發(fā)表于 06-25 13:54 ?117次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>庫<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)—<b class='flag-5'>SQL</b> Server<b class='flag-5'>數(shù)據(jù)</b>庫被加密如何恢復(fù)<b class='flag-5'>數(shù)據(jù)</b>?

    達(dá)夢數(shù)據(jù)常用管理SQL命令詳解

    達(dá)夢數(shù)據(jù)常用管理SQL命令詳解
    的頭像 發(fā)表于 06-17 15:12 ?406次閱讀
    達(dá)夢<b class='flag-5'>數(shù)據(jù)</b>庫<b class='flag-5'>常用</b>管理<b class='flag-5'>SQL</b>命令詳解

    超聲波清洗設(shè)備的清洗效果如何?

    超聲波清洗設(shè)備是一種常用清洗各種物體的技術(shù),它通過超聲波振蕩產(chǎn)生的微小氣泡在液體中破裂的過程來產(chǎn)生高能量的沖擊波,這些沖擊波可以有效地去除表面和細(xì)微裂縫中的污垢、油脂、污染物和雜質(zhì)。超聲波
    的頭像 發(fā)表于 06-06 16:04 ?190次閱讀
    超聲波<b class='flag-5'>清洗</b>設(shè)備的<b class='flag-5'>清洗</b>效果如何?

    Devart: dbForge Compare Bundle for SQL Server—比較SQL數(shù)據(jù)庫最簡單、最準(zhǔn)確的方法

    ? dbForge Compare Bundle For SQL Server:包含兩個工具,可幫助您節(jié)省用于手動數(shù)據(jù)庫比較的 70% 的時間 dbForge數(shù)據(jù)比較 幫助檢測和分析實時SQL
    的頭像 發(fā)表于 01-17 11:35 ?536次閱讀

    dbForge Studio For SQL Server:用于有效開發(fā)的最佳SQL Server集成開發(fā)環(huán)境

    dbForge Studio For SQL Server:用于有效開發(fā)的最佳SQL Server集成開發(fā)環(huán)境 SQL編碼助手 SQL代碼分析 查詢分析器 可視化查詢生成器
    的頭像 發(fā)表于 01-16 10:36 ?717次閱讀

    通過Skyvia Connect SQL終端節(jié)點訪問任何數(shù)據(jù)

    通過 Skyvia Connect SQL 終端節(jié)點訪問任何數(shù)據(jù) ? 通過 Skyvia Connect SQL 終端節(jié)點訪問任何數(shù)據(jù)ADO.NET
    的頭像 發(fā)表于 01-02 09:31 ?348次閱讀
    通過Skyvia Connect <b class='flag-5'>SQL</b>終端節(jié)點訪問任何<b class='flag-5'>數(shù)據(jù)</b>

    如何使用SQL進(jìn)行數(shù)據(jù)分析

    使用SQL進(jìn)行數(shù)據(jù)分析是一個強(qiáng)大且靈活的過程,它涉及從數(shù)據(jù)庫中提取、清洗、轉(zhuǎn)換和聚合數(shù)據(jù),以便進(jìn)行進(jìn)一步的分析和洞察。 1.
    的頭像 發(fā)表于 11-19 10:26 ?1286次閱讀

    常用SQL函數(shù)及其用法

    SQL(Structured Query Language)是一種用于管理和操作關(guān)系數(shù)據(jù)庫的編程語言。SQL 提供了豐富的函數(shù)庫,用于數(shù)據(jù)檢索、數(shù)據(jù)
    的頭像 發(fā)表于 11-19 10:18 ?1392次閱讀

    SQL與NoSQL的區(qū)別

    在信息技術(shù)領(lǐng)域,數(shù)據(jù)庫是存儲和管理數(shù)據(jù)的核心組件。隨著互聯(lián)網(wǎng)的發(fā)展和大數(shù)據(jù)時代的到來,對數(shù)據(jù)庫的需求也在不斷變化。SQL和NoSQL作為兩種
    的頭像 發(fā)表于 11-19 10:15 ?590次閱讀

    數(shù)據(jù)從業(yè)者必知必會的Hive SQL調(diào)優(yōu)技巧

    數(shù)據(jù)從業(yè)者必知必會的Hive SQL調(diào)優(yōu)技巧 摘要 :在大數(shù)據(jù)領(lǐng)域中,Hive SQL被廣泛應(yīng)用于數(shù)據(jù)倉庫的
    的頭像 發(fā)表于 09-24 13:30 ?683次閱讀

    數(shù)據(jù)數(shù)據(jù)恢復(fù)—SQL Server數(shù)據(jù)庫出現(xiàn)823錯誤的數(shù)據(jù)恢復(fù)案例

    SQL Server數(shù)據(jù)庫故障: SQL Server附加數(shù)據(jù)庫出現(xiàn)錯誤823,附加數(shù)據(jù)庫失敗。數(shù)據(jù)
    的頭像 發(fā)表于 09-20 11:46 ?688次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>庫<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)—<b class='flag-5'>SQL</b> Server<b class='flag-5'>數(shù)據(jù)</b>庫出現(xiàn)823錯誤的<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)案例

    恒訊科技分析:sql數(shù)據(jù)庫怎么用?

    SQL數(shù)據(jù)庫的使用通常包括以下幾個基本步驟: 1、選擇數(shù)據(jù)庫系統(tǒng): 選擇適合您需求的SQL數(shù)據(jù)庫系統(tǒng),如MySQL、PostgreSQL、M
    的頭像 發(fā)表于 07-15 14:40 ?614次閱讀

    數(shù)據(jù)數(shù)據(jù)恢復(fù)—SQL Server數(shù)據(jù)庫所在分區(qū)空間不足報錯的數(shù)據(jù)恢復(fù)案例

    SQL Server數(shù)據(jù)數(shù)據(jù)恢復(fù)環(huán)境: 某品牌服務(wù)器存儲中有兩組raid5磁盤陣列。操作系統(tǒng)層面跑著SQL Server數(shù)據(jù)庫,
    的頭像 發(fā)表于 07-10 13:54 ?916次閱讀

    什么是 Flink SQL 解決不了的問題?

    簡介 在實時數(shù)據(jù)開發(fā)過程中,大家經(jīng)常會用 Flink SQL 或者 Flink DataStream API 來做數(shù)據(jù)加工。通常情況下選用2者都能加工出想要的數(shù)據(jù),但是總會有 Flin
    的頭像 發(fā)表于 07-09 20:50 ?568次閱讀
    主站蜘蛛池模板: 国产精品一区二区制服丝袜 | 中文无码不卡的岛国片国产片 | 亚洲中文字幕国产综合 | 日韩中文字幕亚洲无线码 | 动态抽插图视频 | 一品道门免费高清视频 | 公和熄洗澡三级中文字幕 | 亚洲 自拍 欧洲 视频二区 | 久久免费资源福利资源站 | 欧美又粗又大AAAA片 | 久久天天躁狠狠躁夜夜呲 | 偷拍 拍自 欧美色区 | 妻子撸av中文字幕 | 亚洲午夜AV久久久精品影院色戒 | av先锋影音资源男人站 | 美女被爽cao免费漫画 | 一级毛片视频免费 | 国产午夜不卡在线观看视频666 | 古月娜下面好紧好爽 | 99国内精精品久久久久久婷婷 | 菠萝菠萝蜜在线观看视频 | 爱很烂qvod| 狠狠狠的在啪线香蕉 | 99re6久久热在线视频 | 99国产精品白浆在线观看免费 | 亚洲精品6久久久久中文字幕 | 久久日本精品在线热 | 成年人视频在线免费看 | 三级在线观看网站 | www免费看.男人的天堂 | 久久成人无码国产免费播放 | 国内卡一卡二卡三免费网站 | 99精品热视频30在线热视频 | 解开白丝老师的短裙猛烈进入 | 日产亚洲一区二区三区 | 蜜桃婷婷狠狠久久综合9色 蜜桃视频一区二区 | 久久久国产精品免费A片蜜芽广 | 稚嫩挤奶h调教h | 我半夜摸妺妺的奶C了她 | 沦为公交两奶头春药高潮迭起 | 亚洲欧美国产综合在线 |

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品