色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Cpca 模塊:自動(dòng)識(shí)別文字中的省市區(qū)并繪圖

科技綠洲 ? 來(lái)源:Python實(shí)用寶典 ? 作者:Python實(shí)用寶典 ? 2023-10-21 11:26 ? 次閱讀

在做NLP(自然語(yǔ)言處理)相關(guān)任務(wù)時(shí),經(jīng)常會(huì)遇到需要識(shí)別并提取省、城市、行政區(qū)的需求。雖然我們自己通過(guò)關(guān)鍵詞表一個(gè)個(gè)查找也能實(shí)現(xiàn)提取目的,但是需要先搜集省市區(qū)關(guān)鍵詞表,相對(duì)而言比較繁瑣。

今天給大家介紹一個(gè)模塊,你只需要把字符串傳遞給這個(gè)模塊,他就能給你返回這個(gè)字符串內(nèi)的省、市、區(qū)關(guān)鍵詞,并能給你在圖片上標(biāo)注起來(lái),它就是 Cpca 模塊。

1.準(zhǔn)備

開(kāi)始之前,你要確保Pythonpip已經(jīng)成功安裝在電腦上,如果沒(méi)有,可以訪問(wèn)這篇文章:超詳細(xì)Python安裝指南 進(jìn)行安裝。

**(可選1) **如果你用Python的目的是數(shù)據(jù)分析,可以直接安裝Anaconda:Python數(shù)據(jù)分析與挖掘好幫手—Anaconda,它內(nèi)置了Python和pip.

**(可選2) **此外,推薦大家用VSCode編輯器,它有許多的優(yōu)點(diǎn):Python 編程的最好搭檔—VSCode 詳細(xì)指南

請(qǐng)選擇以下任一種方式輸入命令安裝依賴

  1. Windows 環(huán)境 打開(kāi) Cmd (開(kāi)始-運(yùn)行-CMD)。
  2. MacOS 環(huán)境 打開(kāi) Terminal (command+空格輸入Terminal)。
  3. 如果你用的是 VSCode編輯器 或 Pycharm,可以直接使用界面下方的Terminal.
pip install cpca

注意,目前 cpca 模塊僅支持Python3及以上版本。

在 windows 上可能會(huì)出現(xiàn)類似如下問(wèn)題:

Building wheel for pyahocorasick (setup.py) ... error

先閱讀原文去下載 Microsoft Visual C++ Build Tools 安裝VC++構(gòu)建工具,再重新 pip install cpca,即可解決問(wèn)題。

2.基本使用

通過(guò)兩行代碼就能實(shí)現(xiàn)最基本的省市區(qū)提取:

# 公眾號(hào): Python 實(shí)用寶典
# 2022/06/23

import cpca

location_str = [
    "廣東省深圳市福田區(qū)巴丁街深南中路1025號(hào)新城大廈1層",
    "特斯拉上海超級(jí)工廠是特斯拉汽車首座美國(guó)本土以外的超級(jí)工廠,位于中華人民共和國(guó)上海市。",
    "三星堆遺址位于中國(guó)四川省廣漢市城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時(shí)代文化遺址"
]
df = cpca.transform(location_str)
print(df)

效果如下:

省 市 區(qū) 地址 adcode
0 廣東省 深圳市 福田區(qū) 巴丁街深南中路1025號(hào)新城大廈1440304
1 上海市 None None310000
2 四川省 德陽(yáng)市 廣漢市 城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時(shí)代文化遺址 510681

注意第三條的廣漢市,cpca 不僅識(shí)別到了語(yǔ)句中的縣級(jí)市廣漢市,還能自動(dòng)匹配到其代管市的德陽(yáng)市,不得不說(shuō)非常強(qiáng)大。

如果你想獲知程序是從字符串的那個(gè)位置提取出省市區(qū)名的,可以添加一個(gè) pos_sensitive=True 參數(shù):

# 公眾號(hào): Python 實(shí)用寶典
# 2022/06/23

import cpca

location_str = [
    "廣東省深圳市福田區(qū)巴丁街深南中路1025號(hào)新城大廈1層",
    "特斯拉上海超級(jí)工廠是特斯拉汽車首座美國(guó)本土以外的超級(jí)工廠,位于中華人民共和國(guó)上海市。",
    "三星堆遺址位于中國(guó)四川省廣漢市城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時(shí)代文化遺址"
]
df = cpca.transform(location_str, pos_sensitive=True)
print(df)

效果如下:

(base) G:push20220623 >python 1.py
     省 市 區(qū) 地址 adcode 省_pos 市_pos 區(qū)_pos
0  廣東省 深圳市 福田區(qū) 巴丁街深南中路1025號(hào)新城大廈1440304      0      3      6
1  上海市 None None310000     38     -1     -1
2  四川省 德陽(yáng)市 廣漢市 城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時(shí)代文化遺址 510681      9     -1     12

它標(biāo)記出了識(shí)別到省、市、區(qū)的關(guān)鍵位置(index),當(dāng)然如果是德陽(yáng)市這種特殊的識(shí)別會(huì)被標(biāo)記為-1.

3.高級(jí)使用

它還可以從大段文本中批量識(shí)別多個(gè)地區(qū):

# 公眾號(hào): Python 實(shí)用寶典
# 2022/06/23

import cpca

long_text = "對(duì)一個(gè)城市的評(píng)價(jià)總會(huì)包含個(gè)人的感情。如果你喜歡一個(gè)城市,很有可能是喜歡彼時(shí)彼地的自己。"
    "在廣州、香港讀過(guò)書(shū),工作過(guò),在深圳買過(guò)房、短暫生活過(guò),去北京出了幾次差。"
    "想重點(diǎn)比較一下廣州、深圳和香港,順帶說(shuō)一下北京。總的來(lái)說(shuō),覺(jué)得廣州舒適、"
    "香港精致、深圳年輕氣氛好、北京大氣又粗糙。答主目前選擇了廣州。"
df = cpca.transform_text_with_addrs(long_text, pos_sensitive=True)
print(df)

效果如下:

(base) G:push20220623 >python 1.py
          省 市 區(qū) 地址 adcode 省_pos 市_pos 區(qū)_pos
0       廣東省 廣州市 None     440100     -1     44     -1
1   香港特別行政區(qū) None  None     810000     47     -1     -1
2       廣東省 深圳市 None     440300     -1     58     -1
3       北京市 None  None     110000     71     -1     -1
4       廣東省 廣州市 None     440100     -1     86     -1
5       廣東省 深圳市 None     440300     -1     89     -1
6   香港特別行政區(qū) None  None     810000     92     -1     -1
7       北京市 None  None     110000    100     -1     -1
8       廣東省 廣州市 None     440100     -1    110     -1
9   香港特別行政區(qū) None  None     810000    115     -1     -1
10      廣東省 深圳市 None     440300     -1    120     -1
11      北京市 None  None     110000    128     -1     -1
12      廣東省 廣州市 None     440100     -1    143     -1

不僅如此,模塊中還自帶一些簡(jiǎn)單繪圖工具,可以在地圖上將上面輸出的數(shù)據(jù)以熱力圖的形式畫(huà)出來(lái):

# 公眾號(hào): Python 實(shí)用寶典
# 2022/06/23

import cpca
from cpca import drawer

long_text = "對(duì)一個(gè)城市的評(píng)價(jià)總會(huì)包含個(gè)人的感情。如果你喜歡一個(gè)城市,很有可能是喜歡彼時(shí)彼地的自己。"
    "在廣州、香港讀過(guò)書(shū),工作過(guò),在深圳買過(guò)房、短暫生活過(guò),去北京出了幾次差。"
    "想重點(diǎn)比較一下廣州、深圳和香港,順帶說(shuō)一下北京。總的來(lái)說(shuō),覺(jué)得廣州舒適、"
    "香港精致、深圳年輕氣氛好、北京大氣又粗糙。答主目前選擇了廣州。"
df = cpca.transform_text_with_addrs(long_text, pos_sensitive=True)
drawer.draw_locations(df[cpca._ADCODE], "df.html")

運(yùn)行的時(shí)候可能會(huì)報(bào)這個(gè)錯(cuò):

(base) G:push20220623 >python 1.py
Traceback (most recent call last):
  File "1.py", line 12, in < module >
    drawer.draw_locations(df[cpca._ADCODE], "df.html")
  File "G:Anaconda3libsite-packagescpcadrawer.py", line 41, in draw_locations
    import folium
ModuleNotFoundError: No module named 'folium'

使用pip安裝即可:

pip install folium

然后重新運(yùn)行代碼,會(huì)在當(dāng)前目錄下生成 df.html, 雙擊打開(kāi),效果如下:

圖片

怎么用,是不是感覺(jué)非常方便?以后地點(diǎn)的識(shí)別用這個(gè)模塊就完全夠了。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模塊
    +關(guān)注

    關(guān)注

    7

    文章

    2722

    瀏覽量

    47574
  • 字符串
    +關(guān)注

    關(guān)注

    1

    文章

    584

    瀏覽量

    20553
  • 編輯器
    +關(guān)注

    關(guān)注

    1

    文章

    806

    瀏覽量

    31210
  • 數(shù)據(jù)分析
    +關(guān)注

    關(guān)注

    2

    文章

    1452

    瀏覽量

    34077
  • CPCA
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    5958
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何實(shí)現(xiàn)串口的自動(dòng)識(shí)別

    用visa設(shè)計(jì)串口通信程序每次都得選擇串口,請(qǐng)問(wèn)有沒(méi)有哪位大俠會(huì)設(shè)計(jì)能夠自動(dòng)識(shí)別串口的程序??謝謝了~
    發(fā)表于 03-23 22:48

    求助帖 labview自動(dòng)識(shí)別

    自動(dòng)識(shí)別 ,不想直接在前面板組合框輸入,因?yàn)槿绻砀?b class='flag-5'>中的A和B變成C和D的話就不匹配了,想實(shí)現(xiàn)自動(dòng)識(shí)別。問(wèn)題是組合框是字符串類型,A,B形成了一個(gè)一維數(shù)組,怎么辦!!!求助
    發(fā)表于 04-19 14:34

    請(qǐng)問(wèn)USB自動(dòng)識(shí)別芯片RH7901是怎樣自動(dòng)識(shí)別充電設(shè)備的?

    控制IC,可自動(dòng)識(shí)別充電設(shè)備類型,通過(guò)對(duì)應(yīng)的USB充電協(xié)議與設(shè)備握手,使之獲得最大充電電流,在保護(hù)充電設(shè)備的前提下節(jié)省充電時(shí)間。RH7902 雙端口控制功能(RH7902):可同時(shí)獨(dú)立支持兩路USB
    發(fā)表于 05-22 14:15

    車輛自動(dòng)識(shí)別稱重系統(tǒng)的工作原理

    車輛自動(dòng)識(shí)別稱重系統(tǒng)的工作原理車輛自動(dòng)識(shí)別稱重系統(tǒng)組成車輛自動(dòng)識(shí)別稱重系統(tǒng)典型方案示意圖車輛自動(dòng)識(shí)別稱重系統(tǒng)給用戶帶來(lái)的利益
    發(fā)表于 03-01 09:31

    車輛自動(dòng)識(shí)別稱重系統(tǒng)是怎樣組成的?

    車輛自動(dòng)識(shí)別稱重系統(tǒng)的工作原理是什么?車輛自動(dòng)識(shí)別稱重系統(tǒng)是怎樣組成的?
    發(fā)表于 05-13 07:02

    如何實(shí)現(xiàn)系統(tǒng)自動(dòng)識(shí)別切斷電池供電的呢?

    便攜式設(shè)備經(jīng)常會(huì)存在USB供電和鋰電池供電并存的情況,那么當(dāng)USB插入供電的時(shí)候如何實(shí)現(xiàn)系統(tǒng)自動(dòng)識(shí)別切斷電池供電的呢?帶著這個(gè)問(wèn)題我們來(lái)看下今天的分享內(nèi)容。如下電路主要是實(shí)現(xiàn)USB插入自...
    發(fā)表于 01-26 07:40

    智能交通系統(tǒng)的車牌自動(dòng)識(shí)別技術(shù)有哪些應(yīng)用呢

    治安卡口等場(chǎng)合,成為研究的熱點(diǎn)。車牌識(shí)別技術(shù)是利用計(jì)算機(jī)等輔助設(shè)備進(jìn)行的自動(dòng)汽車牌照自動(dòng)識(shí)別就是在裝備了數(shù)字?jǐn)z像設(shè)備和計(jì)算機(jī)信息管理系統(tǒng)等軟硬件平臺(tái)的基礎(chǔ)之上,通過(guò)對(duì)車輛圖像的采集,采用先進(jìn)的圖像處理、模式
    發(fā)表于 03-02 06:30

    Python pacp模塊——自動(dòng)識(shí)別文字省市區(qū)繪圖

    省市區(qū)之后的具體地址也可以將大段文本中所有提到的地址提取出來(lái),并且自動(dòng)將相鄰的存在所屬關(guān)系的地址歸并到一條記錄(0.5.5版本新功能):"分店位于徐匯區(qū)虹漕路461號(hào)58號(hào)樓5樓
    發(fā)表于 06-27 17:20

    STLink是怎么自動(dòng)識(shí)別STM32芯片型號(hào)的?

    這個(gè)自動(dòng)識(shí)別機(jī)制是怎么樣做到的
    發(fā)表于 10-27 08:32

    基于射頻技術(shù)的車牌自動(dòng)識(shí)別裝置設(shè)計(jì)

    基于射頻技術(shù)提出了一種新型車牌自動(dòng)識(shí)別裝置的設(shè)計(jì)思路,詳細(xì)闡述了該裝置的工作原理、硬件電路及軟件的設(shè)計(jì)。利用單片機(jī)控制射頻讀寫(xiě)模塊,讀取車牌的數(shù)據(jù)信息,可以通過(guò)
    發(fā)表于 11-15 11:32 ?173次下載
    基于射頻技術(shù)的車牌<b class='flag-5'>自動(dòng)識(shí)別</b>裝置設(shè)計(jì)

    Python pacp模塊自動(dòng)識(shí)別文字省市區(qū)并將其繪圖

    |市 |區(qū) |地址 ||上海市|上海市|徐匯區(qū)|虹漕路461號(hào)58號(hào)樓5樓 ||福建省|泉州市|洛江區(qū)|萬(wàn)安塘西工業(yè)區(qū) | ? 注:“地址”列代表去除了省市區(qū)之后的具體地址 也可以將大段文本中所有提到的地址提取出來(lái),并且自動(dòng)將相鄰的存在所屬關(guān)系的地址歸并到一條記錄
    的頭像 發(fā)表于 06-27 17:19 ?2850次閱讀

    OCR如何自動(dòng)識(shí)別圖片文字

    OCR 是光學(xué)字符識(shí)別(英語(yǔ):Optical Character Recognition,OCR)是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過(guò)程。 很早之前就有同學(xué)在公眾號(hào)后臺(tái)
    的頭像 發(fā)表于 10-31 16:45 ?801次閱讀
    OCR如何<b class='flag-5'>自動(dòng)識(shí)別</b>圖片<b class='flag-5'>文字</b>

    數(shù)電票試點(diǎn)擴(kuò)圍至36個(gè)省市區(qū) 百望云解決方案助力企業(yè)數(shù)電升級(jí)

    省市區(qū)(含計(jì)劃單列市)已全面開(kāi)展數(shù)電票試點(diǎn)。 對(duì)于企業(yè)而言,這是一次系統(tǒng)升級(jí)的最好契機(jī)。 一方面,數(shù)電票的開(kāi)票試點(diǎn)和用票試點(diǎn)已在36個(gè)省市區(qū)全面推廣,這使多數(shù)企業(yè)無(wú)須再顧慮各地試點(diǎn)步調(diào)不一致的問(wèn)題,盡快上線數(shù)電票系統(tǒng),就能盡早享受
    的頭像 發(fā)表于 11-29 17:45 ?527次閱讀
    數(shù)電票試點(diǎn)擴(kuò)圍至36個(gè)<b class='flag-5'>省市區(qū)</b> 百望云解決方案助力企業(yè)數(shù)電升級(jí)

    水位自動(dòng)識(shí)別攝像機(jī)

    管理等方面提供有力支持。優(yōu)勢(shì)與特點(diǎn)水位自動(dòng)識(shí)別攝像機(jī)是一種結(jié)合了攝像監(jiān)控技術(shù)和圖像識(shí)別技術(shù)的設(shè)備,它能夠通過(guò)拍攝、分析水面影像,自動(dòng)識(shí)別水位的高低,實(shí)時(shí)上傳數(shù)據(jù)到監(jiān)測(cè)
    的頭像 發(fā)表于 07-31 10:34 ?403次閱讀
    水位<b class='flag-5'>自動(dòng)識(shí)別</b>攝像機(jī)

    光學(xué)識(shí)別字符是自動(dòng)識(shí)別技術(shù)嗎

    光學(xué)識(shí)別字符(Optical Character Recognition,簡(jiǎn)稱OCR)是一種自動(dòng)識(shí)別技術(shù),它能夠?qū)⒏鞣N類型文檔(如掃描的紙質(zhì)文檔、PDF文件或數(shù)字相機(jī)拍攝的圖片)文字
    的頭像 發(fā)表于 09-10 15:43 ?492次閱讀
    主站蜘蛛池模板: 亚洲一区二区女搞男| 午夜国产免费视频亚洲| 国产欧美在线亚洲一区刘亦菲| CHINA末成年VIDEO学生| 中文免费视频| 制服的微热| 在线高清视频不卡无码| 一本大道熟女人妻中文字幕在线| 亚洲 日韩 自拍 视频一区| 深夜草逼逼| 天天干夜夜曰| 天天色天天干天天| 日本人bbwbbwbbwbbw| 秋霞伦理机在线看片| 日本护士喷水| 色综合久久88色综合天天提莫| 日韩精品真人荷官无码| 日韩亚洲国产欧美免费观看| 色四房播播| 亚色九九九全国免费视频| 亚洲成人精品| 一亲二脱三插| 97超在线视频| 冰山高冷受被c到哭np双性| 夫妻主vk| 国产这里有精品| 久久久擼擼擼麻豆| 美女的避毛| 啪啪漫画无遮挡全彩h同人| 日本肉肉口番工全彩动漫| 神马电影院午 夜理论| 亚洲 欧美 国产 在线 日韩| 亚洲视频在线免费| 综合精品欧美日韩国产在线| 99视频精品免视3| 高清视频在线观看SEYEYE| 国产露脸无码A区久久蘑菇| 精品一区二区免费视频蜜桃网 | 欧美亚洲韩日午夜| 深夜释放自己污在线看| 亚洲人精品午夜射精日韩|