色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Newspaper:能下載38種語言新聞文章的 Python 模塊

科技綠洲 ? 來源:Python實用寶典 ? 作者:Python實用寶典 ? 2023-10-31 11:09 ? 次閱讀

Newspaper 是一個很棒的python庫,用于提取和整理文章。

它有以下的優(yōu)點:

  • 多線程文章下載框架
  • 識別新聞網(wǎng)址
  • 從html提取文本
  • 從html提取頂部圖像
  • 從html提取所有圖像
  • 從文本中提取關(guān)鍵字
  • 自動提取摘要
  • 自動提取作者
  • 自動提取 Google 趨勢詞

下面是這個開源模塊的安裝和使用教程

1.準(zhǔn)備

開始之前,你要確保Python和pip已經(jīng)成功安裝在電腦上,如果沒有,可以訪問這篇文章:超詳細(xì)Python安裝指南 進行安裝。

如果你用Python的目的是數(shù)據(jù)分析,可以直接安裝Anaconda:Python數(shù)據(jù)分析與挖掘好幫手—Anaconda,它內(nèi)置了Python和pip.

此外,推薦大家用VSCode編輯器,它有許多的優(yōu)點:Python 編程的最好搭檔—VSCode 詳細(xì)指南

請選擇以下任一種方式輸入命令安裝依賴

  1. Windows 環(huán)境 打開 Cmd (開始-運行-CMD)。
  2. MacOS 環(huán)境 打開 Terminal (command+空格輸入Terminal)。
  3. 如果你用的是 VSCode編輯器 或 Pycharm,可以直接使用界面下方的Terminal.
pip3 install newspaper3k

遇到任何安裝問題,可以在本文下方留言框或Python實用寶典公眾號上留言,也可以訪問項目官網(wǎng)查看相關(guān)安裝指南:
https://github.com/codelucas/newspaper

2.基本使用

Newspaper 中是以文章為對象實現(xiàn)各種操作的,比如下載指定新聞的HTML:

from newspaper import Article

url = 'http://fox13now.com/2013/12/30/new-year-new-laws-obamacare-pot-guns-and-drones/'

# 根據(jù)url生成Article對象
article = Article(url)

# 下載文章
article.download()

# 文章的HTML
article.html
#'< !DOCTYPE HTML >< html itemscope itemtype="http://...'

通過解析新聞和文章,你能獲得此文章的作者、發(fā)布時間、摘要、頂部圖像、所有圖像、多媒體等:

"""
Python 實用寶典
《Newspaper — 一個能下載38種語言新聞文章的 Python 模塊》
"""

# 解析文章
article.parse()

# 獲取文章作者
article.authors
# ['Leigh Ann Caldwell', 'John Honway']

# 獲取文章發(fā)布日期
article.publish_date
# datetime.datetime(2013, 12, 30, 0, 0)

# 獲取文章文本
article.text
# 'Washington (CNN) -- Not everyone subscribes to a New Year's resolution...'

# 獲取頂部圖像
article.top_image
# 'http://someCDN.com/blah/blah/blah/file.png'

# 獲取文章多媒體資源
article.movies
# ['http://youtube.com/path/to/link.com', ...]

除此之外,該模塊還附帶了 NLP 功能,你能用它來識別文章關(guān)鍵字并自動提取摘要:

# 使用 NLP 解析
article.nlp()

# 獲取文章關(guān)鍵詞
article.keywords
# ['New Years', 'resolution', ...]

# 獲取文章摘要
article.summary
# 'The study shows that 93% of people ...'

你看,這個工具不無敵嗎?它還能提取某個網(wǎng)站的所有新聞文章,比如我想提取CNN的新聞文章:

import newspaper

cnn_paper = newspaper.build('http://cnn.com')

for article in cnn_paper.articles:
    print(article.url)
# http://www.cnn.com/2013/11/27/justice/tucson-arizona-captive-girls/
# http://www.cnn.com/2013/12/11/us/texas-teen-dwi-wreck/index.html

在此之上,你還能拿到CNN的其他新聞門戶分類:

for category in cnn_paper.category_urls():
    print(category)

# http://lifestyle.cnn.com
# http://cnn.com/world
# http://tech.cnn.com
# ...

許多中文媒體的文章下載也是支持的:

import newspaper
sina_paper = newspaper.build('http://www.sina.com.cn/', language='zh')

for category in sina_paper.category_urls():
    print(category)
# http://health.sina.com.cn
# http://eladies.sina.com.cn
# http://english.sina.com
# ...

article = sina_paper.articles[0]
article.download()
article.parse()

print(article.text)
# 新浪武漢汽車綜合 隨著汽車市場的日趨成熟,
# 傳統(tǒng)的"集全家之力抱得愛車歸"的全額購車模式已然過時,
# 另一種輕松的新興 車模式――金融購車正逐步成為時下消費者購
# 買愛車最為時尚的消費理念,他們認(rèn)為,這種新穎的購車
# 模式既能在短期內(nèi)
# ...

print(article.title)
# 兩年雙免0手續(xù)0利率 科魯茲掀背金融輕松購_武漢車市_武漢汽
# 車網(wǎng)_新浪汽車_新浪網(wǎng)

從上面的例子你可以看到,你可以非常容易地提取中文文章,僅需要在Article的language參數(shù)中指定 'zh' :

"""
Python 實用寶典
《Newspaper — 一個能下載38種語言新聞文章的 Python 模塊》
"""

from newspaper import Article
url = 'http://www.bbc.co.uk/zhongwen/simp/chinese_news/2012/12/121210_hongkong_politics.shtml'
a = Article(url, language='zh') # Chinese
a.download()
a.parse()
print(a.text[:150])

# 香港行政長官梁振英在各方壓力下就其大宅的違章建
# 筑(僭建)問題到立法會接受質(zhì)詢,并向香港民眾道歉。
# 梁振英在星期二(12月10日)的答問大會開始之際
# 在其演說中道歉,但強調(diào)他在違章建筑問題上沒有隱瞞的
# 意圖和動機。一些親北京陣營議員歡迎梁振英道歉,
# 且認(rèn)為應(yīng)能獲得香港民眾接受,但這些議員也質(zhì)問梁振英有

print(a.title)
# 港特首梁振英就住宅違建事件道歉

這個工具所支持的所有語言如下:

上滑查看更多語言

code            full namear              Arabicbe              Belarusianbg              Bulgarianda              Danishde              Germanel              Greeken              Englishes              Spanishet              Estonianfa              Persianfi              Finnishfr              Frenchhe              Hebrewhi              Hindihr              Croatianhu              Hungarianid              Indonesianit              Italianja              Japaneseko              Koreanlt              Lithuanianmk              Macedoniannb              Norwegian (Bokm?l)nl              Dutchno              Norwegianpl              Polishpt              Portuguesero              Romanianru              Russiansl              Sloveniansr              Serbiansv              Swedishsw              Swahilith              Thaitr              Turkishuk              Ukrainianvi              Vietnamesezh              Chinese

你可以按需選擇自己所需要的語言。

3.高級玩法

前面我們說過,Newspaper 是一個可以并發(fā)下載文章的框架,它是這么玩的:

"""
Python 實用寶典
《Newspaper — 一個能下載38種語言新聞文章的 Python 模塊》
"""

import newspaper
from newspaper import news_pool

slate_paper = newspaper.build('http://slate.com')
tc_paper = newspaper.build('http://techcrunch.com')
espn_paper = newspaper.build('http://espn.com')

papers = [slate_paper, tc_paper, espn_paper]
news_pool.set(papers, threads_per_source=2) # (3*2) = 總計 6 線程
news_pool.join()

# 到這一步,你可以假定三個新聞源的文章都下載完成了
print(slate_paper.articles[10].html)
# u'< html > ...'

可以看到,作者通過 build 三個新聞源,拿到一個總的新聞源池進行并發(fā)請求。

其中,.set 函數(shù)起到了調(diào)度作用,它能通過指定 threads_per_source 的值設(shè)定每個新聞源的線程。最后再 join 起來開始并發(fā)請求新聞源并開始下載新聞。

此外,Newspaper 還有一些參數(shù)可供你配置,比如:

上滑查看更多參數(shù)

keep_article_html,默認(rèn)為False,“如果要保留正文文本的html,則設(shè)置為True”http_success_only,默認(rèn)為True,“設(shè)置為False也可以捕獲非2XX響應(yīng)”MIN_WORD_COUNT,默認(rèn)為300,“文章中的單詞數(shù)量”MIN_SENT_COUNT,默認(rèn)為7,“句子數(shù)”MAX_TITLE,默認(rèn)值為200,“文章標(biāo)題中的字符數(shù)”MAX_TEXT,默認(rèn)值為100000,“文章文字中的字符數(shù)”MAX_KEYWORDS,默認(rèn)值為35,“文章中的關(guān)鍵詞數(shù)”MAX_AUTHORS,默認(rèn)值為10,“文章中的作者姓名數(shù)量”MAX_SUMMARY,默認(rèn)值為5000,“摘要的字符數(shù)”MAX_SUMMARY_SENT,默認(rèn)為5,“摘要中的句子數(shù)”memoize_articles,默認(rèn)為True,“運行后緩存并保存運行后的文章”fetch_images,默認(rèn)為True,“如果不需要獲取圖片,請將其設(shè)置為false”request_timeout,默認(rèn)為7,請求7秒后未響應(yīng)完成則超時number_threads,默認(rèn)值為10,多線程數(shù)量

如果你需要使用以上參數(shù),可以設(shè)一個Config對象,傳入指定的 Article 對象或build 方法中,如:

import newspaper
from newspaper import Config, Article, Source

config = Config()
config.memoize_articles = False

cbs_paper = newspaper.build('http://cbs.com', config)

非常簡單易懂,而且設(shè)置起來的維護成本不算很高。

在做一些輿情分析或者NLP算法訓(xùn)練/測試的時候,這個模塊簡直就是你的福音。你可以很方便地從網(wǎng)站上提取任意語言的文本數(shù)據(jù),拿來測試或者訓(xùn)練都可以。

對于那些想要搞輿情分析,尋找市場熱點的同學(xué)而言,這個模塊也是非常方便,你能搭配郵件發(fā)布工具,并使用Newspaper的關(guān)鍵詞提取功能,迅速制作一個關(guān)鍵詞熱點實時告警的工具。

總而言之,這是一個非常值得了解并學(xué)習(xí)使用的第三方模塊,強烈推薦。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模塊
    +關(guān)注

    關(guān)注

    7

    文章

    2695

    瀏覽量

    47433
  • 多線程
    +關(guān)注

    關(guān)注

    0

    文章

    278

    瀏覽量

    19943
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4792

    瀏覽量

    84628
收藏 人收藏

    評論

    相關(guān)推薦

    Python 語言的發(fā)展簡史

    假期,Guido開始寫Python語言的編譯器。Python這個名字,來自Guido所摯愛的電視劇Monty Python's Flying Circus。他希望這個新的叫做
    發(fā)表于 09-28 10:14

    python自然語言

    最近,python自然語言是越來越火了,那么什么是自然語言。自然語言(Natural Language )廣納了眾多技術(shù),對自然或人類語言
    發(fā)表于 05-02 13:50

    Python與其他編程語言有何不同?

    ,那是個壞主意  Python旨在成為一易于閱讀的語言。格式正確的Python代碼干凈整潔。  它通常使用英語關(guān)鍵字,而其他編程語言則使用
    發(fā)表于 09-16 15:54

    Python語言在人工智能中的功能及優(yōu)勢

    Python語言是一面向?qū)ο蟆⒅弊g式計算機程序設(shè)計語言Python語法簡捷、清晰和易讀。Python
    發(fā)表于 05-22 14:29 ?1.2w次閱讀

    學(xué)Python能做什么Python語言到底能做哪些事

    Python是一門腳本語言,因為能將其他各種編程語言寫的模塊粘接在一起,也被稱作膠水語言。強大的包容性、強悍的功能和應(yīng)用的廣泛性使其受到越來
    發(fā)表于 10-25 16:56 ?6次下載

    Python語言基礎(chǔ)的復(fù)習(xí)試題免費下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是Python語言基礎(chǔ)的復(fù)習(xí)試題免費下載
    發(fā)表于 09-18 15:58 ?14次下載
    <b class='flag-5'>Python</b>的<b class='flag-5'>語言</b>基礎(chǔ)的復(fù)習(xí)試題免費<b class='flag-5'>下載</b>

    Python是一什么語言,它可以用來做些什么

    的Basic語言,適合網(wǎng)頁編程的Java語言等,Python是他們其中的一。 首先,我們普及一下編程語言的基礎(chǔ)知識。用任何編程
    發(fā)表于 04-12 10:56 ?1284次閱讀

    介紹Python模塊的基礎(chǔ)知識

    Python是一高級編程語言,擁有豐富的庫和模塊模塊Python中一個獨立的、可重用的代碼
    的頭像 發(fā)表于 04-21 16:48 ?989次閱讀

    Newspaper開源模塊的安裝和使用教程

    Newspaper 是一個很棒的python庫,用于提取和整理文章。 下面是這個開源模塊的安裝和使用教程。 1.準(zhǔn)備 開始之前,你要確保Python和pip已經(jīng)成功安裝在電腦上,如果沒
    的頭像 發(fā)表于 10-16 11:22 ?644次閱讀

    Newspaper安裝和使用教程

    Newspaper 是一個很棒的python庫,用于提取和整理文章。 它有以下的優(yōu)點: 多線程文章下載框架 識別新聞網(wǎng)址 從html提取文本 從html提取頂部圖像 從html提取所有圖像 從文本
    的頭像 發(fā)表于 10-17 10:36 ?804次閱讀

    Newspaper:用于提取和整理文章的python

    Newspaper 是一個很棒的python庫,用于提取和整理文章。 它有以下的優(yōu)點: 多線程文章下載框架 識別新聞網(wǎng)址 從html提取文本 從html提取頂部圖像 從html提取所有圖像 從文本
    的頭像 發(fā)表于 10-30 14:24 ?754次閱讀

    Python編程語言屬于什么語言

    Python編程語言屬于高級編程語言中的一。它是一通用、面向?qū)ο蟆⒔忉屝途幊?b class='flag-5'>語言
    的頭像 發(fā)表于 11-22 14:31 ?1482次閱讀

    python如何導(dǎo)入模塊

    Python是一強大的編程語言,它支持模塊化編程,使得開發(fā)者可以將代碼分解為可重用且獨立的模塊模塊
    的頭像 發(fā)表于 11-22 14:46 ?946次閱讀

    python語言特點有哪些

    Python是一高級編程語言,由Guido van Rossum于1991年首次發(fā)布。它具有許多獨特的特點,這些特點使得Python在軟件開發(fā)領(lǐng)域變得非常流行。以下是關(guān)于
    的頭像 發(fā)表于 11-29 14:29 ?1134次閱讀

    Python語言基礎(chǔ)2

    電子發(fā)燒友網(wǎng)站提供《Python語言基礎(chǔ)2.rar》資料免費下載
    發(fā)表于 07-17 17:23 ?1次下載
    主站蜘蛛池模板: 无码AV熟妇素人内射V在线| jizzxxxx18中国内地| 漂亮的保姆5电影免费观看完整版中文| 吃奶摸下的羞羞漫画| 4399日本电影完整版在线观看免费| 日韩欧美 亚洲视频| 欧美伦理片第7页| 娇妻让壮男弄的流白浆| 国产 有码 无码 电影| 2018高清国产一区二区三区| 色欲AV亚洲午夜精品无码| 美女快播第一网| 老湿机一区午夜精品免费福利 | 久久久精品免费免费直播| 国产传媒精品1区2区3区| 在线免费观看国产视频| 午夜免费体验30分| 无码精品AV久久久奶水| 轻轻cao| 男人J进女人P| 精品手机在线视频| 国产在线亚洲精品观| 超碰人人澡人人胔| 做暖暖视频在线看片免费| 亚洲bt区| 青青青久草| 暖暖的高清视频在线观看免费中文| 国产精品美女久久久久AV超清 | 超碰在线公开视频| 4虎影院午夜在线观看| 一点色成人| 亚洲永久精品AV在线观看| 天天射天天爱天天干| 色www精品视频在线观看| 男女无遮挡吃奶gift动态图| 久久99精品久久久久久园产越南 | 99re2.久久热最新地址| 97精品国产亚洲AV超碰| 97精品在线观看| 爱很烂qvod| 国产AV一区二区三区日韩|