我們都知道,最近幾年AI創業幾乎呈指數級增長。那么AI領域的投資規模到底有多少大?這些AI創業公司的規模如何?對他們來說最有前途的市場是哪些?
這些問題我們都可以從AngelList公開的數據中得到答案。
關于AngelList
AngelList網站建于2010年,是全球最大的天使投資平臺,連接起眾多科技創業公司、投資人和創業企業求職者,目前已經有超過400萬公司、800萬投資者和至少100萬求職者在他們的網站上注冊。據不完全統計,10年間,通過該平臺投資的企業市值超過2900億美元,涵蓋企業包括Uber、Airbnb、Twitter、Dropbox等。
數據提取及特征確定
首先,我們使用explosion.ai.研發的SenseToVec工具來確定用于抓取數據的關鍵詞語。SenseToVec是一種神經網絡模型,用其讀取2015年Reddit上的所有評論,再使用word2vec和spaCy來建立語義地圖。通過搜索一個詞或短語,得到和該詞或短語最相似的單詞(甚至可以使用它來查找同義詞)。比如輸入“機器學習”,匹配提取出了:數據科學、NLP、計算機視覺……
對這些關鍵詞語過濾后,我們使用更精確的關鍵詞語在Angel上進行查詢。
接下來使用Selenium和BeautifulSoup制作網絡爬蟲,創建一個驅動程序訪問URL(https://angel.co/companies),點擊搜索欄并輸入特定的查詢詞。然后滾動列表中的每個公司并存儲其數據。
Angel爬蟲
因為網站限制了每次搜索只能獲得400個公司,所以我們使用過濾器并增加查詢數量,以確保得到幾乎所有相關公司的信息。
刪除重復信息后,獲得CSV文件,其中包含10139組獨立數據,特征包括:
‘name’→公司名稱
‘joined’→公司加入Angel的時間
‘type’→公司類型(創業公司,有限責任公司,孵化器…)
‘location’→公司所在城市
‘market’→公司活躍領域(電商,游戲…)
‘pitch’→公司標語
‘raised’→公司投資人的投資數額
‘tech’→主要使用的編程語言(Python,Javascript…)
數據分析
首先進行清洗和預處理,包括格式化日期、正規化文本,以及將金額相關的字符串轉換為浮點數字。
然后就是對這個包含10139個公司的數據集進行各種操作。
1、統計這些創業公司使用的編程語言
上圖顯示,在機器學習方面,AngelList上的創業公司更偏愛使用python,python的使用率達到93.5%。其次是javascript,使用率為3.94%。但是,我們只統計了AngelList頭部技術公司,因此這沒有包含其他重要的編程語言。
如果按年份統計數據,得到2010年-2019年這些編程語言使用情況的變化:
編程語言使用情況變遷
上圖顯示,Python的使用率顯著上升。這也印證了,作為一種驚人的、高水準的通用語言,python擁有范圍廣泛的強大的庫,并在數據科學和機器學習領域最為著名。
2、查看這些創業公司分布在哪些市場領域
10139個創業公司所在的市場分布
有一些比較常見的行業(比如b2b和saas)在其他市場大類別中也經常出現(如在大數據分析和大數據中),但還是可以在人工智能相關領域中做一些比較。
3、統計各個行業的投資額
根據市場來聚合數據并總結出融資,可以知道各個行業的投資額總共有多少:
各行業的總投資額
上圖列出投資額最高的20個行業,其中酒店行業遙遙領先,達到100億美元以上,排名第二的新聞行業達到40億美元以上。但這不能說明這些行業獲得投資的創業公司的數量最多。
比如,這其中投資規模最大的企業有(以十億美元為單位):
Airbnb→10.3(酒店)
Netscape→4.2(新聞)
Nest→3.3(物聯網)
Palantir→2.1(分析)
Grail→1.7(診斷)
這解釋了為什么酒店行業的投資量巨大:一兩個規模巨大的企業會對總投資量產生重大影響。
如果選取每個行業的平均投資額則可以獲得不同的結果:
各行業的平均投資額
上圖是平均投資額最多的10個行業,并不包含酒店行業。遙遙領先的是新聞行業,平均投資額達到20億美元,其余的行業都在5億美元以下。
4、分析不同投資額區間的企業分布數量
首先我們統計下每個行業的獲投資企業的數量,然后對比投資額范圍。例如,有多少移動廣告公司獲得了1到1000萬美元的投資?
將投資范圍分為5個區間,統計每個區間內,獲得相應投資額的企業數量:
通過這個相對復雜的分析,投資者和創業者可以更深入了解與投資規模相關的市場行為。如果你的公司處在第一個階段(種子輪),在哪個市場更容易獲得融資?又哪些企業變成了融資數十億美元的獨角獸?
5、分析投資人對不同市場的興趣變化
使用每個行業每年的投資額,可以看到2011年以來市場如何變化:
2011年以來的市場變化
6、分析不同階段的創業企業的受歡迎程度
按創業公司所處的發展階段來查看平均投資額:
上圖顯示,A輪階段的平均投資低于種子輪公司。而企業發展越成熟,獲得投資額約大。
7、2010年以來的的總投資(以百萬美元為單位)以及創業公司數量
歷年總投資額
可以看到,2012年開始,AngelList上的數據爆炸增長,風險投資顯著增長。這也伴隨著越來越多的創業公司在全球范圍內出現。
下圖顯示了每年在AngelList上注冊的創業公司數量。
歷年創業公司數量
8、全球范圍的創業公司分布情況
最后,我們使用Geopy定位提取坐標,建立一個分布在世界各地的創業公司集群地圖。可以獲得一個交互式的地圖:
創業公司集群地圖
這個定位地圖包括了10000+個公司的位置。雖然樣本較小,但仍然非常好的顯示了不同國家的科技分布情況。
在這個交互式地圖上,點擊集群可以打開更小的集群,持續點擊可以看到企業。點擊單個企業可以獲得他們的網站鏈接。(交互式地圖獲取方式見文末)
根據投資額進行加權,得到一個熱力圖。所以人工智能的錢都去哪里了呢?
熱力圖
9、這些創業公司的標語中最常出現的詞語
根據創業公司標語得到的詞云
以上對這個數據集的處理還不夠全面。還可以從員工數量(反應企業規模)、企業年齡、標語(使用NLP進行分析)中獲得更多信息。甚至還可以獲得——創始人、聯合創始人和投資者的聯系信息。
網頁抓取加上數據分析和機器學習,將變成了一個非常強大的工具!
-
AI
+關注
關注
87文章
30734瀏覽量
268896 -
計算機視覺
+關注
關注
8文章
1698瀏覽量
45980 -
機器學習
+關注
關注
66文章
8407瀏覽量
132567
原文標題:最受投資人熱捧的AI領域是哪些?10000+個AI創業公司的數據分析告訴你
文章出處:【微信號:BigDataDigest,微信公眾號:大數據文摘】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論