Github的大名想必無人不知,無人不曉。一些新手或許會不敢接觸Github,但同為初學者,我非常清楚Github的用途遠不止管理項目版本。除了人人都可參與的開源項目以外,Github上還有豐富的學習資源。
網課固然讓人受益良多,但輔以練習才能鞏固新知。一些常用網站,例如“Codewars”和“Codekata”,提供每日練習,用戶可根據自身需求選擇語言并解題。
如果要針對Pandas進行強化練習,可以參考下列四大可供學習Pandas的Github代碼倉庫。其中一個代碼倉庫經Fork次數最多,受眾層次廣,Pandas新手以及進階學習者都可使用。
Pandas Exercises——多種類數據(4k Forks)
該代碼倉庫由11個部分組成,涵蓋了從數據預處理到高級數據可視化等內容。每個文件夾中有多個數據集,包含不同的練習。
用戶可下載IPYNB文件,打開Jupyter notebook,親自動手一試。可將代碼輸入題目下方的空白cell框格中,并查看“Exercise_with_Solution.ipynb”文件以核對答案。
該代碼倉庫資源綜合性強,共有27個notebook可供使用。即使已經熟悉Pandas,“入門須知(Getting and knowing)”部分也值得一看,或許可從中新學到.describe(include=all) 和 .nunique()等函數。
Pandas Videos——多種類數據/含視頻(1.2k Forks)
該代碼倉庫內含的Jupyter notebook附有代碼,其代碼來自于一個介紹Pandas多種不同功能的系列視頻。作者使用真實數據集,遍歷了解決問題的全過程,將其寫進notebook中并發布于網上。
理想狀態下,打開Jupyter notebook后便會隨之播放視頻。視頻和代碼都瀏覽完畢后,可將代碼倉庫中的notebook作為“答題紙”。這些notebook中還附有腳注,有助于厘清特定cell框格的輸出結果。
這些視頻與相應的notebook綜合性極強。對于Pandas相關的疑問,諸如“如何對Pandas中的Series和Dataframe進行排序”等簡單小問題,或是“如何用Pandas和sci-kit learn在Kaggle完成提交”等復雜大問題,都能在這一代碼倉庫中獲得解答。
100 Pandas Puzzles(1k Forks)
該代碼庫中含有一個Jupyter notebook文件和一些練習以供下載。用戶可將代碼填入問題下方的cell框格中,并可與“solutionsnotebook”文件中的相應cell框格進行比對。
notebook由不同部分組成,包括“導入Pandas(Importing Pandas)”、“DataFrame基礎知識(DataFrame basics)”和“Series與DatetimeIndex(Series andDatetimeIndex)”等。大多數問題并不需大段代碼,在理想情況下僅用寥寥幾行即可解決。
該代碼倉庫中的“掃雷(Minesweeper)”部分很有趣,內容包含:創建DataFrame,使其內含掃雷游戲的必要數據,包括方格坐標值、格內是否含雷及其相鄰方格中的含雷數量?!皰呃住敝械绕y,對于已完成之前練習的人來說,仍屬力所能及之范圍。有別于傳統的數據分析,該部分考察了在特殊場景中運用DataFrame的能力,頗具趣味性。
作者也指出了題目列表尚不完整,有意完善題目的人可以提出申請,以獲取更多練習、做出更正和改進。
Pycon 2019 Tutorial——中等難度(180 Forks)
該代碼倉庫中含有一個極長的notebook,其中有作者在自制的“使用Pandas的最佳數據科學實踐(Data Science Best Practices with Pandas)”視頻中討論到的代碼。該代碼倉庫不含Pandas的基礎知識,因此適合中等水平的Pandas用戶使用。
它共有八個主要部分,并不十分遵循“教程”模式,更類似于真實的數據分析項目,從數據檢驗、數據清洗到創建初步可視化,以幫助解答一些具體的問題,例如“平均來說,哪類職業的工作者發表的TED演講最為有趣?”等。
對于剛接觸Python和Pandas的數據分析項目的新手來說,可以觀看整個視頻來學習他人如何完成數據清洗、探索和分析等不同步驟,取其精華并活用于自己的項目之中。
學習的途徑多種多樣,你不妨從中選取符合自己Pandas水平的學習資源,在Github上一試身手。
-
數據
+關注
關注
8文章
7067瀏覽量
89131 -
源代碼
+關注
關注
96文章
2945瀏覽量
66783 -
GitHub
+關注
關注
3文章
471瀏覽量
16470
發布評論請先 登錄
相關推薦
評論