什么是Awk
Awk是一種小巧的編程語言及命令行工具。(其名稱得自于它的創(chuàng)始人Alfred Aho、Peter Weinberger 和 Brian Kernighan姓氏的首個字母)。它非常適合服務器上的日志處理,主要是因為Awk可以對文件進行操作,通常以可讀文本構(gòu)建行。
我說它適用于服務器是因為日志文件,轉(zhuǎn)儲文件(dump files),或者任意文本格式的服務器終止轉(zhuǎn)儲到磁盤都會變得很大,并且在每個服務器你都會擁有大量的這類文件。如果你經(jīng)歷過這樣的情境——在沒有像Splunk或者其他等價的工具情況下不得不在50個不同的服務器里分析幾G的文件,你會覺得去獲取和下載所有的這些文件并分析他們是一件很糟糕的事。
我親身經(jīng)歷過這種情境。當一些Erlang節(jié)點將要死掉并留下一個700MB到4GB的崩潰轉(zhuǎn)儲文件(crash dump)時,或者當我需要在一個小的個人服務器(叫做VPS)上快速瀏覽日志,查找一個常規(guī)模式時。
在任何情況下,Awk都不僅僅只是用來查找數(shù)據(jù)的(否則,grep或者ack已經(jīng)足夠使用了)——它同樣使你能夠處理數(shù)據(jù)并轉(zhuǎn)換數(shù)據(jù)。
代碼結(jié)構(gòu)
Awk腳本的代碼結(jié)構(gòu)很簡單,就是一系列的模式(pattern)和行為(action):
掃描文檔的每一行時都必須與每一個模式進行匹配比較,而且一次只匹配一個模式。那么,如果我給出一個包含以下內(nèi)容的文件:
this is line 1 這行就會與Pattern1進行匹配。如果匹配成功,就會執(zhí)行ACTIONS。然后this is line 1 會和Pattern2進行匹配。如果匹配失敗,它就會跳到Pattern3進行匹配,以此類推。
一旦所有的模式都匹配過了,this is line 2 就會以同樣的步驟進行匹配。其他的行也一樣,直到讀取完整個文件。
簡而言之,這就是Awk的運行模式
數(shù)據(jù)類型
Awk僅有兩個主要的數(shù)據(jù)類型:字符串和數(shù)字。即便如此,Awk的字符串和數(shù)字還可以相互轉(zhuǎn)換。字符串能夠被解釋為數(shù)字并把它的值轉(zhuǎn)換為數(shù)字值。如果字符串不包含數(shù)字,它就被轉(zhuǎn)換為0.
它們都可以在你代碼里的ACTIONS部分使用 = 操作符給變量賦值。我們可以在任意時刻、任意地方聲明和使用變量,也可以使用未初始化的變量,此時他們的默認值是空字符串:“”。
最后,Awk有數(shù)組類型,并且它們是動態(tài)的一維關(guān)聯(lián)數(shù)組。它們的語法是這樣的:var[key] = value 。Awk可以模擬多維數(shù)組,但無論怎樣,這是一個大的技巧(big hack)。
模式
可以使用的模式分為三大類:正則表達式、布爾表達式和特殊模式。
正則表達式和布爾表達式
你使用的Awk正則表達式比較輕量。它們不是Awk下的PCRE(但是gawk可以支持該庫——這依賴于具體的實現(xiàn)!請使用 awk
–version查看),然而,對于大部分的使用需求已經(jīng)足夠了:
注意,模式不能捕獲特定的組(groups)使它們在代碼的ACTIONS部分執(zhí)行。模式是專門匹配內(nèi)容的。
布爾表達式與PHP或者Javascript中的布爾表達式類似。特別的是,在awk中可以使用&&(“與”)、||(“或”)、!(“非”)操作符。你幾乎可以在所有類C語言中找到它們的蹤跡。它們可以對常規(guī)數(shù)據(jù)進行操作。
與PHP和Javascript更相似的特性是比較操作符,==,它會進行模糊匹配(fuzzy matching)。因此“23”字符串等于23,”23″ == 23 表達式返回true。!= 操作符同樣在awk里使用,并且別忘了其他常見的操作符:>,<,>=,和<=。
你同樣可以混合使用它們:布爾表達式可以和常規(guī)表達式一起使用。 /admin/ || debug == true 這種用法是合法的,并且在遇到包含“admin”單詞的行或者debug變量等于true時該表達式就會匹配成功。
注意,如果你有一個特定的字符串或者變量要與正則表達式進行匹配,~ 和!~ 就是你想要的操作符。 這樣使用它們:string ~ /regex/ 和 string !~ /regex/。
同樣要注意的是,所有的模式都只是可選的。一個包含以下內(nèi)容的Awk腳本:
{ ACTIONS }
對輸入的每一行都將會簡單地執(zhí)行ACTIONS。
特殊的模式
在Awk里有一些特殊的模式,但不是很多。
第一個是BEGIN,它僅在所有的行都輸入到文件之前進行匹配。這是你可以初始化你的腳本變量和所有種類的狀態(tài)的主要地方。
另外一個就是END。就像你可能已經(jīng)猜到的,它會在所有的輸入都被處理完后進行匹配。這使你可以在退出前進行清除工作和一些最后的輸出。
最后一類模式,要把它進行歸類有點困難。它處于變量和特殊值之間,我們通常稱它們?yōu)橛颍‵ield)。而且名副其實。
域
使用直觀的例子能更好地解釋域:
域(默認地)由空格分隔。$0 域代表了一整行的字符串。 $1 域是第一塊字符串(在任何空格之前), $2 域是后一塊,以此類推。
一個有趣的事實(并且是在大多是情況下我們要避免的事情),你可以通過給相應的域賦值來修改相應的行。例如,如果你在一個塊里執(zhí)行 $0 = “HAHA THE LINE IS GONE”,那么現(xiàn)在下一個模式將會對修改后的行進行操作而不是操作原始的行。其他的域變量都類似。
行為
這里有一堆可用的行為(possible actions),但是最常用和最有用的行為(以我的經(jīng)驗來說)是:
這些內(nèi)容將會成為你的Awk工具箱的主要工具,在你處理日志之類的文件時你可以隨意地使用它們。
Awk里的變量都是全局變量。無論你在給定的塊里定義什么變量,它對其他的塊都是可見的,甚至是對每一行都是可見的。這嚴重限制了你的Awk腳本大小,不然他們會造成不可維護的可怕結(jié)果。請編寫盡可能小的腳本。
函數(shù)
可以使用下面的語法來調(diào)用函數(shù):
這里有一些有限的內(nèi)置函數(shù)可以使用,所以我可以給出這些函數(shù)的通用文檔(regular documentation)。
用戶定義的函數(shù)同樣很簡單:
特殊變量
除了常規(guī)變量(全局的,可以在任意地方使用),這里還有一系列特殊的變量,它們的的作用有點像配置條目(configuration entries):
我把可修改的變量放在BEGIN里,因為我更喜歡在那重寫它們。但是這些變量的重寫可以放在腳本的任意地方然后在后面的行里生效。
評論
查看更多