每個人都討厭驗證碼——只有輸入了那些討厭的圖片上的文本,才能訪問網(wǎng)站。驗證碼的設(shè)計是為了防止計算機(jī)自動填寫表格,驗證你是一個真實的“人”。但隨著深度學(xué)習(xí)和計算機(jī)視覺的興起,現(xiàn)在他們往往容易被擊敗。
我一直在讀一本由AdrianRosebrock所寫的書《Deep Learning for Computer Vision with Python》(Python計算機(jī)視覺深度學(xué)習(xí))。在這本書中,Adrian回顧了如何通過機(jī)器學(xué)習(xí)破解e – zpass紐約網(wǎng)站上的驗證碼系統(tǒng):
Adrian沒有訪問生成驗證碼圖像的應(yīng)用程序的源代碼。為了破解這個系統(tǒng),他不得不下載數(shù)百個示例圖像,并手動解決它們以訓(xùn)練他的系統(tǒng)。
但是,如果我們想要破解一個開源的驗證碼系統(tǒng),我們?nèi)ツ睦镌L問源代碼呢?
我訪問了WordPress.org插件登記網(wǎng)站,并搜索了“CAPTCHA”。上面的結(jié)果被稱為“Really Simple CAPTCHA”,并且有超過100萬的安裝量:
WordPress.org插件登記地址:https://wordpress.org/plugins/
最棒的是,這里有它的源代碼!因為有生成驗證碼的源代碼,所以這應(yīng)該很容易被破解。為了讓事情變得更有挑戰(zhàn)性,讓我們給自己一個時間限制。我們能在15分鐘內(nèi)徹底破解這個驗證碼系統(tǒng)嗎?讓我們試一試!
重要提示:這絕不是批評“Really Simple CAPTCHA”插件或其作者。插件作者自己說它已經(jīng)不安全了,建議你使用其他的東西。這只是一個有趣并且快速的技術(shù)挑戰(zhàn)。但如果你是100萬用戶之一,或許你應(yīng)該有所防備了:)
挑戰(zhàn)
首先,讓我們需要知道 Really Simple CAPTCHA生成什么樣的圖像。在演示網(wǎng)站上,我們看到:
Really Simple CAPTCHA地址:https://wordpress.org/plugins/really-simple-captcha/
演示驗證碼圖片
驗證碼圖像看起來是四個字母。讓我們在PHP源代碼中驗證這一點(diǎn):
public function __construct() { /* Characters available in images */ $this->chars = 'ABCDEFGHJKLMNPQRSTUVWXYZ23456789'; /* Length of a word in an image */ $this->char_length = 4; /* Array of fonts. Randomly picked up per character */ $this->fonts = array( dirname( __FILE__ ) . '/gentium/GenBkBasR.ttf', dirname( __FILE__ ) . '/gentium/GenBkBasI.ttf', dirname( __FILE__ ) . '/gentium/GenBkBasBI.ttf', dirname( __FILE__ ) . '/gentium/GenBkBasB.ttf', );
是的,它生成了4個字母的驗證碼,使用4種不同字體的隨機(jī)組合。我們可以看到,在代碼中它從不使用“O”或“I”,以此避免用戶的混淆。這就給我們留下了32個可能的字母和數(shù)字。
到目前為止的時間:2分鐘
我們的工具集
在我們進(jìn)一步討論之前,我們先來討論一下解決這個問題需要的工具:
Python 3
Python是一種很有趣的編程語言,包含很好的機(jī)器學(xué)習(xí)和計算機(jī)視覺庫。
OpenCV
OpenCV是一個流行的計算機(jī)視覺和圖像處理框架。我們將使用OpenCV來處理驗證碼圖像。它有一個Python API,因此我們可以直接在Python中使用。
Keras
Keras是用Python編寫的深度學(xué)習(xí)框架。它使得定義、訓(xùn)練和使用具有最小編碼的深度神經(jīng)網(wǎng)絡(luò)變得很容易。
TensorFlow是谷歌的機(jī)器學(xué)習(xí)庫。我們將在Keras中編碼,但是Keras并沒有真正實現(xiàn)神經(jīng)網(wǎng)絡(luò)邏輯本身。相反,它使用谷歌在幕后的TensorFlow庫來完成繁重的任務(wù)。
好了,回到挑戰(zhàn)。
創(chuàng)建數(shù)據(jù)集
訓(xùn)練任何機(jī)器學(xué)習(xí)系統(tǒng),都需要訓(xùn)練數(shù)據(jù)。要破解驗證碼系統(tǒng),我們需要這樣的訓(xùn)練數(shù)據(jù):
我們有了WordPress插件的源代碼,就可以修改它來保存10000個驗證碼圖像,以及每個圖像的預(yù)期答案。
在對代碼進(jìn)行了幾分鐘的破解并添加了一個簡單的for循環(huán)之后,我有了一個包含訓(xùn)練數(shù)據(jù)的文件夾—10,000個PNG文件,將正確的答案作為其文件名:
這是唯一的我不給你示例代碼的部分。我們這樣做是為了教學(xué),我不希望你真的去垃圾郵件網(wǎng)站。但是我會給你我在最后生成的10000張照片,這樣你就可以復(fù)制我的結(jié)果。
到目前為止的時間:5分鐘
簡化問題
現(xiàn)在我們有了訓(xùn)練數(shù)據(jù),我們可以直接用它來訓(xùn)練神經(jīng)網(wǎng)絡(luò):
如果有足夠的訓(xùn)練數(shù)據(jù),這種方法可能有效——但是我們可以使問題變得簡單得多。問題越簡單,訓(xùn)練數(shù)據(jù)越少,我們解決需要的計算力就越少。我們畢竟只有15分鐘!
幸運(yùn)的是,驗證碼圖像通常只由四個字母組成。如果我們能把圖像分割開來,這樣每個字母都是一個單獨(dú)的圖像,那么我們只需訓(xùn)練神經(jīng)網(wǎng)絡(luò)識別單個字母:
我沒有時間去瀏覽10000個訓(xùn)練圖像,并且用Photoshop將它們手工分割成單獨(dú)的圖像。這需要幾天的時間,但我只剩下10分鐘了。我們不能將圖像分割成4個等分大小的塊,因為驗證碼隨機(jī)將字母放置在不同的水平位置,如下圖所示:
每個圖像中的字母都是隨機(jī)放置的,使圖像分割變得更加困難。
幸運(yùn)的是,我們?nèi)匀豢梢詫崿F(xiàn)自動化。在圖像處理中,我們經(jīng)常需要檢測具有相同顏色的像素的“blob”。這些連續(xù)像素點(diǎn)的邊界稱為輪廓。OpenCV有一個內(nèi)置的findContours()函數(shù),我們可以用它來檢測這些連續(xù)區(qū)域。
我們將從一個原始的驗證碼圖像開始:
然后我們將圖像轉(zhuǎn)換成純黑白像素點(diǎn)(這稱為色彩閾值法),這樣就很容易找到連續(xù)區(qū)域的輪廓邊界:
接下來,我們將使用OpenCV的findContours()函數(shù)來檢測圖像中包含相同顏色連續(xù)像素塊的分離部分:
接著把每個區(qū)域作為一個單獨(dú)的圖像文件保存。因為我們知道每個圖像應(yīng)該包含從左到右的四個字母,所以我們可以用這些知識來標(biāo)記我們保存的字母。我們按這個順序把它們存起來,并用相應(yīng)的字母名稱來保存每一個圖像字母。
但是等一下—我發(fā)現(xiàn)問題了!有時驗證碼有這樣重疊的字母:
這意味著我們最終將提取將兩個字母拼湊在一起的區(qū)域:
如果我們不處理這個問題,我們就會產(chǎn)生糟糕的訓(xùn)練數(shù)據(jù)。我們需要解決這個問題,這樣我們就不會偶然地讓機(jī)器將這兩個squashed – together字母識別為一個字母。
有一個簡單的竅門:如果一個區(qū)域的寬比它的高度大,那就意味著我們可能有兩個字母擠壓在一起了。在這種情況下,我們可以把這兩個字母放在中間,把它分成兩個獨(dú)立的字母:
現(xiàn)在我們有了一種提取單個字母的方法,讓我們在所有的驗證碼圖像中運(yùn)行它。目的是收集每個字母的不同變體。我們可以把每個字母都保存在自己的文件夾里。
這是我摘取所有字母后,“W”文件夾的圖片:
到目前為止的時間:10分鐘
構(gòu)建并訓(xùn)練神經(jīng)網(wǎng)絡(luò)
因為我們只需要識別單個字母的圖像,所以并需要一個非常復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。識別字母比識別像貓和狗這樣的復(fù)雜圖像要容易得多。
我們將使用一個簡單的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),它有兩個卷積層和兩個完全連通的層:
定義這個神經(jīng)網(wǎng)絡(luò)架構(gòu)只需要使用Keras的幾行代碼:
# Build the neural network! model = Sequential() # First convolutional layer with max pooling model.add(Conv2D(20, (5, 5), padding="same", input_shape=(20, 20, 1), activation="relu")) model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2))) # Second convolutional layer with max pooling model.add(Conv2D(50, (5, 5), padding="same", activation="relu")) model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2))) # Hidden layer with 500 nodes model.add(Flatten()) model.add(Dense(500, activation="relu")) # Output layer with 32 nodes (one for each possible letter/number we predict) model.add(Dense(32, activation="softmax")) # Ask Keras to build the TensorFlow model behind the scenes model.compile(loss="categorical_crossentropy", optimizer="adam", metrics=["accuracy"])
現(xiàn)在我們可以運(yùn)行它了。
# Train the neural network model.fit(X_train, Y_train, validation_data=(X_test, Y_test), batch_size=32, epochs=10, verbose=1)
經(jīng)過訓(xùn)練數(shù)據(jù)集10次之后,我們達(dá)到了接近100%的準(zhǔn)確度。我們應(yīng)該能夠在任何我們需要的時候自動繞過這個驗證碼。
時間過了:15分鐘
使用訓(xùn)練的模型來以解決驗證碼
現(xiàn)在我們有了一個經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò),用它來破解驗證碼是很簡單的:
1. 從WordPress插件的網(wǎng)站上獲取真正的驗證碼圖像。
2. 用我們用來創(chuàng)建訓(xùn)練數(shù)據(jù)集的方法將驗證碼圖像分割成四個不同的字母圖像。
3. 讓我們的神經(jīng)網(wǎng)絡(luò)對每個字母圖像做一個單獨(dú)的預(yù)測。
4. 用四個預(yù)測字母作為驗證碼的答案。
下面是我們的模型如何解碼真實的驗證碼:
或從命令行:
試一下
如果你想親自嘗試,你可以在這里獲取代碼。它包括10,000個示例圖像和本文中每個步驟的所有代碼。班闊說明如何運(yùn)行模型的README.md文件。
代碼地址:https://s3-us-west-2.amazonaws.com/mlif-example-code/solving_captchas_code_examples.zip
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8406瀏覽量
132567 -
安全驗證
+關(guān)注
關(guān)注
0文章
7瀏覽量
9260 -
機(jī)器學(xué)習(xí)技術(shù)
+關(guān)注
關(guān)注
0文章
7瀏覽量
2957 -
機(jī)器學(xué)習(xí)算法
+關(guān)注
關(guān)注
2文章
47瀏覽量
6457
原文標(biāo)題:驗證碼,再見!利用機(jī)器學(xué)習(xí)在15分鐘內(nèi)破解驗證碼
文章出處:【微信號:machinelearningai,微信公眾號:機(jī)器學(xué)習(xí)算法與人工智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論