在項(xiàng)目開(kāi)發(fā)中,優(yōu)秀的代碼自動(dòng)補(bǔ)全工具可以提升工作效率。然而,近來(lái)的 IDE 基本都使用搜索方法進(jìn)行補(bǔ)全,在一些場(chǎng)景下效果不佳。
近日,有開(kāi)源項(xiàng)目用深度學(xué)習(xí)模型進(jìn)行代碼補(bǔ)全,顯示出非常有潛力的效果。
近日,Reddit 上的一篇帖子引起了網(wǎng)友的熱議。帖子作者「mlvpj」稱(chēng):
「我們使用深度學(xué)習(xí)完成了一個(gè)簡(jiǎn)單的項(xiàng)目,可以自動(dòng)進(jìn)行 Python 代碼補(bǔ)全。」
根據(jù)介紹,該項(xiàng)目基于 LSTM 模型,訓(xùn)練后,負(fù)責(zé)對(duì)代碼的缺失部分進(jìn)行補(bǔ)全。評(píng)價(jià)模型的方法是判斷節(jié)省了多少的按鍵信息——即模型給出長(zhǎng)度為 L 的代碼建議,如果和真實(shí)的代碼匹配,則節(jié)省 L - 1 個(gè)鍵入操作。實(shí)驗(yàn)結(jié)果說(shuō)明,大約有 30%-50% 的鍵入成本可以節(jié)省下來(lái)。
作者在帖子中表示,他們接下來(lái)會(huì)嘗試不同的架構(gòu),并提高推斷的表現(xiàn)。而現(xiàn)在的模型推斷很慢,不能實(shí)際使用。作者已在 GitHub 開(kāi)源了項(xiàng)目代碼:
和 IDE 的自動(dòng)補(bǔ)全有什么區(qū)別
該項(xiàng)目對(duì) Python 代碼的自動(dòng)補(bǔ)全與傳統(tǒng) IDE(如 PyCharm)等不同。IDE 補(bǔ)全基于檢索方法,需要從已有代碼中進(jìn)行搜索。
以 PyCharm 中的基本補(bǔ)全(Basic Completion)方法為例。基本補(bǔ)全可幫助補(bǔ)全可見(jiàn)區(qū)域的類(lèi)、方法、關(guān)鍵詞代碼。使用時(shí),PyCharm 會(huì)分析補(bǔ)全使用情況,并提供當(dāng)前位置可能的選擇。如果是對(duì)空間、參數(shù)或變量聲明進(jìn)行補(bǔ)全,則 PyCharm 會(huì)基于類(lèi)別提供一系列可能的命名。
當(dāng)出現(xiàn)已定義的類(lèi)、函數(shù)、模塊和變量時(shí),基本補(bǔ)全就會(huì)啟動(dòng)。
此外,PyCharm 也提供智能補(bǔ)全等其他補(bǔ)全功能,但基本上都需要對(duì)已有文本進(jìn)行搜索,根據(jù)位置和類(lèi)型判斷補(bǔ)全的方法。這些方法都沒(méi)有配置機(jī)器學(xué)習(xí)模型。
Pycharm 的自動(dòng)補(bǔ)全介紹:https://www.jetbrains.com/help/pycharm/auto-completing-code.html
深度學(xué)習(xí)怎樣腦補(bǔ)缺失 TF 代碼
最常用的 PyCharm 自動(dòng)補(bǔ)全也能省很多功夫,但它需要 IDE 能檢索到你的代碼文件或庫(kù),而且補(bǔ)全會(huì)提供多個(gè)可能的選項(xiàng)。但是在本項(xiàng)目實(shí)驗(yàn)的工具中,LSTM 會(huì)根據(jù)上下文語(yǔ)義確定最可能調(diào)用的函數(shù),因此它能節(jié)省更多的成本。作者表示如果使用束搜索,那么一次能預(yù)測(cè) 10 多個(gè)字符,不過(guò)這樣對(duì)于實(shí)際使用還是有點(diǎn)低效。
在訓(xùn)練深度補(bǔ)全模型前,我們需要先建立訓(xùn)練集。開(kāi)發(fā)者會(huì)在清洗評(píng)論、標(biāo)注和空行后,構(gòu)建比較干凈的 Python 代碼。然后,模型會(huì)在這些數(shù)據(jù)上進(jìn)行訓(xùn)練與預(yù)測(cè)。在數(shù)據(jù)預(yù)處理上,開(kāi)發(fā)者發(fā)現(xiàn)通過(guò) tokenizing Python 代碼,模型效果比通過(guò) BPE 編碼的字符級(jí)預(yù)測(cè)效果還要好。作者提供了一個(gè)簡(jiǎn)單的預(yù)訓(xùn)練模型,它是在整個(gè) TensorFlow 項(xiàng)目的 models 代碼中訓(xùn)練的。
下圖就是作者在驗(yàn)證集中測(cè)試的驗(yàn)證樣本。綠色的字符表示自動(dòng)補(bǔ)全的起始位置,用戶(hù)需要按下 Tab 鍵選擇開(kāi)始補(bǔ)全。綠色及后面高亮的灰色字符是自動(dòng)補(bǔ)全的結(jié)果。
如上所示為驗(yàn)證樣本中的自動(dòng)補(bǔ)全效果。與代碼生成類(lèi)似,粗略看起來(lái),似乎效果非常不錯(cuò),但實(shí)際上會(huì)有很多不合理的地方。不過(guò)有意思的是,自動(dòng)補(bǔ)全中所有字符串都只有一個(gè)占位操作,這也是非常合理的處理方法。
樣本中自動(dòng)補(bǔ)全的起始和結(jié)束位置都是隨機(jī)的,也就是說(shuō)代碼可能補(bǔ)全到「tensorfl」就結(jié)束了,并不會(huì)補(bǔ)全完整的標(biāo)識(shí)符「tensorflow」。這在實(shí)際場(chǎng)景中用處非常有限,因此作者將生成結(jié)束位置限制為終止 token 而修復(fù)問(wèn)題。目前自動(dòng)補(bǔ)全能完成多種 operator,且當(dāng)我們?cè)黾邮阉鞯拈L(zhǎng)度時(shí),它完成的代碼長(zhǎng)度會(huì)更多。
整個(gè)模型的主體都是 LSTM,它在 TensorFlow 模型代碼庫(kù)訓(xùn)練后能捕捉非常豐富的 TensorFlow API。如下所示為自動(dòng)補(bǔ)全模型的主體代碼,基本上簡(jiǎn)單的一個(gè) LSTM 就能搞定:
網(wǎng)友評(píng)價(jià)
項(xiàng)目開(kāi)源后,有些網(wǎng)友對(duì)作者提出了質(zhì)疑:
「我們已經(jīng)有很多很好用的自動(dòng)補(bǔ)全工具了,比如 kite(一個(gè)可以在 IDE 上使用的插件),為什么還要費(fèi)心搞個(gè)機(jī)器學(xué)習(xí)模型?」
在討論中,有人提出,一些無(wú)良的自動(dòng)補(bǔ)全工具會(huì)悄悄上傳代碼到他們的服務(wù)器中,(而自行訓(xùn)練的深度學(xué)習(xí)模型不存在這個(gè)問(wèn)題)。
也有人提出,其實(shí)不一定要用 LSTM 模型,隱馬爾科夫模型在處理序列數(shù)據(jù)上效果也很好。
此外,也有網(wǎng)友建議使用 CuDNN 加速 LSTM 的推斷過(guò)程。這樣能大大提升推斷速度,集成到 IDE 中也就有了可能。
-
AI
+關(guān)注
關(guān)注
87文章
31463瀏覽量
269859 -
代碼
+關(guān)注
關(guān)注
30文章
4821瀏覽量
68890 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5512瀏覽量
121404
原文標(biāo)題:你是成熟的 AI 了,應(yīng)該自己學(xué)會(huì)補(bǔ)全代碼!
文章出處:【微信號(hào):mcuworld,微信公眾號(hào):嵌入式資訊精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論