亚洲天堂男人天堂,揄拍自拍日韩精品,一二三四社区在线播放

布朗大學的計算機科學研究畢業生 Vanya Cohen 近日在 Medium 分享了他復現 GPT-2 大模型的全過程。作者復刻了Open-AI 15億參數模型，允許其他人在其預訓練模型上進行構建并進一步改進。

BERT，XLNet，GPT-2和Grover等大型語言模型在生成文本和多個NLP任務方面取得了令人矚目的成果。

本文試圖去復刻GPT-2的15億模型以供研究人員使用。

Google Colab地址：

https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit

單獨提供的模型權重：

https://drive.google.com/drive/u/1/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1

復刻

之所以采取遲遲不放出模型的安全戰略，是因為這些模型難以復刻并需要高度專業的領域知識。

但是布朗大學的兩名碩士研究生卻證明了本文的許多結果復刻起來并不是那么的難。而且不僅他們倆可以，絕大多數感興趣的人都可以復刻GPT-2。

研究生之一：Vanya Cohen

此外，Zellers等人表明像GPT-2這樣的大型語言模型是一種非常有用的工具，可以抵制使用與文本生成器相同的模型。

兩位研究生經過深思熟慮后認為，復刻工作并不是獨一無二的，并且大型語言模型是目前抵制生成文本的最有效手段，因此在對抗未來模型被濫用的可能性方面，發布本模型是有益的。

本模型的實現基于Grover模型，并修改其代碼庫以匹配GPT-2的語言建模訓練目標。由于他們的模型是在類似的大型語料庫上進行訓練的，因此大部分代碼和超參數都可以重復使用。本模型沒有從Grover中大幅改變超參數。

使用本模型代碼從頭開始訓練模型的成本約為5萬美元。要注意這個數字是云計算的估計值，并不包含所涉及的各種其他細微的內部成本。

存在顯著的時間-成本平衡，并且較慢的訓練方法具有相當小的成本，因此降低了使用門檻。

數據集

原始文件提供了有關如何清理數據集的最低限度的詳細信息。

與在WebText中一樣，首先從Reddit中解析出超過3個向上投票的所有鏈接。接著，從PushshiftRedditscrape開始。這是一個包含不斷更新的Reddit帖子、評論以及相關元數據集合的數據集。

然后過濾一些鏈接以刪除不太可能包含可用文本或HTML（即視頻文件，PDF和CSS樣式文件）的文件類型的直接鏈接。

同時還過濾網頁以刪除維基百科，因為它被各種評估基準和數據集使用。目前還無法確定過濾標準是否與OpenAI相匹配，因為此信息從未發布過。

使用Newspaper Python庫從HTML頁面中提取文本，然后使用fastText Python庫來提取英文文本、過濾掉其他語言。具體來說，使用WhatTheLangpython Wrapper。

使用局部敏感散列（LSH）來去重。然后將文檔散列為5-grams的集合，并且刪除了相似度閾值大于0.5的所有文檔。

使用Heuristic Cleaning算法，從數據集中刪除少于128個令牌的文檔。這些較短的文件往往質量較低，這是由文本連貫性決定的。最后將此數據集作為OpenWebTextCorpus發布。

使用Radford等人發布的小型模型和Binary Pattern Encoder對數據集進行編碼，并使用OpenWebText web-scrapingcodebase的修改版本作為數據集集合的起點。

勘誤表

從公開發布的來自WebText的260k文檔集合中來看，研究人員發現所有文件都具有最小字節對（BPE）編碼，長度為40，最大值為1024.

OpenWebText的不同之處在于為128個令牌設置文檔長度的下限（而不是BPE代碼），并且不限制最大文檔長度。

原始的WebTextCorpus在這些樣本可用之前發布，因此沒有使用該信息來生成cleaning heuristics。

研究人員曾多次嘗試聯系Radford等人，以澄清評估和模型細節，但最終都沒有成功。

結果

盡管訓練分布存在差異，但確實報告了與大多數數據集相似的困惑。

示例：輸入“Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!”輸出結果如下：

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

語言模型

語言模型

+關注

關注
0

文章
523

瀏覽量
10274
數據集

數據集

+關注

關注
4

文章
1208

瀏覽量
24696

原文標題：布朗大學90后研究生：我們復現了15億參數GPT-2模型，你也行！

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

中軟國際助力廣東外語外貿大學發布涉外法治人才實訓大模型

近期，2024年全國法律專業學位研究生培養單位工作會議在廣東外語外貿大學隆重召開。在此次會議期間，由廣東外語外貿大學(以下簡稱：廣外)聯合華為、中軟國際共同研發的“涉外法治人才實訓大模型

發表于 12-26 10:09 ?35次閱讀

RISC-V AI技術正式納入北京大學研究生課程

希姆計算與北京大學達成SOC課程合作2024年10月14日，希姆計算的范福杰博士走進北京大學集成電路學院的研究生課堂，為同學們講授了一節生動的《現代SoC芯片架構設計實驗課程》。RIS

發表于 10-18 08:09 ?373次閱讀

名單公布！【書籍評測活動NO.41】大模型時代的基礎架構：大模型算力中心建設指南

工程技術人員，都可以參考和閱讀本書。作者介紹方天戟騰訊專有云與智算平臺shou席架構師，本科畢業于北京航空航天大學自動控制專業，碩士研究生畢業于中國科學院研究生院計算機科學與技術專業。從業近20年，從事過硬

發表于 08-16 18:33

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

GPT-4. GPT-4o mini的定價為每百萬輸入標記15美分和每百萬輸出標記60美分，比之前的前沿模型便宜了一個數量級，比

發表于 07-21 10:20 ?1036次閱讀

谷歌Gemini Ultra模型訓練成本近2億美元

斯坦福大學與研究巨頭Epoch AI聯合揭示了云計算時代下AI模型訓練成本的飛速增長。最新研究結果顯示，AI巨頭OpenAI的

發表于 06-07 09:36 ?586次閱讀

潤和軟件董事長周紅衛獲頒江蘇省產業教授（研究生導師類）聘任證書

2024年5月25日，東南大學研究生院副院長陸建教授，東南大學計算機科學與工程學院、軟件學院、人工智能學院（以下簡稱“計軟智學院”）黨委副書記兼副院長孟杰副教授及中國（南京）軟件谷管委會副主任潘勇濤

發表于 05-30 10:22 ?1138次閱讀

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

維基百科、網頁內容和書籍等，不僅掌握了語言的語法、語義和上下文信息，還能生成結構連貫、語義合理的句子和段落。大語言模型的一個顯著特點是其龐大的參數量，已達數億甚至數十億級別。這種規模賦

發表于 05-04 23:55

商湯科技推出6000億參數大模型，全力對標GPT-4 Turbo?

稍晚些時候，商湯科技發布公告稱，4月23日在上海臨港AIDC舉辦技術交流日活動，推出了6000億參數大模型（日日新5.0），其知識、數學、推理和代碼能力均有顯著提升，綜合性能可媲美GPT

發表于 04-25 10:11 ?400次閱讀

微軟發布phi-3AI模型，性能超越GPT-3.5

微軟稱，帶有38億參數的phi-3-mini經過3.3萬億token的強化學習，其基礎表現已經超過Mixtral 8x7B及GPT-3.5；此外，該模型可在手機等移動設備上運行，并在p

發表于 04-23 14:32 ?540次閱讀

蘋果ReALM模型在實體識別測試中超越OpenAI GPT-4.0

“我們的模型在識別各種類型實體方面都有顯著提升，即使是小尺寸模型，在屏幕實體識別準確性上也已超過原有的系統5%以上。在與GPT-3.5和GPT

發表于 04-02 11:23 ?463次閱讀

騰訊攜手清華港科大推出圖生視頻模型：Follow-Your-Click，實現在線物體追蹤

月 15 日消息，騰訊與清華大學及香港科技大學聯合發布新型圖生視頻模型 “Follow-Your-Click”，已上線 GitHub（代碼于

發表于 03-15 16:24 ?630次閱讀

Anthropic推出Claude 3大型語言模型，在認知任務性能上創新高

據官方披露，Claude 3 旗艦 Opus 在大學生和研究生范疇的學術知識、復雜數理任務了解部分超越 OpenAI 的 GPT-4 以及谷歌的 Gemini 1.0 Ultra。

發表于 03-05 11:16 ?505次閱讀

高分工作！Uni3D：3D基礎大模型，刷新多個SOTA！

我們主要探索了3D視覺中scale up模型參數量和統一模型架構的可能性。在NLP / 2D v

發表于 01-30 15:56 ?875次閱讀

OPPO推出GPT大模型手機搭載天璣9300卷天卷地卷大模型

X7 在端側實現了70億參數大模型的部署，為用戶帶來了前所未有的快速響應和高智能化的使用體驗。基于安第斯大模型，

發表于 01-08 18:52 ?1010次閱讀

視覺模型weak-to-strong的實現

幾天前，OpenAI「超級對齊」(Superalignment)團隊發布了成立以來的首篇論文，聲稱開辟了對超人類模型進行實證對齊的新研究方向。GPT

發表于 01-08 11:07 ?441次閱讀