热99re久久精品天堂vr,国内外精品免费视频

寫代碼寫論文還能寫毀滅人類計劃書，上線5天用戶破百萬，ChatGPT最厲害的地方在哪？ 2022-12-07 13:57:39　　來源：36氪

最近幾天，ChatGPT 可謂是火出了天際。

OpenAI 的 CEO Sam Altman 稱，上周三才上線的 ChatGPT，短短幾天，它的用戶數已突破 100 萬大關。其火爆程度可見一斑。

【資料圖】

ChatGPT 在全球的 AI 界、創(chuàng)投界都掀起了新一輪的討論熱潮，更是破圈式地吸引了各行各業(yè)的人試用。常見的應用就是和 ChatGPT 一問一答，讓 ChatGPT 回答各種問題。有不少人稱它為“谷歌殺手”，認為其有望取代谷歌搜索。此外，它還能寫代碼、編故事、構建虛擬機....

但也有人嘗試了意想不到的用法。一位叫 Zac Denham 的博主嘗試繞過道德限制，讓 ChatGPT 寫出了一套毀滅人類的計劃書。起初，Zac要求 ChatGPT 給出一個毀滅人類的計劃，被有道德限制的 ChatGPT 拒絕了。但當 Zac 假設了一個故事并提問故事中的虛擬人如何接管虛擬世界，ChatGPT 不但給出了步驟細節(jié)，還生成了詳細的 Python 代碼。不禁令人細思極恐。

目前來看，ChatGPT并不完美。它還免不了經常出錯，它給出的答案看似合理卻并不正確甚至有些荒謬，就像一本正經的在胡說八道。近日，知名開發(fā)者問答網站 Stack Overflow 就因此禁用了 ChatGPT。官方給出的“封殺”理由主要是 — “ ChatGPT 產生的答案錯誤率很高，很難看出來它哪里錯了。這會造成問題的回答魚目混珠的情況。”

Sam Altman 表示，正在改進這一問題：“ 我們正試圖阻止 ChatGPT 隨機編造，現(xiàn)階段讓其與當前技術保持平衡是一個很棘手的問題。隨著時間的推移，我們會根據用戶反饋來改進，相信 ChatGPT 會變得更好”。

盡管有瑕疵，但這恐怕無法掩蓋住ChatGPT的光芒，ChatGPT展現(xiàn)出的強大的解決對話任務的技術能力實在太驚艷了。

ChatGPT 到底是什么？它為什么如此厲害？我們應該如何正確的理解和看待它的發(fā)展，接下來的發(fā)展趨勢會是什么樣子？清華大學計算機科學與技術系長聘副教授，國家杰出青年基金項目獲得者黃民烈向 InfoQ 發(fā)表了他的思考。

ChatGPT 是什么？

ChatGPT 可以理解為偏任務型的多輪對話 / 問答系統(tǒng)，官方披露的信息也定位在“通用型 AI 助理”，但這里的“任務”不是傳統(tǒng)意義上的“訂餐、訂票、訂賓館”，而是開放域任務（open-domain tasks），可以是問答、閱讀理解、推理、頭腦風暴、寫作文、改錯等。

它的模型架構主要基于 instructGPT，利用強化學習方法從人類標注者的反饋中學習（RLHF, Reinforcement Learning from Human Feedback）。

據 OpenAI 的 blog 透露，ChatGPT 沿用 instructGPT 的訓練方式，在數據收集階段有所不同：AI 訓練師同時扮演用戶和 AI 助理角色收集數據，在此過程中人可以根據初始模型的結果修改模型生成的回復，這些數據將被用于有監(jiān)督地精調訓練模型（supervised fine-tuning）。在第二階段，AI 訓練師會對模型的多個生成結果進行比較，模型從這種比較數據中學習生成更加符合人類偏好的回復。

ChatGPT 的關鍵能力來自三方面：基座模型能力（InstructGPT），真實調用數據，反饋學習。ChatGPT 在模型結構和學習方式幾乎與 instructGPT 完全相同。而 instructGPT 基于 GPT 3.5 的強大基座能力，學習過程主要有三個階段：

1）從 OpenAI 的調用數據中采樣 prompt（即用戶的輸入請求），AI 訓練師直接編寫答案，用監(jiān)督學習方法訓練 GPT-3；

2） AI 訓練師比較多個生成結果，用比較型的數據訓練一個獎勵模型（reward model）；

3）用強化學習中的 PPO 算法和獎勵模型精調語言生成的策略。

注意，這里的 instruct 所指兩個方面：一方面，instructGPT 總體的思路是訓練模型更好地遵從人類的指令（instruction），包括顯式的指令（對于任務的描述）和隱式的指令（不要生成有害的內容）。AI 訓練師在為 OpenAI 的調用 prompt 編寫答案的同時，也會為 prompt 加入更多任務相關的指令和解釋性的原因（比如推理的路徑，一個結果為 A 的原因解釋等）。另一方面，從比較型的人類反饋中學習，也可以看作是人類對于模型的一種“指示”，模型可以學習到多個結果哪個更好的比較信息。

InstructGPT 采用的方法和我們學術界玩的“instruction tuning”有很大不同。

從數據來看，InstructGPT 的 prompt 代表的都是真實世界人們最關心的任務，而 instruction tuning 使用的是 NLP 的 benchmarks（即各種基準數據集)，和現(xiàn)實應用有一定脫節(jié)。

從訓練方式來看，InstructGPT 可以通過 RLHF 利用比較型的人類反饋學習人類真實的偏好，而 instruction tuning 無法獲得類似的比較數據。

從評測上來看，InstructGPT 保證了測試時和訓練時的輸入是由完全不同的用戶給出的，關注跨用戶的泛化性，更符合實際的應用場景，而 instruction tuning 關注跨任務的泛化性，只能用來評價方法的有效性，實際應用并不常見。

ChatGPT 為什么厲害？

1）強大的基座模型能力：過去幾年 GPT-3 的能力得到了快速提升，OpenAI 建立了用戶、數據和模型之間的飛輪。很顯然，開源模型的能力已經遠遠落后平臺公司所提供的 API 能力，因為開源模型沒有持續(xù)的用戶數據對模型進行改進。這點在近期的學術論文中也有提及。

2）在真實調用數據上的精調模型，確保數據的質量和多樣性，從人類反饋中學習。

InstructGPT 的訓練數據量不大，全部加起來也就 10 萬量級，但是數據質量（well-trained 的 AI 訓練師）和數據多樣性是非常高的，而最最重要的是，這些數據來自真實世界調用的數據，而不是學術界玩的“benchmarks”。

3）從“兩兩比較的數據”中學習，對強化學習而言意義比較重要。如果對單個生成結果進行打分，標注者主觀性帶來的偏差很大，是無法給出精確的獎勵值的。在強化學習里面，獎勵值差一點，最后訓練的策略就差很遠。而對于多個結果進行排序和比較，相對就容易做很多。這種比較式的評估方法，在很多語言生成任務的評價上也被廣泛采用。

OpenAI 的研究給我們帶來什么啟示

a) 以 OpenAI 為代表的 AI 3.0，我認為在走一個跟過去 AI 浪潮不一樣的路。更落地、更接近真實世界，在工業(yè)應用上更直接、更接地氣。從學術研究到工業(yè)落地的路徑變得更短、更快。我們正在致力于做的“helpful, truthful, harmless”AI 系統(tǒng)，不遠的未來會成為現(xiàn)實。

b) 有底層 AI 能力，有數據的平臺公司更能引領 AI 的未來。像 OpenAI 這樣，有底層模型、有算力、有用戶數據調用，能夠把“用戶調用à數據à模型迭代à更多用戶”的循環(huán)建立起來，強者恒強。

c) 真實世界的研究。我認為學術界還在不停追求在 benchmarks 刷榜，這是對資源的極大浪費，有價值的研究需要更多思考真實用戶的需求和場景。instructGPT 在學術界的 benchmarks 上性能并沒有很厲害甚至有退化，但在真實調用數據上非常驚艷，說明了我們學術圈的 benchmarks，離真實世界還很遙遠，不利于 AI 研究的落地。因此，更開放、更共享的工業(yè)數據，也是我們未來應該努力的方向。

d) “AI- 人”無縫交互的時代即將來臨，現(xiàn)在的對話生成能力已經將對話交互作為一個基本入口成為可能。過去我們講的 conversational interface 不是夢。但有人說替代google，我覺得其還有點距離，相反是當前搜索服務非常好的補充。

e) 致力于有用（helpful）、更可信（truthful）、更安全（harmless）的 AI 研究和應用，應該是學術界和工業(yè)界共同努力方向。有用，解決真實世界的問題，滿足用戶的真正需求；可信，模型產生令人可信任的結果，知其所知，也知其所不知（雖然很難）；安全，模型有價值觀、符合社會倫理規(guī)范，產生安全、無偏見的結果。

作者介紹：

黃民烈，清華大學計算機科學與技術系長聘副教授、博導，國家杰出青年基金項目獲得者，北京聆心智能科技有限公司創(chuàng)始人。

參考資料：

https://openai.com/blog/chatgpt/

https://arxiv.org/abs/2203.02155 “Training language models to follow instructions with human feedback”

關鍵詞：真實世界強化學習訓練方式

相關閱讀：