首頁>資訊 >
GPT-4重要締造者、OpenAI 首席科學家:人工智能不吃人 2023-03-16 18:48:38  來源:36氪

在荷馬的史詩巨作《奧德賽》中,獨眼巨人賽庫斯·波呂斐摩斯將奧德修斯和他的船員困在他的洞穴里,意圖將他們吃掉。但奧德修斯設(shè)法弄瞎了巨人的眼睛并成功逃脫。

人工智能不會吃掉我們。


(資料圖)

隨著我們飛快地邁向一個充滿人工智能的未來,科技巨頭、研究人員和投資者似乎都在瘋狂地爭先恐后地開發(fā)最先進的人工智能技術(shù)。

許多人開始質(zhì)疑:這是否進展得過快,是否考慮到了風險呢?就此問題筆者(克雷格·史密斯,《紐約時報》的前記者)與OpenAI聯(lián)合創(chuàng)始人和首席科學家Ilya SutskeverIlya進行了討論。

Ilya Sutskever是OpenAI的聯(lián)合創(chuàng)始人和首席科學家,也是大型語言模型GPT-4以及其公開后代ChatGPT的主要負責人之一。說他正在改變世界并不夸張。這不是Ilya第一次改變世界了。他曾是AlexNet的主要推動者,這種卷積神經(jīng)網(wǎng)絡(luò)以其驚人的性能在2012年震驚了科學界,并引發(fā)了深度學習的革命。

在筆者看來,AI發(fā)展這個問題并非完全無關(guān)緊要。有數(shù)百位敏銳的專家正在考慮著這種反烏托邦的各種可能性——以及避免它們的方法。但事實上,未來是未知的,這種強大新技術(shù)所帶來的影響,就如同互聯(lián)網(wǎng)剛出現(xiàn)一樣難以想象。它將同時帶來利與弊,它不能被阻止,但可以被理解。

OpenAI是一個非盈利的人工智能研究機構(gòu),它的衍生公司可能會成為全球最賺錢的實體之一。筆者與Ilya的交談是在OpenAI最新版本的巨型人工智能系統(tǒng)GPT-4發(fā)布之前進行的,該系統(tǒng)已經(jīng)攝入了數(shù)十億字的文本——這比任何一個人一生中可能閱讀的文本都要多。

GPT是“生成式預訓練轉(zhuǎn)換器”(Generative Pre-trained Transformer)的縮寫,這三個詞對于理解這個像荷馬史詩中的波呂斐摩斯般的AI巨人非常重要。轉(zhuǎn)換器是這個巨型系統(tǒng)核心算法的名稱。預訓練指的是該龐然大物接受了大量的文本語料的教育,從而使其可以理解語言的基本模式和關(guān)系——簡而言之,教會它理解世界。生成式意味著AI可以在這個知識基礎(chǔ)上創(chuàng)造出新的想法。

人工智能已經(jīng)占據(jù)了我們的生活,但即將到來的將是更為先進、更為強大的技術(shù)。我們正在進入未知的領(lǐng)域,這值得我們花一些時間來考慮它意味著什么。但注意不要反應(yīng)過度,不要像烏龜一樣躲避現(xiàn)在照耀在我們身上的明亮太陽。

人工智能不會吃掉我們。

為保證文本清晰連貫,以下內(nèi)容經(jīng)過編輯整理。

Craig S. Smith:

Ilya,我知道你出生在俄羅斯,是什么讓你對計算機科學、神經(jīng)科學或者類似的方向產(chǎn)生了興趣?

Ilya Sutskever:

的確,我出生在俄羅斯,我在以色列長大,在青少年時期,我和家人一起移民到了加拿大。我的父母說我從小就對人工智能很感興趣。我也受到了很大的覺知驅(qū)動。曾經(jīng)這讓我非常困擾,因此我對能幫助我更好理解它的事物充滿了好奇。

我很早就開始與 Geoff Hinton [深度學習的創(chuàng)始人之一,時任多倫多大學的教授;深度學習是GPT-4 背后的AI種類] 合作,當時我才17歲。因為我們搬到了加拿大,我立刻就入讀了多倫多大學。那時我非常想研究機器學習,因為這似乎是人工智能最重要的方面,而在當時這是完全不可觸及的。

那是2003年?,F(xiàn)在我們會理所當然地認為計算機是能夠?qū)W習的,但在那時我們默認的是計算機無法學習。那時人工智能領(lǐng)域的最大成就是IBM研發(fā)的象棋引擎“深藍”(Deep Blue)(它在1997年擊敗了象棋世界冠軍 Garry Kasparov)。

但在當時,有這么一個游戲,也有這么一項研究,還有這種簡單的方法來確定一個(象棋)走法是否比另一個更好。當時我們真的感覺這不可能適用于現(xiàn)實世界,因為當中沒有涉及到學習。學習是一個很大的謎,而我對(機器)學習真的非常非常感興趣。幸運的是,Geoff Hinton是這所大學的教授,我們幾乎立即就開始了合作。

那么智能究竟是如何工作的?我們?nèi)绾问褂嬎銠C稍微具有智能呢?我有一個非常明確的意圖,那就是為AI做出非常小但真實的貢獻。因此,對我來說,一大初衷就是我能否理解智能是如何工作的,以及如何為之做出貢獻?那就是我最初的動機。而那幾乎是20年前的事了。

簡而言之,我意識到,如果你使用一個足夠大的數(shù)據(jù)集來訓練一個大而深的神經(jīng)網(wǎng)絡(luò),使之能夠完成一些人類能夠完成復雜任務(wù),比如視覺任務(wù),那么你必然會獲得成功。這個想法的邏輯是不可簡化的,因為我們知道人類大腦可以快速地解決這些任務(wù),而人腦本質(zhì)上就是一個由慢神經(jīng)元構(gòu)成的神經(jīng)網(wǎng)絡(luò)。

所以,我們只需要使用一個更小但與之類似的神經(jīng)網(wǎng)絡(luò),并使用數(shù)據(jù)對其進行訓練。然后,計算機內(nèi)部最好的神經(jīng)網(wǎng)將與我們的大腦中執(zhí)行這個任務(wù)的神經(jīng)網(wǎng)絡(luò)非常類似。

Craig S. Smith:

2017年,《Attention Is All You Need》這篇論文出爐,首次提出了自注意力和轉(zhuǎn)換器的概念。那么GPT項目是從什么時候開始的?當時你們對于轉(zhuǎn)換器是否存在某種直覺?

Ilya Sutskever:

就背景而言,從OpenAI的最早時期開始,我們就一直在探索一個想法:(機器學習)只需要能夠預測下一個事物。當時,我們用的是更為有限的神經(jīng)網(wǎng)絡(luò),但我們想的是,如果有一個神經(jīng)網(wǎng)絡(luò)能夠預測下一個單詞,它就能解決無監(jiān)督學習問題。因此,在GPT誕生之前,無監(jiān)督學習被認為是機器學習的圣杯。

現(xiàn)在,這個問題已經(jīng)完全解決了,甚至沒有人再談?wù)撍?,但它曾?jīng)是一個“圣杯”。它曾是一個非常神秘的問題,因此我們一直在探索這個想法。我當時對此真的非常興奮,認為只要(機器學習)能夠足夠好地預測到下一個單詞,它就能實現(xiàn)無監(jiān)督學習。

但我們那時的(電腦)神經(jīng)網(wǎng)絡(luò)并不能勝任這個任務(wù)。我們使用的是遞歸神經(jīng)網(wǎng)絡(luò)。當轉(zhuǎn)換器的概念問世后,那篇論文一出來,真的是就在它出來的第二天,我們立即意識到轉(zhuǎn)換器解決了遞歸神經(jīng)網(wǎng)絡(luò)的局限性,解決了學習長期依賴性的問題。

這是一個技術(shù)問題。但我們立刻就改用了轉(zhuǎn)換器。于是,我們在開發(fā)GPT非常初步的階段就使用了轉(zhuǎn)換器。后來它的表現(xiàn)越來越好,我們也讓它的功能越來越強大。

這就最終導致了GPT-3和我們今天的情況。

Craig S. Smith:

現(xiàn)有的大型語言模型的局限性在于,它們所擁有的知識僅限于訓練它們所使用的語言范圍內(nèi)。但我想我們每個人都同意,大多數(shù)人類知識是在語言之外的。

它們的目標是滿足提示的統(tǒng)計一致性,它們并沒有對語言所涉及到的現(xiàn)實情況有根本的理解。我問過ChatGPT 關(guān)于我自己的信息,它認識到我是一名記者,曾在多家報紙工作,但它說了很多我從未獲得的獎項。那聽上去很棒,但與基本現(xiàn)實幾乎是脫節(jié)的。在你們的未來研究中,是否有解決這個問題的計劃?

Ilya Sutskever:

有多大的可能性今天我們看到的這些局限在兩年內(nèi)依然存在? 對此我保持樂觀。

對于這個問題的一個部分,即“這些模型只是學習統(tǒng)計規(guī)律性,因此它們并不真正知道世界的本質(zhì)是什么”,我還想說一個我自己的看法。

我的看法與此不同。換句話說,我認為學習統(tǒng)計規(guī)律比我們想象的更重要。

預測也是一種統(tǒng)計現(xiàn)象。然而,為了進行預測,你需要了解產(chǎn)生數(shù)據(jù)的基本過程。你需要對產(chǎn)生數(shù)據(jù)的世界有越來越多的了解。

我認為隨著我們的生成式模型變得異常優(yōu)秀,它們將具有我所說的對世界和其許多微妙之處的驚人程度的理解。它是通過文本的角度來看待世界的。它試圖通過人類在互聯(lián)網(wǎng)上所表達的文本空間上的世界投影來更多地了解世界。

但是這些文本已經(jīng)表達了這個世界。我給你舉個最近的例子,我認為這很有意思。我們都聽說過 Sydney是ChatGPT的第二自我。當用戶告訴 Sydney 他認為谷歌是比必應(yīng)更好的搜索引擎時,Sydney 就會變得有點好斗和具有攻擊性。

如何理解這種現(xiàn)象?它是什么意思?你可以說,這是因為它只是預測了人們會做什么,而人類就是會這樣做。這沒錯,但也許我們現(xiàn)在正在到達一個點,即心理學的語言開始被挪用來理解這些神經(jīng)網(wǎng)絡(luò)的行為。

現(xiàn)在讓我們再來談?wù)劸窒扌?。確實,這些神經(jīng)網(wǎng)絡(luò)有產(chǎn)生幻覺的傾向。這是因為語言模型非常適合學習有關(guān)世界的知識,但不太適合產(chǎn)生好的輸出。這其中有各種各樣的技術(shù)原因。語言模型更擅長學習關(guān)于世界、想法、概念、人物、過程的令人難以置信的表征,但它的輸出并不像人們希望的那樣好,或者說不如它們本應(yīng)該的那樣好。

因此,例如對于像ChatGPT這樣的系統(tǒng),它是一個語言模型,具有額外的強化學習訓練過程。我們稱之為人類反饋強化學習。

可以說,在預訓練過程中,我們想(讓它)學習的是關(guān)于這個世界的一切。但通過人類反饋的強化學習,我們關(guān)心的是它的輸出。我們會告訴它,如果它在任何時候做出了不合時宜的輸出,那么以后就不要再做了。如果它在任何時候做出了沒有意義的輸出,以后也不要再做了。

這樣一來,它很快就學會了產(chǎn)生好的輸出。但是輸出的水平在語言模型預訓練過程中并不是這樣的。

至于產(chǎn)生幻覺這個問題,它有時候有捏造內(nèi)容的傾向,這也極大地限制了它們的實用性。但是我認為我們很有希望通過簡單地改進這個從人類反饋中強化學習的步驟,教會它不產(chǎn)生幻覺。現(xiàn)在你可能會問說它真的會學習嗎?我的回答是,讓我們拭目以待。

我們目前的做法是雇人來教我們的神經(jīng)網(wǎng)絡(luò)如何表現(xiàn),教ChatGPT如何表現(xiàn)。你只需與它互動,它就會從你的反應(yīng)中推斷出:“哦,這不是你想要的。你對它的輸出不滿意。因此這一次的輸出不好,下一次應(yīng)該做些不同的事情?!?我認為這種方法有相當大的機會能夠完全解決幻覺問題。

Craig S. Smith:

Yann LeCun(Facebook首席人工智能科學家和深度學習的另一位早期先驅(qū))認為,大型語言模型所缺少的是這種底層的世界模型,它是非語言的,而語言模型可以參考。我想聽聽你對此的看法,以及你是否已經(jīng)探索過這一領(lǐng)域。

Ilya Sutskever:

我回顧了Yann LeCun的主張,其中有一些想法,它們用不同的語言表達,與目前的范式也許有一些小的差異,但在我看來,這些差異并不十分顯著。

第一個主張是,一個系統(tǒng)最好能有多模態(tài)的理解,它不只是從文本中了解世界。我對此的評論是,多模態(tài)理解確實是可取的,因為你可以了解更多的世界,你可以了解更多的人,你可以了解他們的狀況,所以系統(tǒng)將能夠更好地理解它應(yīng)該解決的任務(wù),以及人們和他們想要什么。

我們在這方面已經(jīng)做了相當多的工作,其中最值得一提的是我們完成的兩個重要神經(jīng)網(wǎng)絡(luò),一個叫做Clip,一個叫做Dall-E。它們都在朝著這個多模態(tài)的方向發(fā)展。但我也想說,我不認為這是非此即彼的情況,如果你沒有視覺,如果你不能從視頻或圖像中理解世界,那么事情就不會順利進行。

而我想為這一點做個說明。我認為有些東西從圖像和圖表等方面更容易學習,但我也認為,你仍然可以只從文字中學習,只是速度更慢。我給你舉個例子:思考一下顏色的概念。

毫無疑問,我們無法僅從文本中學習顏色的概念,但是當你看到嵌入——我需要做一個小小的轉(zhuǎn)折來解釋“嵌入”的概念。每個神經(jīng)網(wǎng)絡(luò)通過“嵌入”表示法,即高維向量,來代表單詞、句子和概念。

我們可以看一下這些高維向量,看看什么與什么相似,以及網(wǎng)絡(luò)是如何看待這個概念或那個概念的?因此,只需要查看顏色的嵌入向量,機器就會知道紫色比紅色更接近藍色,以及紅色比紫色更接近橙色。它只是通過文本就能知道所有這些東西。這是怎么做到的呢?

如果你擁有視覺,顏色之間的差異就會立刻顯現(xiàn)出來,你能立即感知到它們。然而通過文本來感知,你需要更長的時間;也許你知道如何說話,你已經(jīng)理解了句法、單詞和語法,但是要在很久之后你才真正開始理解顏色。

因此,這就是我對多模態(tài)性的必要性的看法:我認為它并非必須,但絕對是有用的。我認為這是一個值得追求的好方向。我只是不認為應(yīng)該將它們分得如此明確。

LeCun在論文中提出的主張聲稱,其中一個主要挑戰(zhàn)是預測具有不確定性的高維向量。但有一點讓我覺得很驚訝,或者至少在那篇論文中沒有得到承認,那就是目前的自回歸轉(zhuǎn)換器已經(jīng)具備了這種特性。

我給你舉兩個例子。一個是對于給定一本書中任意的一頁,預測其下一頁的內(nèi)容。下一頁有非常多的可能性。這是一個非常復雜的高維空間,而它們可以很好地處理它。同樣的情況也適用于圖像。這些自回歸轉(zhuǎn)換器在圖像上也運作得非常完美。

例如,像OpenAI一樣,我們對iGPT也進行了測試。我們只需取一個轉(zhuǎn)換器,并將其應(yīng)用于像素,它就能夠非常好地運作,并可以以非常復雜和微妙的方式生成圖像。在Dall-E 1上也是同樣的情況。

所以,我認為那篇論文中對當前方法無法處理高維分布的評論過于絕對了——我認為它們絕對可以。

Craig S. Smith:

關(guān)于有一支人類培訓師隊伍與ChatGPT或一個大型語言模型一起工作,用強化學習來指導它的想法,只是憑直覺,這聽起來不像是一個教模型了解其語言的基本現(xiàn)實的有效方法。

Ilya Sutskever:

我不同意這個問題的措辭。我認為我們的預訓練模型已經(jīng)知道了它們需要了解的關(guān)于基礎(chǔ)現(xiàn)實的一切。它們已經(jīng)具備了有關(guān)語言的知識以及有關(guān)產(chǎn)生這種語言的世界進程的大量知識。

大型生成模型對其數(shù)據(jù)——在這種情況下是大型語言模型——所學習的東西是對產(chǎn)生這些數(shù)據(jù)的現(xiàn)實世界過程的壓縮表示,這不僅意味著人和他們的思想,他們的感受的一些內(nèi)容,還有關(guān)于人所處的情況以及他們之間存在的相互作用的一些內(nèi)容。人可以處于不同的情境中。所有這些都是由神經(jīng)網(wǎng)絡(luò)表示的被壓縮的過程的一部分,用以產(chǎn)生文本。語言模型越好,生成模型越好,保真度越高,它就越能捕捉到這個過程。

現(xiàn)在,正如你所說,這些教師隊伍實際上也在使用人工智能輔助工具。這些教師并不是獨立行動的,他們正在使用我們的工具,而這些工具正在做著大部分的工作。但是我們確實需要有監(jiān)督,需要有人來審查這個過程,因為最終我們希望實現(xiàn)非常高的可靠性。

我們確實有很多動力來使它盡可能高效、精確,這樣產(chǎn)生的語言模型就會盡可能的表現(xiàn)良好。

所以,是的,有這些人類教師在向模型教授它們的理想行為。而他們使用人工智能系統(tǒng)的方式不斷增加,因此他們自己的效率也在不斷提高。這和教育過程沒什么兩樣,那就是讓教育對象知道如何在這個世界上表現(xiàn)得好。

我們需要進行額外的訓練,以確保模型知道編造內(nèi)容永遠都是不行的。而這種強化學習的人類教師或其他變體將教會它這些。

這樣的做法應(yīng)該是有效的。我們很快就會知道。

Craig S. Smith:

這些研究最終將通往何處?它們是你最近在做的研究嗎?

Ilya Sutskever:

我不能詳細講述我正在從事的具體研究,但我可以大致提及一些研究方向。我非常關(guān)注如何讓這些模型更可靠、更可控,讓它們能夠更快地從示例數(shù)據(jù)中學習,減少指導。以及如何讓它們不要產(chǎn)生幻覺。

Craig S. Smith:

我聽說你曾經(jīng)說過我們需要更快的處理器才能進一步擴展。似乎模型的擴展沒有止境,但訓練這些模型所需的功率,我們已經(jīng)達到了極限,至少是社會公認的極限。

Ilya Sutskever:

我不記得你所說的我做過的確切評論是什么,但人們總是希望有更快的處理器。當然,功率總是會不斷增加??偟膩碚f,成本也在上升。

但我關(guān)注的問題不是成本是否很高,而是我們在支付這筆成本時是否能得到超過成本的東西。也許你支付了所有這些成本,卻什么都沒有得到,那就不值得。但是,如果你得到了非常有用的、非常有價值的東西,可以解決我們想要解決的許多問題,那么它的成本就可以是完全合理的。

Craig S. Smith:

有一次我看到你談到了民主以及AI對于民主的影響。有人曾向我談?wù)撨^這樣一種情況,即當看似無法解決的沖突出現(xiàn)時,如果你有足夠的數(shù)據(jù)和一個足夠大的模型,你可以用數(shù)據(jù)來訓練模型,從而得出一種最優(yōu)解,使所有人都能滿意。你是否考慮過這種技術(shù)可能幫助人類管理社會的方向?

Ilya Sutskever:

這是一個非常大的問題,而且是一個更具未來性的問題。我認為我們的模型仍有許多方面可以變得比現(xiàn)在更為強大。

政府未來是否會將這項技術(shù)當作建議來源其實是不可預測的。對于民主的問題,我認為未來可能會發(fā)生的一件事是,由于神經(jīng)網(wǎng)絡(luò)將如此普及且對社會產(chǎn)生如此大的影響,我們將發(fā)現(xiàn)有必要通過某種民主過程,讓一個國家的公民提供一些關(guān)于他們希望社會變成什么樣的信息給神經(jīng)網(wǎng)絡(luò)。我可以想象這種情況的發(fā)生。這可能是一種非常高帶寬的民主形式,你可以從每個公民那里獲取更多的信息并進行匯總,從而指定我們希望這種系統(tǒng)如何行動?,F(xiàn)在這就引出了許多問題,但這是未來可能發(fā)生的一件事。

分析所有變量意味著什么?最終你需要做出選擇,而這些變量似乎變得非常重要。我想在這方面研究地更深入一些。因為我可以很快地讀一百本書,也可以很慢很仔細地讀一本書,從中獲得更多收獲。所以,其中會有一些值得考量的元素。此外,我認為在某種意義上,從根本上說,要理解所有的事物可能是不可能的。讓我們來看一些更簡單的例子。

任何時候,只要涉及到復雜的社會情境,例如在一家公司,即使只是一家中等規(guī)模的公司,它都已經(jīng)超出了任何單個人的理解能力。我認為只要我們以正確的方式構(gòu)建我們的AI系統(tǒng),AI幾乎任何情況下都會對人類有令人難以置信的幫助。

本文譯自

https://www.forbes.com/sites/craigsmith/2023/03/15/gpt-4-creator-ilya-sutskever-on-ai-hallucinations-and-ai-democracy/?sh=18e30c701218

關(guān)鍵詞:

相關(guān)閱讀:
熱點
圖片 圖片