首頁>資訊 >
全球觀速訊丨如何在你的創(chuàng)業(yè)公司中使用大量的 AI 模型(如GPT-3) 2022-10-31 09:28:50  來源:36氪

神譯局是36氪旗下編譯團(tuán)隊,關(guān)注科技、商業(yè)、職場、生活等領(lǐng)域,重點介紹國外的新技術(shù)、新觀點、新風(fēng)向。

編者按:機(jī)器學(xué)習(xí)技術(shù)日新月異,且有很多來自大公司的免費資源可用。初創(chuàng)公司如果能跟上模型變化的速度,正確利用手邊的資源,將能夠在創(chuàng)業(yè)過程中如虎添翼。本文來自編譯,希望對您有所啟發(fā)。

隨著機(jī)器學(xué)習(xí)技術(shù)的成熟,并從一開始的好奇研究轉(zhuǎn)向工業(yè)化的使用,支持大規(guī)模機(jī)器學(xué)習(xí)所需的方法和基礎(chǔ)設(shè)施也在不斷發(fā)展。利用這些進(jìn)展對初創(chuàng)公司來說既是機(jī)遇也是風(fēng)險,幾乎所有的初創(chuàng)公司都在以這樣或那樣的方式利用機(jī)器學(xué)習(xí),以爭奪市場份額。


【資料圖】

這一過程始于 9 年多以前,2012 年,一份名為 AlexNet 的文件向年度 ImageNet LSVRC 競賽(由研究界舉辦的計算機(jī)視覺競賽)提交了參賽作品,啟動了深度學(xué)習(xí)革命。在這篇論文中,一個三人小組(Alex Krizhevsky, Illya Sutskever 和 Geoffrey Hinton)使用了一種被稱為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network)的技術(shù)來理解照片的內(nèi)容。他們輕松地贏得了比賽,以巨大的優(yōu)勢擊敗了其他所有人,而且是用一個用于玩視頻游戲的 700 美元的電腦顯卡訓(xùn)練出來的系統(tǒng)。

機(jī)器學(xué)習(xí)的世界被永遠(yuǎn)地改變了。一年之內(nèi),復(fù)制 AlexNet 的創(chuàng)業(yè)公司如雨后春筍般涌現(xiàn)。我之前的公司 AlchemyAPI(2015 年被 IBM 收購),早在 2013 年就通過我們的 AlchemyVision 計算機(jī)視覺 API 發(fā)布了這項工作的首批商業(yè)版本。這一時期成立的其他創(chuàng)業(yè)公司包括 DeepMind(被谷歌收購)、MetaMind(被Salesforce收購)和 Clarifai 等。學(xué)術(shù)界也發(fā)生了巨大的轉(zhuǎn)變,許多專家從對人工智能的懷疑,迅速轉(zhuǎn)變?yōu)槿硇牡負(fù)肀疃葘W(xué)習(xí)。

時間快進(jìn)到 2022 年:神經(jīng)網(wǎng)絡(luò)已經(jīng)改變了我們?nèi)粘J褂玫能浖到y(tǒng)中機(jī)器智能的各個方面,從識別語音到推薦新聞動態(tài)(無論是好是壞)。今天的系統(tǒng)仍然使用神經(jīng)網(wǎng)絡(luò),但規(guī)模大不相同。最近用于理解和生成人類語言的系統(tǒng),如 OpenAI 的 GPT-3,是在超級計算機(jī)規(guī)模的資源上進(jìn)行訓(xùn)練的:數(shù)千個 GPU(每個成本至少為 1 萬美元)被編織在高速網(wǎng)絡(luò)互連和數(shù)據(jù)存儲基礎(chǔ)設(shè)施的復(fù)雜結(jié)構(gòu)中。雖然 2012 年最先進(jìn)的系統(tǒng)可以在一張 700 美元的視頻游戲卡上訓(xùn)練,但今天最先進(jìn)的系統(tǒng)(通常被稱為基礎(chǔ)模型)可能需要數(shù)千萬美元的計算量來訓(xùn)練。

這些大規(guī)模、高成本的基礎(chǔ)模型的出現(xiàn),為初創(chuàng)公司和其他想要在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域創(chuàng)新的公司帶來了機(jī)會、風(fēng)險和限制。盡管它們可能無法在前沿研究領(lǐng)域與谷歌、Facebook 或 OpenAI 競爭,但小型實體可以利用這些巨頭的工作,包括基礎(chǔ)模型,來啟動自己的機(jī)器學(xué)習(xí)驅(qū)動應(yīng)用程序的開發(fā)。

1. “預(yù)訓(xùn)練”的網(wǎng)絡(luò)可以幫助初創(chuàng)公司成長

像 AlexNet 這樣的神經(jīng)網(wǎng)絡(luò)最初是為每項任務(wù)從零開始訓(xùn)練的,當(dāng)網(wǎng)絡(luò)需要在單個游戲硬件上花費數(shù)周的時間時,這是可行的,但當(dāng)網(wǎng)絡(luò)規(guī)模、計算資源和訓(xùn)練數(shù)據(jù)量開始以數(shù)量級增長時,難度就大得多了。這導(dǎo)致了一種被稱為“預(yù)訓(xùn)練”(pre-training)的方法的普及,即神經(jīng)網(wǎng)絡(luò)首先在使用大量計算資源的大型通用數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后使用少量的數(shù)據(jù)和計算資源對手頭的任務(wù)進(jìn)行微調(diào)。

近年來,隨著機(jī)器學(xué)習(xí)的產(chǎn)業(yè)化已經(jīng)占據(jù)了許多領(lǐng)域(如語言或語音處理),以及可用于訓(xùn)練的數(shù)據(jù)量急劇增加,預(yù)訓(xùn)練網(wǎng)絡(luò)的使用出現(xiàn)了爆炸性增長。例如,使用預(yù)先訓(xùn)練的網(wǎng)絡(luò),初創(chuàng)公司可以用比從零開始所需的更少的數(shù)據(jù)和計算資源構(gòu)建產(chǎn)品。這種方法在學(xué)術(shù)界也越來越流行,研究人員可以快速調(diào)整預(yù)先訓(xùn)練過的網(wǎng)絡(luò),以完成一項新任務(wù),然后發(fā)布結(jié)果。

對于某些任務(wù)領(lǐng)域(包括理解或生成書面文本、識別照片或視頻內(nèi)容以及音頻處理),預(yù)訓(xùn)練隨著基礎(chǔ)模型(如 BERT、GPT、DALL-E、CLIP 等)的出現(xiàn)而不斷發(fā)展。這些模型在大型通用數(shù)據(jù)集(通常是數(shù)十億個訓(xùn)練實例)上進(jìn)行了預(yù)訓(xùn)練,并由資金充足的 AI 實驗室(如谷歌、微軟和 OpenAI)作為開源發(fā)布。

商業(yè)化機(jī)器學(xué)習(xí)應(yīng)用的創(chuàng)新速度和這些基礎(chǔ)模型的普及效果是不可低估的。對于那些沒有備用超級計算機(jī)的工作人員來說,它們就是萬靈藥。它們允許初創(chuàng)公司、研究人員和其他人快速趕上最新的機(jī)器學(xué)習(xí)方法,而不必從頭開始花費時間和資源來訓(xùn)練這些模型。

2. 基礎(chǔ)模型的風(fēng)險:規(guī)模、成本和外包創(chuàng)新

然而,在預(yù)先訓(xùn)練的基礎(chǔ)模型領(lǐng)域,并不是一切都是美好的,隨著其被越來越頻繁地使用,也存在一些風(fēng)險。

與基礎(chǔ)模型相關(guān)的風(fēng)險之一是其不斷擴(kuò)大的規(guī)模。谷歌的 T5-11b(2019 年開放源碼)等神經(jīng)網(wǎng)絡(luò)已經(jīng)需要一個昂貴的 GPU 集群來加載和進(jìn)行預(yù)測了。對這些系統(tǒng)進(jìn)行微調(diào)需要更多的資源。由谷歌/ Microsoft/ OpenAI 在 2021-2022 年創(chuàng)建的更近期的模型通常非常大,以至于這些公司沒有將其作為開源發(fā)布,畢竟它們現(xiàn)在需要數(shù)千萬美元來創(chuàng)建,這對這些大公司來說,也算是重要的知識產(chǎn)權(quán)投資。

然而,即使這些最新的模型是開源的,簡單地加載這些網(wǎng)絡(luò)來進(jìn)行預(yù)測也需要消耗更多的資源,很多初創(chuàng)公司和學(xué)術(shù)研究人員都無法輕易獲取。例如,OpenAI 的 GPT-3 僅僅是加載就需要大量的 GPU。即使使用 Amazon Web Services 等現(xiàn)代計算云,這也需要將數(shù)十臺 Amazon 最昂貴的 GPU 機(jī)器配置到一個高性能計算集群中。

對于那些使用基礎(chǔ)模型的人來說,數(shù)據(jù)集調(diào)整(Dataset alignment)也是一個挑戰(zhàn)。在大型通用數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并不能保證網(wǎng)絡(luò)能夠在專有數(shù)據(jù)上執(zhí)行新任務(wù)。網(wǎng)絡(luò)可能非常缺乏上下文或基于其預(yù)訓(xùn)練的偏向,以至于即使是微調(diào)也不容易解決這個問題。

例如,GPT-2 是自然語言處理領(lǐng)域中一個流行的基礎(chǔ)模型,最初是在 2019 年初宣布的,因此,訓(xùn)練的是在該日期或之前收集的數(shù)據(jù)。想想 2019 年以來發(fā)生的一切,比如疫情。最初的 GPT-2 模型肯定知道什么是疫情,但其缺乏圍繞 COVID-19 及其變種的詳細(xì)背景,而這些背景是近年來出現(xiàn)的。

為了說明這一點,讓我們舉個例子,讓 GPT-2 完成“COVID-19 是……”這句話:

GPT-2(2019):“COVID-19 是一種高容量 LED 發(fā)射器,可以顯示關(guān)于電池的大小和狀態(tài)的信息?!?/em>

相比之下,2021 年發(fā)布的開源語言模型 GPT-J 完成了以下句子:

GPT-J(2021):“COVID-19 是一種新型冠狀病毒,主要影響呼吸系統(tǒng),導(dǎo)致具有多種臨床表現(xiàn)的疾病?!?/em>

差別非常大,對吧?數(shù)據(jù)集調(diào)整和訓(xùn)練數(shù)據(jù)的近時性非常重要,這取決于具體用例。任何在機(jī)器學(xué)習(xí)工作中利用基礎(chǔ)模型的初創(chuàng)公司都應(yīng)該密切關(guān)注這些類型的問題。

3. 云 API 更容易,但外包也是有代價的

OpenAI、微軟和英偉達(dá)等公司已經(jīng)看到了規(guī)模上的挑戰(zhàn),并使用云 API 來應(yīng)對,這些 API 支持在其托管基礎(chǔ)設(shè)施上運行推理和微調(diào)大規(guī)模模型。當(dāng)然,每個主要的云提供商現(xiàn)在都提供了一套機(jī)器學(xué)習(xí)服務(wù),在某些情況下,還專門為這些工作負(fù)載設(shè)計了定制處理器。通過將計算和基礎(chǔ)設(shè)施的挑戰(zhàn)轉(zhuǎn)移到更大的公司,這可以為初創(chuàng)公司、研究人員甚至個人愛好者提供一個有限的壓力緩解閥。

然而,這種方法也有其自身的風(fēng)險。不能托管自己的模型意味著在訓(xùn)練和推理方面都要依賴集中的實體。這可能會在構(gòu)建可用于生產(chǎn)的機(jī)器學(xué)習(xí)應(yīng)用程序時產(chǎn)生外部性風(fēng)險,比如網(wǎng)絡(luò)中斷、API 的并行量或速率限制,或者僅僅是托管公司的策略更改,都可能導(dǎo)致重大的操作影響。此外,當(dāng)敏感的標(biāo)記數(shù)據(jù)集(其中一些可能被HIPAA等法規(guī)覆蓋)必須被發(fā)送到云提供商進(jìn)行微調(diào)或推斷時,IP 泄露的可能性可能會讓一些人感到不舒服。

調(diào)用這些 API 帶來的 COGS(商品銷售成本)影響,也可能是那些使用云提供商滿足機(jī)器學(xué)習(xí)需求的人所關(guān)注的問題。定價模式因供應(yīng)商而異,但不用說,API 調(diào)用、數(shù)據(jù)存儲和云實例的成本會隨著你的使用量而增加。如今,許多使用云 API 進(jìn)行機(jī)器學(xué)習(xí)的公司可能最終會嘗試過渡到自托管或自訓(xùn)練的模型,以獲得對其機(jī)器學(xué)習(xí)通道的更多控制,并消除外部化風(fēng)險和成本。

圍繞使用托管模型和預(yù)訓(xùn)練模型的機(jī)會和風(fēng)險,導(dǎo)致許多公司在“試驗階段”利用云 API 來啟動產(chǎn)品開發(fā)。這時,公司正試圖找到適合其產(chǎn)品的市場。利用云 API 可以讓公司快速啟動產(chǎn)品,并大規(guī)模運行,而不必在昂貴的基礎(chǔ)設(shè)施、模型訓(xùn)練或數(shù)據(jù)收集方面進(jìn)行投資。來自谷歌、IBM、微軟和 OpenAI 等供應(yīng)商的云機(jī)器學(xué)習(xí)服務(wù)和托管的預(yù)訓(xùn)練模型,現(xiàn)在為數(shù)千家初創(chuàng)公司和學(xué)術(shù)研究項目提供了動力。

一旦公司確定了產(chǎn)品與市場的契合度,通常會過渡到自我托管或自訓(xùn)練的模型,以獲得對數(shù)據(jù)、過程和知識產(chǎn)權(quán)的更多控制。這種轉(zhuǎn)換可能是困難的,因為公司需要能夠擴(kuò)展其基礎(chǔ)設(shè)施以匹配模型的需求,以及管理與數(shù)據(jù)收集、注釋和存儲相關(guān)的成本。為了實現(xiàn)這一轉(zhuǎn)變,企業(yè)正在籌集越來越多的投資者資金。

我的創(chuàng)業(yè)公司 Hyperia 最近就進(jìn)行了這樣的轉(zhuǎn)變。早期,我們在努力了解商務(wù)會議和客戶語音對話的內(nèi)容時,嘗試了云 API。但最終我們還是親自進(jìn)行了大規(guī)模的數(shù)據(jù)收集和模型訓(xùn)練工作,以構(gòu)建我們自己專有的語音和語言引擎。對于許多商業(yè)模式來說,如果要實現(xiàn)積極的單位經(jīng)濟(jì)和市場差異化,這樣的進(jìn)化是不可避免的。

4. 要有戰(zhàn)略眼光,密切關(guān)注大型 AI 實驗室

基礎(chǔ)模型是機(jī)器學(xué)習(xí)領(lǐng)域最新的顛覆性趨勢之一,但它們不會是最后一個。各大公司在持續(xù)建造越來越大的機(jī)器學(xué)習(xí)超級計算機(jī)(Facebook最新的一臺包括超過1.6萬個 GPU),研究人員也正忙于開發(fā)新技術(shù),以減少與訓(xùn)練和托管最先進(jìn)的神經(jīng)網(wǎng)絡(luò)相關(guān)的計算成本。谷歌最新的 LaMDA 模型利用了許多創(chuàng)新,能比 GPT-3 更有效地進(jìn)行訓(xùn)練,并且研究界正在迅速開發(fā)諸如 model distillation 和 noisy student training 等技術(shù),以減少模型的大小。

這些創(chuàng)新也意味著創(chuàng)業(yè)公司可以繼續(xù)創(chuàng)新,但重要的是要時刻保持警惕,因為形勢在不斷變化。要記住的事情包括:

云 API 絕對可以加速公司實現(xiàn)產(chǎn)品與市場的契合,但通常也會帶來長期的問題。制定一個戰(zhàn)略性退出計劃非常重要,這樣這些 API 就不會控制你產(chǎn)品的命運。

基礎(chǔ)模型可以極大地加快機(jī)器學(xué)習(xí)的速度,降低整體訓(xùn)練和數(shù)據(jù)收集成本,但要意識到這些系統(tǒng)的局限性(例如,訓(xùn)練數(shù)據(jù)的近時性)。

密切關(guān)注大型企業(yè)AI實驗室(谷歌、微軟、IBM、百度、Facebook、OpenAI 等)的成果。機(jī)器學(xué)習(xí)正在以極快的速度變化,每個月都有新的技術(shù)、模型和數(shù)據(jù)集發(fā)布。這些發(fā)布往往會在意想不到的時候出現(xiàn),如果你能迅速適應(yīng),會對你公司的機(jī)器學(xué)習(xí)工作產(chǎn)生巨大的影響。

最終,機(jī)器學(xué)習(xí)的未來及其對初創(chuàng)公司和科技公司的影響是不確定的,但有一件事是明確的:那些了解現(xiàn)有的東西并對其使用做出明智決定的公司,將比那些只想快速解決 AI 問題的公司處于更有利的地位。

譯者:Jane

關(guān)鍵詞: 機(jī)器學(xué)習(xí) 初創(chuàng)公司 神經(jīng)網(wǎng)絡(luò)

相關(guān)閱讀:
熱點
圖片 圖片