生成式AI:緣起、機遇和挑戰

                  陳永偉2023-01-09 23:37

                  陳永偉/文

                  生成式AI元年

                  每隔幾年,在人工智能領域都會出現一個新的熱點。在剛剛過去的2022年,這個新熱點無疑就是“生成式AI”(GenerativeAI)。所謂生成式AI,就是通過各種機器學習(MachineLearning,ML)方法從數據中學習對象的組件,進而生成全新的、完全原創的內容(如文字、圖片、視頻)的AI。這些生成的內容會和訓練數據十分相似,但卻不是簡單地對學習數據進行復制。

                  早在去年年初,著名科技咨詢機構高德納(Gartner)就發布了一份2022年最有前景的技術預測榜。在榜單中,總共列舉了十二種技術,生成式AI位列榜首。此后的事實證明了高德納預測的正確性,在這一年中,一個接一個的生成式AI模型不斷驚艷了人們。

                  最先是OpenAI于4月份發布的Dall-E2。這個AI程序可以根據用戶的需要生成所需要的圖形。用戶只要輸入自己想要的內容和圖形風格,程序就可以迅速地生成對應的圖形——即使人們對圖形的描述是非常天馬行空、不切實際的。Dall-E對繪畫風格的模仿非常精準。OpenAI曾經讓Dall-E2仿照一些畫家的風格生成了一批圖片,然后將這些圖片和畫家本人繪制的圖放在一起讓用戶來進行分辨。結果顯示,大部分的用戶根本無法判斷哪些圖是原畫,哪一些圖是由AI生成的。

                  由于Dall-E2的出色表現,通過言語描述生成圖形的AI概念迅速爆火。在眾多的類似產品中,最有代表性的是由StabilityAI推出的StableDiffusion模型。與OpenAI相比,作為初創公司的StabilityAI不太起眼,但從產品的品質看,StableDiffusion卻十分可圈可點,在不少方面甚至比Dall-E2更為出色。舉例來說,Dall-E2在生成圖形時是帶有非常大的隨機性的。如果用戶不滿意,那么Dall-E2就只能按照要求重新隨機生成一張。而StableDiffusion的處理則更為人性化:它可以根據用戶的要求,生成一組圖片。如果用戶感覺其中的某一張比較滿意,就可以將其存為種子。這樣,程序就可以記錄這張圖片的大致構圖樣式,在隨后的生成中,就可以在這個種子的基礎上進行改動。通過這樣的設計,人們就可以比較容易地得到自己滿意的圖片。更為重要的是,在StableDiffusion大火之后,其開發團隊立即將其開源。目前,開發者已經可以通過對StableDiffusion的源程序進行修改來得到自己的生成式AI程序。

                  在圖形生成AI大獲成功的同時,文本生成型AI也異軍突起,而其代表產品就是年底時火爆全網的ChatGPT。ChatGPT也是由OpenAI開發的。從外觀上看,ChatGPT就是一個聊天機器人,用戶只需要在對話框中鍵入相關內容,ChatGPT就會給出對應的回答。但和之前的對話機器人相比,ChatGPT的能力顯然要強大太多。它不僅可以根據交互過程中的上下文,對用戶的一些簡單問題對答如流,還可以按照用戶指示完成較為復雜的工作。比如,用戶可以命令它撰寫小說——為了實現這一點,用戶只需要列出大綱,提出要求,ChatGPT就會根據要求生成對應的內容。再如,用戶也可以描述相關要求,讓它編寫對應的程序。在程序生成之后,它甚至還可以根據要求進行對應的修改。此外,ChatGPT甚至還可以求解數學題。我曾經讓ChatGPT做了一套中學數學試卷的選擇題部分,結果其正確率達到了80%以上——作為一個AI,可以順利讀懂題干,并進行對應的求解,可謂已經相當不易了。值得一提的是,一些用戶還將ChatGPT和Dall-E2這出自同一公司的“兩兄弟”配合使用,讓ChatGPT生成對圖片的描述,再讓Dall-E2根據描述生成對應的圖片,結果非常亮眼。

                  正因為有如此多的生成式AI模型在這一年中陸續涌現,因此很多業內人士建議將2022年稱為“生成式AI元年”。

                  AI是如何生成內容的

                  AI是如何通過學習內容材料,最終達到生成內容的結果的呢?其背后的原理是什么?如果用比較專業的術語講,AI能實現這一切,都是因為一個名為“生成式對抗網絡”(Generativead-versarialnetworks,簡稱GAN)的模型。而要講明白這個模型,我們就需要對機器學習和深度學習的一般概念有一個比較初步的了解。

                  對人工智能領域有所了解的讀者應該知道,在“人工智能”這個大領域下面,存在著很多子領域,并且在不同的時期,引領人工智能發展的子領域各不相同。舉例來說,在上世紀六七十年代,人工智能的發展重心是專家系統;到了八十年代,概率推理則一度成為了人工智能發展的重點。而在近十年中,人工智能的發展主要是由機器學習推動的。顧名思義,機器學習就是讓計算機對數據進行學習,從中找出規律,建立模型。舉例來說,如果我們要讓計算機從圖片中識別出狗,就可以讓它學習很多有狗的圖片,讓它從中摸索出足以判斷某個圖形是狗的規律。當然,機器學習可以用很多模型來實現。比如,我們常用的回歸(regression)算法就是標注出一系列可以判斷圖片是狗的要素,類似“翹起的耳朵”、“渾身長毛”、“有尾巴”等,計算機通過對數據的學習,就可以在這些特征與“圖形是狗”這個事實的概率之間建立一種關系,例如發現了圖片中有“翹起的耳朵”,則判定圖形是狗的概率增加10%;發現圖片中“有尾巴”,則判定圖形是狗的概率增加5%……最終,計算機可以在學習了大量圖片的基礎之后,建立起一個模型,據此來判斷新的圖片當中究竟有沒有狗。

                  不過,類似的算法的缺陷是顯而易見的。具體來說,在上面的例子中,用來判斷圖形是狗的因素是人們事先給定的,這些因素夾雜著人們的先驗判斷,因而很可能是不可靠的。比如,一個動物有“翹起的耳朵”、“渾身長毛”、“有尾巴”,但它可能是狼。在多數情況下,人們只要看到了圖片,就可以從動物的神情等信息十分精準地判斷出它究竟是狗還是狼,但如果根據前面的算法,機器就很難作出類似的判斷。那么如何解決這一問題呢?一個可能的破解辦法就是引入深度學習(deeplearning)技術。

                  所謂深度學習,是一種模仿人腦思維過程的方法,它利用多層神經網絡進行學習,通過組合低層特征形成更加抽象的高層表示屬性類別或特征,最后作出綜合判斷?;叵胍幌挛覀儗W會認識狗的過程,我們只是看多了,就自然而然地知道什么是狗了。把這個“自然而然”的過程進行解剖,我們其實是通過對狗的大量觀測,在大腦中總結出了很多關于狗的特征——這些特征很可能很難用語言準確地描述出來,但卻可以在實踐中用于判斷。類似的,深度學習也是通過對大量樣本的學習,逐步總結出一些判斷動物是不是狗的重要特征,最終生成一個用來判斷圖形是否為狗的模型。

                  在實踐當中,深度學習很快表現出了其強大的能力。例如,目前得到廣泛應用的語音識別和影像辨識系統,其背后的原理都是深度學習;而2016年因打敗人類圍棋高手而聞名于世的AlphaGo,也是根據深度學習的原理訓練的。不過,深度學習的問題是十分明顯的,那就是它對于數據有著海量的需求。比如,如果要訓練一個AI程序能夠順利地實現對狗的識別,很可能要“喂”給它上百萬,乃至上千萬張與狗相關的圖片。

                  如果沒有如此充足的數據,又應該怎么辦呢?幾年前,我曾經就這個問題問過一位AI從業者。他打趣地回答說:“能怎么辦呢?我就和AI說,你已經是個成熟的AI了,應該自己生成數據,自己訓練自己了。”起初,我認為這就是他和我開的一個玩笑,但在他的一番解釋之后,我才恍然大悟,原來他和我說的,正是GAN的基本原理。

                  GAN的思想最早出自2014年,其提出者是著名的深度學習理論專家伊恩·古德費洛(IanJ.Goodfellow)。在原理上,生成式對抗網絡使用兩個神經網絡相互對立,一個生成器和一個判別器。生成器或生成網絡是一個神經網絡,負責生成類似于源數據的新數據或內容。判別器或判別網絡是負責區分源數據和生成數據之間的神經網絡。這兩個神經網絡都經過交替周期訓練,生成器不斷學習生成更逼真的數據,判別器則更善于區分假數據和真實數據。為了能夠生動地說明GAN的原理,古德費洛打了一個形象的比方:GAN就像是構造了一個警察抓小偷的游戲。小偷不想被警察抓住,因此他需要不斷揣摩警察的行為,并據此來隱藏自己是小偷這個事實。而警察則想要抓住小偷,因此他就需要不斷學習小偷的偽裝辦法,并據此調整自己的抓捕策略。這樣,經過不斷的“斗法”,小偷的偽裝技巧和警察的抓捕策略都可以得到大幅的改善,并且這種迭代的速度會非???。在古德費洛發表的第一篇關于GAN的論文中,就展示了這個過程:起初,他用一個生成網絡生成了一只假狗的圖形,這個圖形很快就被判別器識別為是假的。但是在經過幾輪學習之后,生成網絡生成的狗的圖片就已經可以很好地騙過判別器了。

                  顯然,在對GAN進行應用之后,就可以很好地解決數據不足的問題,因為生成網絡可以根據自己的學習結果,不斷生成出對應的數據供判別器來進行判斷,想要多少數據就能生成多少數據。也正是因為這個道理,GAN的思路一經提出,就得到了廣泛的應用。

                  當然,在訓練某些大型AI程序時,除了使用GAN,還需要使用一些其他的訓練方法。以ChatGPT為例,GAN的使用主要是讓他的回答在表現上更像一個人,但GAN本身是難以保證它回答的內容本身究竟是不是準確的——比如,ChatGPT要知道清朝是哪一年建立的,只能通過檢索網絡信息得到。而這些檢索到的信息本身的可靠性是存疑的,要對此進行驗證,必須依靠人力。而將這個程序放到網上,讓用戶來對其回答的內容進行反饋和糾錯,就是對它的進一步訓練——明白了這點,我們也就不難理解為什么OpenAI會舍得把用巨資訓練的ChatGPT放在網上,讓用戶免費使用了。因為用戶在不斷“調戲”這個AI的同時,也在充當著免費AI訓練師的角色,幫助它不斷成長。

                  為什么是現在

                  這里有一個問題:為什么生成式AI會在2022年迎來爆發呢?我們知道,大約在五六年前,由于AlphaGo擊敗了人類圍棋高手,人工智能曾經迎來過一次熱潮。在這股熱潮中,也涌現出了很多著名的AI模型。按照“生成式AI”的定義,我們很容易從前些年火爆的AI模型中找到它們的原型。比如,2017年,微軟開發的人工智能“小冰”就出版了詩集《陽光失了玻璃窗》;美國工程師扎克·圖特(ZackThoutt)用自己設計的人工智能RNN續寫了知名小說《冰與火之歌》——這些實踐都是早期生成式AI的例子。不過,在當時,生成式AI的應用還僅限于一個很小的范圍。那么,為什么是現在爆發呢?其原因是多方面的。

                  第一個原因是在最近幾年中,人們對AI模型的認識產生了變化,更加適合于生成式AI的“大模型”取代“小模型”成為了人們的新寵。在五年之前,人們更為偏愛那些參數量相對較小,結構較為簡單的小模型。這一方面是因為小型的模型對于硬件的要求較低;另一方面是由于和大模型相比,小模型具有更高的可解釋性和穩健性——想象一下,有兩個模型,一個是只有兩個參數的線性回歸模型,另一個是有2000個參數的深層學習模型,那人們可以很容易從第一個模型看出某個參數變化和結果變化之間的關系;而對于第二個模型,人們根本無法知道參數的變化會對結果造成怎樣的影響。但對于執行比較復雜的任務,大模型的表現要比小模型好太多,并且在其他條件相同的情況下,模型的參數更多,模型的表現也會更出色。事實上,我們現在看到的生成式模型,無論是Dall-E、StableDiffusion,還是ChatGPT,都具有數量龐大的參數。

                  第二個原因是在最近幾年,人們發展出了一些新的模型結構,這使得大模型的訓練變得更為容易了。其中,比較有代表性的模型結構就是著名的Transformer。相比于過去的模型結構,Transformer可以實現更好的并行性,并可以大幅度縮短訓練時間。在后來對于大型生成式AI的訓練過程中,這些更好的模型結構都起到了關鍵作用。

                  第三個原因是近幾年硬件能力的進步。要訓練像Dall-E、ChatGPT等大型的AI模型,需要有巨大的算力作為支撐。在最近幾年中,隨著各種軟硬件技術的突破,人們可以駕馭的算力獲得了突飛猛進的增長,在這樣的背景下,訓練大型生成式AI才成為了可能。

                  第四個原因是數據的極大豐富。雖然隨著GAN的發明,AI的訓練已經在一定程度上擺脫了對于數據的依賴,但很顯然,如果是要訓練出大型的生成式AI,充分的初始數據投入是必要的。而在過去的幾年中,隨著移動互聯網的發展,人們已經能十分方便地生成并分享包括文字、圖片,以及視頻在內的各種信息,而這些信息都可以被用來進行生成式AI訓練的材料。

                  正是在理念轉變的指引之下,以及更好的模型、更強的算力,以及更豐富的數據的共同支撐之下,生成式AI才最終在2022年迎來了爆發。

                  生成式AI究竟有什么用

                  那么,生成式AI究竟有哪些可能的應用場景呢?或者說,除了做成類似Dell-E、ChatGPT這樣的產品,放在網上供人們娛樂之外,它們到底能帶來什么?在我看來,可能的想象空間是十分巨大的。

                  第一,它可以提供大量素材的生成。借助于生成式AI,人們可以以相對低廉的價格大規模地生成包括文本、圖片、視頻、3D形象在內的各種素材,這可以對豐富網絡環境起到非常大的作用。尤其值得一提的是,隨著元宇宙時代的到來,人們對元宇宙中的3D建筑和人物形象的需求出現了大規模的上升,顯然,依靠純粹的人工制作是很難滿足這樣的需求的,而生成式AI的出現則可以很好地解決這個問題。事實上,包括微軟、英偉達在內的很多企業已經看到了這個商機,推出了自己的生成式AI平臺,專門為元宇宙提供3D素材。

                  第二,它可以在包括文藝演出、影視等很多領域替代人力完成部分工作。比如,在《星球大戰》的衍生劇《波巴·費特之書》中,有一部分劇情是涉及年輕時的“天行者”盧克的。很顯然,出于滿足“星戰粉”的情懷需要,讓1977年的電影《星球大戰》中盧克的原扮演者馬克·哈米爾出演這個角色是最為合適的。不過,在拍攝時,哈米爾業已年邁,即使借助高超的化妝技巧也很難重現他那張青年時代的臉。為了彌補這一遺憾,制作方讓AI學習了大量哈米爾年輕時的表演片段后,成功地做出了一張年輕版的哈米爾的臉。于是,年輕的“天行者”盧克就這樣時隔四十多年后,重新出現在了電視頻幕上。

                  第三,類似ChatGPT這樣的生成式AI模型將有希望成為新一代的智能助手和信息檢索工具。谷歌和ChatGPT在提供信息時的方式是不同的:谷歌更強調對相關信息的全面提供,而Chat-GPT則會在整合各種有用信息的基礎上,直接提供整理后的信息,其覆蓋面要比谷歌更小。但盡管如此,類似ChatGPT的AI仍然可能成為一種新一代的信息檢索工具,并對人們的信息獲取方式產生廣泛而深遠的影響。

                  第四,生成式AI的崛起還將讓科技研發、工業設計等領域產生深刻的變化。一個著名的例子是用AI來破解蛋白質折疊問題。在現實中,氨基酸殘基形成的長鏈將會折疊成錯綜復雜的3D結構,錯誤折疊的蛋白質有可能會引發阿茲海默病、帕金森病、亨廷頓舞蹈病和囊性纖維化等疾病的發生。因此,要開發可以應對這些疾病的藥物,人們就需要發現蛋白質的3D結構,并找出哪些藥物或化合物可能與人體組織相互作用,以及怎樣相互作用。然而,要發現蛋白質如何折疊是非常困難的,應用實驗的方法分析一種蛋白質的結構往往需要幾周、幾個月,甚至更長的時間。在AI進入這個領域前,科學家們只分析了人體2萬種蛋白質中17%的結構。然而,從2020年開始,由DeepMind推出的AlphaFold改變了這一切。AlphaFold模型可以根據基因“代碼”預測生成蛋白質的3D形狀,并在數小時或數分鐘內生成結果。到目前為止,AlphaFold已經分析出了2億多種蛋白質的結構,幾乎已經將人類已知的蛋白質都一網打盡了。此外,研究顯示,用AlphaFold預測得到的準確率已經達到了90%以上,比用人力通過實驗測定的準確性有過之而無不及??梢韵胂?,這個事件對于蛋白質結構分析這個領域,甚至整個分子生物學的影響將會是顛覆性的。

                  生成式AI的發展帶來的挑戰

                  需要指出的是,雖然生成式AI的發展具有非常巨大的應用潛力。但和任何一項新技術一樣,它的發展也會帶來很多挑戰。限于篇幅,這里我們只對其中的三個挑戰進行討論。

                  第一是對現有知識產權體系的挑戰。2022年8月,在美國科羅拉多州博覽會上的藝術比賽中,一副名為《太空歌劇院》的作品一舉奪得了數字藝術類別的冠軍。不過,不同于其他參賽作品,它并不是由真人創作的,而是一副AI生成作品。游戲設計師杰森·艾倫(Ja-sonAllen)在AI繪圖工具Midjourney中輸入了自己對作品的構思,Midjour-ney就生成了畫作的初稿。然后,艾倫又在初稿的基礎上用Photoshop進行了一些修改,并生成了最終的畫稿。因此,根據創作流程,艾倫并不能算是這副畫作的作者,充其量只能算是一位修改者。更為麻煩的是,作為一款生成式AI程序,Midjourney其實是通過學習既有的畫作,然后用其中的素材來組合出初稿的,從嚴格意義上講,它也并非“創作”了作品,只是對前人的素材進行了重組。在這種情況下,究竟《太空歌劇院》是誰的作品?這個大獎又應該頒給誰?相應的經濟回報又應該由誰享有?所有的這些,都成了棘手的問題。

                  而隨著生成式AI日益成為重要的生產工具,類似的問題會越來越多。如果不進行妥善處理,平衡好素材提供者,以及再創作者之間的利益,相關行業的發展將會受到很大的干擾。而要處理好這個問題,就需要對現有的知識產權體系進行比較大的變革。

                  第二是安全和隱私問題。2017年底,一組色情短片開始在國外著名的論壇Reddit上傳播,其中的女主角竟然是《神奇女俠》的主演,著名演員蓋爾·加朵。追查之下,真相很快就浮出水面:那些視頻其實都是由Deepfake在色情片的基礎上換臉而成。但盡管如此,作為事件的主角,加朵本人已經在這個事件中遭受到了深深的傷害。

                  這只是生成式AI帶來的安全問題的一個代表。事實上,隨著人們可以用AI輕易地生成某個特定風格的作品,真相就已經開始死亡了。這些合成視頻的真實度已經非常高,這意味著,如果有人將類似的技術用于不良用途,其欺騙性將會是非常高的。

                  雖然目前人們依靠肉眼已經很難分辨出生成內容和真實的內容,但借助于一些特定的AI工具,我們依然可以完成真假的鑒別。不過,這個過程又能持續多久呢?如果生成式AI的目標就是讓生成的目標更為真實,那么它是不是很快就能創造出讓識別AI都難分真假的作品?最終,生成式AI和鑒別AI之間的博弈會不會構成另一個GAN的結構?這一點似乎是值得我們引起重視的。

                  第三是生成式AI引發的失業問題。在2017年前后,也就是上一輪AI熱潮來臨的時候,AI引發的失業危險就是人們關心的問題。當時,面對擔心被AI替代的群眾,很多專家給出的建議就是去選擇一些有創造性的職業,比如繪畫、寫作、程序編寫等。但沒有想到的是,在短短五六年后,這些曾經被專家們認為難以被AI替代的工作卻這么快被替代了。

                  那我們應該如何應對這樣的就業挑戰呢?我想,這應該取決于個人和政府的共同努力。從個人角度看,應當直面AI的挑戰,及時對自己的工作方向進行調整。例如,當AlphaFold分析了所有已知蛋白質的結構后,原來通過實驗來探索蛋白質結構的科研人員就可以將工作重心更多地轉到根據結構開發對應的藥物;當StableDiffusion可以幫助人們完成作畫細節后,原來的畫師就應該更多去思考作畫的構圖。而從政府層面看,則應該繼續加強相關的就業指導,保證因AI沖擊而失業的人員可以及時轉向其他的工作,并對無法轉崗的人員提供相應的保障。只有通過這樣的配合,才能有效應對這一輪新的AI就業沖擊。

                   

                  《比較》研究部主管
                  在监狱中被折磨性器