公司新聞
[點擊量:1475][來源:創(chuàng)選寶防靜電專家(paf0.cn)]
2023-02-22
過去,人們普遍認為具有創(chuàng)造力的工作將會是最后被機器代替的工作之一。但在2022年之后,或許會出現(xiàn)不同的看法。
僅僅幾個月的時間,只需輸入幾個關(guān)鍵詞就可以進行藝術(shù)創(chuàng)作的AI藝術(shù)工具陸續(xù)問世。用這種方式制作的插圖、照片和畫作的質(zhì)量有了明顯提高。盡管并非所有人都喜歡AI藝術(shù),但一些商業(yè)藝術(shù)家已經(jīng)開始試驗這項技術(shù),而圖片庫服務(wù)商也著手準備提供AI生成的圖像。
圍繞AI圖像生成器打造的產(chǎn)品和公司開始出現(xiàn),研究人員也在持續(xù)改進這項技術(shù),《連線》也開始了對Meta開發(fā)的首批能夠智能生成視頻的工具的測試。這些由AI生成的視頻并非完美無缺,但將它們與2022年人工智能藝術(shù)大爆發(fā)前多年的研究案例進行比較,我們可以看到一項技術(shù)從實驗室實驗到產(chǎn)品原型迅速成熟的可視化時間表。
圖像生成技術(shù)建立在人工智能數(shù)十年的進步之上。大約在10年前,研究人員就已經(jīng)向稱為神經(jīng)網(wǎng)絡(luò)算法提供了大量帶有相關(guān)標簽的圖像,使它們能夠高精度標記以前看不見的圖像。這就是為什么Apple Photos和Google Photos可以自動整理在手機上拍攝的寵物照片。
但圖像制作AI工具顛覆了這種圖像標記技巧。算法從網(wǎng)上吸收的大量圖像和相關(guān)文本,再根據(jù)用戶提供的文本生成新圖像,核心是所謂的“生成模型”。“生成模型”根據(jù)數(shù)據(jù)集合的屬性,創(chuàng)建適合原始集合的新數(shù)據(jù)。除了制作圖像外,這種方法還可以用于編寫文本、作曲或回答提問。所謂的生成式人工智能的商業(yè)潛力讓科技投資者興奮不已。
生成模型已在統(tǒng)計學中使用了幾十年,但去年的AI制圖熱則源自于2014年的一項發(fā)明。那時,當時還在蒙特利爾大學就讀的Ian Goodfellow提出了生成模型的新方法——生成對抗網(wǎng)絡(luò)(GANs)。
生成對抗網(wǎng)絡(luò)涉及兩個相互對抗的神經(jīng)網(wǎng)絡(luò)(用于機器學習的算法)。一個試圖生成一些東西來匹配示例集合,而另一個嘗試區(qū)分真實和虛擬的示例。經(jīng)過多輪競爭比較測試,虛擬檢測器能夠推動虛擬生成器做得更好。事實證明,這個技巧能夠制作簡單的手寫字符圖像、粗略繪制的人臉照片,以及類似真實照片的更復(fù)雜的場景。
第一批AI生成的圖像很難賣出去,但還是引發(fā)了大眾對于AI制圖的興趣。很快,這項技術(shù)得到了完善,并源源不斷地產(chǎn)出了更多復(fù)雜的圖像。
2016年, Facebook的研究人員和一家名為Indico的初創(chuàng)公司開發(fā)了GANs的改進版本,能夠創(chuàng)建更加逼真(盡管仍然算不上完美)的圖像,例如室內(nèi)場景和人臉。同年,密歇根大學和德國馬克斯普朗克研究所的一個團隊展示了GANs如何根據(jù)特定文本提示生成相關(guān)圖像。
加州大學伯克利分校的研究人員表示,GANs還可以用于修改圖像,例如在馬身上添加斑馬條紋,或者將照片轉(zhuǎn)換成莫奈風格的畫作。這項研究表明,算法可以混合訓(xùn)練數(shù)據(jù)中遇到的不同元素或風格,這是最近顯示出巨大前景的工具的一個特點。
參與該項目的加州大學伯克利分校教授Alexei Efros表示,種種跡象表明,更多的數(shù)據(jù)和計算能力可以顯著提高圖像生成器的輸出——財力雄厚的科技公司可以很好地利用這一點。
2019年,英偉達的一個團隊公布了一種基于GANs的生成逼真人臉的算法,震驚了互聯(lián)網(wǎng)。與早期的嘗試相比,它們看起來已經(jīng)非常厲害了,盡管它們?nèi)匀痪哂忻黠@的缺陷。
2021年1月,OpenAI發(fā)布了一個能夠從文本提示生成令人印象深刻的圖像的系統(tǒng)——DALL-E,這個名字是Salvador Dalì和迪士尼角色WALL-E的合成詞。它能夠生成各種風格的逼真圖像,并且以有趣的方式組合概念——例如勾畫出“鱷梨扶手椅”和“蘿卜牽狗散步”的插圖。DALL-E是通過修改稱為 GPT 的生成模型構(gòu)建的,該模型旨在處理在來自互聯(lián)網(wǎng)的文本圖像對上訓(xùn)練的文本。
Efros認為,DALL-E強大性能的關(guān)鍵在于OpenAI為其提供了大量訓(xùn)練數(shù)據(jù)。“他們使用的算法相當簡單,或多或少都是以前做過的,但他們真的以一種神奇的方式擴大了規(guī)模。”
2022年6月,OpenAI發(fā)布了后續(xù)版本DALL-E 2,得益于更多的數(shù)據(jù)和更強的計算能力。它使用了一種新的更強大的生成算法,被稱為擴散模型。其靈感來自于用于模擬物理現(xiàn)象的數(shù)學,通過挑戰(zhàn)一種算法來學習如何去除添加到圖像中的噪聲。
不久之后,圖像生成器就被廣泛應(yīng)用。2022年6月,一個受OpenAI啟發(fā)的獨立項目(現(xiàn)在被稱為Craiyon)在網(wǎng)上引起轟動,用戶們紛紛制作出越來越超現(xiàn)實或滑稽的圖像。還有幾家公司制作了與dall - e2功率相似的人工智能圖像生成器。9月,該工具向所有人開放使用。
AI藝術(shù)創(chuàng)業(yè)公司Midjourney的CEO David Holz 在談到過去一年時說:“這真的是一個令人難以置信的發(fā)明時代。最讓人意外的是,我們意識到了這項技術(shù)還能走多遠。我認為未來三年我們會看到比過去200年更多的美學探索。”
擁有自有圖像生成器的初創(chuàng)公司Stability AI的首席執(zhí)行官Emad Mostaque認為,2022年是突破性的一年。“我們的圖像生成速度足夠快,價格足夠便宜,而且最重要的是足夠好,可以讓所有人在任何地方都可以使用。”
圖像生成器的廣泛應(yīng)用不僅引起了實驗的爆炸式增長,還引起了圍繞該技術(shù)影響的廣泛討論?,F(xiàn)有的問題是,輸入的數(shù)據(jù)可能會給讓生成的圖像偏差;另外,是它們可能會被用來生成有害內(nèi)容。AI藝術(shù)的版權(quán)和商標含義也不甚明確,一些藝術(shù)家擔心此類工具可能會讓藝術(shù)作品更難被發(fā)現(xiàn)。
伴隨著這項技術(shù)的快速迭代,這些討論一直持續(xù)至今。近日,谷歌的研究人員發(fā)布了一款名為Muse的圖像生成工具,聲稱其比以前的圖像生成器效率高得多,創(chuàng)建圖像的時間是Stable Diffusion所需時間的三分之一,且結(jié)果質(zhì)量更高。谷歌的新技術(shù)也可用于使用文本指令編輯圖像——創(chuàng)意專業(yè)相關(guān)人士可能會用到。
阻礙圖像生成器更廣泛使用的一件事是算法對文本與圖像中元素的關(guān)系并沒有什么有意義的理解。麻省理工學院的兩名學生Nan Liu和Shuang Li曾展示過一種方法,可以要求圖像生成器在圖像中包含或排除特定元素,并指定細節(jié),例如將一個物體放在另一個物體前面。
這可以幫助人們讓圖像生成器更頻繁地做他們要求的事情,但參與該項目的麻省理工學院教授Josh Tenenbaum表示,事實仍然是現(xiàn)有的人工智能工具根本無法像人類那樣理解世界。“他們的能力令人驚嘆,但他們通過簡單描述想象世界可能是什么樣子的能力往往非常有限且違反直覺。”
隨著人們對AI藝術(shù)工具的熱情和資金的增長,今后可能會有更高質(zhì)量的AI圖像出現(xiàn),也許還會出現(xiàn)AI視頻生成器。研究人員已經(jīng)展示了工具原型,盡管到目前為止它們的輸出都還相對簡單。目前,Stable Diffusion、Midjourney、Google、Meta和Nvidia等公司都在研究這項技術(shù)。
為了了解即將發(fā)生的事情,《連線》請Meta制作了一些慶賀新年的視頻,雖然很粗糙,但如果能對AI成像的近期試驗進行借鑒,則將會有非常大的改進。關(guān)于AI藝術(shù)及其后續(xù)在倫理和經(jīng)濟等方面可能帶來的問題,或許會再次引發(fā)探討。
(來源:億歐)