(資料圖片)
OpenAI為其文本到圖像的人工智能模型DALL-E增加了一個新的 "outpointing "功能,讓該系統產生新的視覺效果,擴大任何給定圖片的邊界。
在上面的例子中,你可以看到DALL-E如何在人類提示的幫助下,"想象 "出約翰內斯-維米爾的肖像畫 "戴珍珠耳環的女孩 "的框架外的東西。請注意,即使從畫像提供的有限信息來看,該系統也能與維米爾的風格相匹配,模仿出原作的陰影和高光。
在下面的時間推移中,你還可以看到負責的藝術家奧古斯特-坎普是如何每次都要在小范圍內擴展圖像,為了得到她想要的結果,經常重做DALL-E的幾代。在這段視頻中沒有看到,但絕對值得強調的是,該系統并不只是自己生成這些擴展的事實。與所有文本到圖像的人工智能一樣,該模型需要人類來描述新的視覺效果。
Outpainting作為一個功能可以用來擴展原始內容,當然,許多DALL-E用戶已經在玩這個功能,看看著名圖像的框架之外有什么。(向下滾動到底部看我絕對喜歡的例子...)
從更廣泛的角度來看,畫外音并沒有真正擴大文本-圖像人工智能系統的基本功能,但它確實顯示了OpenAI將如何在這些系統不斷增長的市場中定位自己:通過使可用性成為對客戶的關鍵宣傳。
許多文本到圖像的人工智能模型可以執行相同的基本功能,但就像這次更新之前的DALL-E本身一樣,它需要相當多的手工擺弄。盡可能地使外繪變得簡單,將有助于DALL-E從Midjourney和Stable Diffusion等規模較小但具有可比性的系統日益激烈的競爭中脫穎而出。
DALL-E本身現在可以通過一個測試項目使用,目前有超過一百萬的用戶可以使用。每個測試版用戶在第一個月可以獲得50個免費的圖像世代,之后每個月可以額外使用15個。然后他們可以花15美元購買115個額外的圖像世代。
不過,在此期間,畫外音可以用來回答生活中的一些最大的謎團,比如,"如果貴格燕麥的人是一個胸大無腦的酒吧女郎呢?" 不要再想了。