每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

“嘮嗑式P圖”,修圖改圖“動口不動手”!每經記者實測Gemini 2.0 Flash圖像生成器:一鍵給漫畫上色、生成圖文菜譜......

每日經濟新聞 2025-03-14 21:01:05

3月12日,谷歌正式發布支持原生圖像生成功能的Gemini 2.0 Flash全模態圖像生成器?!睹咳战洕侣劇酚浾邔ζ溥M行實測后發現,該模型在給漫畫上色、生成圖文菜譜、添加元素等任務上表現出色,雖在運行中出現一些狀況,但整體表現可圈可點,為圖像生成技術的應用拓展了邊界。

每經記者 宋欣悅    每經編輯 蘭素英    

3月12日,谷歌正式發布Gemini 2.0 Flash全模態圖像生成器,支持原生圖像生成功能?,F在,所有開發者都可以通過Gemini API和Google AI Studio中的實驗版本使用Gemini 2.0 Flash進行原生圖像生成。

《每日經濟新聞》記者(以下簡稱“每經記者”)在Gemini 2.0 Flash原生圖像生成功能開放后進行了測試。測試發現,Gemini 2.0 Flash在給漫畫上色、生成圖文菜譜、添加元素等多項任務上,均表現出色。

圖片來源:谷歌官網

“嘮嗑式P圖”,修圖改圖“動口不動手”

據谷歌介紹,Gemini 2.0 Flash具有出色的文本和圖像結合能力。它能夠根據文本描述生成連貫的故事,并自動匹配相應的插圖,在整個故事中保持角色和場景的高度一致性。而且,用戶如果對生成的內容不滿意,只需給予反饋,模型便會重新講述故事或改變繪畫風格,為創作者提供了極大的便利和創作空間。

此外,其會話式圖像編輯功能也十分強大,做到了“嘮嗑式P圖”。無論是調整細節還是探索不同的創意方向,用戶都可以通過多次自然語言對話,輕松地對圖像進行編輯。

在世界理解方面,Gemini 2.0 Flash與傳統模型相比,具有明顯優勢。Gemini 2.0 Flash利用豐富的世界知識和增強的推理能力來生成圖像,能夠更好地理解現實世界中的各種概念和關系,從而生成更加逼真、詳細且符合上下文的圖像。例如,在生成食譜相關圖像時,它可以準確地描繪出真實的食材和烹飪方法,同時在Google AI Studio中實現文本和圖像的交錯輸出,讓用戶獲得更直觀的體驗。

值得一提的是,Gemini 2.0 Flash在文本渲染上表現卓越。大多數傳統圖像生成模型在處理長段文本時,容易出現格式不佳、字符難以辨認或錯別字等問題,而Gemini 2.0 Flash的內部基準測試顯示,其在渲染方面優于競爭對手的領先模型,這使其在創建廣告、社交媒體帖子和邀請函等需要高質量文本圖像的場景中具有巨大的優勢。

OpenAI前研究科學家威廉·古斯(William H.Guss)在社交媒體上感嘆道,“谷歌實力回歸了。”

圖片來源:X

多任務實測:生成圖文菜譜、制作生日賀卡、給漫畫上色等輕松拿捏

在Gemini 2.0 Flash原生圖像生成功能開放后,每經記者通過生成圖文菜譜、制作生日賀卡、給漫畫上色等多項任務,對該功能進行了測試。

任務1:添加或去掉元素

首先,記者發送了OpenAI首席執行官山姆·奧爾特曼出席活動的一張照片,希望Gemini 2.0 Flash去掉圖片中的部分元素——頭發。

經過五分鐘的等待,Gemini 2.0 Flash完成了記者提出的需求。雖耗時較長,但令人驚喜的是,處理前后的兩張圖片保持了高度一致性。不管是人物神態及五官、虛化的背景墻,還是圖像生成模型很難避開的“坑”——人物手部細節,Gemini 2.0 Flash都處理得相當完美。


然而,Gemini 2.0 Flash在運行過程中也出現了一些狀況。當記者在同一對話頁面繼續與模型交互,提出“去掉黃仁勛眼鏡”的指令時,Gemini 2.0 Flash給出的回應并非如預期那樣。其回傳的圖片中,主體變成了剛剛生成過的奧爾特曼形象,同時還融入了記者發送的黃仁勛圖片中的英偉達芯片元素。

隨后,記者又向Gemini 2.0 Flash發送了一張電車的圖片,并提出在車頂上添加“TAXI”標志的指令。經Gemini 2.0 Flash處理后回傳的圖片,“TAXI”標志與電車整體融合度極高,幾乎難以察覺到后期添加的痕跡。

不過,記者也留意到,圖片中車牌上的文字變得模糊難辨,除此之外,該圖片在其他方面的表現堪稱出色,很難找出明顯瑕疵。

任務2:上色、改色

在上一項的測試任務中,Gemini 2.0 Flash展現出的一致性表現著實令人驚艷。那么,面對線條復雜、圖片中還夾雜著對話的漫畫場景,Gemini 2.0 Flash能否延續其出色發揮?

記者隨后發送了一張黑白漫畫,并要求模型為該圖片上色,且色彩風格需契合漫威的風格。

待Gemini 2.0 Flash完成處理后,記者將前后圖片進行比對,發現模型精準錨定了指令需求,專注于為圖片上色,未對圖片其他元素做額外改動。漫畫中的原有文字,無論是字體樣式還是位置排版,均與處理前保持了高度一致。

圖片上色不成問題,那么改動某個物體的顏色,Gemini 2.0 Flash又表現如何呢?

記者隨即向Gemini 2.0 Flash發送了一張玫瑰的圖片,要求模型將玫瑰的顏色改成鮮紅色。

這次模型很快輸出了結果。回傳的圖片中,玫瑰呈鮮紅色,其色澤與質感高度貼近現實中紅玫瑰的視覺效果,無論是花瓣的紋理還是整體色調的過渡,均處理得極為自然,幾乎難以察覺AI的修改痕跡。

任務3:AI電商模特,一鍵換衣

隨著記者加大測試難度,向其發送了一套服裝的圖片,要求模型將這套服裝穿到一位男性模特身上,同時將圖片背景色設定為橙色。

Gemini 2.0 Flash同樣很好地完成了任務。圖片中,服裝完美適配男性模特身形,且背景色也被準確替換為橙色,整體效果自然流暢,毫無違和感。

不僅如此,當記者進一步要求AI模特展示不同動作時,Gemini 2.0 Flash同樣輕松應對,快速為AI模特更換了拍照動作,堪稱電商從業者的福音。

任務4:生成圖文菜譜

Gemini 2.0 Flash還具備一項技能——生成圖文并茂的菜譜。為測試其實際表現,記者以“番茄炒蛋”這道家常菜為例,要求模型生成一份包含詳細步驟的圖文菜譜。

可以看到,模型不僅完整且條理清晰地呈現出了“番茄炒蛋”的菜譜,從食材準備、烹飪步驟到火候掌控等信息一應俱全,還在菜譜相應位置精準插入了與之匹配的圖片。值得注意的是,這些圖片均由Gemini 2.0 Flash自行生成,而并非從互聯網上搜索獲取。

任務5:制作生日賀卡

在圖像生成領域,眾多模型在應對長段文本處理時,常陷入格式不佳、字符模糊難辨或錯別字頻出等問題。Gemini 2.0 Flash在這方面的表現如何呢?

記者向Gemini 2.0 Flash下達指令,要求其設計一張生日賀卡,并明確規定了賀卡上需呈現的文字祝福內容。

約十秒鐘后,Gemini 2.0 Flash便生成了一張設計精美的生日賀卡。仔細查看,賀卡上不僅完整涵蓋了記者所要求的全部文字,而且文字清晰易讀,格式也規范得體。

總體來看,Gemini 2.0 Flash原生圖像生成功能的表現可圈可點,雖有一些小瑕疵,但為圖像生成技術的應用拓展了邊界。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

Gemini 谷歌 原生圖像生成

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0

免费阿v网站在线观看,九九国产精品视频久久,久热香蕉在线精品视频播放,欧美中文字幕乱码视频
日韩国产麻豆中文 | 亚洲欧洲中文字幕第一区 | 亚洲欧美日韩一区二区三区在线 | 中文字幕乱偷顶级在线 | 在线观看亚洲欧美一区二区三区 | 在线观看国产高清a |