Current Issue: <FITEE>

Frontiers of Information Technology & Electronic Engineering (former title: Journal of Zhejiang University SCIENCE C (Computers & Electronics), 2010-2014)

ISSN 2095-9184 (print); ISSN 2095-9230 (online); CN 33-1389/TP; Monthly.


FITEE is an international peer-reviewed journal indexed by SCI-E, Ei Compendex, DBLP, IC, Scopus, JST, CSA, etc. It covers research in Electrical and Electronic Engineering, including Computer Science, Information Sciences, Control, Automation, Telecommunications, and related disciplines.

Impact factor: 0.308 (2011), 0.297 (2012), 0.380 (2013), 0.415 (2014), 0.392 (2015), 0.622 (2016), 0.910 (2017), 1.033 (2018), 1.604 (2019), 2.161 (2020), 2.526 (2021).

 


Frontiers of Information Technology & Electronic Engineering

ISSN 2095-9184 (print), ISSN 2095-9230 (online), monthly

   Cover:  <102>
      
Contents:  <57>

<<<                         CONTENTS                         >>>

Special Issue on Recent Advances in Artificial Intelligence Generated Content (AIGC) (Editor-in-Chief: Junping ZHANG;Editor-in-Chief Assistants:Lingyun SUN,Cong JIN; Guest Editors:Junbin GAO,Xiaobing LI,Jiebo LUO,Zhigeng PAN,Ying TANG,Jingdong WANG)

Editorial:
Recent advances in artificial intelligence generated content

Junping ZHANG, Lingyun SUN, Cong JIN, Junbin GAO, Xiaobing LI, Jiebo LUO, Zhigeng PAN, Ying TANG, Jingdong WANG

DOI: 10.1631/FITEE.2410000 Downloaded: 205 Clicked: 221 Cited: 0 Commented: 0(p.1-5) <Full Text>

Chinese summary   <2>  人工(gōng)智能生(shēng)成内容最新進展

張軍平1,孫淩雲2,靳聰3,高俊斌4,李小(xiǎo)兵5,羅傑波6,潘志(zhì)庚7,唐瑛8,王井東9
1複旦大(dà)學計算機科學技術學院,中(zhōng)國上海市,200433
2浙江大(dà)學國際設計研究院,中(zhōng)國杭州市,310058
3中(zhōng)國傳媒大(dà)學信息與通信工(gōng)程學院,中(zhōng)國北(běi)京市,100024
4悉尼大(dà)學商(shāng)學院,澳大(dà)利亞新南(nán)威爾士州,2006
5中(zhōng)央音樂學院音樂人工(gōng)智能與音樂信息科技系,中(zhōng)國北(běi)京市,100032
6羅切斯特大(dà)學計算機科學系,美國紐約州,14627
7南(nán)京信息工(gōng)程大(dà)學人工(gōng)智能學院,中(zhōng)國南(nán)京市,210044
8羅文大(dà)學電氣與計算機工(gōng)程系,美國新澤西州格拉斯伯勒,08028
9百度,中(zhōng)國北(běi)京市,100085
概要:人工(gōng)智能生(shēng)成内容(AIGC)是近年來人工(gōng)智能(AI)領域一(yī)個研究熱點,它有望取代人類以較低成本高效率執行内容生(shēng)成工(gōng)作,如音樂、繪畫、多模态内容生(shēng)成、新聞文章、總結報告、股評摘要,以至元宇宙中(zhōng)的内容生(shēng)成和數字人。AIGC爲未來AI發展和實現提供了一(yī)條新的技術路徑。
在此背景下(xià),《信息與電子工(gōng)程前沿(英文)》期刊組織了一(yī)期關于AIGC最新進展的特刊。本期特刊關注AIGC理論、算法、應用及相關領域。通過吸引高質量論文,我(wǒ)們希望幫助學術界和工(gōng)業界研究人員(yuán)更深入了解AIGC背後的基本理論及其潛在應用,激勵更多研究人員(yuán)加入并推進AIGC領域的研究。因此,我(wǒ)們就以下(xià)主題(但不限于)征集論文:(1)AI生(shēng)成音樂;(2)AI生(shēng)成繪畫;(3)AI對話(huà)模型;(4)AI新聞摘要;(5)AI與元宇宙;(6)AI與數字人;(7)AI圖像編輯;(8)AI生(shēng)成短視頻(pín);(9)AI生(shēng)成多媒體(tǐ)内容;(10)ChatGPT相關工(gōng)作。經嚴格評審,選出12篇論文,包括1篇評論、1篇觀點、3篇綜述、6篇研究和1篇通訊。我(wǒ)們将其劃分(fēn)爲3個主要部分(fēn):ChatGPT、擴散模型、提示學習和多模态。
總體(tǐ)而言,本期特刊涵蓋了與AIGC開(kāi)發和應用相關的廣泛研究主題,包括人工(gōng)智能圖像/文本生(shēng)成、三維内容創建、以用戶爲中(zhōng)心的圖形設計、特定風格的音樂生(shēng)成,以及與因果表征學習、高階擴散模型相關的工(gōng)作。此外(wài),還詳細調研了概率擴散模型、提示學習和ChatGPT。
最後,感謝所有作者對本期特刊的支持,特别感謝所有評審人對專刊投稿富有見地的意見和有益建議。

Special Issue on Recent Advances in Artificial Intelligence Generated Content (AIGC)

Comment: ChatGPT: potential, prospects, and limitations

Jie ZHOU, Pei KE, Xipeng QIU, Minlie HUANG, Junping ZHANG

DOI: 10.1631/FITEE.2300089 Downloaded: 189 Clicked: 226 Cited: 0 Commented: 0(p.6-11) <Full Text>

Perspective: Parallel intelligent education with ChatGPT

Jiacun WANG, Ying TANG, Ryan HARE, Fei-Yue WANG

DOI: 10.1631/FITEE.2300166 Downloaded: 98 Clicked: 230 Cited: 0 Commented: 0(p.12-18) <Full Text>

Review Article: Diffusion models for time-series applications: a survey

Lequan LIN, Zhengkun LI, Ruikun LI, Xuliang LI, Junbin GAO

DOI: 10.1631/FITEE.2300310 Downloaded: 580 Clicked: 411 Cited: 0 Commented: 0(p.19-41) <Full Text>   <PPT>  122

Chinese summary   <2>  擴散模型在時間序列的應用綜述

林樂荃1,李正坤2,李瑞昆1,李旭亮1,高俊斌1
1悉尼大(dà)學商(shāng)學院,澳大(dà)利亞新南(nán)威爾士州,坎伯當,2006
2中(zhōng)泰證券股份有限公司博士後科研工(gōng)作站,中(zhōng)國濟南(nán)市,250000
摘要:擴散模型,一(yī)類基于深度學習的生(shēng)成模型家族,在前沿機器學習研究中(zhōng)變得日益重要。擴散模型以在生(shēng)成與觀察數據相似樣本方面的卓越性能而著稱,如今廣泛用于圖像、視頻(pín)和文本合成。近年來,擴散的概念已擴展到時間序列應用領域,湧現出許多強大(dà)的模型。鑒于這些模型缺乏系統性總結和讨論,我(wǒ)們提供此綜述作爲此領域新研究人員(yuán)的基礎資(zī)源,并爲激發未來研究提供靈感。爲更好理解,引入了有關擴散模型基礎知(zhī)識的介紹。除此之外(wài),主要關注基于擴散的時間序列預測、插補和生(shēng)成方法,并将它們分(fēn)别在三個獨立章節中(zhōng)呈現。還比較了同一(yī)應用的不同方法,并強調它們之間的關聯(若适用)。最後,總結了擴散方法的共同局限性,并突出強調潛在的未來研究方向。

關鍵詞組:擴散模型,時間序列預測,時間序列插補,去(qù)噪擴散概率模型,基于斯坦方法的生(shēng)成模型,随機微分(fēn)方程

Review Article: Prompt learning in computer vision: a survey

Yiming LEI, Jingqi LI, Zilong LI, Yuan CAO, Hongming SHAN

DOI: 10.1631/FITEE.2300389 Downloaded: 929 Clicked: 651 Cited: 0 Commented: 0(p.42-63) <Full Text>   <PPT>  89

Chinese summary   <2>  計算機視覺中(zhōng)的提示學習:綜述

雷一(yī)鳴1,李婧琦1,李子龍1,曹原1,單洪明2,3,4
1上海市智能信息處理重點實驗室,計算機科學技術學院,複旦大(dà)學,中(zhōng)國上海市,200438
2類腦智能科學與技術研究院,複旦大(dà)學,中(zhōng)國上海市,200433
3腦科學前沿科學中(zhōng)心,複旦大(dà)學,中(zhōng)國上海市,200433
4上海腦科學與類腦研究中(zhōng)心,中(zhōng)國上海市,201210
摘要:自大(dà)型預訓練視覺-語言模型(VLM)爆發以來,提示學習已在計算機視覺領域引發廣泛關注。基于VLM構建的視覺和語言信息之間的密切關系,提示學習成爲許多重要應用領域(如人工(gōng)智能内容生(shēng)成(AIGC))中(zhōng)的關鍵技術。本綜述循序漸進且全面地總結了與AIGC相關的視覺提示學習。首先介紹了VLM,它是視覺提示學習的基礎。然後,回顧了視覺提示學習方法和提示引導生(shēng)成模型,并讨論了如何提高将AIGC模型适用于下(xià)遊特定任務的效率。最後,提供了一(yī)些有前景的關于提示學習的研究方向。

關鍵詞組:提示學習;視覺提示微調;圖像生(shēng)成;圖像分(fēn)類;人工(gōng)智能内容生(shēng)成(AIGC)

Review Article: Advances and challenges in artificial intelligence text generation

Bing LI, Peng YANG, Yuankang SUN, Zhongjian HU, Meng YI

DOI: 10.1631/FITEE.2300410 Downloaded: 437 Clicked: 495 Cited: 0 Commented: 0(p.64-83) <Full Text>   <PPT>  87

Chinese summary   <2>  人工(gōng)智能文本生(shēng)成的進展與挑戰

李冰1,2,楊鵬1,2,孫元康1,2,胡中(zhōng)堅1,2,易夢1,2
1東南(nán)大(dà)學計算機科學與工(gōng)程學院,中(zhōng)國南(nán)京市,210000
2東南(nán)大(dà)學計算機網絡和信息集成教育部重點實驗室,中(zhōng)國南(nán)京市,210000
摘要:文本生(shēng)成是人工(gōng)智能和自然語言處理的重要研究領域,爲人工(gōng)智能生(shēng)成内容的快速發展提供了關鍵技術支撐。該任務基于自然語言處理、機器學習和深度學習等技術,通過訓練模型學習語言規則,自動生(shēng)成符合語法和語義要求的文本。本文對文本生(shēng)成的主要研究進展進行梳理和系統性總結,對近幾年文本生(shēng)成相關文獻進行綜合調研,并詳細介紹相關技術模型。此外(wài),針對典型文本生(shēng)成應用系統進行介紹。最後,對人工(gōng)智能文本生(shēng)成的挑戰和未來研究方向進行分(fēn)析和展望。得出以下(xià)結論,提高生(shēng)成文本的質量、數量、交互性和适應性有助于從根本上推動人工(gōng)智能文本生(shēng)成的發展。

關鍵詞組:人工(gōng)智能文本生(shēng)成;自然語言處理;機器學習;深度學習

Six-Writings multimodal processing with pictophonetic coding to enhance Chinese language models

Li WEIGANG, Mayara Chew MARINHO, Denise Leyi LI, Vitor Vasconcelos DE OLIVEIRA

DOI: 10.1631/FITEE.2300384 Downloaded: 433 Clicked: 378 Cited: 0 Commented: 0(p.84-105) <Full Text>   <PPT>  76

Chinese summary   <2>  "六書(shū)"多模态處理的形聲表征以完善漢語語言模型

LiWEIGANG(李偉鋼)1,Mayara C.MARINHO1,Denise L. LI2,Vitor V.DE OLIVEIRA11巴西利亞大(dà)學計算機科學系(CIC/UnB),巴西巴西利亞市,70910-900
2聖保羅大(dà)學經濟管理會計審計學院(FEA/USP),巴西聖保羅市,05508-010
摘要:大(dà)型語言模型(LLMs)在自然語言處理中(zhōng)已取得顯著成就,但在某些場景下(xià),仍然面臨解決中(zhōng)文語言處理複雜(zá)性的挑戰。本文提出"六書(shū)"多模态處理(SWMP)框架,旨在考慮漢語形、聲、音、像、意、會特性,便于中(zhōng)文語言多模态處理。在SWMP統一(yī)的理論框架下(xià),提出"六書(shū)"形聲編碼(SWPC,簡稱"六書(shū)編碼")方法,使得對漢字的表達既能與語法有機結合,又(yòu)反映漢語靈活應用的特點。文中(zhōng)設計的實驗場景包括:(1)實驗性建立漢字字根、偏旁(形部)和部件(聲部)的圖像和"六書(shū)"編碼(SWPC)的數據庫,實現漢語文字和圖形的雙模态處理;(2)表征若幹漢詞生(shēng)成機制,建立提示性問/答模式,進行類比推理。使用SWPC處理中(zhōng)文形态關系數據集(CA8-Mor-10177)的所有問題,精度可達100%。(3)建立"六書(shū)"形聲編碼對詞嵌入生(shēng)成結果微調機制。對中(zhōng)文單詞相似度數據集(COS960)中(zhōng)39.37%的問題,相似度計算與人工(gōng)基礎評估結果的平均相對誤差低于25%。這些優于目前同類基準精度的結果表明,"六書(shū)編碼"嘗試體(tǐ)現漢語細膩的局部表征和整體(tǐ)關聯等特點,可作爲對現行漢語語言處理理論和技術的有效補充。

關鍵詞組:漢語語言模型;中(zhōng)文自然語言處理;生(shēng)成式語言模型;多模态處理;六書(shū)

Style-conditioned music generation with Transformer-GANs

Weining WANG, Jiahui LI, Yifan LI, Xiaofen XING

DOI: 10.1631/FITEE.2300359 Downloaded: 200 Clicked: 337 Cited: 0 Commented: 0(p.106-120) <Full Text>   <PPT>  94

Chinese summary   <2>  基于Transformer-GANs生(shēng)成有風格調節的音樂

王偉凝,李嘉輝,李意繁,邢曉芬
華南(nán)理工(gōng)大(dà)學電子與信息學院,中(zhōng)國廣州市,510600
摘要:近年來,研究人員(yuán)開(kāi)發了各種算法來生(shēng)成動聽(tīng)的音樂。然而,在生(shēng)成過程中(zhōng)有時忽略了風格控制。音樂風格是指音樂作品呈現的具有代表性的特征,是音樂最突出的特質之一(yī)。本文提出一(yī)種創新的音樂生(shēng)成算法,該算法能夠根據指定的風格從零開(kāi)始創作完整的音樂作品。算法引入了風格約束的線性生(shēng)成器和風格鑒别器。風格約束生(shēng)成器模拟MIDI事件序列,強調風格信息的作用。風格鑒别器應用對抗學習機制并引入兩種創新的損失函數,以加強對音樂序列的建模。此外(wài),本文首次建立了一(yī)個判别指标,以評估生(shēng)成音樂與訓練數據在音樂風格上的一(yī)緻性。在現有公共數據集上,實驗結果的客觀和主觀評價都表明我(wǒ)們的算法在音樂制作方面優于現有先進方法。

關鍵詞組:音樂生(shēng)成;風格調節;Transformer;音樂情感;

Enhancing low-resource cross-lingual summarization from noisy data with fine-grained reinforcement learning

Yuxin HUANG, Huailing GU, Zhengtao YU, Yumeng GAO, Tong PAN, Jialong XU

DOI: 10.1631/FITEE.2300296 Downloaded: 126 Clicked: 286 Cited: 0 Commented: 0(p.121-134) <Full Text>   <PPT>  80

Chinese summary   <2>  基于細粒度強化學習增強噪聲數據的低資(zī)源跨語言摘要

黃于欣1,2,顧懷領1,2,餘正濤1,2,高玉夢1,2,潘通1,2,徐佳龍1,2
1昆明理工(gōng)大(dà)學信息工(gōng)程與自動化學院,中(zhōng)國昆明市,650504
2昆明理工(gōng)大(dà)學雲南(nán)省人工(gōng)智能重點實驗室,中(zhōng)國昆明市,650504
摘要:跨語言摘要是從源語言文檔生(shēng)成目标語言摘要的任務。最近,端到端跨語言摘要模型通過使用大(dà)規模、高質量數據集取得令人矚目的結果,這些數據集通常是通過将單語摘要語料庫翻譯成跨語言摘要語料庫而構建的。然而,由于低資(zī)源語言翻譯模型性能有限,翻譯噪聲會嚴重降低模型性能。提出一(yī)種細粒度強化學習方法解決基于噪聲數據的低資(zī)源跨語言摘要問題。引入源語言摘要作爲黃金信号,減輕翻譯後噪聲目标摘要的影響。具體(tǐ)來說,通過計算源語言摘要和生(shēng)成目标語言摘要之間的詞相關性和詞缺失度設計強化獎勵,并将其與交叉熵損失相結合優化跨語言摘要模型。爲驗證所提出模型性能,構建漢語-越南(nán)語和越南(nán)語-漢語跨語言摘要數據集。實驗結果表明,所提出模型在ROUGE分(fēn)數和BERTScore方面優于其他基線。

關鍵詞組:跨語言摘要;低資(zī)源語言;噪聲數據;細粒度強化學習;詞相關性;詞缺失度https://doi.org/10.1631/FITEE.2300296

Controllable image generation based on causal representation learning

Shanshan HUANG, Yuanhao WANG, Zhili GONG, Jun LIAO, Shu WANG, Li LIU

DOI: 10.1631/FITEE.2300303 Downloaded: 344 Clicked: 407 Cited: 0 Commented: 0(p.135-148) <Full Text>   <PPT>  68

Chinese summary   <2>  基于因果表征學習的可控圖像生(shēng)成

黃珊珊1,王元浩1,龔志(zhì)黎1,廖軍1,王姝2,劉禮1
1重慶大(dà)學大(dà)數據與軟件學院,中(zhōng)國重慶市,401331
2西南(nán)大(dà)學材料與能源學院,中(zhōng)國重慶市,400715
摘要:人工(gōng)智能生(shēng)成内容(AIGC)已成爲制作各種形式的大(dà)規模内容不可或缺的工(gōng)具,特别是在圖像生(shēng)成和編輯中(zhōng)發揮重要作用。然而,圖像生(shēng)成和編輯的可解釋性和可控性仍然是一(yī)個挑戰。現有人工(gōng)智能方法由于忽略圖像内部的因果關系,往往難以生(shēng)成既靈活又(yòu)可控的圖像。爲解決這個問題,本文開(kāi)發了一(yī)種新穎的因果可控圖像生(shēng)成方法,它将因果表征學習與雙向生(shēng)成對抗網絡相結合。本文方法的關鍵在于使用因果結構學習模塊學習圖像屬性之間的因果關系,并與圖像生(shēng)成模塊中(zhōng)的編碼器、生(shēng)成器和聯合鑒别器進行聯合優化。基于這種方法,不僅可以學習圖像潛在空間中(zhōng)的因果表征,進而實現因果可控的圖像編輯,還可以利用因果幹預操作生(shēng)成反事實圖像。最後,在真實世界的數據集CelebA上進行大(dà)量實驗。實驗結果證明所提方法的合理性和有效性。

關鍵詞組:圖像生(shēng)成;可控圖像編輯;因果結構學習;因果表征學習

Deep3DSketch-im: rapid high-fidelity AI 3D model generation by single freehand sketches

Tianrun CHEN, Runlong CAO, Zejian LI, Ying ZANG, Lingyun SUN

DOI: 10.1631/FITEE.2300314 Downloaded: 177 Clicked: 401 Cited: 0 Commented: 0(p.149-159) <Full Text>   <PPT>  92

Chinese summary   <2>  Deep3DSketch-im:基于人工(gōng)智能從單個手繪草圖快速生(shēng)成高保真三維模型

陳天潤1,曹潤龍3,李澤健2,臧影3,孫淩雲1
1浙江大(dà)學計算機科學與技術學院,中(zhōng)國杭州市,310027
2浙江大(dà)學軟件學院,中(zhōng)國杭州市,310027
3湖州師範學院信息工(gōng)程學院,中(zhōng)國湖州市,313000
摘要:人工(gōng)智能生(shēng)成内容(AIGC)在語言和圖像領域的崛起值得注意,但由于其複雜(zá)性和缺乏訓練數據,基于人工(gōng)智能生(shēng)成三維模型仍未被充分(fēn)探索。通過計算機輔助設計(CAD)創建三維内容的傳統方法需大(dà)量人力和專業知(zhī)識,這對于新手用戶來說具有挑戰性。爲解決此問題,提出一(yī)種基于草圖的三維建模方法,名爲Deep3DSketch-im,它利用單個手繪草圖進行建模。由于草圖的稀疏性和模棱兩可性,這是一(yī)項具有挑戰性的任務。Deep3DSketch-im使用一(yī)種稱作"有符号距離(lí)場(SDF)"的新型數據表示,通過将隐式連續場整合至從草圖到三維模型的過程,以及一(yī)個特别設計的可以捕捉點和局部特征的神經網絡,改進從草圖到三維模型的過程。進行了大(dà)量實驗證明該方法的有效性,在合成數據集和真實數據集上均取得更優的性能。此外(wài),用戶研究報告顯示,用戶對Deep3DSketch-im生(shēng)成的結果更加滿意。我(wǒ)們相信,Deep3DSketch-im有潛力通過爲新手用戶提供直觀易用的解決方案來徹底改變三維建模的過程。

關鍵詞組:内容創作;草圖;三維建模;三維重建;從X到形狀;人工(gōng)智能

TendiffPure: a convolutional tensor-train denoising diffusion model for purification

Mingyuan BAI, Derun ZHOU, Qibin ZHAO

DOI: 10.1631/FITEE.2300392 Downloaded: 168 Clicked: 293 Cited: 0 Commented: 0(p.160-169) <Full Text>   <PPT>  80

Chinese summary   <3>  TendiffPure:一(yī)種用于純化的卷積張量鏈去(qù)噪擴散模型

白(bái)名瑗1,周德潤1,2,趙啓斌1
1理化學研究所革新知(zhī)能統合研究項目組,日本東京市,1030027
2東京工(gōng)業大(dà)學環境社會理工(gōng)學院,日本東京市,1528550
摘要:擴散模型是有效的純化方法,在現有分(fēn)類器執行分(fēn)類任務之前,使用生(shēng)成方法去(qù)除噪聲或對抗性攻擊。然而,擴散模型的效率仍然是一(yī)個問題,現有的解決方案基于知(zhī)識蒸餾,由于生(shēng)成步驟較少,可能會危及生(shēng)成質量。因此,我(wǒ)們提出TendiffPure,一(yī)種用于純化的張量化和壓縮的擴散模型。與知(zhī)識蒸餾方法不同,我(wǒ)們直接使用張量鏈分(fēn)解壓縮擴散模型的U-Net骨幹網絡,減少參數數量,并在多維數據(如圖像)中(zhōng)捕獲更多的空間信息。空間複雜(zá)度從O(N2)減少到O(NR2),其中(zhōng)R≤4爲張量序列秩,N爲通道數。實驗結果表明,基于CIFAR-10、Fashion-MNIST和MNIST數據集,TendiffPure可以更有效地生(shēng)成高質量的淨化結果,并在兩種噪聲和一(yī)次對抗性攻擊下(xià)優于基線純化方法。

關鍵詞組:擴散模型;張量分(fēn)解;圖像去(qù)噪

Correspondence: Multistage guidance on the diffusion model inspired by human artists’ creative thinking

Wang QI, Huanghuang DENG, Taihao LI

DOI: 10.1631/FITEE.2300313 Downloaded: 195 Clicked: 303 Cited: 0 Commented: 0(p.170-178) <Full Text>   <PPT>  107

Chinese summary   <2>  受藝術家創造性思維啓發的擴散模型多階段引導

齊旺1,鄧晃煌2,李太豪1
1之江實驗室跨媒體(tǐ)智能研究中(zhōng)心,中(zhōng)國杭州市,311500
2浙江大(dà)學計算機科學與技術學院,中(zhōng)國杭州市,310027
摘要:目前文本生(shēng)成圖像的研究已顯示出與普通畫家類似的水平,但與藝術家繪畫水平相比仍有很大(dà)改進空間;藝術家水平的繪畫通常将多個意象的特征融合到一(yī)個意象中(zhōng),以表示多層次語義信息。在預實驗中(zhōng),我(wǒ)們證實了這一(yī)點,并咨詢了3個具有不同藝術欣賞能力的群體(tǐ)的意見,以确定畫家和藝術家之間繪畫水平的區别。之後,利用這些觀點幫助人工(gōng)智能繪畫系統從普通畫家水平的圖像生(shēng)成改進爲藝術家水平的圖像生(shēng)成。具體(tǐ)來說,提出一(yī)種無需任何進一(yī)步預訓練的、基于文本的多階段引導方法,幫助擴散模型在生(shēng)成的圖像中(zhōng)向多層次語義表示邁進。實驗中(zhōng)的機器和人工(gōng)評估都驗證了所提方法的有效性。此外(wài),與之前單階段引導方法不同,該方法能夠通過控制不同階段之間的指導步數來控制各個意象特征在繪畫中(zhōng)的表現程度。

關鍵詞組:文本生(shēng)成圖像;擴散模型;多層次語義;多階段引導

Journal of Zhejiang University-SCIENCE, 38 Zheda Road, Hangzhou 310027, China
Tel: +86-571-87952783; E-mail: cjzhang@zju.edu.cn
Copyright © 2000 - 2024 Journal of Zhejiang University-SCIENCE