Coexistence of machine intelligence, cyber art, and diagnostics: is it possible?

Andrey V. Vlasov; Власов Андрей Васильевич; Andrey V. Vlasov

doi:10.17816/DD108982

机器智能、数字艺术和诊断的共存：有可能吗？

作者: Vlasov A.V.¹^,2
隶属关系:
1. Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
2. Izmerov Research Institute of Occupational Health
期: 卷 3, 编号 3 (2022)
页面: 324-330
栏目: 致编辑的一封信
##submission.dateSubmitted##: 28.06.2022
##submission.dateAccepted##: 25.07.2022
##submission.datePublished##: 17.10.2022
URL: https://jdigitaldiagnostics.com/DD/article/view/108982
DOI: https://doi.org/10.17816/DD108982
ID: 108982

如何引用文章

全文:

详细
全文:
作者简介
参考
补充文件
统计

详细

机器智能的发展和在其帮助下创建的生成图像的使用是通信设计和人机交互的一个有前途的方向。致编辑的信提出了作者对生成图像（图1）应用于人类状况诊断的设想。

使用机器智能作为交互式和智能诊断工具将允许心理学家和医生有效地补充其参与者受控交互的治疗过程。

现在已经有了带有文本生成图像算法的模型库和应用程序集，可供工程师和设计师在创建当代数字艺术对象的过程中使用，也可以用于研究使用视觉的新范式通信，其在实验诊断中的应用。

关键词

生成图像, 文本生成图像, 视觉感知, 诊断

全文:

形象的视觉感知

机器学习（machine learning, ML）广泛用于诊断目的，解决病理分类、搜索和可视化问题，其中包括从出版活动的角度来看研究最多的主题之一，是阿尔茨海默病的诊断 [1，2]。随着ML算法（特别是支持向量机）的应用和诊断工具的扩展，用于创建视觉内容的人工神经网络和生成模型——text2image——正在积极开发。Text2image模型指的是一种允许根据文本查询生成图像的算法。

在当代文化中，对视觉图像的感知，如艺术图像，与每个人对情感和认知过程，其感知和解释的个人特征直接相关。事实上，举例来说，我们对一个抽象事物的感知方式（图1）可以告诉我们很多关于我们自己的信息。M.F.Koich和F. Pessotto在其研究[3]中表明，图像情感感知的扭曲与个人性格特征有关。在作者的研究中，呈现某些图像时的喜悦感与社交性相关，而恐惧感与抵抗侵略和捍卫个人界限的能力相关。

图. 1

广播艺术内容的一项有前途的技术是虚拟现实技术，用户（患者）在其中创建自己的现实，一个在内心世界和外部现实之间的“过渡”，可以与心理学家或医生一起探索[4]。由于虚拟现实技术，研究人员有了具有独特功能的新工具。例如，F. Paladines-Jaramillo等人[5]采用罗森茨威格测试来诊断挫败感，为此，将带有各种情况图片的刺激材料转移到虚拟环境中。

包括通用人工智能在内的技术将能够逐渐地成为治疗过程中的一个自然的组成部分，将被整合。显然需要研究和开发专门的治疗应用和系统，以适应和大规模实施。

机器智能

机器智能的能力正在迅速扩大，与虚拟现实技术保持同步。在过去的一年中，我们在使用生成式对抗网络（generative adversarial network, GAN）和扩散模型(diffusion models, DM)，如DALL-E-2、Imagen、ruDALL-E、VQGAN，Stable Diffusion, Latent Diffusion, Disco Diffusion 等，创建生成数字艺术对象1、设计对象、逼真绘画、彩色图像方面取得了惊人的成果, 其工作原理是将输入文本转换为图像。

开发算法和输入文本查询的人与GAN（或DM）之间联合互动的后果已经是一种额外的创造性效果[6]。在这种情况下，text2image模型的计算结果是一个数字对象，一个2D图像。

一个有趣的事实是，类似GAN的模型用于分析神经影像数据（计算机断层扫描或磁共振成像2）[7, 8]。

机器智能完全掌握文本：在当前人工智能技术的发展水平上，预测文本下一个元素的能力对于理解其含义和创造新的有意义的文本非常重要。可以指出，创建视觉图像的算法也使用“下一个像素的预测”，但与文本模型（GTP-3等）及其生成的文本短语不同，在对话交互过程中，人与人之间的同步发生在神经和心理层面[9]，例如随着共享情感场的连接而增加[10]。这种神经同步的积极作用应用于通信实验[11，12]。

视觉感知和情感

开发人员不断努力改进神经网络的功能和成效性（应用程序DALL-E 2、ruDALL-E、Stable Diffusion、Midjorney等），它们的出现激发了科学家们通过生成艺术3来探索嵌入艺术对象中的视觉感知的意义[36，13]。这就提出了一个合乎逻辑的问题：对数字艺术对象的感知是否与观看者的个人特征有关。特别是，P.Achlioptas等人[14]对伴随着艺术作品的视觉感知的情感以及对自身情感的相关解释进行了研究。在这个实验中，视觉艺术作品被用作刺激材料，以唤起强烈的情绪反应。正如作者[14]所强调的，在人工智能系统的开发中，激情成分往往被低估。

让我们通过回答以下问题来进行一个小型实验：“你认为图2所示的两幅图像中哪一幅是由神经网络创造的？”

图2。使用神经网络创建的图像（a，b）。

答案很简单。这两个图像（图2）是使用人工智能创建的[15]。

由于text2image生成模型的发展，使用神经网络快速创建一系列专题独特的数字图像似乎是可行的。目前，几乎所有的研究人员都可以使用这种工具，生成新的上下文图像，并计划自己的实验设计。

使用视觉艺术作为组织研究的刺激物在生态上是有效的。一个人在反应中会有许多体验，包括情绪和自我反省。这种体验是高度个性化的，那些看着同一物体的人的反应有很大的不同。这些个体差异通过大脑不同子网络中的神经元活动模式得到证实[16]。

结论

在积极回答信中提出的问题（是否有可能将机器智能用于生成性图像和实验诊断中的应用）时，应该强调的是，在心理学和生成艺术的界面上的研究发展，即机器智能创造完全的艺术作品，促进了支持情感人机互动的智能系统的出现。反转来，这些系统将被内置到机器人中，作为社会伙伴，它们将帮助人类适应性地管理和调节自己的情绪，而作为医疗助手，它们将组织治疗活动。

这种方法不仅可以作为心理学家和医生办公桌上的互动和智能工具来实施，例如，用于对患者的情感过程进行实验诊断，而且可以作为一个更复杂的系统4，为实用医学目的提供可控的医生机器智能与患者的互动。

ADDITIONAL INFORMATION

Funding source. This article was not supported by any external sources of funding.

Competing interests. The author declare that he has no competing interests.

Author’s contribution. The author made a substantial contribution to the conception of the work, acquisition, analysis, interpretation of data for the work, drafting and revising the work, final approval of the version to be published and agree to be accountable for all aspects of the work.

¹ 例如DALL-E 2 OpenAI（存取方式：https://openai.com/dall-e-2）； ruDALL-E (Dally) Sber、SberDevices（存取方式：https://rudalle.ru）。

² 详细请见有关生成式对抗网络在医学图像分析中的作用的评论。

³生成艺术是指使用信息技术创作的艺术品，特别是GAN或DM[6，13]。

⁴ 医疗器械。

作者简介

Andrey V. Vlasov

Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies; Izmerov Research Institute of Occupational Health

编辑信件的主要联系方式.
Email: a.vlasov@npcmr.ru
ORCID iD: 0000-0001-9227-1892
SPIN 代码: 3378-8650
俄罗斯联邦, Moscow; Moscow

参考

Tanveer M, Richhariya B, Khan RU, et al. Machine learning techniques for the diagnosis of alzheimer’s disease: a review. ACM Transactions Multimedia Computing Communications Applications. 2020;16(1):35. doi: 10.1145/3344998
Sharma S, Mandal PK. A comprehensive report on machine learning-based early detection of alzheimer’s disease using multi-modal neuroimaging data. ACM Computing Surveys. 2023;55(2):1–44. doi: 10.1145/3492865
Koich MF, Pessotto F. Projective aspects on cognitive performance: distortions in emotional perception correlate with personality. Psicologia Reflexão Crítica. 2016;29(17):1–8. doi: 10.1186/s41155-016-0036-6
Adaskina AA. Therapeutic possibilities of digital artistic creativity. Modern Foreign Psychology. 2021;10(4):107–116. (In Russ). doi: 10.17759/jmfp.2021100410
Paladines-Jaramillo F, Egas-Reyes V, Ordonez-Camacho D, et al. Using virtual reality to detect, assess, and treat frustration. In: Morales R.G., Fonseca C., Salgado E.R., et al. (eds.) Information and communication technologies. TICEC 2020. Vol. 1307. Communications in Computer and Information Science. Springer, Cham, 2020. doi: 10.1007/978-3-030-62833-8_28
Cetinic E, She J. Understanding and creating art with ai: review and outlook. ACM Trans Multimedia Comput Commun Applications. 2022;18(2):1–22. doi: 10.1145/3475799
AlAmir M, AlGhamdi M. The Role of generative adversarial network in medical image analysis: an in-depth survey. ACM Computing Surveys. 2022. doi: 10.1145/3527849
Ali H, Biswas R, Ali F, et al. The role of generative adversarial networks in brain MRI: a scoping review. Insights Into Imaging. 2022;13(8):1–15. doi: 10.1186/s13244-022-01237-0
Lankinen K, Saari J, R Hari, et al. 2014. Intersubject consistency of cortical MEG signals during movie viewing. NeuroImage. 2014;92:217–224. doi: 10.1016/j.neuroimage.2014.02.004
Nummenmaa L, Glerean E, Viinikainen M, et al. Emotions promote social interaction by synchronizing brain activity across individuals. Proceedings Nat Academy Sci. 2012;109(24):9599–9604. doi: 10.1073/pnas.120609510
Tseng PH, Rajangam S, Lehew G, et al. Interbrain cortical synchronization encodes multiple aspects of social interactions in monkey pairs. Sci Rep. 2018;8(1):4699. doi: 10.1038/s41598-018-22679-x
Shanechi MM. Brain-machine interfaces from motor to mood. Nat Neurosci. 2019;22(10):1554–1564. doi: 10.1038/s41593-019-0488-y
Vlasov A. GALA Inspired by Neo Klimt: 2D images processing with implementation for interaction and perception studies (preprint). 2022. doi: 10.13140/RG.2.2.10806.57928
Achlioptas P, Ovsjanikov M, Haydarov K, et al. ArtEmis: affective language for visual art. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), October 6, 2021:11569–11579. doi: 10.48550/arXiv.2101.07396
Gala Klimt. Digital art collection of pictorial poems. Ridero. 2022. Available from: https://www.researchgate.net/project/GALA-KLIMT. Accessed: 15.08.2022.
Vessel EA, Starr GG, Rubin N. The brain on art: intense aesthetic experience activates the default mode network. Front Hum Neurosci. 2012;6:66. doi: 10.3389/fnhum.2012.00066

补充文件

附件文件

动作

1. JATS XML

下载

2. 图1

下载 (847KB)

索引源数据

3. 图2。使用神经网络创建的图像（a，b）。

下载 (792KB)

索引源数据

用户名
密码
记住我

忘记您的密码?	注册

用户名
密码
记住我

忘记您的密码?	注册