您的位置首页  科技生活  人工智能

《当代电影》 人工智能电影:一次未来考古学研究

《当代电影》 人工智能电影:一次未来考古学研究

  本文通过对人工智能电影的媒介考古谱系学梳理,并结合作为文化形式的人工智能电影实践,阐发了人工智能电影的理论渊源、技术路径及其作品特征。由此引涉出新技术叙事下,影像生产的人机关系变革及对电影本质属性的讨论,并试图重新回答“电影是什么”这样一个历久弥新的问题。

  在电气时代,作为胶片承载物,我们谈论电影,其福特主义的线性叙事模型,成为其生产方式的技术隐喻;在电子时代,作为电视荧屏模拟信号的对应物,我们谈论电影,其视觉奇观的市场现象学,创生了景观社会的精神分析符号规训;而在数字化的人工智能(AI)时代,作为非物质劳动的基础设施和生产力工具,算法在进一步解放人类影像艺术创造力的同时,也迫使我们面临着一种浮士德式的创作本体论抉择:在即将向“智人最后的发明 (1) 交出我们最引以为傲的创造权或者说人类灵魂同时,我们应当怎样去谈论电影?算法合成时代的自动化作品是否会熄灭传统精英电影作者的“光晕”?AI技术是助力电影艺术的“义脑”,还是算法下的又一次“电影之死”?“卢德谬论”(Luddite fallacy) (2) 在影视行业的生产复合效应究竟是在解放电影生产还是在扼杀其创造性?新技术挑战会倒逼出新生电影艺术流派,还是被算法统御下的短视频经济所吞噬?最具挑战性的问题是,在AI即将接管电影生产的今天以及未来,电影究竟是什么?

  当我们讨论人工智能电影(AI Movies)时,一般存在两种意涵,一种指的是以人工智能为题材的科幻电影,如斯皮尔伯格导演的《人工智能》( Artificial Intelligence : AI ,2001),或斯派克·琼斯导演的《她》( Her ,2013);另一种则专指生成影像(Generative Video),即基于人工智能算法生成的活动影像。在既有的学术文献中,以上两种意涵在使用上尚存一定的混淆。为了区别,前者应被称为“人工智能题材电影”,而后者才能命名为“人工智能电影”。同时,广义的生成影像也包括化学、生物、智能材料、手动随机化,数据映射等非AI算法途径制作的影像,并更倾向于“纯电影”式的抽象艺术实验,因而亦需要与狭义的AI电影相区分。因此,本文所尝试讨论的AI电影可暂定义为:由人工智能算法自动生成剧本或辅助完成视听工作流程的电影。其大体可分为两种形式:其一是人类仅提供训练模型和初始调参,由算法独立自行完成的影像作品,如OpenAI开发的GPT-3即兴创作系统;其二是以提升影像制作的生产力或创造力为目标,由人类作者以AI算法为工具而完成的影像作品,如谷歌(Google)的Deep Dream项目。这两种形式亦对应着艺术家和制片人这两条媒介考古谱系学路径。

  在视觉层面,人类很早就注意到了代数和几何间的算-图映射关系和自然界的算法生成图样。由数学规则生成图样的尝试几乎和文明本身一样古老,至少可上溯到4000年前苏美尔人的马赛克镶嵌粘土墙砖纹饰和古巴比伦的“普林顿322”(Plimpton 322)泥板。 (3) 古罗马、教和伊斯兰教的信众们均热衷于将基于解析运算的几何图形视作上帝与美的化身,如黄金分割(golden section)-斐波那契弧线(Fibonacci arc)的发现与阿罕布拉宫(Palace of the Alhambra)宫墙图案。实际上,算法(Algorithm)一词就源自阿拔斯王朝(Abbasid Dynasty)的一位花剌子模(Khwarezmia,今乌兹别克斯坦花剌子模州)数学家的名字。 (4) 该谱系近代则发展为埃舍尔(Maurits Cornelis Escher)的画作、元胞自动机(cellular automata)和类曼德勃罗集(Mandelbrot set)等系统。

  在听觉层面,三分损益律大约在春秋中期出现,毕达哥拉斯(Pythagoras)用弦琴首先解释了纯律,1584年明朝世子“乐圣”朱载堉发现十二平均律。此后,开普勒(Johannes Kepler)、伽利略(Galileo Galilei)、欧拉(Leonhard Euler)、傅立叶(Baron Jean Baptiste Joseph Fourier)、哈代(Godfrey Harold Hardy)等知名科学家和数学家都曾研究过音乐与数学间的联系。在文艺复兴和巴洛克时期,复调以倒影、加花或对位等完成其系统化发生过程;赋格则是精炼的逻辑符号编码秩序;而卡农本意即为规律,是一种回归算法。1757年,莫扎特(Wolfgang Amadeus Mozart)以掷骰子的随机算法创作了“音乐骰子游戏”(Musical DiceGame)。一言以蔽之:音乐即算法。也由于音律与数学规律的强联系,1796年,最早的自动化音乐机械:八音盒,由瑞士钟表匠安托万·法布尔-萨洛蒙(Antoine Favre-Salomon)发明。

  视听表达的自动化系统应用,滥觞于《列子·汤问》中所记载的偃师人偶。值得注意的是,偃师人偶对周穆王妃嫔的挑逗,恰好可以与最近奏鸣曲(Sonantic)公司受电影《她》所启发,训练AI模型发出挑逗和调情的合成声音实践 (5) 相对应。以今天的眼光看,我国不晚于商代发明的手工提花技术,可被认为是最早的计算机程序的图形信息存储系统。该系统在15世纪传到欧洲,并随着工业的发生,在1725年到1804年间,由法国里昂的一系列发明家通过不断发展打孔卡和钩针的信息存储形式,实现了自动化图形程序的编辑存储功能。其最终整合者雅卡尔(Joseph M. Jacquard)的主要目标之一,便是发展其复杂图案自动化程度。 (6) 19世纪90年代,类似的打孔纸卷自驱系统被应用于钢琴,视听的自动化装置完成了合流。

  受其影响,查尔斯·巴贝奇(Charles Babbage)的差分引擎(Difference Engine)和查尔斯·霍勒里斯(Charles Hollerith)的制表机都沿用了雅卡尔的打孔卡编程方法。到19世纪80年代,IBM公司的前身计算制表计时公司(CTR)靠贩卖霍勒里斯制表机赚了大钱,并在20世纪20年代研发出处理大型数据的电动打孔机和80列穿孔卡片,成为当时的“高容量数据存储卡”,并发展为行业标准。IBM公司最终于1944年发明自动序列控制计算机(Harvard Mark I)。其基于打孔纸带编程的计算机系统,一直沿用到20世纪80年代中期。而正如蒸汽热机完成了热能向机械能转换闭环,在1956年冷战初期的核阴霾中,一个年轻的佚名雇员利用97张霍勒里斯打孔卡,在抵御世界末日的SAGE防空系统的一台价值2.38亿美元的IBM军用计算机的阴极示波器屏幕上,创建出一个跳芭蕾舞的海报女郎, (7) 从而完成了自动图像生产的闭环寓言。两年后,计算机动画之父老约翰·惠特尼(John Hs Whitney, Sr.)以M-5型全自动防空火控系统“克里森”弹道预测仪(Kerrison Predictor)改装的机械模拟计算机摄影装置,在希区柯克的电影《眩晕》( Vertigo ,1958)中制作的片头, (8) 则标志着计算机活动影像正式成为电影。

  一般认为,哈罗德·科恩(Harold Cohen)是最早尝试使用AI工具的艺术家。他在20世纪60年代末即开始开发名为“艾伦”(AARON)的程序系统,并持续迭代到21世纪10年代。虽然艾伦无法独自学习新的意象或风格,每个新功能都须由科恩手动编码,但它依旧能像种子一样以自己的风格生产几乎无限的独特图像。2014年以来,生成对抗网络(GAN)被AI艺术家们广泛使用。通过生成网络G(Generator)和判别网络D(Discriminator)之间的不断演化博弈制作出原创性的活动画面。迭代至2021年1月由埃隆·马斯克的人工智能研究实验室OpenAI发布的GPT-3模型已可以“生类评估人员难以与人类撰写的文章区分开来的对线) 并且能够驾驭包括小说、剧本、代码乃至科研选题等几乎所有的文体和内容。同实验室的DALL-E-2程序,也能够结合概念、属性和风格的文本描述,创建逼真原创图像。而微软小冰也通过22个月的学习,吸收和学习了400年人类艺术历史中236位画家的画作,其作品参加了2019年中央美术学院研究生毕业联展,并从央美研究生院成功“毕业”。由于活动影像是静帧的叠加,对通用AI算法来说,文本、图片和影像所处理的训练集并无本质差异,因而一系列新算法工具的应用,使影像的生产方式从“机械复制”逐步走向“机械原创”。由此,马克思(Karl Heinrich Marx)在《经济学批判》中所预言的自动化非物质生产方式变革正悄然到来。

  由于编剧至今仍是影视生产工业化流程中最具手工业特征的环节,因而首当其冲受到影响。2014年,以Magisto为代表的“AI智能脚本编辑器”上线年,身为知名编剧的阿里影业副总裁徐远翔发表“电影不再需要专业编剧”的言论,立刻引发编剧行业的大规模。在好事者编造出阿里影业推出编剧机器人“阿里编编” (11) 的假新闻的同时,互联网资本为进军影视圈而提出的IP概念开始在行业内迅速发酵。真正的“阿里编编”海马轻帆,则打着“智能创作系统”的旗号于次年成立,并获阿里影业A轮融资,推出“小说转剧本”等“高效智能的故事创作评估平台功能”,并“涵盖影视剧本、小说IP、短视频脚本,从写作到评估为行业提供一站式内容服务”。 (12)

  人工智能的创作大多因行文离谱且令人迷惑而显示出娱乐性,如同样被拍成电影的《哈利·波特和看起来像一大坨灰烬的肖像》( Harry Potter and the Portrait of What Looked Like a Large Pile of Ash ,2018)。但在次年,美剧《权力的游戏》( Game of Thrones ,2011—2017)全面烂尾后,有人发布了GPT-2模型所重写的结局,网友普遍评论AI改写的新结局比实际播出的结局更好。2020年以来,在百度、知乎、抖音、淘宝等主流网媒站点均大规模普及了AI自动剪辑功能,可根据人工撰写的文本自动抓取图文和配乐素材并转为视频,大大降低了用户制作短视频的门槛,但也由此诞生了海量的“营销号视频”。2021年10月在平遥电影节上,知名艺术家徐冰协同香港科技大学人工智能研究中心冯雁教授,利用GPT-3模型和互动排列组合,首次制作并展示了完全没有人类参与剧本、拍摄和剪辑制作的“三无电影”,该形式可根据观众的选择,不断抓取视听片段,并形成时长永续“无限电影”。全新的观视挑战与媒材组织形式,再次把电影是什么的问题摆在所有电影创作和研究者的面前。

  2015年,安德烈·高德罗(André Gaudreault)和菲利普·马里昂(Philippe Marion)在其《电影终结?——在数字时代陷入危机的一个媒介》( The End of Cinema? : A Mediumin Crisis in the Digital Age )一书中,提出“数字是电影史上的第八次重大危机”。 (15) 形式层面,在平台资本主义所主导的短视频和游戏的随身活动影像生产-传播系统下,教堂朝圣式的神学观影结构不仅因疫情被严格限制,更是演变为一种自我幽闭的精神酷刑。在本体论层面,智能技术在提升生产力的同时,亦引发了电影作者的主体性危机。我们已然主动或面对了所谓的“后电影状态”(state of post-cinema)。这不只是一种文化现象,从供给端到消费端,各生产流程中人的退出,实际彻底改写了传统作品中“作者→作品→观众”的单向度意义生产关系,由此搅动原有的视听权力关系。回到创作实践领域,若AI电影不能满足人类需要,那自然仍有人类作者的市场;若AI电影能够满足人类需要,那又何必纠结其是否为人类所作?现实中被电影节精英化了的电影作者们对AI技术的和恐慌,恰恰反映出影视创作界在新技术面前的心虚。在天平的另一端,是曾无力迈过技术和意识形态门槛的普罗大众。他们甫一被AI应用解放了自我表达的视听生产能力,便在埋葬卢米埃尔(Lumi è re)式神学观视结构的同时,延拓出快手、抖音这样的平民视听创作乐园。

  需要注意的是,人工智能首先是一套数字仿生系统。其学习方式与人脑类似,且由于人脑极其糟糕的记忆鲁棒性(Robustness),可供其学习的样本集远超人类。尤其在自然语言处理(NLP)领域,AI算法实际上是在根据给定的训练集去计算某组数据在预期或给定位置所应出现的概率。大多数基于图神经网络(GNN)的迭代深度学习算法的仿生学架构及其图卷积网络(GCN)也都可以看作基于大型数据训练集的函数自编码器。虽然其基本原理类似于替换主谓宾的文字游戏,无非是信息的二次排列组合,但和之前的模型相比,GPT-3的参数量已高达1750亿,因而在复杂性原理的基础上的量变涌现出了新的性质。事实上,真实的物理世界中只存在量变,质变则仅源于我们的主观定义。千亿的数量级虽然离百万亿级的人脑神经触突量级相差甚远,但仍正开始涌现出某种智能的基本属性。例如在GPT-3所创作的剧本《律师》( Solicitors ,2021)中,AI已能够创意性地编写出两处反转,且该反转有效影响了人们对前文本中角色设定的理解。至于程序是否能真正理解其作品含意,反而显得不那么重要。因为我们所看到的影像(如作为社会精神消费产品的电影作品),亦可以被认为是一个巨大的行动者网络(Actor Network),即通过人类社会机器集体符号加工运转出来的副产品。

  实际上,人脑间的相互理解机制亦十分可疑。其神经心理学原理是通过意识的自注意力机制进行回归评估,并对外界刺激进行重建构,或者说“脑补”,以此让我们“觉得”我们理解了。在实际的社会交流中,我们能充分意识到这一过程充斥着难以证伪的误解与过度阐释的嫌疑。按照“中文屋论证”(the Chinese room argument), (16) 尽管我们可以看到任何映射物都能够无误地被反映出来,但屋中之人(AI)只是获得了“认知”的能力,却无法理解其“对象”。不过如果把人和字典(训练集)看作一个整体,那我们便可以有信心地认为,“中文屋”整体获得了理解能力。在算法实践中,类似人脑理解机制的图注意力网络(GAT)自评估机制,早已在对抗演化算法中被广泛采用。在此意义上讲,既然无法证伪,我们只能说讨论算法是否能够“理解”其作品是个伪命题。从机能主义的角度来说,我们也可以粗略地认为算法能够通过自评估机制“理解”它们的作品。

  另一方面,人脑的创造力也来源于其“脑补”机制。从信息论角度来说,根据克劳德·香农(Claude E. Shannon)对给定通信通道容量的分析,其可以表现出的“惊喜”(突变)越多,其包含的信息(熵)就越多。 (17) 相应的,人脑的运行机制是神经元触突在离子电位差的刺激下,不断建立其神经递质通道拓扑结构的电化学活动过程。正是神经触突通道发生的随机性、神经递质供给的不稳定性及神经电位信号的偏差-容错机制,使人脑的创新能力成为了可能。事实上,创造力是我们为“有益犯错”而发明的褒义表达。人工智能是否具备创造力,也源于其是否具备有效的“犯错”机制,即其神经卷积网络(CNN)的不确定性,需要由噪声干扰(noise interference)、半监督正则化器(FCMCRC)、马尔可夫随机场(Markov Random Fields),乃至量子非定域性真随机(quantum nonlocality true random)等机制不断介入和重编程,再由演化算法评估并摘选出有益突变。当然这样的过程与生物介质的人脑活动并不能完全等同,正如哲学家乔姆斯基(Avram N. Chomsky)著名的潜水艇隐喻:严格意义上,潜水艇并不会像鱼那样去游泳,但潜水艇仍旧会在水中“高速移动”,而至于这种水中移动是否是“游泳”,则并非问题的重点。因为纵使制造电影的AI确实只是一种处理和加工信号的机器,可人脑仍不过是另一种处理和加工信号的机器,所以从认知行为主义及其重构情境化的标准结果来看,人工智能也完全可以被称之为一种创造力机器。

  在《自私的基因》( The Selfish Gene )中,理查德·道金斯(Richard Dawkins)成功地将生命论证为基因(信息)的再生产机器。因此,人首先是人的再生产机器,其次则是意义与情感的再生产机器。艺术本质上便是意义与情感的再生产活动。诚然,单纯的影像符号的操作和运转,若未能传达其负载的意义与情感,则绝不能称之为电影作品。通过前文对AI电影的考察,我们可以发现,创作者并非意义与情感存在的必要条件:自然界的生态之美与鬼斧神工中即使没有人类作者的参与,人脑依旧能被其触发而产生相应的意义与情感体验。意义与情感的生产关系并非由作者与观众共同完成,而是由作品与观众共同完成。因此,即便影像的作者不是人类,但只要有人类观众在观看,其情感关系便能建构;相对而言,AI虽能模拟情感,但却无法体验情感,正如本文开头对《霸王别姬》台词的引证。假使作者与观众都是AI,其作品所传达的情感关系便会因信息空转而被阻断。因此,我们可以将AI电影视作某种自然发生物或环境反映物(类似哈哈镜)。无论其创作主体为何,乃至是否存在创作主体。只要观众产生了相应审美反馈,人脑意义机的知觉再生产过程即达完成。由此,我们终于可以回答本文开头所提出的“电影是什么”这一问题:屏幕类型和尺幅、观看形式、存储媒材均非电影成立的核心。且由于AI对电影的介入,作者也不再关键。电影成立的前提是观视关系,且观视关系的重点在于观众。由此,我们可以得出一个薛定谔式的结论:观看行为导致电影的成立。当且仅当有意识的观看行为发生之后,电影才成为电影。

  马克思指出:“社会人的生产器官的形成史,即每一个特殊社会组织的物质基础的形成史。” (18) 马克思此处的生产器官意指包括机器在内的各种生产工具。在数字社会中,人工智能便是新近演化的“社会人的生产器官”。在“生产器官”对“活劳动”的全面替代中,人不再以活劳动的形式存在,而成为数据生产资料的提供方。相应的,人类产生的各项数据则构成新时代的“生产资料”。在此情境下,如果说艺术是人类情感的再生产,人工智能则便是吞吐其情感数据的美学重构机。系统需要人类个体的监督认证和情感数据,因而人成为算法的参数与对象,情感的生产-消费关系也由此重构。

  值得讨论的是,科学和艺术从来不是的产物,基于算法和中位数统计的艺术大概率也只能是一种平庸的艺术。因此,在影视生产流程中,平台资本选择拥抱技术,而编剧们则选择“卢德主义”(Luddism)式的,这绝非巧合。在资本主义生产过程中,其复合效应可能在三方面影响AI时代电影的生产。

  首先,平台资本主义也顺利地通过“点击率”和“一键三连”等评估机制,名正言顺地将人类的情感需要量化为一种“可计算”的供需关系,因此人类的注意力时间成为可变现的生产资料。但因为国民总注意力时间是有限的,争夺国民的一般注意力时间便成为了一场血腥战争。虽然AI能提高影像的生产力,使人人都可以低成本地制作电影,但这也等同于放大了供给端。生产端极度内卷无法盈利,大量作品无人消费,其结果便是影像的生产过剩引发经济危机。

  其次,AI算法的对抗网络自评估机制会极力迎合观众,通过AI制造出大量的短视频刺激品乃至瘾品(如粉丝经济),由此劣币驱逐良币,使优秀作品失去生存空间。缺乏反思精神的观众将很快被算法统御下的短视频经济所吞噬而成为数字弃民,并跌入甜蜜的算法陷阱和信息茧房。在新技术叙事的自反馈机制下,人既是机器的数据来源,也是机器的处理对象。我们将有可能被我们自己变为看得见的“盲人”,抑或是为系统提供数据生产资料的的“电池”,即由主人变为工具。

  第三,是平台资本主义的地租权问题:平台资本主义为影像生产者制造了一个生产性幻觉,即影像生产者虽自以为在展示自我,实则是在为平台生产内容,创作者不断为平台上缴一般注意力时间(地租),最终则沦其牟利工具(佃户);平台资本则不断通过AI算法对影像生产者的内容和观众的一般注意力时间进行管理、筛选和重塑,并将一般注意力时间进行销售变现,且平台资本的垄断阶段是成为市场本身;观众的一般注意力时间成为可变现的生产资料,最终被剥削变现,成为平台资本的带货收益。由此形成齐泽克所谓的“新封建主义”剥削模型。

  正如阿尔托(Antonin Artaud)的观点:“刺进事物核心的镜头,创造出它自己的世界,也或许可以说,电影取代了人的眼睛,它替眼睛思考,替眼睛过滤这个世界。” (19) 在平台资本主义的垄断阶段,AI亦取代了人脑,替大脑思考,替大脑过滤这个世界。在信息爆炸的时代,注意力时间被剥削的结果是“元无知”(Meta-Ignorant),即我们不知道自己不知道。在迟卉的科幻小说《伪人算法》中,真人被AI伪人所保护和包围,同时被算法操纵和局限。由于真人和伪人数量相差极大,真人之间通常一生都不会相见,如楚门一般生活在伪人营造的虚假社会关系当中而不自知。这似乎构成对平台资本主义的一种隐喻:如果人是社会关系的总和,那被AI完全包裹的人是否还是人?苏珊·桑塔格的著名科幻小说《假人》也隐喻了这个过程:智能机器替代人类劳动之后,新智能机器又替代了旧智能机器的劳动,迭代到最后,是人的消隐。这篇晚期资本主义的递归式替身寓言,亦向我们提出这样一个问题:脱离了人类劳动过程,是否意味着“电影之死”?

  在历次对电影之死的讨论中,我们都看到电影本身在技术冲击下,不断对自身实践形态和定义进行妥协。乐观地讲,AI电影如同诸如录音、色彩等似乎会威胁原电影实践形态的技术一样,并不会改变电影的本质。既有的对抗网络算法一旦离开人类监督,其所产生的电影将很快因无法理解而不再被观看。失去电影的观众不再是观众,而失去观众的电影也不再是电影。其生产过程本身也将沦为一场无意义的熵增。根据马克思的观点,机械劳动(Maschinenarbeit)所替代的也并不是人,而是活劳动(Lebendige Arbeit)。这样人才能从不自由的生产关系中被解放出来,从而获得更自由的劳动机会。这即意味着即便AI电影的水平再高,也并不代表着人类电影之死,而只是将人类从不自由的创作状态中解脱出来。具有美学追求的电影团队和迷影团体则将进一步专业化、部落化和游击化,以新的技术工具倒逼出更多的电影可能性,并由此凝聚起新的力量,重构电影的生产关系,从而彻底解放影像生产力。正如本雅明所言:“就艺术品而言,作品的倾向性就存在于其技术的进步或之中;就艺术家而言,技术的进步也是其进步的基础” (20) 无论将AI电影看作一种生产工具,还是一种实验影像形式,我们都无须恐慌。AI早已潜移默化地融入到各种技术实践和文化实践之中,这恰恰为我们在数字时代反思“电影是什么”这个古老的问题提供了一个契机,也将在数字文化语境下,把对电影美学的探讨推向更新的未来。

  (1)[美]詹姆斯·巴拉特《我们最后的发明:人工智能与人类时代的终结》,闫佳译,北京:电子工业出版社2016年版,第1页。

  (2)发展经济学中的一个观点认为,以节约人力的技术提升生产力会减少市场对劳动力的需求,进而导致失业率增加,总消费量减少,从而遏制生产力的发展,形成佯谬。该概念借用了卢德运动的名称。

  (4)穆罕默德·本·穆萨·阿尔·花剌子模(Abu Abdulloh Muhammad ibn Musoal-Khwarizmi,约780年—约850年),数学家、天文学家及地理学家,代数之父,拉丁名为阿尔戈利兹姆(Algorismus)。

  (16)美国哲学家约翰·希尔勒(John Searle)于1980年提出的一个思想实验。该实验要求你想象一位只懂英语的人身处一个房间中。该房间除了一个小窗口以外,是完全封闭的。屋内有完善的英汉字典和足够的纸笔。当房间外写着中文的纸片由小窗口送入,该人便使用字典与纸笔以中文回复这些文字。因而虽然此人完全不懂中文,也可以让任何房间之外的人以为他掌握了中文。

  (18)[德]卡尔·马克思《马克思恩格斯全集》第23卷,中央马克思恩格斯列宁斯大林著作编译局编译,北京:人民出版社1972年版,第409—410页。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
  • 标签:人工智能电影剧照
  • 编辑:刘卓
  • 相关文章
TAGS标签更多>>