从“人+RPA”到“人+生成式AI+RPA”，LLM如何影响RPA人机交互？

王吉伟 | 2023-06-01

▲ 图片由AI生成

文/王吉伟

如果问RPA对程序开发以及自动化有哪些贡献，其中一个答案便是它改变了人机交互(HCI，human-computer interaction)。

在传统工作流自动化工具中，软件开发人员不得不生成一个操作列表，使用内部应用程序编程接口(API)或专用脚本语言自动执行任务和与后端系统的接口。

RPA系统则通过观察用户在应用程序的图形用户界面(GUI)中执行该任务来开发操作列表，然后通过直接在GUI 中重复这些任务来执行自动化，并且能够给在多个应用程序之间处理数据。

这个看似简单并被称作“外挂”的形式，有效降低了产品中使用自动化的障碍，并进一步让更多组织的端到端自动化成为可能。

作为一种改变数字工作者工作形式的业务流程自动化技术，二十多年来它不仅将人力资源从简单重复的工作解放出来，还让程序开发变得更加简单。同时它还缔造了一种“人+RPA”的人机交互模式，让广大组织能够更简单地实现人机协同。

尤其是近些年足够成熟、有弹性、可扩展和可靠性强的RPA平台出现后，很多大型组织都可以RPA改善与优化其业务流程和开发模式，实现增效降本。

以上这些的实现，皆因RPA不断改善和优化业务流程自动化以及程序开发中的人机交互。

没错，得到众多技术加持的RPA在不断渗透到更多行业的同时，也在持续改变不同领域多种业务场景的人机交互。

尤其是近几年RPA的再次火爆，正是因为它深度融合了AI技术。以RPA为核心的超自动化技术合集更是囊括了所有与自动化相关的技术，让端到端自动化的人机交互体验持续增强，进而受到更多组织的青睐。

现在，AI大模型时代到来，不断进化的RPA同样也在融合生成式AI技术。当前融合LLM(Large Language Model，大型语言模型)的RPA，可以说在人机交互上是一次巨大进步，甚至是一种对以往RPA模式的颠覆。

既然要聊LLM对RPA人机交互的影响，自然要从人机交互谈起。到底LLM对人机交互有什么影响？RPA是如何改善人机交互的？LLM又对RPA有什么影响？

本文，王吉伟频道就跟大家聊聊这些。

从人机交互谈起

上世纪70年代，大多数办公室的业务运行仍旧使用金属文件、打字机和大量纸张。而体积庞大的计算机，只能存放在只有少数人可以操作的冷藏室中。

为了解决这些问题，一些公司开始研发个人计算机。施乐公司于1973年开发了施乐Alto，虽然因为造价太高等问题该产品始终未能上市，但它却成了GUI的第一个草图，成为了Macintosh(麦金塔电脑)和Windows的灵感来源。

受到一系列研究和相应研发的影响，以及当时市场对于小型计算机的强烈需求，作为研究如何以及为什么使计算机对用户更加友好的一种手段，人机交互这个概念以及全新学科便出现于70年代末80年代初。

从那时起，HCI领域不断发展，主要用于剖析人类行为以解决社会最复杂的问题，研究人们如何与计算机交互以及用户能够在多大程度上与计算机交互，目标是在计算机和用户之间进行成功的交互，并探索哪些领域需要更多的相关开发。

由于能够解决当时社会生产力的尖锐矛盾，HCI的研究领域在很短时间内就扩展到所有IT领域。

同时研究人员意识到，他们必须将与计算机的交互扩展到每个人，而不仅仅是信息技术专业人员。因此在几年之内，HCI就快速扩展到几乎所有信息技术设计的变化。

在史蒂夫乔布斯等人的努力之下，苹果公司在1984年推出了Macintosh个人计算机，人机交互形式由此彻底改变了。它使得计算机的使用变得更加容易，使通信变得更加简单，键盘、鼠标和基于图标的用户界面开始流行。

后来，苹果公司成为个人PC先驱，微软推出了windows系统，这些产品和软件完全改变并颠覆了全球的业务流程与办公的人机交互形式。

这些大家都熟悉，这里就不用多介绍了。

直到今天，IoT已成为网络连接基础，人工智能也已无处不在，而人机交互仍旧是各种技术、产品及解决方案的重点。

通过前面的发展简史，相信大家应该已经对人机交互有一个大体认知。那么到底什么是人机交互呢？且看下一节。

人机交互的四要素、六目标和七原则

通用定义认为，人机交互技术(Human-Computer Interaction Techniques)是指通过计算机输入、输出设备，以有效的方式实现人与计算机对话的技术。

人机交互技术包括机器通过输出或显示设备给人提供大量有关信息及提示请示等，人通过输入设备给机器输入有关信息，回答问题及提示请示等。因此，人机交互技术是计算机用户界面设计中的重要内容之一。

在学术上，人机交互是一门与人类使用的交互式计算系统的设计，评估和实施有关的，以及研究围绕它们的主要现象的学科。

人机交互关注人(用户)与计算机之间接口(交互界面)，关注计算机技术的设计和使用。人机交互涵盖多门学科，包括计算机科学，心理学，社会学，图形设计，工业设计等，是一门综合性非常强的现代科学。

人与计算机之间的接口对于促进这种互动至关重要。桌面应用程序，互联网浏览器，掌上电脑等利用了当今流行的GUI。语音识别和合成系统利用了语音用户界面(VUI)。

新兴的多模态和图形用户界面，则允许人们以其他界面无法实现的方式与具体的角色和智能体交互。

所以，人机交互领域的发展导致了交互质量的提高，并导致了许多新的研究领域。不同的研究分支不是设计常规接口，而是专注于多模态而不是单模态的概念、智能自适应接口而不是基于命令/操作的接口以及主动接口而不是被动接口的概念。

从人机交互的名字中，我们可以推导出它由三部分组成，即用户，计算机本身以及它们协同工作的方式。

后来这三部分扩展为四个基本要素，也就是用户、任务、工具/界面和背景。

用户，即在项目上一起工作的个人或一组个人称为用户组件。HCI研究用户的需求，目标和交互方式。

任务，即以目标为导向的任务，使用计算机时，用户总是有一个目的或目标。为了实现这一点，计算机呈现事物的数字表示。

界面，也就是可以提高用户交互质量的基本HCI元素是界面。需要考虑许多与界面相关的因素，包括交互类型、屏幕分辨率、显示尺寸，甚至颜色对比度。

背景，HCI不仅涉及在用户和计算机之间提供更好的通信，还涉及考虑访问系统的上下文和环境。

同时HCI具备六个目标，分别是高效使用(效率)、安全使用(安全)、具有良好的效用(实用性)、易于学习(可学习性)以及易于记忆如何使用(可记忆性)。

在此基础上，也衍生出了HCI的7个设计原则，如下：

原则1：公平使用;

原则2：使用灵活;

原则3：简单直观地使用;

原则4：可感知的信息;

原则5：容错能力;

原则6：低体力劳动;

原则7：接近和使用的大小和空间。

在具体应用中，物联网、眼动追踪技术、语音识别技术、AR/VR的使用以及云计算等，都是非常典型的人机交互案例。

HCI发展史以及大量观点及案例证明，技术可以明显改善HCI。

伴随着通讯与信息技术的突破与发展，它们持续为HCI带来明显的影响与改善。比如这些年借助AI技术蓬勃发展的RPA，就为业务流程自动化以及办公业务场景带来了极大的人机交互带来体验改善。

人机交互与RPA

前文我们提到，人机交互的目标是使计算机能够更好地适应人的需求，提供更友好、更智能、更自然的交互方式，如语音识别、图像识别、自然语言处理、手势控制等。

RPA是一种利用软件机器人模拟人类操作的技术，它可以通过用户界面与企业的应用系统交互，并完成预期任务的技术。

当代RPA还融合了人工智能(AI)和机器学习(ML)相结合，实现智能流程自动化(IPA)，处理更复杂的用例，如自然语言处理(NLP)、计算机视觉(CV)和数据分析等。

RPA可以实现重复性、基于规则的工作流程的自动化，提高工作效率、准确性和合规性，降低人力成本，减少错误率，节省成本和时间，适用于各种重复性、标准化的业务场景，如财务、人力资源、供应链、信息技术等。

王吉伟频道曾在《数字化转型时代，RPA+AI是打开人机协同的最佳方式》一文中讲过，在当代企业管理软件系统以及各种自动化工具中，从操作难度、部署周期、投资成本等角度而言，RPA可以算是广大组织应用人机协同最好的方式。

在这其中，RPA最大的优势就是降低了程序开发难度，可以让一线的业务人员参与到简单应用的开发之中，让全民开发成为进一步成为现实。

RPA之所以能做到这一点，在于它改变了程序开发的人机交互模式。使得不会编程的普通员工借助RPA工具，也能像程序员一样开发他们需要的自动化程序或者说软件机器人。

一方面RPA让开发程序变得更加简单，从写代码变成了“拖拉拽”各种功能组件;另一方面可以让更多的业务流程实现自动化，不再需要人力去重复执行。可以说，RPA同时改变了程序开发和业务执行的人机交互。

所以，RPA与人机交互有着密切的联系。因为RPA本质上是一种人机协同的工作模式，它需要人来定义规则、监督执行、优化改进，机器则负责执行规则、提供反馈、学习改进。

RPA不仅可以模拟人类的操作，还可以结合AI技术，实现对人类的理解和决策。比如利用OCR(光学字符识别)技术识别图像中的文字，利用NLP技术理解语言中的意图，利用智能决策技术制定最优方案等。

融合AI等技术的RPA，具备以下几个优势：

1、有效减轻工作负担，让人们从繁琐的后台任务中解放出来，专注于更有价值的创新和战略性的工作;

2、提高人机交互的速度和质量，软件机器人可以全天候地工作，不受时间、地点和情绪的影响，也不会犯错或遗漏;

3、拓展人机交互的范围和深度，软件机器人可以访问和整合多个不相关的软件系统，处理大量结构化和非结构化数据，并利用AI和ML的能力进行学习和优化。

由此，RPA是一种有效且典型的优化人机交互的技术。它可以实现流程自动化、智能化和优化，为企业带来效率、质量和价值的提升。

LLM对人机交互的影响

LLM是一种利用神经网络在大量无标注文本上进行自监督学习或半监督学习的语言模型。LLM具有海量的参数(通常为数十亿或更多)，能够在多种任务上表现出优异的性能。

从目前各领域的应用来看，基于LLM的生成式AI技术的出现，为人机交互带来了颠覆性的变化。

生成式AI给人们最直接的感触就是，原来工作流中的好多各种软件操作以及跨软件操作，现在只需要跟生成式AI进行几轮对话就完成了。

比如用Midjourney生成图片或者是ChatGPT Plus生成软件应用代码，已经完全不需要使用绘图软件及编程软件。并且ChatGPT 的插件生态正在快速完善，以后将会有越来越多应用场景的业务操作，只需要对话就能搞定。

这就是交互方式的改变，它直接将原有的与各种软件UI的人机交互，变成了与一个聊天窗口进行交互，是一种前所未有的交互体验。

总结起来，LLM或者说生成式AI对人机交互产生了以下几点影响：

首先，提高了人机交互的效率、质量和便利性。通过生成式AI，用户可以快速获取想要的信息或服务，不需要花费大量的时间和精力。同时LLM可以根据用户输入和上下文生成合适的回复，减少用户输入负担，提高交互流畅性和自然性。此外，生成式AI还可以根据用户的反馈和偏好，动态地调整自己的输出，以达到更好的交互效果。

比如ChatGPT可以帮助用户完成写作、设计、编程等复杂的任务，或者为用户提供个性化的推荐、咨询、娱乐等内容。

其次，增加人机交互的多样性和创造性。LLM可以根据用户需求和偏好生成不同风格的文本、音频、视频等内容，满足用户的个性化和多元化的需求。通过生成式AI，用户可以接触和选择更多的内容，从而拓展视野和思维。当然，生成式AI也可以与用户进行更深入和灵活的对话，满足用户不同的情感和情绪需求。

比如通过生成式AI为用户提供不同风格和主题的文本、图像、音乐等，或者为用户生成一些新颖和有趣的内容，如诗歌、故事、笑话等。

第三，改变人机交互的关系和意义。通过生成式AI，用户可以与人工智能建立更紧密和信任的联系，甚至产生一种共创与合作的感觉。

基于LLM的聊天机器人，可以为用户提供更多的反馈和建议，或者与用户共享自己的想法和感受。生成式AI还可以让用户更加了解自己和人工智能的优势和局限，以及如何更好地利用和发展它们。

第四，拓展人机交互的领域和场景。ChatGPT等生成式AI应用具有强大的适应性和泛化性，可以应用于各种不同的领域和场景，如教育、娱乐、医疗、商业等。无论用户想要学习、游戏、咨询、购物等，都可以通过与ChatGPT等应用交流来达到目的。

第五，增强人机交互的趣味性和亲切感。基于LLM的生成式AI应用具有丰富的知识和个性，可以根据用户的兴趣和情绪来调整自己的语言风格和话题，甚至可以生成一些幽默、诗歌、故事等创意内容来娱乐用户。

这样，用户不会感到与机器人交流是一件枯燥无味的事情，而会觉得与机器人交流是一件有趣和温馨的事情。

LLM对人机交互有着重要而复杂的影响，使得它在各个领域都有着巨大发展潜力和行业应用价值。广大组织应该积极地探索和利用LLM以及生成式AI，提升人机交互的水平和体验，提高人机交互效率和质量，增强人机交互关系，拓展人机交互的领域和场景。

当然，我们也应该注意其带来的风险和挑战，以及如何合理地使用和监督它。

需要说明的是，目前基于大语言模型的生成式AI正在与RPA快速融合，生成式AI将会为RPA的人机交互带来质的飞跃。

LLM改变RPA人机交互

RPA可以自动化执行重复性、规则性和低价值的业务流程，可以提高效率、降低成本和减少错误。但它也面临着一些挑战和局限性，比如难以处理复杂、多变和高价值的业务场景，以及难以适应业务流程的变化，需要不断地维护和更新，难以处理复杂的、非结构化的、需要创造性或判断力的任务等。

虽然超自动化架构已经让RPA的运行足够稳定，但对于复杂流程而言也会存在稳定运行的隐患。

之前厂商们想尽各种办法解决这些问题，但无法从根本上杜绝这些问题。直到基于LLM的生成式AI横空出世，一下就解决了之前RPA遇到的多重难题。

对于LLM如何影响RPA，王吉伟频道(id：jiwei1122)已经在《GPT等AI大模型震撼来袭，基于RPA的超级自动化仍是最佳落地载体》一文中有过详细介绍。

这里，再简单说说LLM如何改变RPA的人机交互。

LLM可以为RPA提供更强大的自然语言处理能力，提供更强大的知识获取和推理能力，以及提供更强大的生成和创造能力。

具体而言，LLM对于RPA人机交互的影响可以体现于以下几个方面：

提高RPA的智能水平。应用LLM，能够更好地识别和理解用户的自然语言输入以及生成自然语言，更好地满足用户的需求和意图。还可以根据上下文和目标生成合适的操作步骤，进行多轮对话和推理，处理更复杂和多样的业务场景，实现更复杂和灵活的业务流程自动化。

用户可以通过语音或文字与RPA进行对话，告诉它要执行什么任务，而不需要通过复杂的编程或拖拽组件来设计流程。

此外，LLM也可以帮助RPA进行知识抽取和推理，从而提供更有价值的信息和建议。

扩展RPA的应用范围。LLM可以有效扩大RPA的应用范围，让软件机器人能够处理更多涉及自然语言的任务，比如文本分类、文本摘要、文本生成、机器翻译、问答系统等。也可以通过与其他模态的数据进行交互，比如图像、音频、视频等，从而实现更丰富和多维的业务流程。

LLM还可以让软件机器人能够与其他AI技术如OCR、NLP、低代码、流程挖掘、chatbot等进行集成和协作，实现超级自动化。

通过使用LLM，RPA可以跨越语言和文化的障碍，服务更广泛和多元的客户和市场。

增加RPA的创新潜力。LLM可以增强RPA的创造力和灵活性，使其能够根据不同的场景和数据生成适合的文本，如报告、摘要、建议等。例如，RPA可以根据用户提供的关键词或主题，自动生成一篇博客文章，并在文章中插入相关的图片、视频、链接等。

通过使用LLM，RPA可以进行更灵活和自适应的学习和生成，产生更多新颖和有趣的内容和方案。LLM也可以与人类进行更有效和友好的协作和沟通，激发更多的创意和灵感。

提升RPA的开发效率。生成式AI可以让用户通过简单的语言描述来定义和修改业务流程，而不需要编写复杂的代码或者使用图形化界面。并可以根据用户的反馈和数据分析来优化和调整业务流程，实现持续改进。

优化RPA交互体验和用户满意度。融合LLM的RPA能够与用户进行更加自然、友好、有趣的对话，增加用户的信任和参与感。RPA可以根据用户的情绪和兴趣，调整语气和风格，甚至讲一些幽默或者引用一些名人名言来调节气氛。

扩展阅读：ChatGPT与RPA集成，生成式AI+自动化流程让AIGC价值倍增

当然，LLM对RPA人机交互的影响不只是智能、效率和创新层面的，它还直接影响了RPA的软件架构变化。

后记：LLM影响下的RPA架构变迁

在LLM之前，RPA已经极大地改善了程序开发以及流程自动化的人机交互。并且，很多厂商都已经打出了“RPA人人可用”的概念。在这个概念的背后，其实就是RPA的易用性越来越强，应用它开发程序并实施流程自动化越发简单。

在易用性方面，从CV到屏幕抓取再到AI模型，厂商们做了大量的探索与尝试。在RPA的程序开发环节上，基于AI、0代码等技术，RPA正在逐步摆脱原有的“拖拉拽”形式，向“点选用”以及对话式(包括语音驱动)流程创建的方式过渡。

在人机交互上，对话式流程创建，可以说是RPA乃至超自动化的终极状态。未来我们要使用超自动化，只要在系统内打几行字或者说一句话就能创建各种软件机器人或者自动化程序。

但是之前的对话式创建，仅适用于简单的预设置流程。稍微复杂的流程便无能为力，或者需要更多流程步骤去触发和调动更多流程才能实现。流程的健壮性难以经受考验，并且用户必须熟悉相应语法及指令才能使用。

在应用体验上，仍然存在一些不足或者说进步空间。

LLM出现之后，对于融合生成式AI的RPA产品，用户使用自然语言都能驱动RPA去创建流程。

并且生成式AI以生成内容的形式弥补RPA在情绪识别、非结构化数据处理等方面的不足，可以让任何人无需太多学习就能更加简单、快速、高效的驱动RPA开发各种自动化程序，真正让RPA实现了人人可用。

扩展阅读：多家厂商引入ChatGPT，集成与融合生成式AI成为RPA技术新趋势

以前使用RPA，是人直接操作RPA通过托拉拽搭积木的方式搭建各种程序。现在则是人通过自然语言与GPT等生成式AI沟通，多模态AI在理解人类操作意图后，进一步驱动RPA连接企业管理软件去自动化执行各种业务流程。

GPT等AI大模型则进一步连接了人与RPA等系统，向上连接人的意图，向下指挥RPA机器人，成为人和RPA等自动化系统之间的一个纽带，让程序开发与自动化流程的操作更加简单。

GPT把人和基于RPA的超自动化连接起来，这是人机交互体验上一个巨大的进步。

在王吉伟频道看来，从过去的“人+RPA”到现在的“人+生成式AI+RPA”，引入LLM以及集成生成式AI，表面看是极大地提升了RPA产品的人机交互，本质上是LLM影响了RPA的架构变化。

现在几乎所有厂商都在重度研究LLM与RPA以及超自动化的全面融合，RPA都已在产品架构中加入了模型层。

这意味着，不管是调用第三方模型还是自研模型，RPA都已成为标准的模型层上的应用。

可以预见，接下来随着LLM成为RPA的标配，它也将全面变革大模型时代的RPA。

全文完