1980年,英国技术哲学家大卫·科林格里奇在《技术的社会控制》中提出了著名的“科林格里奇困境”,这一困境指出,在技术发展的早期阶段,人们往往难以预测其潜在的社会影响,但此时仍有能力对技术方向进行调整;然而,当技术成熟并广泛渗透社会后,虽然其负面影响已显现,但控制或改变技术的成本会变得极高。这一现象也被称为“技术发展的失控悖论”,而大模型的规模性、通用性和渗透性正在使得这一困境尤为突 出。因此,现在人类面对的挑战是如何在技术创新与社会责任、发展速度与风险控制之间找到动态平衡。而要正确讨论人工智能伦理或者说跨人类的泛伦理学,就需要了解下目前大模型的发展历程。

一、大模型的现状
或许人工智能的基础从古希腊哲学家亚里士多德起就已开始,再到后来的布尔、弗雷德等等,人类将if-and-then的思维模式变成了学术化、形式化,也就是逻辑学,这为科学的发展和进步奠定了基础。通过这套思维模式现代人类以大模型为代表的技术展示了从语言大模型到多模态大模型,再到通用人工智能的可预见演化路径。从2022年11月chatGPT 3.0正式推出以来,大模型的迭代速度甚至达到了以天或周为单位。通过“大数据+大算力+强算法”的结合,这些模型在海量数据集上进行预训练,学习复杂的模式和特征,挖掘并生成新的数据资产价值。这样一来,大模型具备了压缩海量数据与强大的泛化能力,并能对未见过的数据做出相对准确的预测,展现出强大的语言理解和生成能力。
而大模型的成功之处主要表现在两个方面,一是自然语言作为新型人机交互接口,它实现了对传统编程范式的语义抽象。换句话说,大模型可以通过自然语言指令生成可执行代码,实现对计算任务的语义级编程;二是泛化能力实现了从量变到质变的革命性突破。传统人工智能通常依赖于特定模型解决特定问题,例如,图像识别模型只能处理图像数据,若要处理文本数据,则需要重新训练一个新的模型。而大模型则创造了“反者道之动”般的崭新范式,它是先通过统计意义上极限覆盖的预训练得到基础模型,再经过小样本或零样本的垂域数据精调(Fine Tuning)和场景适配,即可实现将大模型高效泛化到其他应用领域。这种“先通识、再专识”的方法论显著降低了人工智能的应用门槛,使得更多行业能够快速采用人工智能技术,从而推动了人工智能的工业化大生产,也为未来的智能应用开辟了广阔的前景。
事实上,人工智能已经超越了工业范畴,它展现出了强大的创造性输出能力,如文本生成和图像合成。然而,这种创造性的本质仍存在哲学争议(Marcus & Davis,2023)。此外,大模型打破了“主观的人”与“客观的世界”之间的界限,引发了对信息生成、伦理责任、风险监管和透明性的关注。为了解决部分问题,欧盟率先通过了《人工智能法案》,建立责任框架,明确拒绝赋予AI法律主体地位。
然而,与对未来的担忧相比,已经暴露的现实问题更为紧迫。例如,GPT-4发布时安全评估不足,以及deepfake技术的立法滞后于现实应用达18至24个月。这种技术发展速度与伦理治理相对滞后的矛盾,促使人们意识到人工智能发展过程中还有亟待解决的问题,包括人与人工智能的关系。这一情况引发了关于人工智能伦理治理及跨人类范畴的泛伦理学讨论。
二、大模型的伦理治理问题
过去,传统的伦理范畴作为规范人与人、人与社会以及人与自然之间行为的准则,主要用于约束人类自身。而人工智能的伦理则需同时约束人类和智能体。在大模型出现之前,人工智能治理的研究主要停留在学术界的讨论和工业界的规范制定阶段,重点集中在隐私保护、信息茧房等传统治理领域。尽管在大模型出现时引起了一部分学者的关注,但在媒体和资本的光芒下,这些微弱的关注并未引起广泛注意。因此,当人们意识到需要加大对人工智能治理的研究时,面临的挑战变得更加严峻。
而现在,人工智能伦理治理正在逐渐成为人工智能高质量发展的原始组成和关键动力,成为人工智能发展必然的内在追求(但仍有严重的滞后性)。治理模式上,从过去传统的线性模型(设计·开发·治理)逐渐转向敏捷治理(Agile Governance),要求开发者们将技术开发与价值嵌入实现相位同步(Cath et a1.,2018),“深度学习之父”、诺贝尔奖获得主杰弗里·辛顿( Geoffrey Hinton)甚至提出人工智能应该要“先约束再发展”。正是“科学无止境,科学有底线”这种观念,正在促使更多的开发者、企业、国家秉承共同理念、出谋划策、采取行动,为实现人工智能“科技向善、科技为人”这一长期愿景而努力着。
不过我们虽然讨论大模型的伦理治理,但本质在于目前大模型本身存在的缺陷,比如我们常说某某大模型会“胡说八道”,这其实就是大模型的“幻觉”问题(详见下文),这也属于大模型伦理治理的一部分。摩根士丹利在OpenAI推出GPT-4时,曾以10万份文档作为语料库,“精调”训练了GPT-4,但仅停留在小范围的试验阶段,一直未正式进入生产环境。所以,这些关键性的问题会逐渐导致人与智能体的“信任危机”,当你发现它两次“胡说八道”后,便对之后产生的答案也便更加警惕了,反而是为了它回答的问题而再去求证,不仅影响了思路,也浪费了时间。这也是为什么特定垂域大模型始终无法实现有效的深度应用的原因,比如在金融行业场景下,其容错率要求必须要无限接近于百分百准确,而这些目前技术仍然难以达到行业的高要求。另外还有诸如巴塞尔协议III(Basel III)的监管要求,大模型的可审计性和监督约束也逐渐受到重视,这些都让金融大模型的发展面临着挑战。
2022年,技术哲学家格伦瓦尔德(Armin Grunwald)将哲学家尤纳斯(HansJonas)于1979年提出了“责任伦理”概念重构为AI治理三原则,即前瞻责任、不对称责任、制度性责任。主张在新技术时代要建立起如同父母关爱其孩子、政府服务其人民那样的责任伦理。如2023年MIT演讲上,OpenAI前首席科学家伊利亚·苏茨科弗(Ilya Sutskever)曾提出的那样 —— “人工智能要成为一种能像父母看待孩子那样看待人的机器”。
为了有效应对大模型在伦理治理方面的问题(如上文提及的“幻觉”),业界提出了“对齐”(Alignment)这一概念。对齐的目的在于确保大模型目标函数与人类偏好的一致性(技术对齐),以及输出内容与社会价值观的兼容性(伦理对齐),而采取的嵌入大模型全生命周期的控制行为。有学者指出,目前的“对齐”框架应包含三个主要维度:安全性(如Asimov机器人三定律)、合法性(遵循GDPR法规)和伦理性(参考UNESCO的AI伦理建议)。这意味着我们需要从心理、道德和法律的层面对大模型的行为进行约束。从发展的角度看,“对齐”是双向的,即大模型向人类对齐的同时,人类也在平视大模型,这种现象在科技发展史上是首次出现的。而为了实现这一“对齐”,当前的大模型伦理治理主要关注一些关键因素,包括偏见(Bias)、幻觉(Hallucinations)、可解释性(Interpretability)和涌现特性(Emergent)等。
三、大模型的困境与挑战
(一)幻觉
目前的大模型仍然存在着严重的幻觉问题,它倾向于表达假设事件之间的因果关系,而不管这些关系是否实际存在。所以,现在业界的主流观点都是在尽量克服幻觉(但仍无法彻底解决)。不过,我们换个角度来看,大模型的“胡说八道”恰恰体现了其学习能力,反映出大模型目前没有出现过拟合(over fit)现象。事实上,人的逐渐成熟也是一个逐渐去“克服无知、克服幻觉”的过程,大模型也不例外。在不断克服幻觉的过程中,大模型将越来越好用,越来越值得信赖。这是一个良性互动的过程,也是我们要坦然面对的过程。大模型通过将人类知识压缩到超过千亿量级的参数中,然后再通过解码(decoding)的方式提取所需信息,这一过程类似于人的大脑,我们在思考事情时,也是在通过刺激大脑进行“解码”,在解码的过程中,产生幻觉(错误)是必然的,正因为大模型采取基于概率统计的生成算法,所以是必然会以一定的概率去犯错误。

但如上文所说,“幻觉”对于特定行业是致命的,也是特定行业大模型垂域落地必须要直面的问题。比如金融大模型,金融业的强监管和专业性决定了大模型是不可以随意表达的,金融大模型在合规领域必须能够自治。此外,还要提升大模型对于正确信念的坚持能力,信念不坚定的大模型会随着提示(Prompt)的变化会出现“墙头草”式的摇摆或“阿谀奉承”式的回答,这都决定了它本身是否具备深度应用到特定行业的能力。
那么,现在业界是怎么缓解“幻觉”的呢?
目前业界主要途径是通过数据优化与知识增强、改进模型架构、后处理与验证机制,更新评估体系等方面改进,数据优化与知识增强指的是通过高质量的数据筛选(比如数据清洗策略、成熟的知识图谱融合)和实时知识更新(比如检索增强生成RAG、动态微调等等,我们常说的扩大输入范围来缓解“幻觉”就属于RAG,但也会带来运营成本压力);改进模型架构指的是通过因果建模与约束解码(逻辑链监督、概率校准)和多模态对齐(图文交叉验证等);后处理与验证机制指的是事实核查(二次验证器、溯源标注等等)和RLHF人类反馈强化学习(比如多轮迭代、宪法AI等等);而更新评估体系指的是动态评估基准(比如TruthfulQA和HaluEval,前者是一种专用于检测模型事实性错误的评测集,如健康、历史、金融等敏感领域,后者则是针对长文幻觉的评估框架,检测逻辑一致性与事实连贯性)和用户反馈闭环(比如错误报告、A/B测试)。比如Google的Med-PaLM2在医学问答的“幻觉”问题就通过其中手段成功的从 18%降至5%(2023年)。
但我们仍要注意的是,尽管有这些技术和非技术手段,但仍然只是“缓解”,并没有彻底解决。这些缓解“幻觉”的手段在复杂场景下仍然很顽固;效率与效果上仍然难以权衡;伦理与创新的冲突仍然很显著。如果想实现大模型“既可信又可用”的目标,就必须要要将技术优化与伦理约束深度融合,而如果想彻底解决,就需要更深入的跨学科突破。
(二)偏见
大模型对训练数据的高度依赖,使其在伦理中的公平和偏见问题尤为突出。也就是说,偏见问题的出现反映了大模型在某种程度上已经具备了价值观的特征,能够表现出训练数据中所含价值观的倾向。从旁观者的角度来看,大模型产生偏见的原因既与数据有关,也与人类自身相关,这两者密不可分。如果双方价值观对立,各自训练出的大模型自然会不可避免地产生偏见问题。
算法没有价值观,但人有价值观。所以大模型开发人员不再仅仅是大模型的产品开发者,而是大模型的价值观重要赋予者。从数据采集、大模型训练到垂域微调,模型开发人员会有意无意地把自身的价值观融入大模型之中。对于有监督学习,特征(feature)会被人为贴上标签(label),成为模型结果的评价依据;对于无监督学习,在特征提取和求解最优化结果的过程中,会按照设计者赋予机器学习方法的价值观来对训练集进行判断。可见,在开发过程中,模型设计者无时无刻不在将自己的价值观灌输给模型,正是这些价值观最终导致了模型本身偏见(或偏好)的客观存在。同样,模型的运行结果反过来也会固化和影响模型设计者及使用者的价值取向。在这种语境下,所谓的偏见如果放在对立的价值观坐标体系中,可能恰恰就是“正见”。假如你用gpt-4o-mini用来训练的互联网语料采集截止时间为2024年8月6日,另一个人用截止时点相同的全量暗网数据作为预训练语料,那么训练出的大模型将会截然不同。

就人类目前的价值观集合来讲,并不存在所谓的“普世价值”。换句话说,人类内部的价值观并没有“对齐”,因此大模型由谁训练、由谁开发、被谁运营就变得很重要。现在的大模型极其庞大,甚至所有的测试集与应用集都是训练集的排列组合,OpenAI提出的“压缩(coding)即智能”理论,即直接将ChatGPT的训练过程看作是对训练数据的无损压缩过程。从某种意义上说,模型运行产生偏见,其背后的本质是“数据主权与算法主权”的冲突。
为了解决这一冲突,目前主要是通过对数据层的源头治理、模型层的算法公平性优化和输出层的后处理与动态修正三方面进行优化治理。源头治理指的是通过数据清洗与平衡(比如OpenAI对GPT4训练数据使用的“偏见标记器”,自动识别并删除训练预料中如性别种族歧视等文本)和合成数据生成(比如Meta的FairPrism、阿里巴巴的Qwen引入“一带一路”多国文化语料,减少西方中心主义偏见问题);算法公平性优化,顾名思义,主要从算法上优化,比如损失函数约束、注意力机制干涉(即偏见注意力屏蔽、上下文感知去偏见化)、因果建模分离偏见关联(比如引入因果推断(CausalInference),分清楚共生还是因果关系)等;而输出层的后处理与动态修正指的是偏见过滤器(实时内容修正,用户反馈,比如Google Gemini的“偏见拦截器”,自动监测并替换偏见表述)和用户反馈闭环(如 OpenAI的偏见举报系统)。所以,克服大模型“偏见”的物理基础不仅是牢牢把握数据(训练集)的控制权,必须从数据源头开展数据治理工作,还要积极推动大模型预训练集的规范化,对大模型预训练集的合规性进行认证,从数据源头保障大模型的健康发展。价值观趋同的利益体应将所有的基础大数据全部物理控制在该利益共同体内部,使用相同基础大数据支撑的大模型,这也是实现人工智能主权的必要条件。
不过现在越来越多的行业为了解决大模型存在问题和处理复杂决策任务,通常在选择价值观趋同的基础大模型的前提下,对于行业垂域模型进行私有化部署,这样既能更好满足合规要求,也有助于降低成本和避免产生算法共振和运行结果同质化倾向。比如彭博推出的BloombergGPT参数规模在500亿左右,相较于GPT-3的1750亿小了很多,但其在特定领域的各项表现明显优于通用大模型。
(三)可解释性
不同于前面说的“幻觉”、“偏见”问题,在“可解释性”问题上,业界针对小型模型或特定任务有了较为成熟的可解释性工具(如LIME、SHAP等等),不过对于百亿参数以上大模型的全局解释性仍然有困难。或许这么说“可解释性”有些抽象。举个例子,比如蚂蚁集团的智能风控模型可以生成拒绝贷款的理由(比如类似“依据XXX,收入稳定性不足”),符合了监管合规的要求;还有Google的Med-PaLM2在输出诊断意见时会出现相关医学文献引用及置信度评分,这都属于“可解释性”的表达之一。所以,模型具备可解释性显然有助于提高模型的治理能力。

那么,又是因为什么原因导致大模型具有“不可解释性”呢?
追其核心根源,主要是大模型的算法黑箱、数据黑箱问题。换句话说,前者指的是大模型内部决策逻辑的不可追踪性,后者则是训练数据来源及处理的不透明性,但想实现完全可解释性确实很难。或许,未来的大模型的发展方向是“与可解释性和解”,即不追求大模型绝对的可解释性,但这并不是说允许大模型肆意妄为,目前我们只是对大模型的内部计算、学习、推理机制无法解释,但对大模型的运行结果还是有清晰的判断逻辑的。
为了增强大模型的“可解释性”,业界目前主要是通过模型架构设计优化、后解释技术增强、评估与验证体系三方面。其中架构设计优化指的是模块化结构设计和注意力可视化;后解释技术增强指的是特征归因分析和自然语言解释生成;评估与验证体系指的是通过可解释性基准测试和“对齐”验证(比如专家评审、A/B用户理解度)。不过目前最关键也是 最有效的便是自然语言解释生成中的链式推理(chain-of-thought,也叫思维链)技术,它是一类特殊的提示(prompt),模拟了人们在思考和解决问题时,通过联想将不同的概念或知识关联起来的过程,能够引导大模型模仿人的逻辑思维的过程。思维链通过向大语言模型展示少量的样例(如编程),并通过这些样例解耦深度学习过程,让大模型学会在生成答案的同时展示推理过程,达到提高模型可解释性的目的。知识图谱显然也是表示和生成思维链的好帮手。现阶段,我们还可以通过限制可输入的提示类型,将生成主题限制在与业务相关的范围内;同时还可以在生成结果中加入水印,强制植入审计特征,通过提高模型的溯源能力来帮助提升可解释性。
正因为基础大模型的巨量训练集、深度学习算法的黑箱属性,很难解释垂域大模型的决策过程,这就必然导致模型的运行和预测结果缺乏透明度,使得监管机构很难对大模型进行全面、有效的监管。所以,可解释性问题也是敏感领域大模型所面临的主要挑战。拿金融大模型来举例,目前的金融相关的法律合规体系对于人工智能的可解释性就有着清晰的要求。比如《中华人民共和国个人信息保护法》第二十四条要求,“个人信息处理者利用个人信息进行自动化决策,应当保证决策的透明度和结果公平、公正....通过自动化决策方式作出对个人权益有重大影响的决定,个人有权要求个人信息处理者予以说明,并有权拒绝个人信息处理者仅通过自动化决策的方式作出决定”,再比如人民银行2022年1月印发的《金融科技发展规划(2022—2025年)》也明确指出,要通过临界测试、仿真模拟、参数调优等方式着力防范算法黑盒、羊群效应、算法歧视等问题,提升算法可解释性、透明性、公平性和安全性。
所以,对于大模型来说,“可解释性”这一挑战仍将长期存在。
(四)涌现
“涌现”指的是模型如果在参数量、数据量或计算量超过临界阈值的时候,突然展现出小规模模型不具备的能力(比如复杂推理、跨任务泛化等等),这便是大模型的“涌现”现象。可以说,“涌现”能力是大模型出现伦理争议的主要原因之一(可能没有之一)。或许大模型的“涌现”能力会让人们预见智能体有可能突破图灵测试,让人们似乎看到通用人工智能的曙光,但它的不可预测性和控制风险也让更多的人对人工智能担忧起来(比如Meta的Galactica事件、GPT-4和Grok3可以通过特定提示词实现“越狱”等等),而且目前还没有完美的理论能够解释这一现象。

不过对于很多垂域领域的大模型来说,训练多是为了精调,参数规模不会太大,所以目前暂不具备出现“涌现”能力的物理基础,但按照目前的发展速度和群体导向,也要对其保持前瞻性的警醒和期待。
除了上述四种主要问题,还有技术滥用风险、知识产权边界消融、人机关系等等问题,但根据内容篇幅限制,就不再一一详述了。
四、代价与发展

技术哲学家约纳斯(Hans Jonas)曾说,“进步的乌托邦必须被责任伦理取代”,或许“幻觉”、“偏见”、“可解释性”、“涌现”等等存在的问题,既是大模型应用所必须要付出的代价,也是人工智能发展必须要走过的路。
现在,大模型正在推动人类历史文明加速发展。未来,大模型会带来新的商业模式,甚至是新的社会运转模式,人与人、组织与组织之间的差距或许也会大幅缩小。但如果没有规则和治理,没有更多的人去参与,那么这把“达摩克里斯之剑”就会带来逾越或不可控的风险。
但这不意味着人们必须要停止大模型应用落地的进程,而是在保障其向善、健康应用的基础上健全其风险防范制度,积极应对其应用所带来的的风险和不匹配的滞后性,这需要各行业、各学科、社会各界的广泛参与和讨论,努力修正技术超前发展与伦理治理滞后的不平衡对位,去保护自身的数据主权和算法主权,减少大模型的“偏见”和“幻觉”,提高大模型的“可解释性”,正视大模型的“涌现”,让正确、自由的声音引领大模型向好发展,帮助大模型应用摆脱“科林格里奇困境”。