算法与天平（1）：法律人拥抱AI，从底层逻辑开始

引言：概念狂欢与“祛魅”的必要

近年来，法律科技领域新概念频出。从法律科技到生成式人工智能（Generative AI，简称GenAI），再到具体落地的大语言模型（LLM），以及如今热议的智能体与MCP，技术术语的迭代速度远超法律条文的修订速度。在各类律师行业论坛与活动中，人人都在聊Agent、小龙虾，但倘若追问一句，大模型的底层运转逻辑究竟是什么？绝大多数法律人恐怕都会语塞，我们并非真正理解AI。

这种认知错位，恰恰折射出律师行业接触新技术时的共性局限。作为以严谨、理性为核心素养的职业群体，我们习惯于从应用层面切入，过度关注AI能做什么，却忽略了AI是什么？它如何工作？这种片面认知，极易导致对AI的期待被无限放大，仿佛这一技术能破解所有法律实务难题，成为律师的万能工具。

律师做为法律人的核心竞争力，在于对事物本质的精准判断和对风险的极致把控。面对AI，我们不能将其神化为魔法，唯有穿透概念迷雾，学习它的技术底座、运行原理和客观规律，才能准确预判其能力边界，做到不盲目崇拜，让AI真正成为助力实务的工具，而非干扰判断的杂音。

作为《算法与天平》系列文章的开篇，这里需要先做一个概念界定：生成式人工智能是一个庞大的技术家族，涵盖了文本、图像、音频、视频等多种模态的生成；但在法律实务的语境下，无论是合同审查、案情摘要还是法律检索，我们高度依赖的是文本处理能力。而承载这一能力的绝对底座，就是大语言模型（Large Language Model，简称LLM）。

因此本文将直奔主题，重点拆解这位法律人最常打交道的AI主力，也就是LLM的底层逻辑、运行机制与核心规律，以便后续继续深入探讨其在法律实务中的真正价值与潜在风险。

大语言模型的底层逻辑——它不是在“思考”，是在“算概率”

既然明确了LLM是法律AI的核心引擎，我们不妨先做一个拆字式定义：

大：即参数基座。参数量级达到千亿、万亿级别的大模型，意味着它在训练过程中曾经阅读了互联网上几乎所有的高质量公开文本。它拥有惊人的记忆力，但并不具备人类的概念抽象能力。
语言：即自然语言。其核心定位是处理人类自然语言，吃进去的是人类撰写的文本（包括法条、案例、法律文书等），吐出来的也是符合人类语言逻辑的文本，本质是人类自然语言的搬运与重组。
模型：即数学函数。剥离智能的外衣，模型本质是一套通过海量数据训练而成的数学公式，搭配庞大的参数矩阵，核心功能是计算与预测，而非思考与判断。

讨论AI时，我们最容易陷入的误区，就是拟人化认知。误以为大模型像人类律师一样，会进行法律推理、权衡法条适用、判断证据可采性。但事实上，大模型并非生命体，更不具备人类的逻辑思考能力，它的所有输出，本质上都是一场精准的概率计算。

文字接龙与中间人：LLM的核心运转方式

LLM的技术根基源于2017年Google提出的革命性架构Transformer，此后OpenAI的GPT将其推向实用化，Claude、Gemini以及国产的Qwen、GLM等模型相继崛起，形成千帆竞技的格局。但无论这些模型的名字多炫酷、参数量多大，其核心逻辑从未改变，那就是只做Next Token Prediction（后续词元预测）。

让我用最直白的语言来给你解释，你输入一段文字，LLM会快速计算下一个字出现的概率，并选择概率最高的字输出；随后，它将这个新输出的字加入原始输入，再来计算下一个字的概率，如此循环往复，直到生成完整的文本。这就像我们小时候玩的文字接龙，模型只知道接下一个最可能出现的字，却不知道为什么要接这个字。

这里有一个关键的冷知识，LLM其实是个文盲，它不识字，只处理数字。在人类与大模型之间，存在一个核心的中间人，它叫做Tokenizer（分词器）。它的作用的是将人类输入的文字切分、映射成一串数字（即Token，词元），喂给模型进行计算；当模型算出下一个数字后，再将其解码成文字，呈现给我们。

举一个咱们律师熟悉的例子，当我们输入“《中华人民共和国民法典》规定，自然人的民事权利能力始于”时，Tokenizer会先将这句话切分成一串数字，模型通过计算发现，下一个数字对应“出”的概率高达99.9％，对应其他文字的概率不过0.1％，于是它就会直接输出“出”；接着，模型将“出”加入输入，继续计算，下一个最大概率词预测为“生”，以此类推，最终生成“出生”这一符合法条规定的表述。

这也解释了为什么LLM能生成看似逻辑严密的法律文书，它并非真正理解了法律逻辑、法条内涵，而是通过海量法律文本的训练，记住了法律文书的语言模式、句式结构和常见表述，并基于概率预测计算出符合要求的文本。也就是说，它是概率高手，纯纯的理科生。

统计学奇迹背后的致命局限

理解了LLM基于概率预测的核心机制，我们就能轻易读懂它在法律行业应用中的根本局限。LLM懂概率、懂句式、懂排列组合，却不懂法理、不懂逻辑，更不会懂得法律实务中的例外情形。

当律师分析一个案件时，我们会梳理案件事实、检索相关法条、比对类似案例，进而推导例如“该行为符合《刑法》第ＸXX条的构成要件，应当认定为ＸＸ罪”；但LLM分析案件时，并不会进行这样的逻辑推理，它只是在匹配训练数据中类似案例的表达方式，本质是照猫画虎，核心逻辑是经过计算推断出“在以往的类似情况下，法条、判决书通常这样表述”，而不是基于法理做出判断。

这也是AI在法律应用中频繁出现一本正经胡说八道的根源。当遇到知识盲区，或者输入信息的概率分布不明确时，它不会停止输出，不会老老实实地承认它不知道，而是会基于过往训练数据继续按概率大小来编造出看似合理、实则完全虚假的内容。这就是大模型的“幻觉”现象，也是概率预测机制导致的必然结果。

这一点，相信很多律师同仁都有切身感受。你让AI检索某一法条，它可能会编造出不存在的法条内容，甚至还煞有介事的附上看似规范的司法解释；让AI帮你查找指导性案例，它可能会杜撰案例案号、裁判要旨，甚至伪造最高人民法院的裁判观点。这并非AI有意误导，而是它在概率预测的逻辑下，模仿法条、案例的格式，自主生成符合概率却不符合事实的内容，它不懂真假，只懂概率。

大模型的三大核心规律

人类的AI工程师在长期训练、研究大模型的过程中，发现了三个客观规律，它们贯穿大模型的整个运行过程，决定了大模型的能力边界与应用风险，理解这些规律是法律人正确使用AI的前提。

规律一：涌现能力（Emergent Abilities）——量变决定质变

大模型的能力提升不是循序渐进的，而是存在一个临界点。当模型的参数量、训练数据量较小时，它在复杂推理、案例分析、法条解读等任务上表现会很差；但当规模跨过某一个临界点后，其能力会出现突飞猛进的跃升，甚至展现出训练时未被刻意教授的能力。这种现象就是涌现。

我们可以用物理学中的相变来类比，水在99℃时仍是液体，一旦达到100℃，就会瞬间变成气体；大模型的能力也是如此，在参数量较小（如几百万、几千万）时，它在逻辑推理、数学计算等任务上的表现可以说更加接近随机，无法处理复杂的任务；但当参数量超过百亿级别（如30B、70Ｂ）时，逻辑推理、案例分析等能力会突然涌现，而且它的性能表现会随着规模继续增长而快速提升。

这一规律给我们一个重要的启示，那就是尽量不要用小模型的表现，来评判大模型的能力。有些律师同仁为了机器能跑得动，为了Token的输出速度，使用过一些开源的4B、7B参数量模型，结果往往发现其无法精准检索法条、分析案例，而且很容易来回说车轱辘话，从而得出AI没用的结论，进而否定GPT、Claude等头部大模型的价值，这是典型的以偏概全。

在法律实务中，如果我们需要AI处理复杂的案件分析、法律推理、重要文书起草等任务，建议优先选择跨过涌现门槛的主流模型。目前来看，能够展现出有效实务能力的模型，参数量至少要达到13B以上；而GPT-5、Qwen3.5等千亿级参数量的模型，其逻辑推理、案例匹配能力，更是百亿级模型难以比拟的。

规律二：缩放定律（Scaling Laws）——大力才能出奇迹

LLM的性能与三个核心要素：模型参数量、训练数据量、计算资源，存在明确的可预测关系。一般认为，只要持续地堆砌、增加这三个要素，模型的性能就会平滑提升，并且这种提升是完全可预测的结果。

简单来说，那就是模型越大、训练集数据越多、机器算力越强，效果就越好，也就是我们通常所说的力大砖飞。这也解释了为什么OpenAI、Anthropic等AI行业巨头一直在持续投入数百亿美元购买算力、训练更大规模的模型。在AI领域，规模=能力。

在可预见的未来一段时间内，闭源的头部大模型，在绝对能力上仍将碾压开源免费模型。有一说一，目前开源模型的进步速度已经非常快了，我本地AI主机上目前私有化部署的LLM就是Qwen 3.6 35B的MOE开源模型，感觉已经相当能打。但由于受到AI企业对免费、开源模型的算力、数据的投入，效果仍然很难追上那些投入了数百亿美元的闭源模型。

根据我的实践来看，以Qwen、GLM、DeepSeek为代表的免费开源模型，仍然非常适合我们用来本地私有化部署，来处理文档摘要、信息提取、脱敏、本地RAG数据库等实用任务；但对于进行复杂案件分析等高质量需求，商业头部大模型的能力仍然远超免费开源模型。

规律三：幻觉（Hallucination）——法律应用的致命陷阱

如前文所述，大模型的本质是概率预测，它会基于过往训练数据的概率规律持续计算并输出。这些输出看似逻辑严密、表述规范，实则内容完全虚假，这就是大模型的“幻觉”。

在法律行业，幻觉是AI应用的最大风险。一个编造的法条、一个虚假的案例、一个杜撰的法律概念，都可能导致输出结果反转、当事人权益受损，甚至让律师承担执业风险。此前已经有新闻报道，美国某律师使用GPT查找、提交案例，结果因案例虚假导致执业责任。因此，AI负责生成辅助内容，律师负责全面核验兜底必须成为法律人使用AI的铁律。

结合律师的实务工作，我给出三个具体建议：

所有AI生成的法律文书，律师必须逐条核对法条、案例的准确性，绝对杜绝“Ctrl+C、Ctrl+V的”直接复制使用；
对于重要的法律分析，应当要求AI同步提供引用来源，同时必须进行人工核实，不能轻信AI给出的依据；
律所、律师团队、律师个人都应当建立标准化的AI使用流程，明确哪些环节可以使用AI（如文档排版、简单摘要、画结构图），哪些环节必须人工介入（如检索复核、案件分析、文书定稿）。

归根结底，面对AI的输出结论，法律人必须始终保持合理的怀疑态度。我们始终要记住，AI只是辅助工具，而非决策主体。律师个人依据专业能力和经验所作出的专业判断，才是法律实务的核心。

读懂AI的成本与性能

了解了大模型的底层原理和核心规律之后，有两个基本概念，是使用AI都会遇到的。读懂它们，既能节省成本，也能提升AI使用效率。

Token（词元）：AI的计价与处理单位

大模型处理文本的基本单位，既不是字，也不是词，而是Token（词元）。这是理解AI使用成本、处理速度的关键概念，关系到我们的实务效率和成本控制。

下面我结合中文法律文本特点，来举例说明Token的切分规则：

常见汉字（如“人”“法”“民”）通常≈1.3个Token；
较常见的双字词、三字词（如“法律”“合同”“法条”），通常被拆分为2-3个Token；
英文单词通常为1个Token，复杂英文单词可能被拆分为2-3个Token；
标点符号、数字、特殊符号（如“、”“。”“（）”“１２３”），均单独计为1个Token。

目前所有AI的性能计算、计费方式，基本上以Token为标准。输入的Token越多，处理速度越慢，成本越高；反之，精简化输入就可以节省Token，也能提升AI的响应速度。

一份50页的民事合同，约2-3万汉字，换算成Token可能是3-5万个；如果我们使用最好的GPT-5.x来处理，光这个输入成本可能就要达到2-3美元（如果换用国产智谱的旗舰模型GLM-5.1就便宜多了）。但如果我们精简指令，只输入合同核心条款（如违约责任、权利义务、争议解决）让AI分析，那么Token数量可以降到1万个以下，成本就可以控制在原来的20%以内，这就是精简指令的实际价值，也是法律人使用AI的实操技巧。

另外，现在有一些大模型厂商、平台、包括三大运营商都推出了一些Coding Plan，也就是包月、包量的AI调用套餐，主打固定资费、限定额度调用，用来替代传统按Token按量计费的模式。这类套餐很大程度上降低了高频使用AI的成本门槛，最初主要面向程序员、开发者的代码编写、调试场景，适配各类AI编码工具，如今已经延伸到文案梳理、文本解析、合同审核等通用办公场景，对法律从业者十分友好。

上下文窗口（Context Window）：AI的短期记忆容量

上下文窗口，通俗来说，就是大模型在一次对话中，能够同时处理的最大Token数量。可以把它理解为AI的短期记忆：记忆容量越大，能处理的文本越长，越不容易遗忘前文信息；记忆容量越小，处理长文本时越容易迷失方向，出现幻觉的概率也越高。

常见模型的上下文窗口大小（结合法律实务常用模型）：

小模型（如7Ｂ参数量）：通常为4Ｋ-8ＫToken（也有例外，如Qwen 2.5 7B的上下文窗口可以至多支持到128K，下同），适合处理短篇文本（如单条法条解读、简单咨询回复）；
中等模型（如13Ｂ、70Ｂ参数量）：通常为8Ｋ-32ＫToken，适合处理中等长度文本（如单一案件材料、短篇法律文书）；
主流头部模型（如GPT-５、Qwen 3.6）：通常为128K-200KToken，部分模型通过特殊配置可达1M Token，适合处理超长文本（如复杂案件卷宗、多份合同比对、大型法律意见书）。

结合大模型的涌现能力原理，模型越小，上下文窗口越小，在处理超长文本（如复杂案件卷宗）时，出现幻觉的概率就越高；因此，处理复杂法律实务时，建议优先选择上下文窗口较大的头部模型，能最大程度降低风险。

但上下文窗口记忆也存在核心短板，那就是它仅支持单次对话的短期记忆，对话刷新、重启或超出容量就会丢失所有前文案件、文书信息，反复上传资料、重复指令会徒增成本、降低效率。针对这个问题，目前行业主流有三类AI长期记忆方案，分别是：

1.模型原生记忆。核心原理是大模型通过内置算法自动提炼对话关键信息，轻量化存储用户使用习惯、文书规范等固定内容，无需额外配置，适合日常简易办案场景。这个能力主要靠模型厂商来开发，我们只要挑选合适的使用即可。

2.RAG知识库挂载。也叫做检索增强生成技术，提前将卷宗、判例、合同模板等资料结构化入库，模型实时检索调取知识库内容，从而突破Token长度限制，是处理海量法律资料的核心方案，也是我目前使用中的一套方案。

3.智能角色记忆体。也就是后面要讲的AGENT，原理是人工固化角色定位、办案流程、输出标准，将专业人设和工作逻辑永久锁定，后续所有对话都会沿用统一标准，实现办案输出标准化、同质化。

行业黑话翻译：从通用实习生到专业智能体

在学习了LLM的原理后，我们再来看AI行业里的各类黑话就豁然开朗了。这些术语对应着AI技术的不同发展阶段和能力层次，让我们更精准地对接AI工具、提升实务效率。

1.LLM（大语言模型）——博闻强识的通用大脑

LLM是我们前文所有底层原理的载体，也是所有AI工具的基础。GPT、Claude、Qwen等，本质上都是LLM产品。这就像手机这一概念下有苹果、华为、小米等品牌，LLM这一范畴下，也有不同公司研发的各类模型，只是在参数量、训练数据、技术路线上存在差异，核心逻辑均是我们前文所说的概率预测。

通用LLM没有固化的思维定势，但也极易受到误导。你可以把它想象成一位刚从法学院毕业、智商极高、记忆力超群，但对律师实务、工作流程一无所知的超级实习生。

如果你不给它明确的指令，它可能只会用最通用的废话文学来应付差事；但如果你带教得当，它就能在短时间内完成资料梳理、文书初稿等基础工作。我们后续提到的Prompt、Agent，本质上都是为了给这位实习生制定工作流程、配备工具，让它从只会背书的学生进化为能干实事的小助理。

2.Prompt（提示词）——清晰指令的艺术

Prompt通俗来说，就是你输入给大模型的那段文字指令，是人类与AI沟通的核心桥梁。从工程视角来看，Prompt主要分为两类，二者配合使用，才能让大模型精准听话、按规矩办事：

User Prompt（用户指令）：即你在对话框中输入的具体任务，比如“审查这份房屋租赁合同的违约责任条款”“检索与民间借贷纠纷相关的司法解释”；
System Prompt（系统指令）：由开发者在后台配置好的，用于定义AI的人设和做事规则，比如“你是一名资深民商事律师，输出内容仅包含法律依据和修改建议，需要精炼输出，不要多余阐述”。

给AI下指令时，至少要明确下面三点：角色（AI目前的身份）、任务（具体要做的事）、格式（输出的呈现形式），你给出的指令越清晰、越具体，AI输出的质量就越高，这也是Prompt工程能够成为一门专门学问的核心原因。

3. Tool（工具）与 MCP——大模型的感官与接口

目前LLM普遍存在的核心局限之一，是缺乏实时信息和外部交互能力。而Tool（工具）的出现就是为了解决这一问题。Tool本质是一个函数（比如查询法规的数据库API、检索案例的工具接口），相当于给大模型装上了感觉器官，让它能够感知外部环境、获取实时数据。大模型选择合适的工具、归纳工具返回的结果，实际调用操作由提供工具的平台代劳。

而MCP（模型上下文协议），则解决了工具接入的兼容性问题。以前各家平台提供的Tool工具接入规范各不相同，开发者需要针对不同平台，研究API文档来进行重复开发，效率低下。MCP就相当于大模型界的USB接口，打通了上下文流转、任务接续与信息同步。开发者只要按照MCP规范开发一次工具，就能在所有支持该协议的平台通用。这极大地降低了开发成本、提升了工具复用性。

4. Agent（智能体）——从工具到助手的真正革命

Agent是AI技术的本质跃升，也是未来一段时间内法律AI落地应用的核心发展方向。过去使用AI，需要我们逐一、手把手的来下达Prompt、拆解任务，AI接受任务后才能被动执行；而现在只要给Agent一个终极目标，它就能自主完成整个流程，它可以自主拆解目标为多个步骤、自主撰写Prompt、自主调用Skill和Tool、自主检查错误、自主调整优化，直到完成任务。

在工程领域，Agent有经典的构建模式（如ReAct模式：边推理、边行动），具备真正的自主规划和决策能力。这种自主性，正是AI从被动工具向主动助手跃升的关键，未来将能大幅解放律师的双手，让我们从繁琐的基础性工作中解脱出来，聚焦核心的法律推理和客户服务。

5. Skill（技能）——给Agent的《员工手册》

Agent Skill（技能），从工程视角来看，就是提前写给Agent的个性化说明文档，相当于我们律所给新进实习律师制定的《员工手册》，让它在特定任务上更专业、更高效。

Skill的结构十分严谨，主要分为两层：一是元数据层，包含技能的名称、描述和适用场景，方便Agent快速识别；二是指令层，明确具体的操作要求、流程和标准。Agent无需每次都读取所有Skill，只需在用户问题与某一Skill的元数据匹配时，才会读取对应的指令层，这种按需调用的机制，有效避免了Agent信息过载，提升了执行效率。

6. 进阶彩蛋：当Agent长出手脚——前沿产品解析

随着Agent技术的快速发展，最近出现了两类极具代表性的前沿产品，它们进一步拓展了AI的能力边界，预示着AI将逐步接管更多法律工作流：

Claude Code：这是一个主打跨领域协同的代码级Agent框架。它不仅能处理文字类法律任务，还能直接操作电脑终端，自主写代码、搭建系统。比如你告诉它“帮我搭建一个简单的法律文书管理系统”（仅供示例，实际要逐步拆解，否则给出的效果不好），它会自主完成代码编写、数据库配置、系统测试，最终交付一个可用的产品。它的问世标志着AI已经具备接管完整技术工作流的能力，未来将为法律科技开发提供极大便利。
OpenClaw（俗称小龙虾）：与Claude Code偏重编程不同，OpenClaw是一个开源的自主智能体执行框架，核心特点是开源灵活、可本地部署，能接入微信、飞书、邮件等各类通讯渠道来提供即时交流能力。我就在腾讯云服务器上配置了一个小龙虾，用它来清理收件箱、发送邮件、管理日历、查询航班值机、酒店、推送热点新闻等；在法律场景中，OpenClaw完全可以被训练成案件流程管理Agent框架，24小时在通讯软件里待命，及时提醒案件开庭时间、文书提交期限等，进一步提升实务合规性和效率。

对日常并不从事代码开发的普通律师而言，上述工具可能还一时难以理解。但它们预示着AI正在向自主助手、开发者进化。AI现在已经能够根据我的需求，自主开发个性化的实务AI工具，进一步提升团队工作效率。涉及这方面的具体场景和实例，我们将会在后续的文章中和大家进行深入探讨。

结语与预告

生成式AI不是神，作为其法律场景核心引擎的大语言模型，本质上是一台基于概率预测、受制于涌现、缩放、幻觉三大定律的精密机器。它有惊人的效率优势，能帮我们处理繁琐的基础性工作；它也有明确的能力边界，目前还无法替代律师的专业判断和逻辑推理。对于法律人而言，熟悉它的基本原理，才能用好它的功能、看清它的局限、规避它的风险。

本文作为系列文章的开篇，重点帮大家祛魅和建立对AI的科学认知。正如我经常和年轻律师说的，AI不会淘汰律师，但会淘汰不懂AI的律师。AI时代法律人的核心竞争力，在于懂AI、用AI，让AI技术成为助力。

下一篇，我们实务见。

算法与天平（2）：从对话框开始，..

从叶璇家事风波看"保姆变红颜"背后..

研发中心

算法与天平（2）：从对话框开始，用好你的..

算法与天平（1）：法律人拥抱AI，从底层逻..

从叶璇家事风波看"保姆变红颜"背后的财富传..

“零元购房”？职业背债人骗局：你以为的“躺..

循绳墨而不颇：平台经济迎来反垄断合规成人..

从典型案例看先行判决在建设工程领域的实务..

关于《中华人民共和国网络安全法》的解读｜新..

《增值税法》来了！税法律师帮你划重点

私募基金管理人重大事项变更高效办理攻略

私募股权投资全周期权益保障：精准研判机制..

出海肯尼亚劳动用工合规指南（三）：离职阶..

从周杰伦“亿元罗生门”看虚拟货币委托投资的..

出海肯尼亚劳动用工合规指南（二）：在职阶..

出海肯尼亚劳动用工合规指南（一）：招聘与..

砸坏记者摄像机，企业负责人会坐牢吗？——解..

税款追征期：企业维权不可忽视的“时间盾牌..

网红品牌被侵权：困境突围与破局之道

专利被侵权怎么办？四步高效启动维权行动｜..

商业秘密与人工智能：共生时代的挑战与应对..

知识产权周｜有商标注册证还被判侵权？且看..

AIGC的版权确权困境：人工智能生成内容著作..

司马南偷税案税务行政处罚分析：从案件看我..

从小米撞车案，看自动驾驶中的交通事故刑事..

虚开发票：补税就能脱身？可能不“刑”

从《大河之水》看企业合规与个人责任

美乌矿产协议与现行国际规则的冲突

业文章｜执行案件中法院可冻结被执行人配偶..

从不起诉视角，看虚开与非法售购增值税发罪..

律师在代理合作经营纠纷案件时不得不懂的财..

优胜案例｜海事货运代理关系之争，谁为固体..

算法与天平（1）：法律人拥抱AI，从底层逻辑开始

400-816-2958

电话咨询

微信公众号

手机端

返回顶部