科达首席科学家章勇博士:迈向“会思考”的城市

2025-11-03 10:55  

10月28-31日,第二十届中国国际社会公共安全博览会在深圳会展中心举行。科达首席科学家章勇博士在同期举办的“AI大模型与城市全域数字化转型协同发展研讨会”上,发表 “迈向‘会思考’的城市:AI大模型赋能城市治理现代化”主题演讲。




(以下为章博演讲主要内容)

大模型的出现,掀起了现代人工智能技术的又一场革命。行业大模型技术的突破赋予了城市“思维能力”。科达开端大模型KD-GPT深度融合多源数据与行业知识,实现了从碎片化感知到全域认知的跨越,推动城市治理从被动响应迈向主动预见。以开端大模型为基础,我们将打造能思考、善行动的行业智能体,为现代化城市治理提供关键支撑。


行业大模型唤醒城市的“思考力”


国务院在2025年8月印发的《关于深入实施“人工智能+”行动的意见》中,将 “人工智能+”治理能力列为六大重点行动之一,旨在利用人工智能提升国家治理的智能化水平,在AI 2.0时代,大模型,特别是基于行业的垂域大模型将发挥重要作用,和传统技术方案相比,行业大模型具有以下优势:


从“感知”到“认知”,实现深度理解:相比传统算法只能识别目标或是简单模式,行业大模型具备的多模态融合理解能力,可同时理解文本(如政策文件)、语音(如报警电话)、视频(如摄像机监控流)、图像(如红外图或卫星图)等,并能理解其背后的上下文和语义。


从“孤立”到“关联”,洞察复杂因果:行业大模型凭借其庞大的知识聚类和强大的关联推理能力,能够打通数据孤岛,突破单一领域的分析局限,跨领域分析并发现隐藏的因果关系。例如,它能分析出“一场大型演唱会”不仅会影响“周边交通”,还会关联到“应急处置”和“公共安全警力配置”等。


从“滞后”到“预见”,主动干预未来:行业大模型能够基于历史数据和实时动态进行时序预测和推演仿真。例如,在虚拟的数字孪生城市中,大模型可以模拟政策影响、推演交通流变化、预测内涝风险,从而将治理关口前移,从事后补救转向事前预防。


从“通用”到“专用”,深度融合业务:传统模型和通用大模型不具备精准的业务知识,而行业大模型通过使用海量的专门数据和历史业务案例进行微调,可以深刻理解业务内在逻辑,真正成为该行业的业务专家。





城市治理中的行业语言大模型


科达开端行业语言大模型在通用大模型的基础上,增加准确的行业语料数据,并进行训练调优,能够捕获行业文本中的上下文信息,理解单词、短语和句子之间的关联和依赖关系,从而生成合适的响应或进行推理,表现出行业智能的行为。


在城市治理的智慧行政、智慧公安、智慧法制、智慧监管等方面,科达开端行业语言大模型有着广泛的应用,以下是几个已经落地的典型案例:



警情分析:利用微调训练过的开端大模型可全面进行何人、何地、何时、何物、何事、何因、何果、何法、何责的九何要素分析;通过对处警内容进行语义分析,实现情感纠纷、债务纠纷等警情类型的细分;将语义分析与地址聚类算法结合,对发生警情区域进行划分聚合,如娱乐场所、大型会馆等,警情定位更精准。


事故责任认定:开端行业大模型通过阅读学习交通法律法规,结合交通事故责任认定案例数据,提供明确各方责任的智能解答服务。并根据事故具体情况,准确适用相应法规条款,如超速行驶适用《道路交通安全法》中关于超速处罚条款。对适用法规条款进行解释说明,让当事人理解定责依据,减少争议。


重点人员风险分析:通过对历史数据的精准挖掘,开端大模型对重点人员的类型,行为模式,损害结果,送医情况等进行分析,进行风险等级评估,并对风险因子进行检测,最后总结归纳风险报告,提供处置决策建议。


询问笔录理解:在智慧法制应用中,开端大模型能精准把握笔录中的文字结构,清晰梳理其中的逻辑关系。笔录中的对话包含着丰富的信息,行业大模型可以深入分析对话的含义,捕捉说话者的意图和情感。在上下文理解方面,它能够将笔录中的各个部分有机联系起来,形成完整的认知。行业语言大模型在笔录理解上的出色表现,为司法、调查等领域带来了更高效、准确的解决方案,能够极大提升工作质量和效率。


城市治理中的多模态大模型


科达开端多模态大模型可以同时处理文字、音频、视频、图片等多种模态信息,并准确的进行不同模态的特征对齐,实现深度融合,输出精准结果。凭借其独特的结构和强大的功能,开端多模态大模型在智慧交通、智慧城管、智慧应急和智慧园区等多个城市治理领域都有出色应用。



例如,在语义目标识别方面,对一般安防监控罕见的目标,比如铁丝网、牛群等,用语义说明的方法给出目标描述,开端大模型即可在无需训练样本的情况下,准确进行识别。


语义的事件检测应用中,我们用文字来描述一个事件,让开端大模型在图像中寻找对应的语义特征。例如,对需要确保服务规范的场合,我们用语义来对服务态度、工作效率、作风纪律等进行描述,大模型就可以自动在场景图像中检测发现出相关的违规事件。


语义视频理解方面,以政法委综治中心智能管控为例,开端大模型能精准识别人员聚集、倒地、肢体冲突等情况。在实际场景中,一旦出现人员大量聚集,系统能迅速捕捉并发出预警;人员突然倒地或是肢体冲突,也能及时察觉。这大大提升了综治中心的管控效率,保障社会秩序稳定。




行业大模型在城市治理中如何落地


行业大模型技术自诞生以来,凭借强大的通用性与适用性,正日益成为赋能城市发展的重要引擎。但要将大模型真正落地与实战,是有较高的工程化难度的。在科达开端行业大模型赋能于城市治理的落地过程中,我们做了以下四方面关键工作:


一、AI Infra构建


大模型赋能离不开基础设施(AI Infra)的构建,它就像一座大厦的基石,支撑着大模型在城市治理的应用。在AI Infra的软件框架中,在硬件层和模型层之间,是最为关键的AI Infra软件层,这一层涵盖了大模型的部署框架、加速和量化工具、调度和编排,以及底层的驱动与运行时(runtime)。同时,它还包括训练基础设施,如训练平台、数据管理和标注工具。例如,在大模型部署与训练中,AI Infra软件层有vLLM、SGLang、Megatron-LM等开源或半开源工具,还有模型量化、算子优化等私有优化代码,在资源调度方面有Kubernate、Slurm、资源调度库等等,要想让大模型高效的部署和执行,必须要将这些组件合理的编排和组织在一起。



二、小型化与国产化


大模型运行时要占用大量的内存和算力,因此,小型化部署是业界追求的目标,即在尽量保留模型性能的前提下,减小模型体积、降低计算复杂度。这就如同给一个庞大的机器瘦身,让它变得更加轻便灵活,却不失强大的功能,从而达到云边端协调部署,联合作战的最佳效果。


为了实现这一目标,我们采用了多种技术手段。如模型量化、模型剪枝、知识蒸馏、架构优化等等。通过这些技术手段,我们大幅压缩了开端大模型的容量,更好地实现了小型化部署。


国产化算力适配是某些应用场景的强制性要求,我们要在边端嵌入式SoC芯片以及服务器侧各类NPU、GPU芯片上完成大模型的部署适配。这就好比为大模型打造一个国产家园,让它能在国产化的环境中稳定居住。由于国产化算力的生态还不完善,适配不同的国产算力平台成为部署行业大模型的重要任务。


三、现场模型进化


在城市治理的很多应用中,客户希望在行业大模型部署后,在其客户环境中,利用私有行业数据持续进行迭代和优化,为此,我们研发了一个私有、安全、功能齐全的AI赋能平台。在数据层面,该平台可提供灵活的数据标注、数据质量诊断、数据管理相关功能;在算法层面,该平台可针对零基础和资深算法开发人员提供不同的算法开发模式,满足其需求,对输出模型进行统一管理,方便模型复用;在算力层面,该平台能够提供优秀的分布式算力集群供AI训练与测试,用户不必感知,只需关注算法的开发和优化;在应用层面,该平台与业务应用深度融合,可以加速大模型版本的迭代更新。通过对大模型的快速微调和提示词优化,在用户的工作环境中实现开端大模型的能力提升。


四、业务智能体设计


大模型驱动的业务智能体,正从根本上颠覆传统软件的设计范式。它将僵化的菜单式操作转变为自然语言交互,从被动执行升级为主动规划与决策,并能调用工具自主完成复杂任务。业务智能体实现了从“人适应系统”到“系统理解人”的变革,重塑着业务流程与人机协同模式。



大模型如同是一个会思考的大脑,而业务智能体则似一个长出手脚具备行动能力的智能单体,它可以利用行业大模型能力先进反思,对已有的情况进行回顾和分析,借助工具获取更多信息和支持,并进行规划制定下一步的行动策略,最后付诸行动。在一个复杂的智能业务系统中,可能包含多个智能体,它们各自承担着不同的任务,相互协作,在大模型LLM的支持下,能够高效地处理各种复杂的问题,为业务的智能化发展提供强大的动力,助力我们在各个领域实现更高效、更智能的决策和行动。在这个智能业务系统中,还有一个关键的因素,就是“人”,人为系统提供了原始输入,关键交互,并且做出最终的决策判别。


最后,让我们展望一下AI决策智能,也就是AI 3.0的时代,何时才能在城市治理中出现。AI 2.0关注的是从城市相关数据中提取知识、模式和趋势,并能够进行推理和生成内容;而AI 3.0则是通过城市相关数据的驱动、模型自动构建和优化,在复杂环境中做出高效、自主的治理决策,是一个高度自治的AI世界,这也是通用人工智能(AGI)的核心特征,具备自主学习和决策的能力,能够像人类一样综合多源信息并动态调整策略,是人工智能技术的终极目标。


但是,我们必须客观的说,在AI 2.0时代,大模型还存在着幻觉和不具可解释性等关键难题,大模型不是万能的,它可以帮助城市“思考”,辅助人类决策,依靠智能体完成各种治理功能;但最终的指挥权、决断权还在人类指挥官手中。让AI处理信息和分析,让人来做价值判断和复杂沟通,这样才能真正打造出更安全、更便捷、更智慧的未来之城。