从2024年众多新品面世的热闹程度来看,大模型的激烈竞争,已经卷到了中医药。无论是科技巨头、中医创新企业,还是研究机构,甚至是地方政府,均已加入这场中医药大模型混战。
贴上大模型标签并不难,但只有中医药的效率和边界真正得到质的提升后,大模型才有更重要的实际价值和意义。
长久以来,中医药一直是毁誉参半的对象。中医药与大模型是“天作之合”的好评背后,“计算机算命”的质疑声也未断绝。中医药和大模型的结合,是蹭热度还是真需求?动脉网与多家率先开展中医药大模型研究的企业、研究机构聊了聊,供行业参考。
本文主要观点如下:
1、不止于赛博中医,药物研发、临床辅助诊断已有成效
2、深度学习和知识图谱是两条技术路径,1+1才能大于2
3、数据是基础,六大要素组成高质量的中医诊疗语料库
4、交叉人才、用户接受度、知识产权等难点尚待解决
5、可用、有利、经验证且基于真实场景的,才是中医大模型
01 “中医药大模型,已经多到老祖宗的名字都不够用了”
仿佛有一道闸门在这两年被打开,大批中医药大模型争先涌出。据不完全统计,2023年以来,已有数十个中医药相关的大模型相继亮相。
部分中医药大模型
诸多行业文章对当前的中医药大模型进行了整理罗列,本文不再赘述。需要注意的是,当前的中医药大模型都有多个应用场景,上述表格仅作简单分类,不代表该大模型仅属于这一种应用场景或一种功能。
华为、百度、阿里、讯飞等科技大厂,基于算力算法优势,积极联合中医药在内的垂直领域开展垂直行业大模型;清华大学、中国中医科学院等科研院所也在积极通过大模型等先进技术进行中医药传承与创新。
当然,中医药大模型赛道肯定不乏中医药产业界的“土著”,如云南白药、华润江中、太极集团、天士力等知名中药企业,以及大经中医、中医聪宝这类专研中医AI多年的创新企业。
此外,在一些具有中医药产业基础的地区,相关政府也在着力发展中医药大模型产业。6月,亳州市宣布和华为公司合作,正式建设中医药产业大模型-华佗中医药大模型;同期,中医药横琴大模型在横琴粤澳深度合作区正式启动;早些时候,由天津多个政产学研医单位联合开发的*面向中医针灸领域的“天河·灵枢”、“海河·岐伯”大模型分别发布和开放内测。
大模型之多,颇有“百花齐放,百家争鸣”之感。为了迅速将产品的技术基础和功能特点传递给用户,与用户建立情感链接上的独特辨识度,国产大模型在命名上也花费了一番功夫,从神话人物到圣贤百家,甚至是道家术语、动植物名称,各类名字不断出现,上演了一场大模型的“封神榜”。
中医药大模型也纷纷请出扁鹊、华佗、神农、黄帝、岐伯、张仲景等开宗立派的大人物,或使用本草、灵枢、岐黄、轩岐等中医药高频词,来寄托中医药传承与创新的精神和使命。
命名的仪式感,一定程度反映出行业对大模型未来发展潜力的期待。但大模型归根结底是关于生产力的革命,终究还是要回归真实场景,解决实际问题。这是技术的最终归宿,也是大模型良性发展的开端。
02 不止于赛博中医,药物研发、临床辅助诊断已有成效
出现在很多医院或体检中心的AI中医机器人,因如老中医一般把脉、开方,形成反差感,而被戏称为“赛博中医”。这其中或有调侃成分,但也确实让更多人开始关注到了传统中医药的与时俱进。
多位采访对象表示,现阶段的中医药大模型应用场景主要包括新药研发、问诊导诊、辅助诊疗和康复健康管理。
中医聪宝董事长顾高生认为,中医药+大模型是传统中医药服务的一场革命,面向康养机构、药店诊所等偏消费场景的大健康养生服务是中医药大模型目前最有希望落地的场景,当然2C场景更有市场,“这类场景语言交互需求强,和大模型在语义理解、生成交互的技术优势是比较契合的。在辅助诊疗场景,则考验大模型对多模态数据训练、处理和图像识别上的能力,也有非常好的应用前景,如,聪宝基于深度学习技术的国医大师专病机器人,加入了大模型技术后,就实现了系统升级,预训练模型减少了20%的训练时间,处方相似度提升了10%。”
中医聪宝研发的“聪宝素问”大模型,可对用户提出的中医药问题做到“有问必答”,并通过“围栏”技术保障养生保健应用所必须的科学与严谨。需要注意的是,“聪宝素问”大模型已经升级到了3.0版本,如杭州市卫健委“智能中医分诊服务”通过机器人问答来匹配“适合你的中医”,系统上线“浙里办”;应用场景更多元化,可根据多模数据和专家经验数据,为医疗机构、医生、保险公司、医药企业赋能。
中医药大模型对新药研发、中药产业发展的助力,也吸引了大批中药企业的注意力。
如天士力“数智本草”大模型能够帮助研究者完成中医药理论证据的挖掘和总结,也可结合相应算法快捷实现药材与复方的筛选和优化。根据“天士力研究院”信息,天士力利用大模型中天然产物分子大模型,完成糖尿病肾病及肺纤维化的天然产物分子筛选,通过高效虚拟筛选,精准预测和优化候选分子的药效和安全性,从而加速中药组分新药的发现和开发过程。
此外,由国药太极作为智库联合开发的“本草智库·中药大模型”,收录了覆盖中药全产业链的2000余万条中药研究底层核心数据,让中药材有了“基因身份证”,实现中药研究底层核心数据与中药全产业链关键环节的有机结合,对中药材种植、质量控制、药物研发等中药全产业链关键环节有中药价值。
中医辅助诊疗是大多数中医药大模型都希望实现的能力,但各厂商的研发路径却不尽相同。大经中医创始人、CEO李文友说到,中医诊疗数字化和智能化一直是中医现代化发展的重要方向之一,按照技术演进路径,已经历了符号逻辑、机器学习和深度学习三大阶段,随着技术的进步,模型规模的扩大,使得模型出现了“知识涌现”的能力。至此,人工智能进入“生成式AI”新时代。可以说,中医药大模型是部分中医智能辅助诊疗系统在大模型技术作用下的迭代产物。
2023年8月,大经中医发布的“岐黄问道”大模型便是基于其完备的知识图谱体系生长起来的。大经中医基于过往八年的高质量中医数据和数智中医计算积累,构建了完备的中医知识图谱体系,并将其应用在中医CDSS系统中。而知识图谱转化所形成的1100多万条中医自然语义数据也成为了大经中医“岐黄问道”大模型的训练数据。
大经中医副总经理、研发总负责人赵静表示,知识图谱和大模型深度学习虽然是两条技术路径,但可以多技术融合发展。“首先,我们要利用知识图谱在可解释性、可信性、知识标准化方面的优势,增强我们大模型从预训练到应用的全生命周期各环节,提升大模型的训练效果和推理结果的可用性;反之亦然,基于大模型在语义理解、内容生成的技术优势,来增强知识图谱从构建到应用的全生命周期各环节,提升知识图谱生成的效率和质量。”
“没有场景,形成不了后面的数据反馈,中医药大模型就是一个空中楼阁。”多位受访者表示,要把大模型放到具体场景中应用,在使用中实现优化。
03 数据是基础,六大要素组成高质量中医数据
一个行业共识是,在中医药大模型的训练中,如何收集和整理高质量的中医数据,是中医大模型开发面临的首要问题。在此,我们要先明确,何为高质量的中医药数据?
大经中医李文友介绍,中医知识链包括了人、病(疾病)、症(症状、体征)、证(病理性概括)、法(治疗方法)、方(医方)、药物六大要素。以上六类要素完整且要素之间的关系是真实的,即为高质量数据。
首先,中医典籍、经典名方、专业文献这类静态数据,经过专业的辨伪存真,可作为高质量数据的重要来源之一。在前述表格中,我们也能看到这类数据是很多大模型的数据来源。
例如“海河·岐伯”大模型便是以《黄帝内经》等中医典籍为核心,抽取四库全书医家类资料、传统中医文献与全文中医药械资源的文本素材、以中医药领域的基本概念、知识、理论、基本、药物、方剂为节点,以节点之间的关系为边,形成的完整知识图谱。天士力的“数智本草”大模型也是吸纳了中药古籍、方剂、中成药配方,以及文献摘要、临床方案和中药专利、药典政策指南等数据,整体参数量达到了380亿。
中医药大模型的高质量数据另一个重要来源,是每天在真实诊疗过程中产生的临床数据,如脉象、舌象、经络、穴位数据,以及中医专家的医案数据、诊疗经验等。
但这类数据在价值挖掘上存在两个难点,一是临床数据记录不完整或表述不一,二是一些临床数据沉淀在各类医疗机构、名老中医工作室中,隐秘性较强。
具体来看,中医类电子病历系统,除采集西医规范中的内容外,还需要记录患者的脉诊、舌诊、面诊等诸多内容。但中医电子病历模板目前尚无全国统一模板,标准不一,以及中医生诊疗记录习惯不同、专业术语用词不规范等因素,都会不同程度地影响中医病历质量及大模型训练质量。
此外,中医药学术流派林立,各有其独特的诊疗方法论,中医历来也有“道不传非人、法不传六耳”的传统。这都导致中医公开数据的质量普遍较低,高质量数据则非常私密。
在数据收集部分,中医聪宝通过两条路径来收集中医临床数据,一方面,中医聪宝基于可规模化、可复制的中医智能医共体/城市中医大脑,汇聚了全国18个省市的超5000家医疗机构,每天系统中产生的“活数据”都可经脱敏后使用;另一方面,中医聪宝自主研发智能中医传承创新平台,帮助全国不同流派的名老中医进行经验落地。
数据质量的好坏直接关系到模型表现的优劣。在数据收集后,开发单位还要设计数据清洗和预处理策略和规则,采用文本处理和强化学习等技术,进行自动数据预处理,同时结合人工审查,剔除错误和不准确的数据,实现人机协同的大规模中医诊疗预料准备,建立高质量的中医诊疗语料库。比如大经中医就花费了八年时间,打造了全国极少数的中医症状/体征的术语规范化词典。
在大经中医的岐黄问道大模型中,中医专家还会参与大模型的调整反馈工作,让大模型增加对中医知识和中医思维的理解,确保中医大模型回答的准确性和一致性。大模型的“基础能力”叠加上中医的“行业能力”后,中医大模型就具备了中医垂直领域的提炼、分类、模仿、推测、识别等能力,并通过与中医行业多种业务场景结合,成为可落地、可使用的中医大模型。
经观察,现有中医大模型的数据体量最高为百亿级,虽然和通用大模型动辄以兆计算的数据规模相比,前者规模不大,但这些数据皆是经过清洗的高质量数据,其一条高质量数据的价值或比上百条互联网泛内容的数据价值要高得多。
04 交叉人才、用户接受度、知识产权等难点尚待解决
中医药大模型,除了需要源源不断供给的高质量中医药数据,还需要了解行业Know-how,即对中医药产业拥有特有的知识,对理解力要求也更高。
大经中医李文友表示,中医药大模型更多的是对古老中医智慧的数智化传承,在研发过程中要注意中医思维逻辑的一致性和合理性、个性化治疗方案的精准度和有效性,以及大模型需要具备持续学习和自我迭代的能力,来适应不断变化的医学知识和临床需求。同时,在研发团队建设方面,还要注重研发团队的多元化和跨学科融合,以促进大模型的创新和发展。
除了找到真实应用场景和大量高质量数据外,北京大学重庆大数据研究院智慧中西医研究中心副主任、智医存内CEO黄新霆认为,用户接受度也是一个需要值得注意的维度,“提高医生、患者的接受度,不仅要有好的诊疗效果,而且不能给用户带来使用上的负担。”
中医聪宝顾高生提到,当前中国在算法算力被“卡脖子”、运营成本高昂、收益分配等问题。顾高生提到,中医素有门派之分,如何对其进行合规合法合理的产业化,还需要完善知识产权相关的政策措施。
此外,受访者们还提到了兼具中医知识底蕴和AI技术能力的交叉人才培养、监管部门数据权属界定等问题。
05 可使用、对用户有利、经过验证且基于真实应用场景的,才是中医大模型
最后,让我们直面中医和大模型结合过程遇到的质疑。
智医存内黄新霆表示,当前行业缺乏对中医药大模型的标准界定,“目前国内发布的大模型很多,但要符合中医药大模型的特点却很难。可使用、对用户有利、经过验证,且基于真实应用场景,我认为是中医大模型需要具备的几个重要特点。”
中医聪宝顾高生认为,“疗效好”是中医大模型的最终评价标准。同时,基于大模型的中医信息化系统,可以和患者产生更高效率更多维度的交互,这也是新质生产力的表现。
在大经中医李文友看来,中医和人工智能有很大的同质性。中医这门学科存在很多的争论,其原因在于很多对中医不了解的人觉得中医太模糊、无法确定。但其实,如果我们将中医理解成一个“黑箱”系统,输入患者的症状和体征,得到一个有效的方剂,就会发现这一过程和AI系统的输入数据、输出结果类似。
大经中医赵静补充到,中医是一门历史悠久、富含哲理的医学体系。核心在于辨证论治、因人而异的治疗原则。中医这种高度个性化和综合性的诊疗思路,和大模型技术在处理复杂关联性、模式识别和深度学习的能力是相辅相成的。
总的来说,中医拒绝不了大模型,这也是时代发展的必然趋势。大模型以其强大的数据处理和分析能力,为中医传承与创新注入了新的活力,然而我们也要清醒认识到,大模型只是工具,中医的望闻问切、整体观念和辨证论治等独特观念,依然是中医药的灵魂所在。