AI大模型如今在互联网上风头正劲,能写代码、作诗画图,甚至能高分通过人类的律师资格考试。
但在具体的金融场景下,面对一张拍歪了的营业执照、一份有阴影的企业流水证明,AI学霸的眼力可能还不如刚入行的信贷员。
实验室的理想环境下,大模型可以精准识别高清、平整的证件图。但场景一旦切换到真实的信贷业务中,情况便急转直下。
要求客户提供的资料没有阴影遮挡、没有反光模糊,边缘裁剪完美,还得角度平整、光线均匀,这在现实中几乎是不可能的任务,尤其是对于非标程度极高的小微企业信贷而言。
恰恰是这些充满噪音的细节,决定了最终风控审核的结果。
金融信贷业务容错率低,非结构化数据复杂,审核要求还高。既有的通用技术手段,已很难满足现有业务的精细化发展需求。但如何定义一个“好”的信贷审核模型?是否可以通过标准化来衡量AI模型的能力?
AI若想在金融圈立足,目标必须是拥有如资深信贷员般的专业能力,且需要一个清晰的标准来界定其优劣。目前市场上有AI信贷员服务的玩家,如奇富科技,他们会不会帮助金融机构去界定“好坏”?
金融机构的“无尺之痛”
经济周期波动下,金融机构对于智能信贷审核工具的需求愈发强烈。
遗憾的是,想采购趁手的工具,却找不到一把衡量好坏的尺子。这就好比,你要招聘能开夜路的卡车司机,手里却只有他的奥数成绩单。
市场上大模型层出不穷,但行业内缺乏权威且统一的衡量标准(Benchmark),这让金融机构陷入了深深的选型焦虑。
这种焦虑源于大模型与机构需求在多个层面的错位。
首先是题目错位。
市面上主流的多模态评测基准,要么盯着通用的自然场景,比如识别猫或苹果,要么聚焦于股票K线和财报分析。对于信贷业务核心的证件审核与信息交叉验证,关注度有限。
通用模型能背诵百科全书,却未必能读懂逻辑复杂的征信报告。
其次是数据隔离。
受限于合规要求,真实的信贷数据往往锁在银行的保险柜里,无法共享。这造成了一个典型的隐私悖论:
学术界拿不到真实数据,只能在理论上训练模型,难以落地;金融机构守着大把数据和落地场景,却因为缺乏公开公平的衡量标准,无法横向对比各家模型的效果。
两端都在摸索,但距离标准答案尚远。
最后是环境失真。
实验室里的数据常常过于理想化,而真实业务环境复杂多变,倾斜、模糊、水印等干扰因素无处不在。模型在实验室里跑分再高,一旦遇到真实场景的脏数据,泛化性能往往大打折扣。
所以,行业缺乏标准,结果就是金融机构无法做出理性选型,技术厂家也很难用统一尺度,证明自家产品的价值。包括奇富科技在内的一批长期深耕金融服务的服务商,都在寻求一套更贴近真实业务的衡量框架。
对金融机构而言,这种“无尺之痛”一方面是技术问题,另一方面也关系到风险是否可控、决策是否具备可复核与可解释的基础。这也是当前制约银行深入推进数智化转型的一大痛点。
造一把既土又洋的尺子
金融业务中,信贷审核环节的非结构化数据密度高,责任强度也高,既是痛点,也最容易体现AI的价值。
那么,如果金融机构要为信贷AI设立标准,这套标准需要满足两个看似矛盾的宏观条件。
它必须足够“土”,贴近金融行业的泥泞地带,了解边角痛点,具备全面评价信贷场景解决方案的能力。
它又得足够“洋”,技术视野要宽广,理解通用大模型向垂直领域演进的技术路径,并据此构建匹配的评测维度。
这把尺子的权威性,决定它能否被行业买单,也决定金融机构引入AI时,是否拥有一套被各方理解且能复核的判断依据。
在这个问题上,传统金融机构体量庞大,强调合规稳健,难以独自完成底层的技术基建。纯粹的互联网巨头又距离业务太远,不懂金融风控中那些微妙的尺度拿捏。
行业迫切需要一个中间人来打破僵局。它既理解金融业务的深水区,又具备顶尖的AI技术能力,提供更加垂直精准的解决方案。
在过去的金融科技实践中,奇富科技深度参与信贷审核流程,对真实场景中的数据噪声与审核逻辑有着持续积累。
既然买不到合适的尺子,他们决定联合复旦大学与华南理工大学的研究团队,自己造一把。一个连通金融与AI的尝试,造就了首个面向信贷场景的多模态评测基准FCMBench-V1.0。
把真实世界搬进测评体系
为确保这套基准权威且实用,研究团队在基础的数据构建层面,干了件看起来极其原始的苦差事——物理仿真。
真实的信贷数据涉及合规要求,无法公开;纯粹的数字合成数据又太过干净,并不真实。为解决这一悖论,团队选择了更难的路径。
他们构建了一个包含21位虚拟人物的信贷资料库,详细设定了这些人物的年龄、收入、婚姻状况,以及小微经营特征,生成数十种文档模板。
重点来了,团队并未止步于电脑合成,而是将这些生成的身份证、房产证、银行流水,打印并制作成了实物。
接着,用iPhone、华为、小米等五款常见品牌的手机,对着实物证件拍照。他们甚至人为制造“烂片”,模拟现实中常见的反光、折痕、模糊等非标环境。
这种对物理世界的高度还原,让这一包含4000多张合规图像、8000多个任务指令的数据集,拥有了真实的质感。
有了数据,还需要有懂行的评判逻辑。
FCMBench测评体系涉及“感知-推理-鲁棒性”等三个维度,把看清、看懂、抗干扰融入测评框架。
具体而言,就是要求大模型不仅能看清楚材料本身,还能识别字段与业务的逻辑关系,完成信息交叉比对,并且在极端与异常样本中依然不出错。
例如,检查身份证与房产证上的名字是否一致;更复杂些,模型需要同时比对收入证明与完税证明,用类似信贷员的业务逻辑,校验数据合理性:
申请人声称个人年收入高于10万元,但完税证明体现的纳税比例低于10%,AI应当立即警觉——这极有可能是一份注水的收入证明。
事实上,FCMBench并不苛求模型在某一特定维度的极致分数,而是帮助金融机构在稳健性、覆盖度与业务效率之间,找到更符合自身风险偏好的平衡点。
这种像老信贷员一样的直觉,才是风控AI的灵魂。
通才与专才的较量,不服跑个分?
考卷出好了,谁能拿高分?
在这样严苛的考场中,奇富科技考察了全球14家机构的23个主流模型。测试对象既包括谷歌、OpenAI这样的通用巨头,也包括经过特定训练的垂直模型。
不服跑个分?
FCMBench的评测中,不同类型模型各有胜负。通用模型方面,谷歌的Gemini 3 Pro在商业模型中领跑,阿里的Qwen3-VL-235B则是开源基模中的佼佼者。
但回到真实的信贷场景,以统一的综合指标开展横向比较时,奇富科技自研的信贷垂类多模态大模型Qfin-VL-Instruct,拿下了全模型最高分。
所谓综合指标(即F1),是召回率(Recall)与精确率(Precision)的调和平均。信贷审核中,模型若过度偏向精确率,可能过于谨慎,导致误拒正常申请;若过度偏向召回率,则可能过于宽松,放大风险敞口。
这一测评体系下,模型综合得分高,反映其结构化能力与鲁棒性表现更均衡,也更有利于适配真实信贷业务的场景需求。
奇富Qfin模型夺冠,验证了垂直大模型存在的商业逻辑:术业有专攻。
当通用大模型试图用常识去理解世界时,经过高质量行业数据微调的垂直模型,更熟悉行业的潜规则。打个比方,通用模型像是博士,上知天文下知地理;而奇富Qfin模型更像坐了十年柜台的老会计。
除了准确率,这笔账还要考虑成本和效率。
通用的思考型大模型表现优秀,缺点在于推理速度慢,算力消耗大。真实的信贷审批业务中,窗口期往往只有几十秒。
奇富Qfin模型采用指令模式,既保持了高准确率,又让推理速度比开启思维链的通用模型快了2-3倍,Token消耗量更是呈数量级下降。
从测试结果来看,基于高质量行业数据微调的垂直模型,可以在特定金融场景下,以更低的成本、更快的响应速度,与参数量巨大的通用巨头一较高下。
小结
技术狂奔之后,终需落地生根。
如奇富科技多模态负责人杨叶辉所言,如果特定模型在这一测评基准上取得好成绩,“理论上就可以面向实际落地,而不仅仅是实验室里的一个指标。”
为践行承诺,并消除“既当裁判又当运动员”的疑虑,奇富科技宣布开源FCMBench的数据集与评测方法。这打通了学术界与产业界的壁垒,为行业提供了稀缺、合规且高质量的信贷场景数据。
展望未来,AI正进入务实时代。未来的竞争,关键在于谁能扎根行业,解决具体的产业问题。
奇富科技通过构建FCMBench,连通了AI研究与金融落地。它用事实告诉行业,真正实用的AI,诞生在真实的业务泥泞里。
这也是奇富科技助力金融机构跨越数智化转型深水区的核心价值所在。
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。如对本稿件有异议或投诉,请联系 tougao@huxiu.com。