分享工具和自动化工作流
告别手工整理:票据自动识别全流程
对于常常会遇到需要整理各类票据、发票、收据的场景。无论是报销、记账,还是家庭财务管理,手动录入票据信息既繁琐又容易出错。尤其当票据数量较多时,人工处理不仅耗时,还容易因疲劳而导致数据错误。 本文结合此类需求,分享一套基于开源工具的票据识别、内容提取,票据整理和统计的自动流程。无需高深技术背景,只要有基本的命令行操作经验,就能上手。这套方案适用于各类票据处理场景,不仅能提高效率,还能显著降低错误率。 一、主要环节 整个票据处理流程可分为三个主要环节,每个环节都有对应的工具和方法: 1. 从票据文件中识别文字信息 示例票据(火车票): 使用 qwen-vl-ocr-1028 模型识别结果: S056626 青岛 Qingdao K1136次 萍 泽 Heze 2013年2月3日17:38日开 ¥93.00元 限乘当日当次车 黄飞 3702051981****2011 12290003031313 S056626 青岛售 13车001号 硬座 可以看到,OCR模型成功识别出了票据上的所有关键信息,包括票号、出发地、目的地、车次、时间、票价等(地址有一处识别错误)。这些原始文本数据将为下一步的结构化处理奠定基础。 2. 从文字信息中提取结构化数据 使用 deepseek-chat 模型提取的结构化信息结果: { "type-code": "train-ticket", "fields": { "票号": "S056626", "出发地": "青岛", "目的地": "菏泽", "车次": "K1136次", "发车时间": "2013年2月3日17:38", "票价": "¥93.00元", "乘车限制": "限乘当日当次车", "姓名": "黄飞", "身份证号": "3702051981****2011", "序列号": "12290003031313", "售票地": "青岛售", "车厢号": "13车", "座位号": "001号", "座位类型": "硬座" } } 模型不仅提取出了所有关键字段,还自动纠正了OCR识别错误,并判断出了票据类型(火车票),并将数据组织成了规范的JSON结构。这种结构化数据非常适合后续的统计分析和数据库存储。 用于信息提取的AI提示词可从下文分享的大模型调用模板中获取。或如需提示词原文,可评论或私信。 3. 保存结构化信息和生成汇总文件 处理完成后,系统会生成两类文件: 单张票据JSON文件:每张票据生成一个独立的JSON文件,包含该票据的所有结构化信息,便于后续查阅和单据追溯 汇总文件:将所有票据信息合并为CSV或JSON格式的汇总表,按票据类型(如火车票、机票、餐饮发票等)分组,方便进行总览和分类统计 汇总表格对于财务报表、经费统计、消费分析等场景尤为有用,可以直接导入到Excel或其他数据分析工具中进行进一步处理。 二、所需工具的安装与配置 在开始使用这套流程前,需要先安装配置几个核心工具。如果之前已经安装和配置,可跳过此步骤。 1. 安装 amo 工具 amo 是一个命令行工具,用于运行和管理工作流脚本,以及安装和管理常用的外部工具。 因篇幅所限,本文不再赘述,详细安装指南可参考 工具 amo 的安装与使用指南。 ...