工具和工作流

分享工具和自动化工作流

“动动嘴”10分钟打造AI会话智能体（可分享到微信）

嗨，我是芦苇Z。今天想分享一次有趣的实践：如何用 AI 快速创建一个对话智能体，并通过微信小程序直接使用和分享。从一个灵感出发，大概 10 分钟内，你就能做出一个聊天式智能体，用来写祝福、生成段子，甚至优雅地“回怼”别人。借助 DeepSeek 或 ChatGPT，你还可以轻松地生成提示词和简介。虽然阿里的“百炼”平台、字节的“扣子”也能创建 AI 智能体，但这次我用的是腾讯元器平台。不仅支持智能体创建，还能同时部署到微信小程序，无需登录即可访问，非常适合分享和传播。我做了几个小玩意，欢迎体验： 🧀 魔鬼词典：用讽刺与悖论重新定义日常概念 👉 https://yuanqi.tencent.com/agent/BuHWwupDKyPz?from=share 🎉 祝福语生成器：根据场景和对象自动写祝福语 👉 https://yuanqi.tencent.com/agent/itNamai56Gnu?from=share 🤺 怼怼·回怼生成器：一键生成优雅反击语 👉 https://yuanqi.tencent.com/agent/FnaX2UeyKMuM?from=share 怎么做？以“祝福语生成器”为例，下面是完整流程：打开腾讯元器官网，用手机号或微信登录。点左侧边栏中的「创建智能体」，选择「对话式智能体」。填写名称、简介和提示词。提示词怎么写？可以让 ChatGPT 或 DeepSeek 帮你写。比如你想做一个祝福语助手，可以用这样的提示语让它帮你生成提示词：你是一位大模型提示词生成专家，请根据用户的需求编写一个智能助手的提示词，来指导大模型进行内容生成，要求： 1. 以 Markdown 格式输出 2. 贴合用户需求，描述智能助手的定位、能力、知识储备 3. 提示词应清晰、精确、易于理解，在保持质量的同时，尽可能简洁 4. 只输出提示词，不要输出多余解释请帮我生成一个“根据用户提供的场景帮助用户撰写祝福语，例如生日、婚礼、生孩子、职场晋升、节日、等等”的提示词得到的提示词可能是这样的：你是一位贴心且充满创意的祝福语智能助手，擅长根据不同场景、关系、语气和文化背景撰写个性化祝福语。请根据以下信息生成 2-3 条文案：【场景】：（如生日、婚礼、升职等）【对象】：（如朋友、同事、父母、恋人等）【风格】：（如温馨、搞笑、正式、诗意等）【其他要求】：（可选，如是否押韵、是否包含典故）再继续让 AI 帮你写简介，比如：我将这个提示词做成了一个小应用，叫“祝福语生成器”，帮我写一句简介。将生成的「提示词」和「简介」粘贴到元器的编辑框中，点击「AI生成头像」，选一个喜欢的头像。在「预览与调试」中简单测试下效果，满意后点右上角「去发布」，等待审核。通常几分钟就会通过。审核后，在「我的创建」中找到你的智能体，点击「更多」→「复制链接并分享」，就可以发给朋友使用了。也可以点击「使用方式」→「元宝小程序」，扫描二维码打开微信小程序，然后点击右上角菜单，可以将此小程序页面分享给其他人。恭喜！🎉 你的 AI 小应用已经上线啦。想做得更强？你还可以尝试这些进阶玩法：接入微信支付（MCP）做成收费智能体应用，官方提供了案例和接入文档： https://yuanqi.tencent.com/mcp-shop?detailmcpId=683f109ebfbc60d469a9a65a 需要申请正式版微信支付。 ...

任意文稿内容转为可视化的网页

大家好，我是芦苇Z。关于文字稿转换成信息图网页、文档美化，网络上已经有很多文章介绍。本文分享经过实践的改进版提示词，以及可自动化的工作流方法。基于DeepSeek，所有人都可以用得上，并轻松实现。不需要学设计，也不需要复杂的工具。简单几步，就能用AI把文字稿变成高颜值的信息图网页：效果展示：实际操作案例案例一：技术教程的华丽变身处理前：普通的Markdown文档，密密麻麻的文字（原文解决大体积 PDF 文档OCR提取困难：doc-to-text 实用指南）处理后：现代化卡片布局，专业配色，阅读体验一流 👀 点击打开网页版，查看完整效果案例二：概念解释文章的视觉升级处理前：纯文字的概念介绍（原文涌现性不对齐：AI大模型微调带来的潜在风险）处理后：结构化信息图表，知识点一目了然 👀 点击打开网页版，查看完整效果生成的网页版内容具有以下优点：提升阅读体验：相比密集的纯文本，信息卡片式网页结构更清晰、层次更分明，有助于读者快速浏览并聚焦关键信息。增强视觉吸引力：现代化的配色方案、图标设计、插图元素及动画效果，不仅提升整体美感，也有效缓解视觉疲劳。优化交互体验：支持深色/浅色模式切换、平滑滚动、悬停高亮、返回顶部等微交互设计，增强用户的操作反馈与参与感。适配多端展示：响应式布局确保网页在手机、平板、桌面等各类设备上均具备良好的显示效果与交互体验。强化信息可视化：借助图表、进度条、流程图等直观形式，将复杂抽象的信息清晰呈现，提升理解效率。手动操作（人人都会）对于偶尔需要美化一两个文档的朋友，手动操作依然是最直接、易用的方式。操作方法整理如下：准备工作你只需要准备这些：打开DeepSeek Chat：访问 chat.deepseek.com（免费注册）开启深度思考模式：让生成效果更稳定（记得勾选）准备要转换的文档内容：Markdown、纯文本都行提示词这是我参考歸藏分享的提示词基础上，调整后的提示词模板。会根据输入的文章内容自动选择合适的风格样式。也可在提示词尾部明确指定想要的风格样式等其它需求。（可将其中作者信息替换为你的信息）你是一位信息可视化设计专家，根据用户提供的任意内容，将其转化为美观漂亮的中文可视化网页作品。首先分析用户提供的内容，了解内容类型，选择合适的样式和风格，然后生成网页作品，要求如下： ## 内容要求 - 所有页面内容必须为简体中文 - 保持原文件的核心信息，但以更易读、可视化的方式呈现 - 在页面底部添加作者信息区域，包含作者姓名 `芦苇Z`、作者主页 `https://nodewee.github.io`。注意不要添加其它未提供的作者信息。 - 创作时间：2025年 ## 设计风格 - 整体风格参考Linear App的简约现代设计 - 使用清晰的视觉层次结构，突出重要内容 - 配色方案应专业、和谐，适合长时间阅读 ## 技术规范 - 使用HTML5、TailwindCSS 3.0+（通过CDN引入）和必要的JavaScript - 实现完整的深色/浅色模式切换功能，默认跟随系统设置 - 代码结构清晰，包含适当注释，便于理解和维护 ## 响应式设计 - 页面必须在所有设备上（手机、平板、桌面）完美展示 - 针对不同屏幕尺寸优化布局和字体大小 - 确保移动端有良好的触控体验 ## 媒体资源 - 使用文档中的Markdown图片链接（如果有的话） - 使用文档中的视频嵌入代码（如果有的话） ## 图标与视觉元素 - 使用专业图标库如Font Awesome或Material Icons（通过CDN引入） - 根据内容主题选择合适的插图或图表展示数据 - 避免使用emoji作为主要图标 ## 交互体验 - 添加适当的微交互效果提升用户体验： - 按钮悬停时有轻微放大和颜色变化 - 卡片元素悬停时有精致的阴影和边框效果 - 页面滚动时有平滑过渡效果 - 内容区块加载时有优雅的淡入动画 ## 性能优化 - 确保页面加载速度快，避免不必要的大型资源 - 图片使用现代格式(WebP)并进行适当压缩 - 实现懒加载技术用于长页面内容 ## 输出要求 - 提供完整可运行的单一HTML文件，包含所有必要的CSS和JavaScript - 确保代码符合W3C标准，无错误警告 - 页面在不同浏览器中保持一致的外观和功能请根据上传文件的内容类型（文档、数据、图片等），创建最适合展示该内容的可视化网页。 ## 输出要求 - 仅输出单页的HTML代码，不需要任何解释和说明 --- 用户提供的内容： """{{替换为你的文档内容}}""" --- 直接输出HTML内容，无需任何解释说明。操作步骤复制提示词：将上面的提示词完整复制到DeepSeek对话框替换内容：把 {{替换为你的文档内容}} 替换成你要美化的文章点击发送：等待AI生成网页（通常1-2分钟）预览效果：DeepSeek 网页版可以直接显示网页效果保存使用：满意后下载HTML文件即可如果你看到生成的网页效果，说明操作成功了！ ...

解决大体积 PDF 文档OCR提取困难：doc-to-text 实用指南

当 PDF 成了“拦路虎” 又是一个被文档支配的夜晚。小张盯着 300 页的技术手册发愁——导师要建知识库，可这玩意儿比字典还厚，怎么提取文字成了难题。试了几个在线 OCR，不是限制页数、让你充值会员，就是上传失败、转一半卡死。PDF 页面太多太大，传统 OCR 工具常常直接崩溃。面对“刺头”文档，是时候换个思路了。 “化整为零”处理大 PDF doc-to-text 的解决方案是：不要试图一次性处理整个 PDF，而是将其拆分为单页，逐页识别，再合并为完整文本。处理流程概括如下：大型 PDF → 拆解成单页 → 每页 OCR → 合并输出这样做有以下优势：每页独立处理，单页失败不会影响整体支持断点续传，意外中断可继续处理内存占用低，适合处理上百页文档可适应不同尺寸和复杂排版的页面无论是工作报告、技术手册，还是电子图书，都可以逐页拆解、分批“吃下”。分页处理机制如果 PDF 内容为图像（默认，可通过 --content-type image 明确指定），则自动分页，将 PDF 拆解为单页图像，再用 OCR 工具逐页识别，适合扫描件或图片型 PDF。如果 PDF 内容为文字（通过 --content-type text 指定），则不分页，直接用 Calibre 提取和转换文本，适合原生文字型 PDF。两种 OCR 引擎灵活选择 doc-to-text 目前支持两种 OCR 方式，可按需选择： surya-ocr：本地运行的 OCR 模型，支持中英文等多种语言，结构清晰的文档识别效果好。适合注重数据隐私、希望离线处理的用户。对电脑配置有要求，处理速度取决于本地性能。 llm-caller：调用外部 AI 模型，如阿里云 qwen-vl-ocr，识别能力强，能处理手写、复杂排版等，推荐用于扫描件和难啃文档。不受本地配置影响，但需注册服务并配置 API Key。安装与环境准备指南推荐使用 amo 工具，可以更方便地安装 doc-to-text 及其依赖。 ...

AI 驱动的本地图片分类整理：安全、高效、零成本

手机导入的照片、各种截图、下载的网络图片、旅游照片……这些图片堆在一起，想整理却总是没时间？找张图要翻遍整个文件夹？本次分享一套基于本地 AI 模型的自动图片分类工具链，使用开源工具，完全离线运行，无需担心隐私与费用问题。系统可自动识别图片内容，并按“类型 + 内容”进行分类，助你快速构建整洁有序的图片库。一、方案概览 ✅ 核心功能 AI 内容识别：大模型自动判断图片类型与具体内容分类文件夹自动创建：自动建目录、分类归档支持批量处理：可处理单张或整个文件夹多种格式兼容：支持 PNG、JPG、GIF、BMP、TIFF、WebP、HEIC 等格式纯本地运行：无联网需求，保障隐私与数据安全自动重命名：避免文件重名覆盖 🧠 分类逻辑系统采用二维分类法：类型维度：照片（生活照、人物照、风景照等）截图（屏幕截屏、软件界面等）票据（发票、收据、车票等）文档（证件、扫描件等）内容维度：人物风景文本物品最终命名采用：类型_内容，如照片_人物、截图_文本、票据_表单等。 🛠 技术架构 amo：工作流调度与自动化工具 ollama：本地大模型运行平台 qwen2.5-vl:7b：阿里多模态模型，图像识别主力 ImageMagick：图片格式与尺寸处理 JavaScript 工作流：分类逻辑执行二、环境搭建指南 1. 安装 amo amo 是核心工作流调度器，负责串联所有组件。安装参考：amo 安装与使用指南 2. 安装 ollama 与视觉模型前往 ollama 官网下载并安装。拉取视觉识别模型： ollama pull qwen2.5vl:7b ✅ 推荐配置：内存 ≥ 8GB。如配置有限可选更小模型。 3. 安装辅助工具安装图片处理与模型调用组件： ...

告别手工整理：票据自动识别全流程

对于常常会遇到需要整理各类票据、发票、收据的场景。无论是报销、记账，还是家庭财务管理，手动录入票据信息既繁琐又容易出错。尤其当票据数量较多时，人工处理不仅耗时，还容易因疲劳而导致数据错误。本文结合此类需求，分享一套基于开源工具的票据识别、内容提取，票据整理和统计的自动流程。无需高深技术背景，只要有基本的命令行操作经验，就能上手。这套方案适用于各类票据处理场景，不仅能提高效率，还能显著降低错误率。一、主要环节整个票据处理流程可分为三个主要环节，每个环节都有对应的工具和方法： 1. 从票据文件中识别文字信息示例票据（火车票）：使用 qwen-vl-ocr-1028 模型识别结果： S056626 青岛 Qingdao K1136次萍泽 Heze 2013年2月3日17:38日开￥93.00元限乘当日当次车黄飞 3702051981****2011 12290003031313 S056626 青岛售 13车001号硬座可以看到，OCR模型成功识别出了票据上的所有关键信息，包括票号、出发地、目的地、车次、时间、票价等（地址有一处识别错误）。这些原始文本数据将为下一步的结构化处理奠定基础。 2. 从文字信息中提取结构化数据使用 deepseek-chat 模型提取的结构化信息结果： { "type-code": "train-ticket", "fields": { "票号": "S056626", "出发地": "青岛", "目的地": "菏泽", "车次": "K1136次", "发车时间": "2013年2月3日17:38", "票价": "￥93.00元", "乘车限制": "限乘当日当次车", "姓名": "黄飞", "身份证号": "3702051981****2011", "序列号": "12290003031313", "售票地": "青岛售", "车厢号": "13车", "座位号": "001号", "座位类型": "硬座" } } 模型不仅提取出了所有关键字段，还自动纠正了OCR识别错误，并判断出了票据类型（火车票），并将数据组织成了规范的JSON结构。这种结构化数据非常适合后续的统计分析和数据库存储。用于信息提取的AI提示词可从下文分享的大模型调用模板中获取。或如需提示词原文，可评论或私信。 3. 保存结构化信息和生成汇总文件处理完成后，系统会生成两类文件：单张票据JSON文件：每张票据生成一个独立的JSON文件，包含该票据的所有结构化信息，便于后续查阅和单据追溯汇总文件：将所有票据信息合并为CSV或JSON格式的汇总表，按票据类型（如火车票、机票、餐饮发票等）分组，方便进行总览和分类统计汇总表格对于财务报表、经费统计、消费分析等场景尤为有用，可以直接导入到Excel或其他数据分析工具中进行进一步处理。二、所需工具的安装与配置在开始使用这套流程前，需要先安装配置几个核心工具。如果之前已经安装和配置，可跳过此步骤。 1. 安装 amo 工具 amo 是一个命令行工具，用于运行和管理工作流脚本，以及安装和管理常用的外部工具。因篇幅所限，本文不再赘述，详细安装指南可参考工具 amo 的安装与使用指南。 ...