docx-to-html - SKILL.md Agent Skill

name: docx-to-html description: "每当用户拥有一个 DOCX 文件（.docx）并希望对其进行转换、阅读、查看、提取内容或以任何方式处理它（包括总结、在浏览器中显示、提取表格或列表，或将文件数据输入到 AI 流程中）时，请使用此技能。对于任何涉及 DOCX 文件的任务，即使请求看起来很简单，也请始终使用此技能。触发条件包括：'convert docx'、'open word file'、'read word document'、'extract tables from docx'，或任何提及 DOCX 文件名的操作。"

该技能提供了一种简单的方法，可以将 Microsoft Word (.docx) 文档转换为结构清晰、语义丰富的 HTML，使其适用于各种基于 Web 和 AI 的应用程序。

要安装 Node.js 依赖项，请从 scripts/ 目录运行以下命令：

npm install

定位 DOCX 文件：确定要转换的 .docx 文件的路径。
运行转换脚本：从技能的 scripts/ 目录执行 Python 封装脚本：
```
python3 <skill-dir>/scripts/convert.py <input_path.docx> <output_path.html>
```
请将 <skill-dir> 替换为实际安装此技能的路径。
验证输出：在浏览器中打开生成的 .html 文件并检查：
- 标题（<h1>、<h2> 等）以正确的层次结构显示
- 表格按预期显示行和列
- 列表以项目符号或编号项的形式显示（而不是纯文本）
- 粗体、斜体和内联格式得到保留
- 图片可见（默认情况下以 base64 格式嵌入）
处理 HTML：使用生成的 HTML 进行进一步处理，如摘要、索引或显示。

该转换过程依赖于 mammoth.js，它优先考虑文档的语义含义而非视觉呈现：

问题	可能原因	解决方法
`node: command not found`	未安装 Node.js	安装 Node.js（版本 16 或更高）
`Cannot find module 'mammoth'`	npm 依赖项缺失	在 `scripts/` 目录中运行 `npm install`
输出为空或混乱	DOCX 文件损坏或受密码保护	尝试重新从 Microsoft Word 保存文件
图片缺失	嵌入的图片过大	查看 `docx-converter.js` 中 `mammoth.js` 对图片大小的限制