# CHANGELOG ## v1.1.0 (2026-05-17) - **PDF 语义重构**: 引入全局语义分析引擎。 - **无缝流**: 彻底移除分页干扰(移除 `---` 和 `Page X` 标记),实现跨页内容自然合并。 - **智能标题层级**: 自动锁定文档总标题,智能识别并合并跨行长标题,避免封面期标题碎片化。 - **自动平衡**: 根据文档内容自动提升章节标题层级,确保 Markdown 目录结构平衡。 - **鲁棒表格识别**: 调优列间距算法并增加长句过滤,大幅降低 PDF 误判表格的概率。 - **转换能力全面对齐**: - **PPTX**: 每一页幻灯片标题现在统一识别为 `#` 一级标题,优化页面视觉分层。 - **DOCX**: 重构 XML 解析,完美支持 Word 原生表格 (`w:tbl`) 转换为 Markdown 表格。 - **XLSX**: 提升 Sheet 名称为 `#` 标题。 - **工程化增强**: 新增 `test_res/testmd.sh` 自动化验证脚本,覆盖 4 种主流办公格式的 Markdown 转换质量。 - **接口一致性**: 强制所有格式 Markdown 输出从一级标题 (`#`) 开始。 ## v1.0.9 (2026-05-17) - **新特性**: 内置功能完整的命令行工具 `doc` (`cmd/doc`)。 - **功能增强**: `doc` 支持创建、打开、查看预览(Markdown)、转换为 JSON、查看元数据(Inspect)以及数据注入(Excel)。 - **文档优化**: README 增加 `doc` 命令行工具的安装与使用指南。 ## v1.0.8 (2026-05-15) - **基础设施对齐**: 同步更新 `go/cast` 和 `go/file` 至最新版本。 - **功能修复**: 修复 Excel 单元格解析在某些边界情况下的偏差。 ## v1.0.7 (2026-05-14) - **依赖同步**: 对齐基础设施版本。 ## v1.0.6 (2026-05-13) - **新特性**: 支持 `.csv` 格式,支持对象数组与 Markdown 表格转换。 - **新特性**: 支持 `.md` 和 `.txt` 格式,统一纳入 `Document` 接口管理。 - **功能增强**: `Excel.ToMarkdown` 现在支持提取所有工作表 (Sheet),并自动添加标题。 - **功能增强**: `PDF.ToMarkdown` 增加页码标记 (``),方便 RAG 场景按页分片。 - **功能增强**: Markdown 表格转换增加对管道符 (`|`) 的转义处理。 ## v1.0.5 (2026-05-13) - **新特性**: 引入 `Graph` 关系型文档类型 (`.graph`),支持节点内容与关系的统一建模。 - **新特性**: 关系型文档支持一键转换为带 **Mermaid** 图表的 Markdown,适用于脑图与分镜。 - **功能增强**: 改进 `Docx` 提取算法,支持自动识别标题层级并转换为标准的层级 Markdown (H1-H6)。 - **架构对齐**: `OpenGraph` 支持文件不存在时自动创建,与 `OpenExcel` 行为一致。 - **文档更新**: README 增加 RAG 增强与关系文档示例。 ## v1.0.4 (2026-05-12) - **依赖同步**:同步更新 `go/cast` 和 `go/file` 至最新版本。 - **文档优化**:完善 README 与测试用例。 ## v1.0.3 (2026-05-12) - 重构并更名为 `document`,统一处理 Excel, Word, PPT, PDF。 - 引入 `Document` 接口,支持 **Open/Create/Save** 的极简 API。 - 所有文档支持载体化操作:`ToJSON()` 和 `ToMarkdown()`。 - 基础设施全面对齐 `@go` 标准库。 - 修复 Excel 动态列扩展与 JSON 互转逻辑。