document/CHANGELOG.md

53 lines
3.2 KiB
Markdown
Raw Normal View History

# CHANGELOG
## v1.1.0 (2026-05-17)
- **PDF 语义重构**: 引入全局语义分析引擎。
- **无缝流**: 彻底移除分页干扰(移除 `---``Page X` 标记),实现跨页内容自然合并。
- **智能标题层级**: 自动锁定文档总标题,智能识别并合并跨行长标题,避免封面期标题碎片化。
- **自动平衡**: 根据文档内容自动提升章节标题层级,确保 Markdown 目录结构平衡。
- **鲁棒表格识别**: 调优列间距算法并增加长句过滤,大幅降低 PDF 误判表格的概率。
- **转换能力全面对齐**:
- **PPTX**: 每一页幻灯片标题现在统一识别为 `#` 一级标题,优化页面视觉分层。
- **DOCX**: 重构 XML 解析,完美支持 Word 原生表格 (`w:tbl`) 转换为 Markdown 表格。
- **XLSX**: 提升 Sheet 名称为 `#` 标题。
- **工程化增强**: 新增 `test_res/testmd.sh` 自动化验证脚本,覆盖 4 种主流办公格式的 Markdown 转换质量。
- **接口一致性**: 强制所有格式 Markdown 输出从一级标题 (`#`) 开始。
## v1.0.9 (2026-05-17)
- **新特性**: 内置功能完整的命令行工具 `doc` (`cmd/doc`)。
- **功能增强**: `doc` 支持创建、打开、查看预览Markdown、转换为 JSON、查看元数据Inspect以及数据注入Excel
- **文档优化**: README 增加 `doc` 命令行工具的安装与使用指南。
## v1.0.8 (2026-05-15)
- **基础设施对齐**: 同步更新 `go/cast``go/file` 至最新版本。
- **功能修复**: 修复 Excel 单元格解析在某些边界情况下的偏差。
## v1.0.7 (2026-05-14)
- **依赖同步**: 对齐基础设施版本。
## v1.0.6 (2026-05-13)
- **新特性**: 支持 `.csv` 格式,支持对象数组与 Markdown 表格转换。
- **新特性**: 支持 `.md``.txt` 格式,统一纳入 `Document` 接口管理。
- **功能增强**: `Excel.ToMarkdown` 现在支持提取所有工作表 (Sheet),并自动添加标题。
- **功能增强**: `PDF.ToMarkdown` 增加页码标记 (`<!-- Page X -->`),方便 RAG 场景按页分片。
- **功能增强**: Markdown 表格转换增加对管道符 (`|`) 的转义处理。
## v1.0.5 (2026-05-13)
- **新特性**: 引入 `Graph` 关系型文档类型 (`.graph`),支持节点内容与关系的统一建模。
- **新特性**: 关系型文档支持一键转换为带 **Mermaid** 图表的 Markdown适用于脑图与分镜。
- **功能增强**: 改进 `Docx` 提取算法,支持自动识别标题层级并转换为标准的层级 Markdown (H1-H6)。
- **架构对齐**: `OpenGraph` 支持文件不存在时自动创建,与 `OpenExcel` 行为一致。
- **文档更新**: README 增加 RAG 增强与关系文档示例。
## v1.0.4 (2026-05-12)
- **依赖同步**:同步更新 `go/cast``go/file` 至最新版本。
- **文档优化**:完善 README 与测试用例。
## v1.0.3 (2026-05-12)
- 重构并更名为 `document`,统一处理 Excel, Word, PPT, PDF。
- 引入 `Document` 接口,支持 **Open/Create/Save** 的极简 API。
- 所有文档支持载体化操作:`ToJSON()``ToMarkdown()`
- 基础设施全面对齐 `@go` 标准库。
- 修复 Excel 动态列扩展与 JSON 互转逻辑。