document/CHANGELOG.md

53 lines
3.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# CHANGELOG
## v1.1.0 (2026-05-17)
- **PDF 语义重构**: 引入全局语义分析引擎。
- **无缝流**: 彻底移除分页干扰(移除 `---``Page X` 标记),实现跨页内容自然合并。
- **智能标题层级**: 自动锁定文档总标题,智能识别并合并跨行长标题,避免封面期标题碎片化。
- **自动平衡**: 根据文档内容自动提升章节标题层级,确保 Markdown 目录结构平衡。
- **鲁棒表格识别**: 调优列间距算法并增加长句过滤,大幅降低 PDF 误判表格的概率。
- **转换能力全面对齐**:
- **PPTX**: 每一页幻灯片标题现在统一识别为 `#` 一级标题,优化页面视觉分层。
- **DOCX**: 重构 XML 解析,完美支持 Word 原生表格 (`w:tbl`) 转换为 Markdown 表格。
- **XLSX**: 提升 Sheet 名称为 `#` 标题。
- **工程化增强**: 新增 `test_res/testmd.sh` 自动化验证脚本,覆盖 4 种主流办公格式的 Markdown 转换质量。
- **接口一致性**: 强制所有格式 Markdown 输出从一级标题 (`#`) 开始。
## v1.0.9 (2026-05-17)
- **新特性**: 内置功能完整的命令行工具 `doc` (`cmd/doc`)。
- **功能增强**: `doc` 支持创建、打开、查看预览Markdown、转换为 JSON、查看元数据Inspect以及数据注入Excel
- **文档优化**: README 增加 `doc` 命令行工具的安装与使用指南。
## v1.0.8 (2026-05-15)
- **基础设施对齐**: 同步更新 `go/cast``go/file` 至最新版本。
- **功能修复**: 修复 Excel 单元格解析在某些边界情况下的偏差。
## v1.0.7 (2026-05-14)
- **依赖同步**: 对齐基础设施版本。
## v1.0.6 (2026-05-13)
- **新特性**: 支持 `.csv` 格式,支持对象数组与 Markdown 表格转换。
- **新特性**: 支持 `.md``.txt` 格式,统一纳入 `Document` 接口管理。
- **功能增强**: `Excel.ToMarkdown` 现在支持提取所有工作表 (Sheet),并自动添加标题。
- **功能增强**: `PDF.ToMarkdown` 增加页码标记 (`<!-- Page X -->`),方便 RAG 场景按页分片。
- **功能增强**: Markdown 表格转换增加对管道符 (`|`) 的转义处理。
## v1.0.5 (2026-05-13)
- **新特性**: 引入 `Graph` 关系型文档类型 (`.graph`),支持节点内容与关系的统一建模。
- **新特性**: 关系型文档支持一键转换为带 **Mermaid** 图表的 Markdown适用于脑图与分镜。
- **功能增强**: 改进 `Docx` 提取算法,支持自动识别标题层级并转换为标准的层级 Markdown (H1-H6)。
- **架构对齐**: `OpenGraph` 支持文件不存在时自动创建,与 `OpenExcel` 行为一致。
- **文档更新**: README 增加 RAG 增强与关系文档示例。
## v1.0.4 (2026-05-12)
- **依赖同步**:同步更新 `go/cast``go/file` 至最新版本。
- **文档优化**:完善 README 与测试用例。
## v1.0.3 (2026-05-12)
- 重构并更名为 `document`,统一处理 Excel, Word, PPT, PDF。
- 引入 `Document` 接口,支持 **Open/Create/Save** 的极简 API。
- 所有文档支持载体化操作:`ToJSON()``ToMarkdown()`
- 基础设施全面对齐 `@go` 标准库。
- 修复 Excel 动态列扩展与 JSON 互转逻辑。