2026-05-12 12:26:10 +08:00
|
|
|
|
# CHANGELOG
|
|
|
|
|
|
|
2026-05-18 19:51:35 +08:00
|
|
|
|
## v1.1.0 (2026-05-17)
|
|
|
|
|
|
- **PDF 语义重构**: 引入全局语义分析引擎。
|
|
|
|
|
|
- **无缝流**: 彻底移除分页干扰(移除 `---` 和 `Page X` 标记),实现跨页内容自然合并。
|
|
|
|
|
|
- **智能标题层级**: 自动锁定文档总标题,智能识别并合并跨行长标题,避免封面期标题碎片化。
|
|
|
|
|
|
- **自动平衡**: 根据文档内容自动提升章节标题层级,确保 Markdown 目录结构平衡。
|
|
|
|
|
|
- **鲁棒表格识别**: 调优列间距算法并增加长句过滤,大幅降低 PDF 误判表格的概率。
|
|
|
|
|
|
- **转换能力全面对齐**:
|
|
|
|
|
|
- **PPTX**: 每一页幻灯片标题现在统一识别为 `#` 一级标题,优化页面视觉分层。
|
|
|
|
|
|
- **DOCX**: 重构 XML 解析,完美支持 Word 原生表格 (`w:tbl`) 转换为 Markdown 表格。
|
|
|
|
|
|
- **XLSX**: 提升 Sheet 名称为 `#` 标题。
|
|
|
|
|
|
- **工程化增强**: 新增 `test_res/testmd.sh` 自动化验证脚本,覆盖 4 种主流办公格式的 Markdown 转换质量。
|
|
|
|
|
|
- **接口一致性**: 强制所有格式 Markdown 输出从一级标题 (`#`) 开始。
|
|
|
|
|
|
|
2026-05-17 11:53:26 +08:00
|
|
|
|
## v1.0.9 (2026-05-17)
|
|
|
|
|
|
- **新特性**: 内置功能完整的命令行工具 `doc` (`cmd/doc`)。
|
|
|
|
|
|
- **功能增强**: `doc` 支持创建、打开、查看预览(Markdown)、转换为 JSON、查看元数据(Inspect)以及数据注入(Excel)。
|
|
|
|
|
|
- **文档优化**: README 增加 `doc` 命令行工具的安装与使用指南。
|
|
|
|
|
|
|
|
|
|
|
|
## v1.0.8 (2026-05-15)
|
|
|
|
|
|
- **基础设施对齐**: 同步更新 `go/cast` 和 `go/file` 至最新版本。
|
|
|
|
|
|
- **功能修复**: 修复 Excel 单元格解析在某些边界情况下的偏差。
|
|
|
|
|
|
|
|
|
|
|
|
## v1.0.7 (2026-05-14)
|
|
|
|
|
|
- **依赖同步**: 对齐基础设施版本。
|
|
|
|
|
|
|
2026-05-13 22:55:38 +08:00
|
|
|
|
## v1.0.6 (2026-05-13)
|
|
|
|
|
|
- **新特性**: 支持 `.csv` 格式,支持对象数组与 Markdown 表格转换。
|
|
|
|
|
|
- **新特性**: 支持 `.md` 和 `.txt` 格式,统一纳入 `Document` 接口管理。
|
|
|
|
|
|
- **功能增强**: `Excel.ToMarkdown` 现在支持提取所有工作表 (Sheet),并自动添加标题。
|
|
|
|
|
|
- **功能增强**: `PDF.ToMarkdown` 增加页码标记 (`<!-- Page X -->`),方便 RAG 场景按页分片。
|
|
|
|
|
|
- **功能增强**: Markdown 表格转换增加对管道符 (`|`) 的转义处理。
|
|
|
|
|
|
|
2026-05-13 21:53:19 +08:00
|
|
|
|
## v1.0.5 (2026-05-13)
|
|
|
|
|
|
- **新特性**: 引入 `Graph` 关系型文档类型 (`.graph`),支持节点内容与关系的统一建模。
|
|
|
|
|
|
- **新特性**: 关系型文档支持一键转换为带 **Mermaid** 图表的 Markdown,适用于脑图与分镜。
|
|
|
|
|
|
- **功能增强**: 改进 `Docx` 提取算法,支持自动识别标题层级并转换为标准的层级 Markdown (H1-H6)。
|
|
|
|
|
|
- **架构对齐**: `OpenGraph` 支持文件不存在时自动创建,与 `OpenExcel` 行为一致。
|
|
|
|
|
|
- **文档更新**: README 增加 RAG 增强与关系文档示例。
|
|
|
|
|
|
|
2026-05-12 14:34:19 +08:00
|
|
|
|
## v1.0.4 (2026-05-12)
|
|
|
|
|
|
- **依赖同步**:同步更新 `go/cast` 和 `go/file` 至最新版本。
|
|
|
|
|
|
- **文档优化**:完善 README 与测试用例。
|
|
|
|
|
|
|
2026-05-12 13:21:03 +08:00
|
|
|
|
## v1.0.3 (2026-05-12)
|
2026-05-12 13:05:16 +08:00
|
|
|
|
|
2026-05-12 13:21:03 +08:00
|
|
|
|
- 重构并更名为 `document`,统一处理 Excel, Word, PPT, PDF。
|
|
|
|
|
|
- 引入 `Document` 接口,支持 **Open/Create/Save** 的极简 API。
|
|
|
|
|
|
- 所有文档支持载体化操作:`ToJSON()` 和 `ToMarkdown()`。
|
|
|
|
|
|
- 基础设施全面对齐 `@go` 标准库。
|
|
|
|
|
|
- 修复 Excel 动态列扩展与 JSON 互转逻辑。
|