3.2 KiB
3.2 KiB
CHANGELOG
v1.1.0 (2026-05-17)
- PDF 语义重构: 引入全局语义分析引擎。
- 无缝流: 彻底移除分页干扰(移除
---和Page X标记),实现跨页内容自然合并。 - 智能标题层级: 自动锁定文档总标题,智能识别并合并跨行长标题,避免封面期标题碎片化。
- 自动平衡: 根据文档内容自动提升章节标题层级,确保 Markdown 目录结构平衡。
- 鲁棒表格识别: 调优列间距算法并增加长句过滤,大幅降低 PDF 误判表格的概率。
- 无缝流: 彻底移除分页干扰(移除
- 转换能力全面对齐:
- PPTX: 每一页幻灯片标题现在统一识别为
#一级标题,优化页面视觉分层。 - DOCX: 重构 XML 解析,完美支持 Word 原生表格 (
w:tbl) 转换为 Markdown 表格。 - XLSX: 提升 Sheet 名称为
#标题。
- PPTX: 每一页幻灯片标题现在统一识别为
- 工程化增强: 新增
test_res/testmd.sh自动化验证脚本,覆盖 4 种主流办公格式的 Markdown 转换质量。 - 接口一致性: 强制所有格式 Markdown 输出从一级标题 (
#) 开始。
v1.0.9 (2026-05-17)
- 新特性: 内置功能完整的命令行工具
doc(cmd/doc)。 - 功能增强:
doc支持创建、打开、查看预览(Markdown)、转换为 JSON、查看元数据(Inspect)以及数据注入(Excel)。 - 文档优化: README 增加
doc命令行工具的安装与使用指南。
v1.0.8 (2026-05-15)
- 基础设施对齐: 同步更新
go/cast和go/file至最新版本。 - 功能修复: 修复 Excel 单元格解析在某些边界情况下的偏差。
v1.0.7 (2026-05-14)
- 依赖同步: 对齐基础设施版本。
v1.0.6 (2026-05-13)
- 新特性: 支持
.csv格式,支持对象数组与 Markdown 表格转换。 - 新特性: 支持
.md和.txt格式,统一纳入Document接口管理。 - 功能增强:
Excel.ToMarkdown现在支持提取所有工作表 (Sheet),并自动添加标题。 - 功能增强:
PDF.ToMarkdown增加页码标记 (<!-- Page X -->),方便 RAG 场景按页分片。 - 功能增强: Markdown 表格转换增加对管道符 (
|) 的转义处理。
v1.0.5 (2026-05-13)
- 新特性: 引入
Graph关系型文档类型 (.graph),支持节点内容与关系的统一建模。 - 新特性: 关系型文档支持一键转换为带 Mermaid 图表的 Markdown,适用于脑图与分镜。
- 功能增强: 改进
Docx提取算法,支持自动识别标题层级并转换为标准的层级 Markdown (H1-H6)。 - 架构对齐:
OpenGraph支持文件不存在时自动创建,与OpenExcel行为一致。 - 文档更新: README 增加 RAG 增强与关系文档示例。
v1.0.4 (2026-05-12)
- 依赖同步:同步更新
go/cast和go/file至最新版本。 - 文档优化:完善 README 与测试用例。
v1.0.3 (2026-05-12)
- 重构并更名为
document,统一处理 Excel, Word, PPT, PDF。 - 引入
Document接口,支持 Open/Create/Save 的极简 API。 - 所有文档支持载体化操作:
ToJSON()和ToMarkdown()。 - 基础设施全面对齐
@go标准库。 - 修复 Excel 动态列扩展与 JSON 互转逻辑。