document/CHANGELOG.md

3.2 KiB
Raw Blame History

CHANGELOG

v1.1.0 (2026-05-17)

  • PDF 语义重构: 引入全局语义分析引擎。
    • 无缝流: 彻底移除分页干扰(移除 ---Page X 标记),实现跨页内容自然合并。
    • 智能标题层级: 自动锁定文档总标题,智能识别并合并跨行长标题,避免封面期标题碎片化。
    • 自动平衡: 根据文档内容自动提升章节标题层级,确保 Markdown 目录结构平衡。
    • 鲁棒表格识别: 调优列间距算法并增加长句过滤,大幅降低 PDF 误判表格的概率。
  • 转换能力全面对齐:
    • PPTX: 每一页幻灯片标题现在统一识别为 # 一级标题,优化页面视觉分层。
    • DOCX: 重构 XML 解析,完美支持 Word 原生表格 (w:tbl) 转换为 Markdown 表格。
    • XLSX: 提升 Sheet 名称为 # 标题。
  • 工程化增强: 新增 test_res/testmd.sh 自动化验证脚本,覆盖 4 种主流办公格式的 Markdown 转换质量。
  • 接口一致性: 强制所有格式 Markdown 输出从一级标题 (#) 开始。

v1.0.9 (2026-05-17)

  • 新特性: 内置功能完整的命令行工具 doc (cmd/doc)。
  • 功能增强: doc 支持创建、打开、查看预览Markdown、转换为 JSON、查看元数据Inspect以及数据注入Excel
  • 文档优化: README 增加 doc 命令行工具的安装与使用指南。

v1.0.8 (2026-05-15)

  • 基础设施对齐: 同步更新 go/castgo/file 至最新版本。
  • 功能修复: 修复 Excel 单元格解析在某些边界情况下的偏差。

v1.0.7 (2026-05-14)

  • 依赖同步: 对齐基础设施版本。

v1.0.6 (2026-05-13)

  • 新特性: 支持 .csv 格式,支持对象数组与 Markdown 表格转换。
  • 新特性: 支持 .md.txt 格式,统一纳入 Document 接口管理。
  • 功能增强: Excel.ToMarkdown 现在支持提取所有工作表 (Sheet),并自动添加标题。
  • 功能增强: PDF.ToMarkdown 增加页码标记 (<!-- Page X -->),方便 RAG 场景按页分片。
  • 功能增强: Markdown 表格转换增加对管道符 (|) 的转义处理。

v1.0.5 (2026-05-13)

  • 新特性: 引入 Graph 关系型文档类型 (.graph),支持节点内容与关系的统一建模。
  • 新特性: 关系型文档支持一键转换为带 Mermaid 图表的 Markdown适用于脑图与分镜。
  • 功能增强: 改进 Docx 提取算法,支持自动识别标题层级并转换为标准的层级 Markdown (H1-H6)。
  • 架构对齐: OpenGraph 支持文件不存在时自动创建,与 OpenExcel 行为一致。
  • 文档更新: README 增加 RAG 增强与关系文档示例。

v1.0.4 (2026-05-12)

  • 依赖同步:同步更新 go/castgo/file 至最新版本。
  • 文档优化:完善 README 与测试用例。

v1.0.3 (2026-05-12)

  • 重构并更名为 document,统一处理 Excel, Word, PPT, PDF。
  • 引入 Document 接口,支持 Open/Create/Save 的极简 API。
  • 所有文档支持载体化操作:ToJSON()ToMarkdown()
  • 基础设施全面对齐 @go 标准库。
  • 修复 Excel 动态列扩展与 JSON 互转逻辑。