
Jina AI Introduces Reader-LM for HTML Markdown Conversion
Jina AI releases Reader-LM, two SLMs (0.5B and 1.5B) for HTML to Markdown conversion, supporting long contexts and multiple languages. The models are available on Hugging Face and Ollama, demonstrating good performance metrics and offering a new, flexible alternative to existing solutions.
Jina AI 推出 Reader-LM HTML 转 Markdown 模型
-
产品概览
- Jina AI 推出两款小型语言模型:reader-lm-0.5b 与 reader-lm-1.5b
- 专为将原始 HTML 转换成干净的 Markdown 设计,支持多种语言
- 支持超长上下文(可容纳多达 256K 个 tokens)
-
模型资源与试用
- 模型托管于 HuggingFace
- 可在 Google Colab 上试用:Colab Notebook
- 模型现已可在 Ollama 平台使用
-
性能评测
- 对比了 ROUGE-L (越高越好)、WER 与 TER (越低越好) 等指标
- 测试结果示例:
模型 ROUGE-L WER TER reader-lm-0.5b 0.56 3.28 0.34 reader-lm-1.5b 0.72 1.87 0.19 GPT-4 0.43 5.88 0.50
-
模型设计理念及优势
- 借助小型语言模型 (SLM, 参数量低于 1 亿),实现边缘高效运行
- 为 HTML 数据清洗和转换提供了一种替代传统正则表达式或 Pandoc 方案的新思路
- 使用 LLM 进行数据清理,可通过定制 prompt 实现更加灵活的文本拆分和格式化
-
用户反馈与探讨
- 使用者测试时发现:
- 在转换过程中,部分格式(如标题加粗)未能准确呈现
- 模型有时会重复输出,需要调整重复惩罚参数
- 讨论中提及模型与传统 scraping 工具相比,在处理复杂页面(如论坛帖子)的优势明显,能自动识别并分隔内容
- 使用者测试时发现:
-
相关阅读材料
- 详情与设计理念可参见 Jina AI 官方博客:点击阅读
这款 Reader-LM 模型为 HTML 到 Markdown 的自动转换提供了一个全新的方案,其轻量化和多语言支持为不同场景的应用带来便利,值得持续关注与实践探索。