26/01/2026
突然,被GLM-4.7的Coding交付能力惊到了
公众号简介
专注于深度学习、机器学习、图像解译、人工智能、无人驾驶等热门领域,分享开源框架学习(如TensorFlow)、项目经历及编程语言(C++、python)等咨讯 funny comddy
26/01/2026
突然,被GLM-4.7的Coding交付能力惊到了
23/01/2026
这一年,Google打了一场翻身仗,8个领域突破~
09/01/2026
在当前的大模型(LLM)研发与应用热潮中,高质量的结构化数据始终是稀缺资源。无论是预训练还是 RAG(检索增强生成)知识库构建,开发者都面临一个共同难题:如何高效、准确地将 PDF、扫描件、图片等非结构化文档,转化为大模型"读得懂"的结构化文本?
传统的解决方案往往需要开发者自己部署多个模型,不仅环境配置复杂,而且很难兼顾通用识别与复杂版面理解。
在这样的背景下,PaddleOCR 开源项目为成千上万的开发者提供了文档数据结构化的强大能力。自 2020 年开源以来,PaddleOCR 在 GitHub 上已累计获得近 67k star,在全球所有项目中都名列前茅。过去一年里,PaddleOCR 针对不同场景陆续发布了多款 OCR 模型,全面覆盖了文字识别、表格识别、公式识别、图表识别等多种应用需求。尤其值得一提的是,今年 10 月发布的 PaddleOCR-VL,仅用 16 小时便登上了 HuggingFace 趋势榜首。截至目前,该模型依然是 OmniDocBench 官方认证的全球最佳文档解析模型,涵盖了所有开源与闭源的方案。
PaddleOCR似乎并不止于提供全面开源的技术方案,甚至也在打磨一个真正意义上的C端产品,即PaddleOCR 官网(www.paddleocr.com)。注意到PaddleOCR官网一直在不断升级,模型方面集成了 PP-OCRv5、PP-StructureV3 以及 SOTA 级多模态模型 PaddleOCR-VL。通过统一的 API 服务,为开发者提供了一条低成本、高效率的数据结构化捷径。交互方面,提供了完整、清晰的使用方式。
一、模型超市:从"通用识别"到"多模态解析"
传统 OCR 服务通常只提供一个通用的识别接口,但在处理复杂文档时往往力不从心。而PaddleOCR官网将 PaddleOCR 家族最强的"三驾马车"全部搬上了云端,供开发者按需选择。
PP-OCRv5:作为通用 OCR 的标杆,适合处理各种常规文本识别任务,速度快、精度高。
PP-StructureV3:专攻复杂文档的版面分析,能够精准识别表格、图像、标题段落,是文档电子化的利器。
PaddleOCR-VL(SOTA):官网现已集成这款多模态视觉语言模型。它具备端到端的文档解析能力,对于复杂的图表混排、不规则版面,能像人一样"看懂"并直接输出结果。
02/01/2026
告别繁琐数据处理: PaddleOCR 官网全模型矩阵,助力低成本获取海量结构化数据
28/12/2025
2025年文房四宝保护学术研讨会在安徽博物院召开
近日,由安徽博物院主办的“2025年文房四宝保护学术研讨会”在合肥召开。会议汇聚文博机构、高校、非遗传承领域专家学者及市县文博单位代表60余人,围绕文房四宝的系统性保护、传承与创新发展路径展开交流。
文房四宝是中华文明独特的精神标识和珍贵的文化瑰宝。安徽作为宣纸、徽墨、宣笔、歙砚的故乡,肩负着守护与传承的重要使命。本次研讨会聚焦文房四宝本体研究、技艺传承与科技保护,8位专家作主旨报告,体现多学科交叉融合的研究深度。
在“业态与传承”层面,中国科学技术大学汤书昆教授指出,传统文房四宝的当代发展需在坚守核心技艺前提下,借助品牌建设、科技赋能与教育创新推动产业振兴与文化传承;安徽艺术学院樊嘉禄教授系统梳理了宣笔制作技艺的历史脉络;非物质文化遗产代表性传承人程国胜、蔡永江、刘靖则分别围绕徽墨、歙砚、安徽手工纸的历史脉络、当代保护实践、传承挑战与发展机遇进行了深度阐述。
在“科技与保护”前沿,故宫博物院研究馆员谷岸介绍了纸张类文物无损检测技术的最新进展;首都博物馆研究馆员何秋菊从微观视角揭示了传统墨的科学内涵和中国书画用墨;安徽博物院副研究馆员江勤则从馆藏文物修复实际需求出发,探讨了材料科学化选择与应用的重要性。
在安徽博物院文物医院运行一周年评估座谈会上,专家实地考察文物医院,并就过去一年的运行成效、技术能力建设、人才培养机制及“十五五”文物科技保护规划展开务实研讨。专家们充分肯定了文物医院在馆藏文物保护修复与专业人才培养方面取得的阶段性成果,并就如何进一步发挥特色资源优势、提升修复能力与科研转化水平、加强平台建设与跨领域协同创新等方面,提出了多项建设性意见,为文物医院下一阶段的高质量发展明确了方向。
本次研讨会成果丰硕,有效促进了学术研究、技艺传承与保护实践间的深度对话。与会专家一致认为,文房四宝保护是一项系统工程,必须坚持“学术引领、科技赋能、活态传承、融合发展”的原则。未来,安徽博物院将继续发挥平台与资源优势,推动跨学科、跨领域合作,促进学术成果向实际保护与创新应用转化,为繁荣发展安徽省文房四宝事业、弘扬中华优秀传统文化贡献力量。
28/12/2025
官网集成的 PaddleOCR-VL 是文档解析领域的SOTA模型,论文中有详细的指标。截至目前,该模型依然是 OmniDocBench 官方认证的全球文档解析精度最高的模型,甚至超过了Gemini3-pro。
解析亮点:
文本精准识别:各信息被精确解析出来,分毫不差。
结构完美保留:右侧的解析结果不仅提取了文字,还通过 Markdown 完美复刻了原图的段落层级和阅读顺序。
大模型友好:这种结构化的文本,无需额外清洗,直接就能作为 Prompt 喂给大模型。
此外,官网还支持多种导出格式。对于需要进一步做数据分析的开发者,可以直接下载包含详细坐标信息的 JSON 文件;对于 RAG 开发者,Markdown 则是最佳选择。
28/12/2025
2025,大模型文档解析(OCR)年终盘点
今年6月以来文档解析(Document Parsing)方法的快速增长,总结下来有10余种.
25/12/2024
GLM4,发布即落后
21/12/2024
一个快速、低成本、高效的Fast GraphRAG
Fast GraphRAG 特征:可解释和可调试的知识:图表提供了可查询、可视化和更新的知识的人类可导航视图。快速、低成本、高效:设计用于大规模运行而不需要大量资源或成本要求。动态数据:自动生成和优化图表以最适合您的领域和本体需求。增量更新:支持数据变化时的实时更新。智能探索:利用基于 PageRank 的图形探索来提高准确性和可靠性。异步和类型化:完全异步,并具有完整的类型支持,以实现强大且可预测的工作流程。Fast GraphRAG 旨在无缝融入你的检索管道,提供高级 RAG 的强大功能,而无需构建和设计Agent工作流程的开销。开始使用 Fast GraphRAG 的最快、最可靠的方法是使用Circlemind的托管服务。
18/12/2024
端侧小模型新星,SmolLM2 1.7B击败了Llama 3.2、Qwen 2.5
端侧小型语言模型新星——SmolLM2 1.7B击败了Qwen 2.5 1.5B和Llama 3.2 1B:Apache 2.0许可训练于11万亿个令牌在FineWeb-Edu、DCLM、The Stack以及新的数学和编码数据集上训练 专门用于文本重写、总结和函数调用 使用 UltraFeedback 的直接偏好优化(DPO)可以在Q4上用不到2GB的VRAM运行SmolLM2 1.7B