Press "Enter" to skip to content

Home » 极客智坊RAG升级：图片基于多模态模型识别+PDF元数据提取索引及文本到SQL查询优化

极客智坊RAG升级：图片基于多模态模型识别+PDF元数据提取索引及文本到SQL查询优化

Published 2023年10月29日 by 极客小孙, 1,207 views

极客智坊本周进行了一次底层优化和升级，在RAG道路上继续迭代和探索，包括但不限于以下功能特性升级：

图片识别基于多模态大语言模型，提升识别质量和准确度；
网页链接支持引用链接嵌入和索引，提升对话回答质量；
PDF文件支持图片和图表识别、提取和索引，从而剔除分割区块中无关信息含量，提升回答质量；
网页文章和PDF文件支持自动摘要（PDF文件还支持目录大纲提取），对话时这些场景走数据库精准查询提升对话质量；
Markdown 动态渲染支持 Tailwind 样式集成，提升输出内容美观度，另外支持代码区块复制功能。

所有这些更新和升级指向的目标都是提升RAG（Retrieval Augmented Generation，检索增强生成模型，擅长处理知识密集型任务）对话质量和准确度，让人与非结构化数据对话变得更加简单易行，进而让为个体打造AI智力引擎成为可能。后续还会有若干迭代和升级计划，包括提示工程优化、数据代理、知识图谱引入、以及支持更多文件格式（视频），提供更多优质服务，敬请期待，今天我先来给大家简单介绍上述部分功能升级如何体验。

图片识别基于多模态模型

在极客智坊万能答题界面，点击上传图片按钮：

本地选择待上传图片，例如我上传的是这张图：

f4154e4e-133d-11ee-bcc0-0242ac110007

上传成功后，点击查看内容摘要：

即可看到基于大语言模型返回的图片识别结果：

当然，你也可以就其他问题与图片进行对话，这里不深入展开，感兴趣的可以自行去万能答题体验。

网页文章支持自动摘要

网页文章也可以支持内容摘要，自动生成摘要的好处是对于长内容文档，尤其是PDF文件，可以更好地提供内容总结，弥补大语言模型上下文长度限制的不足（传统RAG不能全面对内容进行总结，并且在RAG场景，向量检索并不适合这种需要掌握内容全貌的对话需求）：

点击输入框右侧回车按钮，即可看到弹出的查看内容摘要提示框：

点击即可看到针对该网页链接文档的摘要：

PDF支持自动摘要和目录大纲提取

PDF文件除了查看内容摘要外，还支持查看自动提取的目录大纲（仅支持标准PDF且带书签）：

点击查看目录大纲按钮即可获取该上传图书的目录大纲信息：

PDF/网页引用图片、图表、链接提取和索引

由于提取文档引用图片、图表、链接并识别索引是要花费时间不可预测的耗时操作，而万能答题对实时性要求较高，因此该功能目前仅在番薯智库中支持，后续会根据需要看是否集成到万能答题服务中。

AI 回复文本样式美观度优化

通过上面服务功能体验截图，想必你已经看到了相比于之前的极客智坊AI回复输出格式，美观度已经大幅提升，所有输出片段，包括图片、表格、列表、段落、代码块、链接等都已经有了更好地显示样式，这里以极客翻译网页翻译为例作为演示：

支持代码区块复制功能

最后，在用户的建议下，给AI回复的代码区块加上了代码复制功能，就是每个代码区块右上角有了一个拷贝图标，点击即可拷贝这段代码：

立即体验上述新功能特性：点击前往极客智坊万能答题。

Published in 极客智坊

发表回复