Press "Enter" to skip to content

极客智坊RAG升级:图片基于多模态模型识别+PDF元数据提取索引及文本到SQL查询优化

极客智坊本周进行了一次底层优化和升级,在RAG道路上继续迭代和探索,包括但不限于以下功能特性升级:

  • 图片识别基于多模态大语言模型,提升识别质量和准确度;
  • 网页链接支持引用链接嵌入和索引,提升对话回答质量;
  • PDF文件支持图片和图表识别、提取和索引,从而剔除分割区块中无关信息含量,提升回答质量;
  • 网页文章和PDF文件支持自动摘要(PDF文件还支持目录大纲提取),对话时这些场景走数据库精准查询提升对话质量;
  • Markdown 动态渲染支持 Tailwind 样式集成,提升输出内容美观度,另外支持代码区块复制功能。

所有这些更新和升级指向的目标都是提升RAG(Retrieval Augmented Generation,检索增强生成模型,擅长处理知识密集型任务)对话质量和准确度,让人与非结构化数据对话变得更加简单易行,进而让为个体打造AI智力引擎成为可能。后续还会有若干迭代和升级计划,包括提示工程优化、数据代理、知识图谱引入、以及支持更多文件格式(视频),提供更多优质服务,敬请期待,今天我先来给大家简单介绍上述部分功能升级如何体验。

图片识别基于多模态模型

在极客智坊万能答题界面,点击上传图片按钮:

image-20231029180949011

本地选择待上传图片,例如我上传的是这张图:

f4154e4e-133d-11ee-bcc0-0242ac110007

上传成功后,点击查看内容摘要:

image-20231029181231000

即可看到基于大语言模型返回的图片识别结果:

image-20231029181339252

当然,你也可以就其他问题与图片进行对话,这里不深入展开,感兴趣的可以自行去万能答题体验。

网页文章支持自动摘要

网页文章也可以支持内容摘要,自动生成摘要的好处是对于长内容文档,尤其是PDF文件,可以更好地提供内容总结,弥补大语言模型上下文长度限制的不足(传统RAG不能全面对内容进行总结,并且在RAG场景,向量检索并不适合这种需要掌握内容全貌的对话需求):

image-20231029181533104

点击输入框右侧回车按钮,即可看到弹出的查看内容摘要提示框:

image-20231029181941066

点击即可看到针对该网页链接文档的摘要:

image-20231029182147683

PDF支持自动摘要和目录大纲提取

PDF文件除了查看内容摘要外,还支持查看自动提取的目录大纲(仅支持标准PDF且带书签):

image-20231029183118297

点击查看目录大纲按钮即可获取该上传图书的目录大纲信息:

image-20231029203808380

PDF/网页引用图片、图表、链接提取和索引

由于提取文档引用图片、图表、链接并识别索引是要花费时间不可预测的耗时操作,而万能答题对实时性要求较高,因此该功能目前仅在番薯智库中支持,后续会根据需要看是否集成到万能答题服务中。

AI 回复文本样式美观度优化

通过上面服务功能体验截图,想必你已经看到了相比于之前的极客智坊AI回复输出格式,美观度已经大幅提升,所有输出片段,包括图片、表格、列表、段落、代码块、链接等都已经有了更好地显示样式,这里以极客翻译网页翻译为例作为演示:

image-20231029204543068
image-20231029204616333
image-20231029204653072

支持代码区块复制功能

最后,在用户的建议下,给AI回复的代码区块加上了代码复制功能,就是每个代码区块右上角有了一个拷贝图标,点击即可拷贝这段代码:

image-20231029205023826

立即体验上述新功能特性:点击前往极客智坊万能答题

发表回复