Press "Enter" to skip to content

极客智坊网页/图片/文件对话交互重构


这两天在优化基于 URL 解析网页内容的时候(将 HTML 先转化为 Markdown,再进行嵌入/分块处理,这样既能保留所有的媒体内容不丢失,又能大幅降低内容长度,节省对话成本,内容输出的时候也更容易做格式化),正好借着前段时间将底层所有数据结构区块化的东风(未来规划可以像 Notion 那样轻松构建所见即所得的 AI 知识库,更智能更自动),顺便把极客智坊万能答题通过大语言模型与网页/图片/文件对话的交互做了重构优化,让用户使用的时候心智成本更低、体验更好:

image-20231012203407427

我把网页、图片、文件嵌入的入口通过图标显式暴露出来,这样直接点击对应图标就可以开启对应的对话服务。下面我逐个简单介绍下,由于底层数据结构是一致的,所有交互流程也是一致的,未来可以轻松拓展到更多区块类型。

借助大语言模型的优势,所有区块媒体类型对话都是跨语言的,英文内容可以直接通过中文进行对话,反之亦然。以下所有对话基于 GPT4 演示,不过无论是网页提取、图片识别、文件检索,由于极客智坊后端做了很多优化工作,即便是 GPT-3.5 也能有很高的质量,所以推荐用日常使用 GPT-3.5-16K(支持更长上下文)进行对话。

网页对话

要启用网页对话功能,只需要点击左下角最左边的超链接图标,即可弹出一个 URL 输入框,将你想要对话的网页 URL 拷贝粘贴进来,敲键盘回车键或者鼠标点击最右侧的回车图标,即可嵌入这个网页链接。在正式与之对话前,服务端还会校验 URL 的有效性,只有包含有效内容,且能直接访问(不需要登录,也不是通过JS异步加载)的 URL 才会校验通过。

image-20231012174343869

URL 嵌入成功后,在输入框输入对话问题/指令,点击右下角提交按钮,即可与这个网页进行对话,比如我想要将网页内容翻译成中文,输入文本指令连同网页链接区块一起提交,服务后端大语言模型即可执行指令并以 Markdown 格式输出结果:

image-20231012174028637

你可以点击区块预览区块内容(支持不同类型区块显示不同预览格式):

image-20231012174227138

图片对话

图片对话已经迁移到专门的图片对话功能,基于GPT-4V等多模态模型实现。

接下来来看图片对话,目前仅支持包含文字内容的图片,后续会随着大语言模型的升级提供更高阶的图片识别能力。以下面这幅图为例,我想要基于这张图片生成一个创建自定义 LLM 聊天机器人的入门教程:

image-20231012174935844

点击图片图标上传本地图片,图片上传成功后,在输入框输入指令(Prompt),点击提交按钮提交:

image-20231012174922386

后台会自动识别图片中包含的文字内容(基于OCR)作为参考知识点,然后结合用户提交的指令生成响应结果:

image-20231012203007963

可以看到,它已经给我们列出了教程大纲,如果想要更详细的教程,可以调整上一步的 Prompt,或者在此基础上继续对话,让它就每个点给出更详细的内容。这属于 Prompt 工程的范畴了,这里不深入展开。

文件对话

文件对话主要是 PDF 文件(当然也支持 TXT 文件),不论图书、Word、PPT 都可以很方便地转化成 PDF 格式,所以我这里优先优化PDF 文件对话这个场景,极客智坊支持所有类型 PDF 文件,不管是标准版、扫描版还是影印版,且最高支持100M/1000页 PDF 文件(要在番薯智库中体验,万能答题作为轻体验场景最大仅支持10M)。

这里我以 PDFTriage 这篇论文为例,这是 RAG 领域最近比较前沿的一个研究,讨论在大语言模型上下文长度有限的前提下如何更好地与大尺寸 PDF 文件对话,获取更好的回答效果。我先上传这个 PDF 文件(通过第三个文件图标),然后我想让大语言模型帮我读取这篇论文并给我简单进行介绍:

image-20231012203739091

这对于英文不太好,或者想要快速了解论文梗概的朋友还是很有帮助的,毕竟啃一篇英文论文是个劳神费力的事。如果你想要预览这个 PDF 文件,点击对应区块即可:

image-20231012203804224

未来我还会持续在这里提供更多、更好的 PDF 智能阅读服务,尤其是跨语言场景的。

当对话内容包含区块(链接/图片/文件都可以看作一个区块)时,只会与当前区块对话,否则将会与本轮对话所有区块对话(依赖其提供的内容作为参考知识点回答用户问题)。每轮对话最多支持5个区块,想要同时和更多区块对话,可以到番薯智库创建独立的 AI 智库嵌入更多区块。

立即体验:点击前往极客智坊万能答题

发表回复