这两天在优化基于 URL 解析网页内容的时候(将 HTML 先转化为 Markdown,再进行嵌入/分块处理,这样既能保留所有的媒体内容不丢失,又能大幅降低内容长度,节省对话成本,内容输出的时候也更容易做格式化),正好借着前段时间将底层所有数据结构区块化的东风(未来规划可以像 Notion 那样轻松构建所见即所得的 AI 知识库,更智能更自动),顺便把极客智坊万能答题通过大语言模型与网页/图片/文件对话的交互做了重构优化,让用户使用的时候心智成本更低、体验更好:
我把网页、图片、文件嵌入的入口通过图标显式暴露出来,这样直接点击对应图标就可以开启对应的对话服务。下面我逐个简单介绍下,由于底层数据结构是一致的,所有交互流程也是一致的,未来可以轻松拓展到更多区块类型。
借助大语言模型的优势,所有区块媒体类型对话都是跨语言的,英文内容可以直接通过中文进行对话,反之亦然。以下所有对话基于 GPT4 演示,不过无论是网页提取、图片识别、文件检索,由于极客智坊后端做了很多优化工作,即便是 GPT-3.5 也能有很高的质量,所以推荐用日常使用 GPT-3.5-16K(支持更长上下文)进行对话。
网页对话
要启用网页对话功能,只需要点击左下角最左边的超链接图标,即可弹出一个 URL 输入框,将你想要对话的网页 URL 拷贝粘贴进来,敲键盘回车键或者鼠标点击最右侧的回车图标,即可嵌入这个网页链接。在正式与之对话前,服务端还会校验 URL 的有效性,只有包含有效内容,且能直接访问(不需要登录,也不是通过JS异步加载)的 URL 才会校验通过。
URL 嵌入成功后,在输入框输入对话问题/指令,点击右下角提交按钮,即可与这个网页进行对话,比如我想要将网页内容翻译成中文,输入文本指令连同网页链接区块一起提交,服务后端大语言模型即可执行指令并以 Markdown 格式输出结果:
你可以点击区块预览区块内容(支持不同类型区块显示不同预览格式):
图片对话
图片对话已经迁移到专门的图片对话功能,基于GPT-4V等多模态模型实现。
接下来来看图片对话,目前仅支持包含文字内容的图片,后续会随着大语言模型的升级提供更高阶的图片识别能力。以下面这幅图为例,我想要基于这张图片生成一个创建自定义 LLM 聊天机器人的入门教程:
点击图片图标上传本地图片,图片上传成功后,在输入框输入指令(Prompt),点击提交按钮提交:
后台会自动识别图片中包含的文字内容(基于OCR)作为参考知识点,然后结合用户提交的指令生成响应结果:
可以看到,它已经给我们列出了教程大纲,如果想要更详细的教程,可以调整上一步的 Prompt,或者在此基础上继续对话,让它就每个点给出更详细的内容。这属于 Prompt 工程的范畴了,这里不深入展开。
文件对话
知识库
知识库对话主要是 PDF文件(当然也支持 TXT/Markdown/HTML/MP3/MP4 文件),不论图书、Word、PPT 都可以很方便地转化成 PDF 格式,极客智坊针对PDF 文件读取训练场景进行了专门优化,支持所有类型 PDF 文件,不管是标准版、扫描版还是影印版,不管是文字、图片、表格都可以很好地进行识别分析,最高支持500M/500页 PDF 文件(万能答题作为轻体验场景最大仅支持30M,免费用户最大也只支持 30M,更大尺寸需要升级到包年包月用户才能体验,大尺寸文件读取训练要在番薯智库中体验)。
这里我以 PDFTriage 这篇论文为例,这是 RAG 领域最近比较前沿的一个研究,讨论在大语言模型上下文长度有限的前提下如何更好地与大尺寸 PDF 文件对话,获取更好的回答效果。我先上传这个 PDF 文件(通过第三个文件图标),然后我想让大语言模型帮我读取这篇论文并给我简单进行介绍:
这对于英文不太好,或者想要快速了解论文梗概的朋友还是很有帮助的,毕竟啃一篇英文论文是个劳神费力的事。如果你想要预览这个 PDF 文件,点击对应区块即可:
未来我还会持续在这里提供更多、更好的 PDF 智能阅读服务,尤其是跨语言场景的。
问答库
Excel 文件作为日常工作中最常见的数据库文件,非常方便用来组织问答库、产品库然后让 AI 进行读取问答,应用到番薯智库还可以对外提供客服、咨询、导购服务,极客智坊针对 Excel 文件进行了专门优化,但需要遵循特定的格式,可以参考这个示例文件格式:
就是第一行必须是表头标题行,后续每一行是具体的数据。
除了 Excel 外,数据库对话还支持 CSV 格式,格式要求也和 Excel 一致,另外,CSV 文件必须是 UTF-8 BOM 编码才可以读取识别。
下面是一个电视产品表格的对话示例:
当对话内容包含区块(链接/图片/文件都可以看作一个区块)时,只会与当前区块对话,否则将会与本轮对话所有区块对话(依赖其提供的内容作为参考知识点回答用户问题)。每轮对话最多支持5个区块,想要同时和更多区块对话,可以到番薯智库创建独立的 AI 智库嵌入更多区块。
立即体验:点击前往极客智坊万能答题。