以 ChatGPT 为代表的大型语言模型 (LLM) 正在兴起,如ChatGPT、BERT、LLaMA、PaLM 2 和新的 Gemini Ultra,并受到众多企业的关注。这些企业希望借助 LLM 的力量,让员工能够像与人交谈一样,轻松访问各种企业信息,例如公司政策、客户销售数据、仓库库存等等。只需提出问题,就能得到答案,这种便捷的信息获取方式仿佛触手可及。
然而,将 LLM 应用于企业级信息访问并非易事。由于 LLM 本身并不了解企业的私有数据,直接使用现有的 LLM 进行搜索,可能会得到错误或不相关的答案。为了解决这个问题,开发者和企业开始尝试将 LLM 与传统的企业搜索功能相结合,希望借助 LLM 强大的语义理解能力,提升搜索的精准度和效率。然而,传统的搜索技术往往依赖于关键词匹配,难以理解用户真实的搜索意图。如何将 LLM 与企业搜索系统进行更深度的融合,实现基于语义和意图的搜索,仍然是一个需要不断探索的课题。
检索增强生成 (RAG) 应运而生,它是一种新的架构模式或方法。它提供了一种方法来解决通用 LLM 中那些不太正确的地方。RAG 使我们能够将我们的私有数据以及额外的解释性摘要和知识提供给 LLM。您可以通过首先优化和执行跨企业数据的搜索来实现 RAG。然后,您将这些信息输入 LLM 以进行汇总和添加见解。但要做好这一点,您需要访问您的企业存储,并且可能需要实时或近实时地访问。
LLM的训练依赖于海量数据,其生成内容的质量与训练数据的广度、深度和准确性息息相关。然而,企业在实际应用LLM时,常常面临以下挑战,这些挑战的存在,使得LLM在企业级应用中面临着可信度、准确性和实用性等方面的质疑。
- 企业数据分散在各个系统中,格式多样,难以整合,导致LLM无法全面理解业务全貌,限制了其应用效果。
- LLM在生成内容时,可能会编造不存在的信息,产生“幻觉”,影响输出结果的可靠性,尤其是在需要高精度信息的专业领域。此外,LLM的知识库通常是静态的,无法及时更新,难以应对快速变化的业务环境和信息需求。
- 组织不仅需要在 AI 决策过程中确保数据完整性和透明度,而且需要解决与 GenAI 和 LLM 相关的风险,例如偏见和隐私问题。
RAG的核心在于引入检索机制,将LLM与企业内部数据源连接起来。当用户提出问题时,RAG系统首先会根据问题从数据库、知识库等数据源中检索相关信息,然后LLM再结合自身知识库和检索到的信息,生成更准确、更符合上下文语境的回答或内容。
相较于传统的LLM应用,RAG的优势十分显著。它能够打破企业内部数据孤岛,为LLM提供更全面、更丰富的知识背景,从而提升其理解能力和输出质量。同时,通过引入企业真实数据,RAG能够有效降低LLM产生“幻觉”的风险,确保生成内容的准确性和可靠性。此外,RAG还能实时访问最新数据,确保LLM的知识库始终保持更新,从而提供更及时、更有效的服务。
逻辑数据结构应运而生,它可以简化 GenAI 项目中企业数据的使用。Denodo 平台就是一个领先的逻辑数据管理解决方案,许多组织使用它来构建逻辑数据结构,从而显著增强数据生态系统的功能。以下是逻辑数据管理平台如何应对上述挑战:
- Denodo 平台提供了一个集中式数据访问点,可以实时连接到不同的数据源,以建立一个统一的语义层,提供传统用户和 AI 模型都能轻松理解的上下文数据。
- Denodo 平台支持精细的访问控制策略,以简化数据安全并确保合规性。此功能可以保护敏感信息,同时方便 AI 模型访问数据
- Denodo 数据目录通过提供一组丰富的元数据来描述和分类数据,从而简化了数据探索和发现。此外,通过将数据访问与底层源分离,平台使组织能够无缝地适应不断变化的业务需求和新兴技术。
- Denodo 平台通过全面的数据沿袭和监控功能提供透明度和可问责性,这对于合规性和更好地理解 AI 算法的行为至关重要。
数据编织、RAG 和 LLM 的结合为重新定义向非技术数据消费者提供信息的方式开辟了一个充满可能性的领域。从创建能够对复杂查询提供实时、准确响应的智能代理,到自动化例行数据收集和分析任务,这些集成技术的应用范围广泛且多样,以用来推动组织内部效率、生产力和创新的显著提高。本系列的接下来的三篇文章将涵盖:
第 1 部分将重点介绍支持安全、按需查询企业数据的系统的开发。通过利用数据编织和 RAG 增强型 LLM 的组合功能,组织可以实现复杂的应用程序、聊天机器人和虚拟助手,为员工和利益相关者提供对相关信息的即时访问。这不仅简化了决策过程,还使整个组织的 critical 数据访问民主化。想象一下,聊天机器人可以根据任何给定用户的访问详细信息实时提供准确的数据。如果员工和业务合作伙伴可以简单地提出问题并得到答案,您的组织将如何受益?您认为这将如何提高生产力和业务合作伙伴的亲密关系?
第 2 部分将深入探讨逻辑数据管理(通过数据编织)对通过语义索引改进信息可发现性的影响。通过超越传统的基于关键字的搜索机制,语义索引实现了一种更加细致入微、意图驱动的信息检索方法。这一进步对于最大限度地提高 RAG 增强型 LLM 的效用至关重要,确保生成的响应不仅准确,而且在上下文上与用户的 informational 需求相一致。也许您的组织希望将交易数据和其他非结构化数据混合在一起存储在一个存储库中。由数据虚拟化提供支持的数据编织使企业能够连接到这些数据存储,同时以最佳格式利用数据。借助数据编织中的逻辑数据管理功能,您可以创建可以轻松合并到索引流程中的服务。
第 3 部分也是本系列的最后一篇文章,将探讨集成技术在自动化数据收集和更新流程中的作用。如何使用 LLM 来自动化流程和操作?这些通常需要数据,并且可能需要能够更新下游系统。由数据虚拟化和 RAG 增强型 LLM 提供支持的自动化有望使代理能够在企业事件发生后立即通过人工干预或不通过人工干预来收集和更新信息。