媒体传播与语言学习的融合 ── 介绍LangStream
在本文中,我们将介绍为满足生成AI的需求而新开发的LangStream项目。
通过LangStream,将LLM应用程序的典型处理作为Apache Pulsar函数集成进去变得更加容易,这样就可以将LLM与实时事件处理结合起来。另外,通过使用后面提到的Starlight for Kafka,还可以与Kafka客户端进行结合。

这篇文章的内容是以LangStream官方文件作为来源。
LangStream是什么?
LangStream 是一个推动人工智能应用的开源项目。
LangStream 项目结合了大规模语言模型(LLM)的智能和流式处理的敏捷性,用于开发应用程序。
LangStream 应用程序监视消息主题,并通过多个步骤处理数据,输出有用的生成人工智能结果。
使用LangStream可以显著减少生成AI项目(如聊天机器人等)开发过程中的开销。例如,开发人员可以创建一个声明了管道以根据数据变化进行向量化的应用程序。此外,还可以创建一个应用程序来接收用户的问题,与向量化的数据进行比较,构建上下文化的提示,并将其发送至LLM。
每个步骤都会转换为代理人。代理人接收输入消息并处理数据,将结果作为新消息输出。处理可以是简单的将所有数据设置为小写,或者删除带有标签的值的指令。还可以使用嵌入模型将消息数据转换为嵌入以供生成AI处理,或者发送提示到LLM并接收完成等更强大的处理。
每条流水线都有一个起点和终点。在流式数据的上下文中,通常称为源和汇。源是一种应用程序,它知道如何生成与数据库、另一个消息主题或起点主题的消息数据相关的数据。流水线可以包含一个或多个源。
LangStream使用消息代理的主题作为传输。
流水线在成功处理数据后,需要对其执行某种处理。这是使用汇的地方。与源一样,汇也有各种形状。通常,汇将处理的数据存储在数据库中。流水线可以连接一个或多个汇。
技術的特徵是指技術在特定領域中所具有的獨特屬性和特點。
-
- KubernetesやApache Kafkaなどの実証済みのテクノロジーを基盤に構築
-
- ChatGPTなどの LLM 、 HuggingFaceなどの推論 API 、 AstraDBなどのベクトル データベース、LangChainなどのエージェントとのインテグレーション
-
- シンプルな宣言型 YAML ファイルを使用して独自のリアルタイム AI アプリケーション パイプラインを作成
-
- イベント データ、セマンティック検索、データベース クエリなどを組み合わせて、リッチ コンテキストを含むプロンプトを生成するプロンプト テンプレート
-
- 非構造化データ (PDF、Word、HTML など) および構造化データの処理
-
- Kafka Connect シンクとソースを実行して外部システムとリアルタイムに統合
- 可観測性のための Prometheus メトリクスと Kubernetes ログ