侧边栏壁纸
博主头像
蚌埠住了捏博主等级

快乐,健康,自由,强大

  • 累计撰写 57 篇文章
  • 累计创建 12 个标签
  • 累计收到 21 条评论

目 录CONTENT

文章目录

AI Agent与金融服务,调研与展望

蚌埠住了捏
2025-03-22 / 0 评论 / 0 点赞 / 99 阅读 / 1,823 字

第一次真正认识AI Agent还是去年年底参加QCon无意间中奖的一本书。短短半年不到,Agent已经从概念到现在初具雏形。半年前agent的补充能力:web/file search(RAG)增强回答用户问题的质量;现在的agent都开始掉API或者直接操作电脑了。

Stripe更是超前规划,从去年11月开始开发LLM toolkit,最近直接把AI Agent作为集成选项端上桌提供给了开发者。同行竞争压力的同时,Agent时代金融服务的玩法升级着实是一个让人兴奋值得期待的事情。本篇聊聊过去几天空闲时间对Agent的简单探索。

入门资源

一个李宏毅视频入门(发布时间2025.3.9比较新),【生成式AI時代下的機器學習(2025)】第二講:一堂課搞懂 AI Agent 的原理 (AI如何透過經驗調整行為、使用工具和做計劃)
https://www.youtube.com/watch?v=M2Yg1kwPpts

金融服务Agent玩法

三种趋势

Agent驱动无代码开发体验

场景:商户想要agent帮忙轻松开发一个购物网站

以Github copilot、claude、cursor等产品为起源涌现出来一众服务商,号称只需要和agent沟通就能完成从idea到完成网站并上线,很少甚至无需手动调整代码。

一个最近看到的例子replit全靠用户哔哔实现网站编写,暂时没空详细调研但是我相信类似概念竞品应该很多很多。

此类agent在文本生成的基础上有一系列工具集,使得agent能够操作文件系统、DB、浏览器、编译器、debugger等等。在指令的提示下能一步步优化形成一份可以运行的代码。

Agent自主工具调用

场景:商户想要agent帮忙快速创建收单链接、发票、商品目录等

上述任务本身也不需要编码。只是需要商户登录然后页面操作。Agent无代码调用完成的优势在于免登录、效率高。

Agent对金融服务的调用可以简单理解为API调用。LLM根据用户请求规划完成请求需要的步骤,其中部分步骤对应为tool调用。

支持tool调用主要有两种方式,声明agent tool或者MCP。我们以stripe为例简单看看。

源码: https://github.com/stripe/agent-toolkit
文档:https://docs.stripe.com/agents

agent tool相当于把API调用封装成了LLM可以理解的方式。比如我们看两个stripe agent tools:

{
    "method": "create_payment_link",
    "name": "Create Payment Link",
    "description": CREATE_PAYMENT_LINK_PROMPT,
    "args_schema": CreatePaymentLink,
    "actions": {
        "payment_links": {
            "create": True,
        }
    },
},
{
    "method": "create_invoice",
    "name": "Create Invoice",
    "description": CREATE_INVOICE_PROMPT,
    "args_schema": CreateInvoice,
    "actions": {
        "invoices": {
            "create": True,
        }
    },
}

description & schema相当于对LLM的精细prompt,在prompt的指引下LLM调用工具时才会准确传参。在准确的参数下,调用函数(API call wrapper)就很自然了。

CREATE_PAYMENT_LINK_PROMPT = """
This tool will create a payment link in Stripe.

It takes two arguments:
- price (str): The ID of the price to create the payment link for.
- quantity (int): The quantity of the product to include in the payment link.
"""

class CreatePaymentLink(BaseModel):
    """Schema for the ``create_payment_link`` operation."""

    price: str = Field(
        ...,
        description="The ID of the price to create the payment link for.",
    )
    quantity: int = Field(
        ...,
        description="The quantity of the product to include.",
    )

MCP(Model Context Protocol,模型上下文协议)是一种开放协议,旨在实现 大型语言模型(LLM) 应用与外部数据源、工具和服务之间的无缝集成,类似于网络中的 HTTP 协议或邮件中的 SMTP 协议。MCP 协议通过标准化模型与外部资源的交互方式,提升 LLM 应用的功能性、灵活性和可扩展性。

推荐文章:https://www.runoob.com/np/mcp-protocol.html

MCP server的编码其实基本也是把toolkit给封装了一层

import { StripeAgentToolkit } from "@stripe/agent-toolkit/modelcontextprotocol";
import { StdioServerTransport } from "@modelcontextprotocol/sdk/server/stdio.js";

// import {McpServer} from '@modelcontextprotocol/sdk/server/mcp.js';
// class StripeAgentToolkit extends McpServer -> 里面定义了tools, API keys等

const server = new StripeAgentToolkit({
  secretKey: process.env.STRIPE_SECRET_KEY!,
  configuration: {
    actions: {
      paymentLinks: {
        create: true,
      },
      products: {
        create: true,
      },
      prices: {
        create: true,
      },
    },
  },
});

async function main() {
  const transport = new StdioServerTransport();
  await server.connect(transport);
  console.error("Stripe MCP Server running on stdio");
}

main().catch((error) => {
  console.error("Fatal error in main():", error);
  process.exit(1);
});

封装结构:MCP server -> agent tool -> API调用。MCP好在哪现在也明了了:不用下载静态工具库,只要MCP server ready,客户端配置文件建立链接完事,一切的复杂性交给框架和协议处理。

同时很重要的一个前提条件,API必须是对外的安全的。

值得一提的是,为了让agent的规划步骤更稳定,现在一种比较流行的落地方法是建立AI workflow让人类事先规划,通过AI pipeline流程图构建限制agent的执行顺序。比如现在大火的
https://dify.ai/

Agent像人一样玩电脑/浏览器

场景:商户想要agent帮忙快速创建收单链接、发票、商品目录等;买家想要agent帮忙快速订购付款等。用户不想手动但是网站又没有提供对外的API接口。

比如我想点一杯奶茶,不是花五分钟解锁、选择app、navigate到商家、选择商品、付款,而是一句hey siri帮我点一杯霸王茶姬外卖就完事了。

电脑操作(computer use)
anthropic:
https://www.anthropic.com/news/3-5-models-and-computer-use
openai:
https://openai.com/index/introducing-operator/
https://www.youtube.com/watch?v=CSE77wAdDLg

浏览器操作
https://github.com/browser-use/browser-use
https://github.com/mannaandpoem/OpenManus

大脑风暴

一个金融服务公司可以干些什么跟上agent时代?个人观点,按优先级顺序有以下几点

  1. 对应第二点。学习stripe(paypal你争口气🤡),支持原生agent toolkit提供开发者集成于agent生态
  2. 对应第一点。developer 文档开放agent dev playground,比如和服务商合作,体验让agent生成可以运行及沙盒验证的支付功能代码模组及网站demo。dev doc比较难读,而且AI时代下用户对读文档的耐心可能变差。
  3. 对应第三点。官方站点或者app支持全自动agent,在自动化的安全问题有工业可靠方案前,至少做到更精确的navigation,商户问机器人“我去哪里创建支付链接”,能直接跳转到页面并提供人性化提示。少一些用户对app的探索研究过程、少一些人工跳转步骤,用户体验更好
0

评论区