记录贴 - GPT 尝试

发表于 2025-02-05 分类于工具阅读次数： Disqus：本文字数： 3.1k 阅读时长 ≈ 3 分钟

记录一系列春节假期部署 AI 服务的过程
资料来源:
<>
更新
1
2025.02.05 初始

导语

目前工作生活高度依赖于 GPT 等服务, 基本都是在线服务, 随着年底 deepseek-r1 的出山, 差不多是时候了, 重构下与 GPT 有关工作流.

目前已购/使用的 GPT 服务:

POE: openai 的代替品, 不太容易封号, 模型非常多,更新也快. 每月大量点数剩余 😂
Github copilot: 老牌, 但是最近即使是 O1 O3-MINI 也有降智问题, 不好好回答问题,
Cursor: 公司推广后, 非常满意, 受限于仅 500/月快速响应…

API

POE

POE 为订阅用户提供了 Poe API Key, 但是其存在相当多限制:

不支持上传文件/图片, 因此只能进行文字相关.
没有嵌入等模型.

POE API 并非 openai 标准, 因此需要一个中间层转发, 调研非常多开源库后, 非常确认 jeromeleong/poe2openai 就是目前最好的

rust 编写, 几乎杜绝了宕机
模型非硬编码, 隔几天一个新模型, 杜绝了频繁重新部署.

version: '3.8'
services:
  poe2openai:
    image: jeromeleong/poe2openai:latest
    ports:
      - "8080:8080"
    # network_mode: host
    environment:
      - PORT=8080
      - LOG_LEVEL=info
      - ADMIN_USERNAME=admin
      - ADMIN_PASSWORD=123456
      - MAX_REQUEST_SIZE=1073741824

其他地方写入

openai key = poe key , 这一点还是很方便的
url = http://xxxxxx:8080

还有一个简单的管理界面: http://xxxxxx:8080/admin/, 用户名密码同定义.

支持模型名称重映射

Embedding Model

POE 没有提供嵌入模型, 但好在开源嵌入模型远比 Chat Model 更加成熟, 目前已经相当可用.

目前选择的是 ollama 部署 bge-m3 模型, 纯 CPU 跑, 内存占用 1.5G 左右, 延迟还算可以接受.

唯一问题是第一次添加库进行索引时, 花费了大量 cpu 时间.

Docker compose 精简自 ollama-docker

仅提供服务, 因此不需要 app
ollama-webui 用于管理 ollama 的模型 (其实 open-webui 是相当强大工具, 等待开发)

version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    ports:
      - "11434:11434"
    volumes:
      - ./ollama/config:/etc/ollama
      - ollama_models:/root/.ollama
    container_name: ollama
    pull_policy: always
    tty: true
    restart: always
    environment:
      - OLLAMA_KEEP_ALIVE=24h
      - OLLAMA_HOST=0.0.0.0
    networks:
      - ollama-network

  ollama-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: ollama-webui
    volumes:
      - ./ollama/webui:/app/backend/data
    depends_on:
      - ollama
    ports:
      - "8080:8080"
    environment:
      - OLLAMA_BASE_URLS=http://ollama:11434
      - ENV=prod
      - WEBUI_AUTH=True
      - WEBUI_NAME=Ollama AI
      - WEBUI_URL=http://0.0.0.0:8080
      - WEBUI_SECRET_KEY=your_secret_key_here
    restart: unless-stopped
    networks:
      - ollama-network

volumes:
  ollama_models:

networks:
  ollama-network:
    name: ollama-network

Vscode / Cursor

Cursor 毫无疑问是 2024 相当满意的工具, 在我的辅助下,其高效的写完了两个工程.😂.

唯一限制是 500 次/月的请求限制, 实在是太少了….

解决方案:

Cursor 最新版已经到了 1.96.5 了, 因此安装 github copilot 双持, 先问 copilot 不行再 cursor ……

cursor 支持自定义 api, 但是经过反复尝试, 其限制 api 必须在公网可以访问… localhost/局域网的服务就无法用于 cursor,这一点还有待于 cursor 更新. ^97f204

Ollama (or other OpenAI API compatible local LLMs) support · Issue #1380 · getcursor/cursor
GitHub - ryoppippi/curxy: Simple proxy worker for using ollama in cursor

Obsidian Copilot

长久以来个人笔记大量积累在 obsidian, 借助双向链接/漫游笔记等确实盘活了一部分, 但是这样效率太低了…

一直期待在 obsidian 中能够有 vscode 使用 copilot chat 的体验, 目前条件应该是成熟了.

obsidian 有大量 GPT 插件, 个人最中意的是 obsidian-copilot 其思路上与 copilot chat 如出一辙,上手非常方便.

部署等参考其 docs 非常详细, 说一下体验:

只论文字处理, 文本聊天, 基本做到了 vsc 中的 copilot chat 的体验. 受益于 poe 的众多模型,特别是 deepseep-r1.
同样也是受限于 poe , 暂时不支持 web 搜索和图片, 这让获取精确信息/信息查证遇到了很大困难, 还需要再开启浏览器.
回复速度,尚可接受, 与网络一般时 vsc 的 copilot chat 体感相差不大.

Chatgpt

与其说是 chatgpt 倒不如说是 gpt 的前端, 受限于 poe api 尝试部署了一圈 gpt 前端, 基本都是残废 (这是 poe ,不是那些前端问题)

目前使用的是 cherry-studio 接入 poe 和嵌入模型, 体验非常好.

内置的助手 ( promote),是这一大票 gpt 前端中质量都属上乘.

总结

内容有些流水账, 都是个人重组工作流/工具的尝试. 其实也能看到目前最大瓶颈就是 poe 的 api 半残废, 但是尚满足需求, 没有直接更换动力….

deepseek-r1 的一场大戏让我对 AI 的预期不得不再次调快, 开源模型能力的突飞猛进, 让下面的远景似乎不会太远

local llm 能够匹敌 O1 的能力, 真正的完全不再联网的私有外挂大脑.
目前一个又一个的 n8n 的处理流程,真正由 agent 驱动, 解放繁琐.

题外话:

当父母那一辈人都在谈论 AI 时候, AI 浪潮已经深刻的改变了整个未来.

我是个悲观主义者, AI 已经在加速两极化, 静静看着目前故乡初中/高中的这辈人无力的感觉, 他们仍然在高考巨大阴影下疯狂内卷, 但是世界已经完全变了样子…

无论未来如何, 奇点是否来临, 我们都会是历史见证者.