记录贴 - GPT 尝试

  • 记录一系列春节假期部署 AI 服务的过程

  • 资料来源:

    <>

  • 更新

    1
    2025.02.05 初始

导语

目前工作生活高度依赖于 GPT 等服务, 基本都是在线服务, 随着年底 deepseek-r1 的出山, 差不多是时候了, 重构下与 GPT 有关工作流.

目前已购/使用的 GPT 服务:

  • POE: openai 的代替品, 不太容易封号, 模型非常多,更新也快. 每月大量点数剩余 😂
  • Github copilot: 老牌, 但是最近即使是 O1 O3-MINI 也有降智问题, 不好好回答问题,
  • Cursor: 公司推广后, 非常满意, 受限于仅 500/月快速响应…

API

POE

POE 为订阅用户提供了 Poe API Key, 但是其存在相当多限制:

  • 不支持上传文件/图片, 因此只能进行文字相关.
  • 没有嵌入等模型.

POE API 并非 openai 标准, 因此需要一个中间层转发, 调研非常多开源库后, 非常确认 jeromeleong/poe2openai 就是目前最好的

  • rust 编写, 几乎杜绝了宕机
  • 模型非硬编码, 隔几天一个新模型, 杜绝了频繁重新部署.
1
2
3
4
5
6
7
8
9
10
11
12
13
version: '3.8'
services:
poe2openai:
image: jeromeleong/poe2openai:latest
ports:
- "8080:8080"
# network_mode: host
environment:
- PORT=8080
- LOG_LEVEL=info
- ADMIN_USERNAME=admin
- ADMIN_PASSWORD=123456
- MAX_REQUEST_SIZE=1073741824

其他地方写入

  • openai key = poe key , 这一点还是很方便的
  • url = http://xxxxxx:8080

还有一个简单的管理界面: http://xxxxxx:8080/admin/, 用户名密码同定义.

  • 支持模型名称重映射

Embedding Model

POE 没有提供嵌入模型, 但好在开源嵌入模型远比 Chat Model 更加成熟, 目前已经相当可用.

目前选择的是 ollama 部署 bge-m3 模型, 纯 CPU 跑, 内存占用 1.5G 左右, 延迟还算可以接受.

  • 唯一问题是第一次添加库进行索引时, 花费了大量 cpu 时间.

Docker compose 精简自 ollama-docker

  • 仅提供服务, 因此不需要 app
  • ollama-webui 用于管理 ollama 的模型 (其实 open-webui 是相当强大工具, 等待开发)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
version: '3.8'
services:
ollama:
image: ollama/ollama:latest
ports:
- "11434:11434"
volumes:
- ./ollama/config:/etc/ollama
- ollama_models:/root/.ollama
container_name: ollama
pull_policy: always
tty: true
restart: always
environment:
- OLLAMA_KEEP_ALIVE=24h
- OLLAMA_HOST=0.0.0.0
networks:
- ollama-network

ollama-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: ollama-webui
volumes:
- ./ollama/webui:/app/backend/data
depends_on:
- ollama
ports:
- "8080:8080"
environment:
- OLLAMA_BASE_URLS=http://ollama:11434
- ENV=prod
- WEBUI_AUTH=True
- WEBUI_NAME=Ollama AI
- WEBUI_URL=http://0.0.0.0:8080
- WEBUI_SECRET_KEY=your_secret_key_here
restart: unless-stopped
networks:
- ollama-network

volumes:
ollama_models:

networks:
ollama-network:
name: ollama-network

Vscode / Cursor

Cursor 毫无疑问是 2024 相当满意的工具, 在我的辅助下,其高效的写完了两个工程.😂.

唯一限制是 500 次/月 的请求限制, 实在是太少了….

解决方案:

  • Cursor 最新版已经到了 1.96.5 了, 因此安装 github copilot 双持, 先问 copilot 不行再 cursor ……

cursor 支持自定义 api, 但是经过反复尝试, 其限制 api 必须在公网可以访问… localhost/局域网 的服务就无法用于 cursor,这一点还有待于 cursor 更新. ^97f204

  • Ollama (or other OpenAI API compatible local LLMs) support · Issue #1380 · getcursor/cursor
  • GitHub - ryoppippi/curxy: Simple proxy worker for using ollama in cursor

Obsidian Copilot

长久以来个人笔记大量积累在 obsidian, 借助双向链接/漫游笔记等确实盘活了一部分, 但是这样效率太低了…

一直期待在 obsidian 中能够有 vscode 使用 copilot chat 的体验, 目前条件应该是成熟了.

obsidian 有大量 GPT 插件, 个人最中意的是 obsidian-copilot 其思路上与 copilot chat 如出一辙,上手非常方便.

部署等参考其 docs 非常详细, 说一下体验:

  • 只论文字处理, 文本聊天, 基本做到了 vsc 中的 copilot chat 的体验. 受益于 poe 的众多模型,特别是 deepseep-r1.
  • 同样也是受限于 poe , 暂时不支持 web 搜索和图片, 这让获取 精确信息/信息查证 遇到了很大困难, 还需要再开启浏览器.
  • 回复速度,尚可接受, 与网络一般时 vsc 的 copilot chat 体感相差不大.

Chatgpt

与其说是 chatgpt 倒不如说是 gpt 的前端, 受限于 poe api 尝试部署了一圈 gpt 前端, 基本都是残废 (这是 poe ,不是那些前端问题)

目前使用的是 cherry-studio 接入 poe 和 嵌入模型, 体验非常好.

  • 内置的助手 ( promote),是这一大票 gpt 前端中 质量都属上乘.

总结

内容有些流水账, 都是个人重组工作流/工具的尝试. 其实也能看到目前最大瓶颈就是 poe 的 api 半残废, 但是尚满足需求, 没有直接更换动力….

deepseek-r1 的一场大戏让我对 AI 的预期不得不再次调快, 开源模型能力的突飞猛进, 让下面的远景似乎不会太远

  • local llm 能够匹敌 O1 的能力, 真正的完全不再联网的私有外挂大脑.
  • 目前一个又一个的 n8n 的处理流程,真正由 agent 驱动, 解放繁琐.

题外话:

当父母那一辈人都在谈论 AI 时候, AI 浪潮已经深刻的改变了整个未来.

我是个悲观主义者, AI 已经在加速两极化, 静静看着 目前故乡 初中/高中的这辈人 无力的感觉, 他们仍然在高考巨大阴影下疯狂内卷, 但是世界已经完全变了样子…

无论未来如何, 奇点是否来临, 我们都会是历史见证者.