这篇文章不是评测众多 LLM 的 benchmark, 毕竟那个太遥远了, 介绍一些用法.
也不会介绍各种中转服务提供商云云。
前言: 从 chat based 开始
LLM 最早谷歌指数爆发, 差不多是 chatGPT 发布试用版.
此处假设有一张 谷歌指数的图
然后大众对 LLM 的印象基本就停留在了训练猫娘, 比较文字游戏, 9.8 和 9.11 哪个大的问题上.
或者就是”无意义”的打榜. 但是 llm 可以有非常多的用途.
注意: 由于 LLM 是预测下一个 token, 所以训练的材料能够极大分化相应功能, 也就能做到专门的小模型在特定场景下击败通用大模型. 所以下文想说的是 LLM 能做到而不是做得好.
下文会以场景介绍一些相关的 LLM
声音转文字
最著名的就是 whisper 了, 社区也有了相当多的实现.
但是大模型也可以. 这里以 whisper.cpp 的测试工具 jfk.mp3 为例
gemini 1.5 pro 002

文字转图
这个 bing gemini chatGPT 都行, 但是要精细控制图像还是 stable diffusion based 比较好. 毕竟有 lora
经指出, 现在 sd 的成员造了下一代 https://github.com/black-forest-labs/flux
分析 pdf
已经基本全实现了
上传 pdf 给 LLM 提供语境, 然后基于 pdf 的内容提问.
学习工具
notebooklm https://notebooklm.google.com/ , 上传 任意 材料直接提问.
Copilot
写代码的特化模型, 特点是 Fill in the middle, 类似的还有 tabnine 等.
‣
即, 并不存在一个 chat 的过程, 而是直接给出后续代码, 行为和 chat 有很大差异.
再与编辑器集成深一点就是 cursor / continue.dev . 可以在编辑器内修改文件.
自动搜索引擎
https://www.perplexity.ai , 但是这类工具实现的困难是
- 爬取网页
- 提取网页中有价值的内容和链接
毕竟现在网页里内容是 LLM 生成的概率非常高. 而 zhihu 这种禁爬取 + 爬取直接乱码的更是。
https://github.com/jina-ai/reader 一个用于清洗文本的工具。
翻译
过于经典的用途, 就不展开了, 最早 Google 做 transformer 都是改进翻译的.
但是不同的训练 + 语料微调也有不同的效果, 比如二次元专用的
极快原型开发
bolt.new 速度极快但是定制性差。约等于免费外包。
警告
LLM 的幻觉是不可避免的, 所以使用时请务必谨慎
因为 LLM 并不能背锅.