2023年终终结

我本身是一个不太写总结类内容的人,但这次跟风写一回,总结我这一年AI相关的技术总结和我整体的思考。

时间线

我跃跃欲试要进AI的坑要追溯到22年底,OpenAI 推出 GPT-3.5 的时候,当时其实并不太了解 OpenAI 这家公司,当时还是听完《vol.440 科技乱炖:ChatGPT 的惊喜与意料之内》这期播客的时候让我感觉,2023年可以搞搞AI。

2023年2月中旬,我开始在推特即刻上分享我对大预言模型的见解。

2023年3月初,我开始尝试使用 GPT-3.5 接口做一些事情,刚好当时我在研究《默沙东诊疗手册》,就想能不能做一个通过描述症状然后匹配相关病症的demo。做完我就发推上了,竟然意外的火了。但当时考虑到 OpenAI 本身对于医疗问诊场景的约束以及可能带来的潜在风险,我就把服务关停了。但因为那条推火了,也陆续有人问我是如何实现的。考虑再三,再不牵扯各种已知风险(版权、医疗风险等),作为还算有点开源精神的程序员,我就把这个简单的demo,做成了一个开源的解决方案——《基于向量数据库与GPT3.5的通用本地知识库方案》。后续也跟新了一些常见问题的解。

当时想着能不能搞一个本地的 Embedding 模型,毕竟如果要做一个可用的知识库需要将大量的文本转为向量,如果用 OpenAI 的接口虽然效果很好,但还是很贵。然后想着找个本地模型,效果能差不多就可以。找了一圈之后发现中文场景下开源的模型并没有多少,而且效果也一般。作为一个在公司搞过几年基础架构的人来说,没有好用的轮子那就造一个。然后就开始着手微调第一个模型,当时完全小白,但还好有很多开源项目,救我一命。当时为了做对比实验,其实训练了好几个模型用来做对比测试,但最后还是 text2vec-large-chinese 这个效果相对较好(当时真实感受到了摄影圈常说的“底大一级压死人”,完全可以把这句话套用在AI模型上)。后来因为知识库项目的 star 上来后这个模型在 huggingface 的句子相似度任务中一度排在前三(写本文的时候我又去看了一下还在前十)。

2023年3月中旬,我自己有一个需求就是想能方便的对长音频进行降噪。当时使用了 adobe 出的免费服务 Enhance,效果虽好但是对于长音频往往会直接不响应。我这造轮子的热情一下子又上来了,然后就有了基于深度学习的语音增强工具,一开始找了个需要GPU的模型,效果很好但无奈我很穷,买不起GPU。然后又将 github 翻了个底朝天找到了个不需要 GPU 的模型,效果也还不错,处理速度也还可以。然后就封装了一下,满足了我自己的需求,独乐乐不如众乐乐,再次选择了开源。

2023年3月底开始,因为项目的影响力,陆续有一些企业和个人开始找我聊基于 LLM 的应用场景。聊了很多当时发现一个问题就是,大量的初创公司也好个人也好,做的项目都没有一个主体去支撑。要不就做 GPT 套壳,要不就是单纯做基于OpenAI的知识库内容的问答(对B端或者C端)。当时我给他们举的B端的例子是zendesk(因为我在公司负责过2年多的CRM系统,对这家公司的工单和QA系统印象比较深刻),对于它而言集成 LLM 是迟早的事,并且它本身拥有大量的企业客户,也有大量的文本化内容的积累。而作为一个新起的项目,很难去跟这类公司去竞争相似的市场,而且如果都是套壳 OpenAI 大家本质功能也不会拉开太大的差距。第二个例子是针对C端,当时就有传言微软要在操作系统层级集成大模型能力,那么针对个人市场的文档问答服务也就可能会形成冲击。个人市场针对LLM能力的付费意愿我个人的观察属于“我能白嫖干什么还要付费”。

2023年4月初,和《津津乐道》播客一拍既合尝试通过OpenAI 本身对于语言的理解能力,将281个节目字幕提取为QA数据集(JinJinLeDao QA Dataset)。也算是对大语言模型的另一种使用方式的探索。

2023年4月底开始折腾ASR(语音转文本)任务,并且希望真正落地一个基于本地AI模型的企业级解决方案。虽然都是用Whisper,但如何提升质量和转译速度变成了一个难题。接下来几个月的状态就是看论文,看开源项目的优化实现以及进行大量的测试和调整。最后找了一个相对合适的 pipline 就是串联或并联多个模型,并且使用鉴别模型进行判断是否需要进行相应的处理。但因为整个服务流里面有大量的模型,并且有些模型体积又特别大,导致部署难度上升,但还好组内有大佬暂且解决了,折腾了这几个月下来服务整体还算稳定。

期间还去津津乐道播客聊了聊 OpenAI 的发布会《编码人声:几千块钱换来的 OpenAI 新功能体验报告》。强烈推介大家去订阅津津乐道播客宇宙的相关节目!

最近这两个月开始折腾支持语音克隆的TTS本地化解决方案,目前看整体还可以,但如何能进行“无人值守”级别的长文本TTS生成,还需要进一步探索和解决,期望年前能解决吧。

写在最后

我其实还是很愿意花钱投资自己,尤其是知识上的,今年AI上的投入比我以前在任何其他技术上投资都要大的多(我都不敢看我的余额…)。租线上GPU训练模型,买相关书籍和课程,尝试各种AI相关付费服务,以及为了方便调试攒了一个本地开发机。今年也要感谢朋友们的赞助和付费咨询,帮我抹掉了部分的成本。但从今年一年来看个人搞 AI 局限性还是太大,有很多想尝试的因为要投入比较多的成本而无法进行。明年可能找个搞 AIGC 的公司搞点正事?也未可知。