利用DeepSeek构建专属知识库提升办公效率

丨浅笑安然丨2025-02-162025-02-16

最近，国产大模型 DeepSeek 突然走红，很多网友开始在本地部署大模型，打造专属于自己的个人知识库。我也受到启发，尝试利用这一工具来解决工作中的实际问题。

前言

我原本是从事生产工作的，后来因为公司的人员变动从而转到了销售的岗位。新的岗位需要我接触大量产品信息，但是我对行业内各种产品参数、规格及命名规范并不熟悉，加上记忆力较差，每次查找数据都要花费大量时间。前两天在B站看到了不少本地构建个人知识库的视频，我突发奇想：为什么不直接把所有产品相关的文件喂给大模型？这样，以后只需输入具体型号，AI 就能迅速告诉我对应规格；或者将客户需求交给 AI，让它推荐合适的产品和具体参数。这不仅能大大节省查阅产品手册的时间，还能提升工作效率。

平台选择

有了初步设想后，现实问题随之而来——公司电脑配置有限，加上管理要求，没办法在公司设备上运行大型模型。经过一番调查，我发现了腾讯的 IMA Copilot 平台。该平台支持 Windows、Mac 以及微信小程序，尤其是微信小程序，可以实现无需在公司电脑上安装软件就能随时随地的使用。平台内置 DeepSeek R1 模型和腾讯的混元大模型，每个用户可以上传1GB的文件。实际测试中，我上传了 254 个 PDF 文件，仅用了 500MB 存储空间，完全满足了我的需求。

数据获取

接下来便是数据问题。由于公司内部数据较为敏感，直接使用内部文件显然不合适。幸运的是，公司官网公开了所有产品的规格信息，供客户选型参考。只要手动从官网下载这些公开数据，就不会涉及内部保密内容。但面对海量的文件，手动下载显然不现实。作为一个自认“懒人”的我，决定利用 Python 写一个爬虫程序自动抓取数据。