【Datawhale AI夏令营 task2】动手学大模型应用全栈开发:LLM项目的分类和原理解析
一、LLM项目的分类
1、如何分类
根据是否需要微调模型、是否需要训练embedding模型、是否需要优化prompt等技术
2、prompt项目
Prompt项目——ChatPaper
ChatPaper是一种基于文本生成技术的研究论文,具有类似于ChatGPT的功能。它可以根据关键字来获取相应的论文,并通过分析论文的标题、作者、单位、链接、研究背景、其它工作的问题、本文方法、本文方法具体步骤、总结本文的优缺点等内容,实现一分钟下载一篇最新arxiv论文,一个分钟速读主要信息。
Prompt项目——ChatBI、ChatExcel
思路1:用户上传文件存入db,输入text生成sql语句
思路2:用户输入的text直接转化成操作表格的代码文件
ChatExcel入口
酷表ChatExcel
https://chatexcel.com/
Prompt项目——ChatPPT
PPT是一种文件格式(和ChatMind类似)
task
https://github.com/PandaVT/AI_PPT_demo/https://github.com/PandaVT/AI_PPT_demo/
3、如果要处理的数据很多,超过token限制怎么办?
方式1:长文本裁剪,分段总结汇总
方式2:Embedding
将文本、图像等人类世界的高维信息转换为低维向量,同时保留不错的语义信息,便于进行数学运算和相似度比较。
task
GitHub - JessyTsui/awesome_LLM_beginner: 送给LLM初学者的路径,看我心情和时间更新送给LLM初学者的路径,看我心情和时间更新. Contribute to JessyTsui/awesome_LLM_beginner development by creating an account on GitHub.
https://github.com/JessyTsui/awesome_LLM_beginner
4、通用模型解决不了的问题怎么办
ChatLaw
数据集
https://huggingface.co/datasets/PandaVT/chinese_verdict_examples
https://huggingface.co/datasets/PandaVT/chinese_law_examples