大模型语料训练概念相关股票众多,以下是部分典型代表:
数据服务与语料库企业
-
科大讯飞 :在不同行业多年的规模化应用积累了超过50TB的行业语料,讯飞开放平台依托400万开发者,形成了每天超10亿人次用户交互数据。
-
三六零 :形成了10T+优质文本数据及海量图文视频数据,内容覆盖全球多个语种、涉猎金融、法律、房产、体育、医药等全行业范围。
-
同方股份 :旗下的知网中文语料来源可靠、标注规范、权威专业、更新及时,可以训练出在专业知识领域具备更好中文表达能力的AI模型。
-
中国科传 :先后推出了“科学文库”“科学智库”等多个数字化产品和知识服务平台,拥有科技期刊、学术文献等高质量学术资源。
数据标注与处理企业
-
海天瑞声 :研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域,为众多企业提供数据标注等服务。
-
博彦科技 :为部分客户提供AI大模型训练相关的语料、数据标注、数据训练等服务,布局多语言、多模态数据处理。
垂直领域数据资源企业
-
人民网 :有主流价值语料库,建设“人民数据”平台,探索新闻、舆情等公共数据价值化。
-
贝瑞基因 :目前积累了百万数量级的高品质基因数据资源,在此基础上开发了“贝瑞知识库共享查询”服务系统,可提供医疗领域语料。
-
上海钢联 :大模型的语料是基于公司拥有的数据,经过大量数据治理工作产生的高价值语料数据,可用于商品、金融等相关领域模型训练。
-
汇纳科技 :发布线下实体商业语料库,积累了大量线下商业客流等
大数据,可用于消费、商业领域的模型训练。