HuggingFace推出最大的开放合成数据集Cosmopedia 250亿个tokens
划重点:
- 🌍 Cosmopedia v0.1是由 Mixtral7b 生成的最大开放合成数据集,包含超过3000万个样本,总共约250亿个tokens。
- 💻 数据集汇编了来自网页数据集(如 RefinedWeb 和 RedPajama)的信息,涵盖教科书、博客文章、故事和 WikiHow 文章等各种内容类型。
- 📚 这一初始版本的 Cosmopedia 为合成数据领域的研究奠定了基础,展示了其在各种主题上的潜在应用。
HuggingFace 推出了 Cosmopedia v0.1,这是最大的开放合成数据集,由 Mixtral7b 生成,包含超过3000万个样本,总共约250亿个标记tokens。
数据集旨在通过映射来自网页数据集如 RefinedWeb 和 RedPajama 的信息来汇编全球知识,包括教科书、博客文章、故事和 WikiHow 文章等各种内容类型。该数据集的结构分为八个部分,每个部分都源自不同的种子样本,其中包括 web_samples_v1和 web_samples_v2,占据数据集约75% 的比例,这些样本类似于 RefinedWeb 中的内部网页数据集。
Stanford 分区利用从 stanford.edu 网站上爬取的课程大纲,而故事分区则包含来自 UltraChat 和 OpenHermes2.5的生成故事。此外,WikiHow、OpenStax、KhanAcademy 和 automathtext 分区涉及与其各自来源相关的提示。
为了方便用户访问数据集,用户可以使用提供的代码段加载特定分区。另外,对于寻求缩减数据集的用户,还提供了一个更小的子集 Cosmopedia-100k。此外,还对 Cosmopedia 进行了训练,得到了一个更大的模型 Cosmo-1B,展示了其可扩展性和多功能性。
数据集的创建过程包括为 web 样本使用主题聚类方法、迭代地改进提示以及解决污染问题。其目标是通过量身定制提示风格和受众,最大程度地提高多样性,从而显著减少重复内容。
数据集入口:https://huggingface.co/datasets/HuggingFaceTB/cosmopedia
三星预计内存半导体在开发人工智能服务器方面将变得更加重要 将超过英伟达 GPU
在半导体芯片制造领域,三星的唯一竞争对手是台积电。这家公司的市场份额远高于三星代工,并拥有所有大口牌的订单,包括AMD、苹果、联发科、英伟达和高通。另一方面,三星正在失去客户,但它现在有一线生机。日前三星半导体在KAIST(韩国高等科学技术学院)举行了一场讲座,三星设备解决方案部门的总裁KyeHyunKyung介绍了三星半导体将追赶其竞争对手台积电的未来愿景。站长网2023-05-05 11:57:150000开源聊天机器人Web UI框架Chatbot UI 可轻松创建任意模型聊天机器人
ChatbotUI是一个开源的聊天机器人WebUI框架,它支持接入多种模型,包括OpenAI、AzureOpenAI、Anthropic、Google、Mistral和Perplexity等。此外,它还支持Ollama上的本地模型接入。这意味着只需输入这些模型的API,就能轻松创建非常美观的任意模型聊天机器人。站长网2024-01-12 11:36:310000智能的本质就是压缩?马毅团队5年心血提出「白盒」Transformer, 打开LLM黑盒!
【新智元导读】来自UC伯克利,港大等机构的研究人员,开创性地提出了一种「白盒」Transformer结构——CRATE。他们通过将数据从高维度分布压缩到低维结构分布,实现有效的表征,从而进一步实现了有竞争力的模型性能。这也引发了一个更为深远的讨论——难道智能的本质就是压缩吗?AI界大佬对于大模型的安全问题一直以来争吵不休,全都归咎于神经网络「黑盒」,让所有人捉摸不透。站长网2023-11-27 14:01:410002AI视野:阿里妈妈上线AI直播;多家AI绘画网站集中关闭;Stability AI发布AI音乐生成工具Stable Audio
🤖📱💼AI应用StabilityAI发布AI音乐生成工具StableAudio伦敦初创公司StabilityAI发布StableAudio,使用AI从文本生成自定义音乐和音效。该系统使用基于扩散的模型,可以在几秒内生成长达90秒的专业音频。StableAudio的优势在于生成多风格音乐,提供友好界面,面向需要快速背景音乐的创意专业人士。要点:站长网2023-09-14 21:40:440001AI鱼缸造景抖音获赞超12万 在AIGC的赋能下造景有了更多可能性
AIGC(人工智能图形生成)与景观设计的结合,为造景这门商业艺术带来了更多可能性。通过AI技术,可以在现实空间重塑自然景观,创造出令人惊叹的视觉效果。例如,抖音博主“时光印景”发布了一条用AI设计的鱼缸造景视频,展示了一条仙气飘飘的鱼游过黛绿色的群峰、桥梁和建筑的背景,给人一种超然物外的氛围感。站长网2023-09-06 17:35:580000