根据深度求索官方消息,12月26日,公司全新系列模型DeepSeek-V3重磅发布并同步开源。
根据专业测评报告,DeepSeek-V3在能力上已经与GPT-4o以及Claude-3.5-Sonnet等主流大模型不相上下,但在训练成本及训练效率方面展现出了明显的优势。深度求索用了两个月的时间,花费约558万美元,实现了较高的训练效率。
随着国内AI大模型进一步发展,尤其是AI消费电子产品逐渐成为热点,算力产业链有望迎来机遇。
12月以来,AI行业持续迎来重磅事件,前有OpenAI发布完全版o1模型、苹果在国内寻找大模型供应商,后有深度求索(DeepSeek)正式上线并开源全新系列模型 DeepSeek-V3。
尽管深度求索此前并未被市场广泛关注,但是DeepSeek-V3的综合表现已经与多个主流AI大模型不相上下。
根据深度求索官方发布的信息,DeepSeek-V3采用了混合专家架构(MoE),该架构包含了256个专家,每次推理将动态选择前8个专家来参加计算,这可以提升计算效率。
我们试用了DeepSeek-V3,大模型应答速度较快,并提供了深度思考和联网搜索两种模式,任务处理能力较好。
DeepSeek-V3大模型总参数量高达6850亿,每次推理将激活370亿参数。DeepSeek-V3在14.8万亿token上进行了预训练,整体训练效率极高,这显著降低了训练成本。
根据DeepSeek透露的数据,DeepSeek-V3大模型训练仅用了约两个月的时间,成本约为558万美元。
DeepSeek为大模型训练打造了一条高速通道,这背后就有很多创新的技术。在框架方面,DeepSeek打造了HAI-LLM框架,可以实现16路流水线路专家模块并行,还创新使用多令牌预测(MTP)。通过设立了MTP训练目标,DeepSeek突破了传统大模型训练的束缚。再加上监督微调与强化学习两个阶段深入的打磨,DeepSeek-V3进一步提升了能力。
随着DeepSeek-V3等低成本、高效率大模型展现了强大的竞争力,未来AI大模型将进一步赋能更多的行业。
此前国内独角兽企业智谱AI凭借出色的智能体AutoGLM,获得了市场高度关注。用户只需要对手机说话,便可以实现网络购物、订购火车票、点外卖、发微信、抢红包等功能,公司也已经获得了淘宝、微信、美团等APP的授权。
智谱AI已经与国内手机厂商展开了深入的合作,其中就包括荣耀。早在今年9月,荣耀CEO赵明便表示,荣耀Magic7将是首款中国消费者可以体验AI Agent的手机。荣耀此前发布个人化全场景AI操作系统MagicOS 9.0,宣布将YOYO助理升级为智能体,具备“自然语义理解和计算机视觉”、“用户行为习惯学习和场景环境感知”、“意图识别及决策能力”、“应用内及跨应用操作”四大核心能力。
根据界面新闻的报道,苹果将在中国销售的iPhone中接入本土AI大模型,目前与腾讯和字节跳动进行洽谈。此前财经媒体报道,苹果与百度达成合作协议,计划在2025年推出生成式人工智能服务,双方有望在端侧小模型及云端大模型展开合作。
苹果接洽腾讯、字节跳动的消息,瞬间成为资本市场焦点。众所周知,腾讯和字节跳动均在人工智能大模型领域拥有深厚的技术积累,分别推出了混元大模型和豆包大模型。在2024火山引擎FORCE原动力大会上,字节跳动升级了豆包大模型产品,发布了视觉理解模型,视觉生成模型也将在2025年1月对外开放。
根据iFinD金融数据终端,算力概念股包括:工业富联、寒武纪、中兴通讯、海光信息、科大讯飞、中科曙光、中国移动、光启技术、紫光股份、浪潮信息、中国能建、宝信软件、昆仑万维、中国长城、软通动力、龙芯中科等。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
又一情侣秀恩爱新操作?评论区跟风竟吵翻直呼不是线元!小米杂货铺又上新品,让你过上电影里的生活
连续3年财务造假!这家A股公司被罚800万元,董事长被罚1000万元!已连亏5年多,股价却曾2个月涨100%
《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律