下载
登录/ 注册
主页
论坛
视频
热股
可转债
下载
下载

360周鸿祎交流

23-03-20 07:58 280次浏览
cb4045
+关注
博主要求身份验证
登录用户ID:
Q:上游哪些场景很关键?
A:算力不是最关键的问题 ,场景和数据是关键。我们二线队伍 ,账上 200 多亿人民币 ,之前国家搞了很多超算中心 ,没事情干 ,现在发现配了 GPU 就有东西看。Transformer 算法是谷歌发明的 ,实现靠的是大力出奇迹 ,几千亿参数。这是个工程问题。从 1 到 n中国能做的很快 ,openai 中国做的很快 ,谷歌和 meta 会很尴尬。Meta 开源了他的大语言模型 ,技术的 knowhow 会快速传播。关键的东西 ,第一是数据 ,有知识量的数据做训练 ,聊天的语料不包括知识 chatgpt 中文语料占了不到 5% ,大量知识在外文期刊里面 , 只用中文训练语料是不够的。很多机构说用了很大的参数 ,但是不敢拿出来说 ,大概率是数据不够。还需要人类的持续反馈学和调优 ,激发 GPT 理解人类的查询意图 ,这个是问题的关键。还有个很重要的是场景 ,微软 放弃了自己的小娜的研究 ,全力帮助 AI ,在场景化上可以让大家看到人工智能有什么场景。搜索引擎一直在做 NLP ,自然语言处理 ,大家都在跟踪使用 ,搜索引擎在获取海量数据 方面优势。我们和百度 抓取的网页在千亿万亿的规模 ,需要清洗辣鸡网页进行工程化的索引。我们搜索引擎要抓取英文的维基百科和语料 ,对于我们是现成的。初创公司可能会卡在工程化的初始阶段 ,这个对工程化的要求比较高。还有人工标注的调优 ,微软做了很多贡献 ,搜索引擎帮助很大。360 搜索份额占比 30% ,百度占比 60%。微软帮助 openai 占据了很多的场景 ,下一步可能会把 teams(视频会议)等 TO B 的场景做结合。
Q:以后会不会很多行业不存在了 ,机器把人替代了?
A:我不是很认同。我认为这是个洗牌的机会 ,如果你不重视他 ,抓上这班车就不行。我们企业内部要起每个部门都用 AI 提升我们的 能力 ,用 AI 的大语言模型赋能 ,这样会成为我们手里有力的竞争武器。GPT4 的知识能力和考试的能力已经超越了每一个地球人 ,GPT 可能是用 3.5 和 4 互相训练。我们也考虑过这种 ,用 bert 这种理解性的模型进行反馈和奖励。这是个生产力工具 ,是能给各个产业赋 能的 ,关键是你需要找到相应的场景和场景化的能力。
Q:以后小孩长大了应该会学什么专业吗?
A:这个问题很奇怪 ,该学什么专业学什么专业啊 ,对 prompt 很敏感。
Q:关于我们 360 ,行业现在是巨头扎堆 ,360 的核心优势?
A:第一个问题已经讲了 ,第一是数据的能力 ,不能光用中文的数据 ,要有全球数据的抓取能力 ,要能做到对垃圾的判别和清洗。用 户上亿次搜索的数据 ,我们和百度有知识问答的栏目 ,这种涉及用户的真实的使用场景来进行训练。数据我们有优势。GPT2 和 bert 是开源的 ,真要做到上千亿上万亿的模型 ,几千张 GPU 的显卡 ,几个 T 的数据进行几个亿的训练 ,这个对工程化要求很高。第三 , 搜索引擎我们市场份额是百度的一半。搜索引擎不具备生成性 ,不会编出林黛玉倒拔垂杨柳的故事 ,生成式 AI 会无中生有 ,如果编的结果是不对的普通人很难验证就很麻烦。我们做泛化 ,泛化的知识图谱的搜索 ,前面的十条二十条结果给大语言模型做提炼 ,这样就不会让生成式 AI 无中生有。我们搜索引擎 dau 有一个亿 ,大语言模型可以做及时的翻译和推荐 ,我们这种场景可以很好的让用户体 验到人工智能的场景 ,形成商业化的闭环。我在政协叫了个提案 ,大家忽视的是这个东西真正的破圈了。之前无论是阿尔法狗和蛋白质折叠 ,离生活比较远。得益于微软工程化产品化的能力。一方面要打造核心技术 ,全方位最大化的调用公司的资源。大模型的方向 已经出来了 ,要做到大力出奇迹 ,500 亿到 1000 亿的参数训练 ,用有质量的语料。谷歌现在很尴尬 ,模型做出来了商业化的场景可 能也被微软抢完了。微软专注场景和产品化的结合 ,openai 专注技术 ,这样能实现很好的效果。
Q:360 的场景和应用?
A:并行的。360 也在做 TO B ,也是我们很重视的机会。我们的安全大脑帮助企业抵御攻击。我们的机会是 ,中国企业不接受公有云 , 希望有个私有化部署的 GPT 和数据。未来每个企业可能有自己的大脑。只做垂直行业的训练肯定是不行的(说的就是科大讯飞 )。我们离 GPT 还有 24 个月到 36 个月的差距 ,第一个版本能做到几百亿参数的模型的时候 ,做到 GPT 的六成的功力 ,做到企业内部是够   用了。TO B 和 TO G 端是有大量的机会的。面对中小企业端 ,我们打算推出生成式 AI 的办公套件和应用。Openai 找了 100 家垂直的 SaaS 公司 ,会专门训练垂类的应用。我们这两年很关注 sme(中小企业),中小企业对企业数字化的要求功能明确 ,少花钱使用简单 ,SaaS 更合适 ,我们去年推面向企业的 SaaS 云服务 ,一年 120 万家客户。我们浏览器国内份额最大 ,做了个 SaaS 商店 ,我们会找合作伙伴做一些场景。TO C 我们有大量的使用场景 ,浏览器加上 AI 插件变成 AI 个人助力。TO B ,TO SME 和 TO C 三十多个场景   使用不同的能力 ,尽快占据用户的使用场景。
Q:我们会和百度一样芯片模型全覆盖的平台吗?
A:我们肯定不是这个方向。谷歌自己搞过 GPU ,也就自己用。训练最好还是用 A100 和 A800 ,框架没必要自己搞 ,自己搞个框架还要花精力和别的芯片适配。微软这么强大微软只做应用 ,openai 用的框架也是用的行业通用框架。我不认为产业链全都做了是好事。 我们坚定的沿着 transformer 框架把模型干到千亿。首先是要占据应用场景。
Q:百度内测效果不错 ,对于 360 未来应用的推广是不是更有信心了?
A:百度搜索一哥肯定能做好的 ,微软的搜索份额比谷歌要小 ,可以放开手要做创新。百度为什么做一个聊天机器人 我不理解 ,我要做的话可能更愿意和搜索相结合。国内我不认为会和美国一样一支独大 ,头条和其他互联网厂商大家不会相互支持 ,会互相竞争 ,360 啊微博 啊 B 站啊知乎 啊小红书啊美团滴滴 等等 ,他也不敢用巨头的服务 ,肯定要自己搞。还是希望在这个模型上做出几个超级应用。 有应用有场景的公司加上模型会有价值。
Q:中国电信 布局了企业版的 chatgpt ,对这个的关注提升到了国家战略的高度 ,国家的重视会对行业产生什么影响?
A:国家队干这个事肯定不是坏事 ,互联网上大家都做过。从目前拥有的数据和团队能力来看 ,民营企业和国企都在一个起跑线上。  只要不是只要牌照才能搞大语言模型 ,这样都有机会。GPT 不是媒体一样管制 ,是个生产力工具 ,这将决定未来国际 竞争当中的国运。 美国人对于大语言模型也有政治正确的要求。
Q:中国和美国比有 24 到 36 个月的时间差?
A:不是和微软比。GPT4 验证了我们很多观点 ,他的参数量我觉得应该到了万亿 ,训练的数据比原来大了 5 到 10 倍。人类反馈强化学不再是十万组 ,而是几十万组的答案对 ,有很强的智能的能力。 目前来看多模态是胜过国内的能力的。国内的图像识别还是传统的图像识别 ,openai 把所有都看做序列 ,图像也是序列 ,他能把图像组成部分的关系和逻辑相关性总结出来。他在阅读文档上的能力   国内做不到。他能支持 5 万字的输入 ,表示他的深度记忆能力越强 ,对上下文的理解越好。GPT3.5 我们认为国内和他的差距 18 个月 ,gpt4 是 24 个月。云谈了这么多年 ,企业上云的比例也还不高。这比光刻机的难度小多了。
Q:怎么看 GPT4 ,会不会取代操作系统成为战略级的入口?
A:这是两个概念 ,需要 host 一个应用需要操作系统 ,操作系统还是需要的。人工智能没有突破之前大数据给企业用不好用。Gpt 相 当于是发电厂 ,这个比喻比较贴切。纯做 GPT 的公司有点来不及 ,要么是有 GPT 丰厚的场景。场景越大爆发性就越大 ,如果场景很小 ,就做了个虚拟人挂个 GPT 跟人对话 ,这个场景就很小。场景未来可能有多家服务提供商。
Q:场景是我们非常关注的点 ,特斯拉机器人也是爆款 ,多模态和机器人的关系?人形机器人是终极目标吗?
A:我不这么认为。不考虑机器人的外形 ,音响之类的用自然语言和人交流这关就是过了。Gpt 能否处理好机械手臂 ,寻找空间定位也是 ,出了 GPT 之后传统的做语言识别的图像识别的就有问题了。人形机器人有个最大的问题 ,机械手臂抬起的力量 ,这和人工智能没有关系。如果机器人手里拿不了太重的东西 ,这可能会成为妨碍。自动驾驶汽车也是个机器人 ,只不过长了 4 个轮子。GPT 的大语 言都可以赋能。你们和智能音箱聊过天 ,聊两句就能知道他是个滞胀 ,gpt 肯定通过了图灵训练。橡胶娃娃也是仿真机器人。
Q:GPT4 在物联网终端的广泛应用是大趋势了 ,边缘计算的需求?
A:这跟边缘计算有什么关系呢?构不成边缘计算的节点。真正的能力都在云端 ,运算都在云端。
打开淘股吧APP
1
评论(1)
收藏
展开
热门 最新
提交