有了ChatGPT,读书还有用吗?
上半年ChatGPT横空出世,人工智能的潜能展现,给许多职业带来了一场生存危机的探讨。它能够通过律师和工程师资格考试,写的大学论文能不挂科,甚至能够“理解”笑话。它能回答人们的疑问,组织生动的语言结构,模仿各式各样的语言风格;而大语言模型和图像生成AI结合的技术,例如Midjourney,能够让丝毫没有受过艺术训练的人,用只言片语“创造”出惊人的艺术图像。
ChatGPT的本质,实际上是大语言模型叠加生成式人工智能。大语言模型,顾名思义,就是大,用海量的语素,用机器学习的方法训练一个计算机模型。生成式,则是用预测的方式,在对话时把最有可能出现的语素联系展示出来。
对于知识“加工”和“消费”者而言,大语言模型加上生成式人工智能的能力是巨大的。海量语素数据、深度神经网络和极大的计算力,相当于把整个来自互联网的知识“压平”,再通过人机互动进行“整装”。
(资料图片)
从计算逻辑上来讲,ChatGPT相当于一个更加强大的搜索引擎。普通的搜索引擎例如谷歌和百度通过爬虫的模式“扒”整个互联网的信息,并通过复杂的算法进行排序。而人工智能使用机器学习的方法,相当于把这些扒出来的信息,用预测的方式进行了符合语言逻辑的整理。知识加工变得更加便捷迅速,消费变得更加简明清晰——有的时候甚至过于简便,给了考试论文作弊以可乘之机。
针对这一点,技术乐观主义者认为,既然从今以后机器能够生成的内容,或许也不需要大多数的人类去动脑实现,就如同搜索引擎取代了图书馆的馆藏卡片、计算器取代珠算一般。的确,那些需要大量重复的文字类工作,或者机械地列举、整理工作,即使AI不介入最终决策,确实也能够提供相当程度的生产力,辅助人类进行知识的加工和消费。
那么,读书还有用吗?各大高校、研究机构的人员,是否也可以下班了?
机器能“学到”什么?
大语言模型和生成式人工智能,为将来的知识“生产者”带来了一个绕不过的课题:何为知识?如何生产多样、公正、真实的知识?
人工智能的“学习”能力是惊人的。现有的大语言模型和人工智能的应用,都脱不开机器学习作为其底色。“学习”二字,实质上是用大量的数据训练预测模型,并在预测的准确度,以及普适性上找到平衡。这种预测实际上是基于现有知识的,语言模型的预测,也是基于现有语言之间的联系。例如输入“红烧”,机器预测“肉”;然后根据更多的输入,例如地点,人,习惯等等,给出更加精确的预测,比如“外婆做的红烧牛肉”等等。
这种预测是怎么实现的呢?我们熟悉的坐标系是二维的。比如整个人群中,身高和体重有一个大致的对应关系,给出身高,机器预测一个平均体重,就是基于现有数据的预测。再加入另一个维度,比如性别,那么就成为了一个三维坐标,男女的预测会有所不同。如此下去,数据的维度可以是无限的,而机器学习的模型,就是在人脑所不能想象的多维空间中寻找此类联系,并不断调整各个维度之间的权重。比如,身高对体重的预测“有多重要”,可以在大量的数据输入之后进行调整。
因此,基于机器学习的人工智能,会把各种维度的数据,在更高维度的空间里联系起来,有发现数据之间潜在联系的能力,也会“学到”一些现实中不存在的,但很可能发生的联系。用在语言模型中,人工智能也能学习到不同的语言风格,挖掘现有文字中的“精髓”和“问题”。
数据越大,模型越成熟,其计算和挖掘能力也越高。类似于 BERT、GPT 这样诞生于大机构的 AI,被许多人认为走到了技术的“拐点”,量变产生质变也不无道理——这对于知识生产者来讲是好事。不过,大模型也有其内在的问题,模型越大,问题也越尖锐,特别是涉及到知识的多样、公正和真实方面。
怎样才能生产真实且公正的知识?
新的知识能从现有知识的连结和新模式中产生,这一点不管是从人还是机器的层面都是成立的。然而,现有的知识是否足够?是否充分?是否公平?如果现有知识的基础是不足的、甚至是有偏见的,那么在此基础上建立的新知识也会产生偏差。
自从机器学习的AI投入大规模应用以来,学者们就在不断地揭示出这些模型内在的偏见:性别歧视、种族歧视、有违伦理的输出等等。开发者们用各种补丁和纠偏的方式去弥补,但大部分问题都潜藏于数据生产和训练过程中,而AI的偏见,亦是对社会偏见的反映和放大。
另外一个问题则是数据的质量。机器学习不仅牵涉到训练模型的能力,还有数据的数量和质量。现有的开发过程,对模型的性能有着更多的强调甚至是迷信,反而会忽视更底层的数据来源问题。现在的大部分数据都要依赖人工来清洗和格式,为数据分类、打标签等等。很多时候,这个制作数据的过程是不透明的,甚至是潦草的。比如,大公司的AI开发背后,是大量“脏乱差”的人工被外包到欠发达地区的“AI工厂”。这种过程一方面存在着劳工伦理问题,另一方面也对数据质量提出了挑战。
到了大模型时代,这个问题可能会被隐藏得更深一些:不是每个研究者或者团队都有能力从0开始开发AI模型,尤其是大语言、大图像模型,大多都是在现有模型的基础上进行微调。而大模型本身的问题和偏差,会被迁移到更多的应用模型上。而越是底层的偏差,越是难以通过微调纠偏的方式进行处理。
现有语言模型的预测生成模式,甚至还会将数据现有的偏差放大,产生“过拟合”的效果:例如,某种疾病在某个族群中统计数据占比偏高,约有60%;但若让语言模型去生成一个病人的画像,那么有超过90%的可能,生成的病人描述会属于该族群。
现在一些AI的模型训练,采用的是一种“互搏”模式——所谓“生成对抗网络”,让两个模型不断互相生成、彼此纠正。这种方式的确是提高了模型训练的效率,然而任何小的偏差,都会在这种“互搏”中被放大。同样的原理,如果一个与机器紧密合作的知识生产者,其生产依赖于这类“生成”,那么一些来自于模型的偏见,就会被嵌入更多的新知识中,新知识再被吸收为数据,又进一步加强了模型的偏差。知识生产者在这个过程中必须保持警惕。
什么是新知识?AI的“生成”能代表新知识吗?
所谓的新知识,究竟是什么?如果要充分使用AI来生产知识,那么知识生产者就必须要从人机的结合点去思考这个问题。任何信息,以及人类从真实世界中获取的知识,都需要被“清洗”和“格式”成数据。除了上面提到的数据质量以外,数据生成的过程也很重要。简而言之,人们要研究的问题是什么?这个问题被翻译成为了怎样的数据?这些数据是怎么被生产出来的,又是否全面、公正地代表了知识生产者们想要研究的问题?
这个问题,对于“传统”的知识生产者而言也是成立的。以历史学为例,虽然历史研究的是过去的事情,但过去的事情没有百分百能够盖棺定论的。学者们通常会不断地寻找新的史料,去补充对于历史问题的理解,去不断地挖掘过去被忽略的视角和声音。有趣的是,当下的史学,也常常会求助于大量的数据,特别是过去的经济、人口、气候数据,甚至依靠机器学习,为历史带来的新认识、新观点。
同样的,依靠机器生成的认识和观点,也有可能放大了某一些数据来源的重要性。现在的知识生产者,过于依赖那些主流的、存在于互联网的、电子的信息,去在那些已经被别人“翻译”为数据的东西上进行创造。在AI时代,AI提供的便利和可延展性,也会潜在地让人们更容易忽视没有被数据化、电子化的,非主流的,经验性的知识,从而错过形成新观点、新视角的可能性。
往更深层次讲,新知识往往产生于对于新材料的挖掘,不同观点、不同视角之间的碰撞,对于现有知识的重新解构。大语言模型为知识的展现提供了许多可能性,然而其内在的逻辑和架构可能是和这种生产方式相悖的。
基于大语言模型的训练方式,和模型生成输出的特征,排序靠前的、概率更高的输出内容,权重会变得更大,特征会变得更单一。“AI生成的”几乎已经变成了一个形容词,去描述那些没有特征的、不断重复、说了像是没说的片汤话。诚然,对于知识消费者而言,那些“最有可能”出现的答案大大降低了理解门槛;但对于知识生产者而言,这些东西反而有可能成为阻碍。
新时代的知识生产者,该往哪里走?
可能很多和我一样的社科研究者,都在使用ChatGPT的时候遇到过这个问题:问它解释一个概念,说得头头是道;然而问起来源,就是“一本正经地胡说八道”了,比如列举出一个作者从来没写过的书、从来没发表过的论文。领域越是狭窄、专业,“胡说”的可能性越大。
退回到AI的原理,这种“创造”其实也是在海量的数据中,挖掘词句“有可能”的联系,但这些联系在现实中是不存在的,说白了只是“听起来很像”。这种新现象,在当下被称为“幻视”。对于知识生产者而言,如何活用人工智能去挖掘现有知识库中的模式和联系,但又对机器的“幻视”保持警惕,什么存在,什么存疑,是非常重要的技能。
与AI“对话”,也会变成一个新的技能。当下的AI对于大部分非技术人员而言,依然是一个神秘的“黑箱”。如何从技术的底层或者中层入手,去更有效地与机器对话,理解和对抗“幻视”,需要知识生产者和技术从业人员的合作。
而对于新知识、新视角、新材料的研究,各个领域独有的结构和诠释,在当下依然是十分关键的。大语言模型和生成式AI的预测模式,依然是倾向单一、重复的,越是训练材料少的领域,能力就越是有限。想要机器和人能力的结合,就必须从数据的生产根源上着手,去用准确的、多样的、公正的、新颖的数据训练AI模型,建立良性的人机互动模式。
大语言模型和生成式AI的问世对研究人员带来的挑战,仅仅是一个开始。与其探讨“取代”,不如在更加审慎的目光下,寻求磨合与发展的可能。
标签:
- 有了ChatGPT,读书还有用吗?
- Rekosistem获得500万美元战略投资
- 打造“投资中国”品牌 用好平台为各地招商引资提供支撑
- 【我在中国当大使】中塞互免签证,旅行说走就走
- 美芯片企业独揽中国移动50%订单,华为、中兴没有中标,为什么?
- 龙高股份(605086.SH)聘任黄仕锦为财务总监
- 公积金贷款条件是哪些
- 北京房山6家A级景区已恢复开放
- 今日超大账户抢筹(减持)的50只股
- 全国生态日|走进水生态环境治理与修复实验室:总磷污染是现阶段水治理“头号工程”
- 山东能源新驿煤矿掘进提效持续发力 着力破解“卡脖子”难题
- 航拍对比夏威夷毛伊岛火灾前后:显示拉海纳受灾严重
- 与张兰打官司、刚刷新PE圈募资纪录的CVC资本 又开始考虑上市了
- 盖茨基金会二季度重仓微软和伯克希尔哈撒韦B类股
- 五洲新春:融资净买入1579.39万元,融资余额1.61亿元(08-15)
- 董矿分公司探放水队党支部召开安全班组网络小组安全活动及“三违”帮教
- 江西南昌县相关部门向一销售排名“拖后腿”地产项目发函 若销售不力应对团队进行整改?官方回应:属实
- 国家统计局:前7个月全国房地产开发投资67717亿元 同比下降8.5%
- o型圈粗糙度测试,nectin4检测
- 2023年第二季度海南省城镇、农村居民累计人均可支配收入同比增长7.05%,累计人均消费支出同比增长7.75%
- 华金证券:给予华锐精密增持评级
- 众合科技于黑龙江参设新公司,含AI软件开发业务
- 拉纳·米特:世界应了解中国抗战的重要贡献和意义
- 感恩外公暖心的一段话(感恩外公暖心的一段话小时候的故事)
- 属羊人为什么感情不顺,分手后复合的更佳时期
- 石匠劳作的歌声
- 东海龙王有几个孩子图片(东海龙王有几个孩子)
- 王启蒙:黄金暴涨暴跌后市怎么看?现货黄金走势分析操作建议
- 国家统计局:待相关统计方法制度进一步完善后,会及时恢复发布青年人等分年龄段相关的失业率数据
- 古尔曼曝光苹果四款 M3 系列芯片规格和发布时间
- 出事了!温州银行被罚200万元
- 六款简单的开关电源电路设计,内附原理图详解
- 常德市城区主要民生商品价格总体平稳
- 俄防长:俄罗斯和蒙古国正加强军事合作
- 7月经济延续向好态势 下半年有望保持平稳运行
- 英媒:沙特、阿联酋抢购数千颗高性能英伟达芯片,加入全球AI竞赛
- 主播说新闻2023.8.14 | 夏夜治安巡查宣防 为群众“守夜”为安全“护航”;廊坊香河:藕荷宴宴请八方客......
- 新浪网钱币收藏(新浪收藏网)
- 成都大运村预计9月底向公众预约开放
- 广州社保卡各类密码设置指引(社保密码+银行密码)
- 轻之国度最新轻小说 轻之国度在线轻小说
- 竹荪和竹笙一样吗 竹荪区别
- 梅西领衔!迈阿密国际vs费城联合首发:布斯克茨、阿尔巴先发
- 蔡照益(关于蔡照益简述)
- 在职研究生报名网站(关于在职研究生报名网站的基本详情介绍)
- 移动上网神器 49元抢购Benton本腾随身wifi上网宝无线路由器
- 美股三大股指均跌超1% 高尔夫球杆制造商首日暴涨624%
- 图说党建
- 首个全国生态日|从“脏乱差”到“绿腰带”,青岛城市河道治理激活发展新动能
- 老行业 新机遇——上海普陀区数字广告产业调查
- 区金融办、广宁街道共同开展金融反诈宣传进社区活动
- 在红色少年主题邮局,上海小囡触摸到生动的“雷锋记忆”
- 北京十年累计增绿相当于219个奥林匹克森林公园面积大小
- 从旅游到旅居 云南文旅的新探索
- 妈开门呀离谱到家了!摄影师称自己照片被视觉中国告侵权
- 山西阳泉城区:下调首套公积金贷款利率0.15个百分点,实行居民换购住房退税政策
- 买房备案有什么好处(买房子备案是什么意思)
- 妈开门呀离谱到家了!摄影师称自己照片被视觉中国告侵权
- 瑞银:中国2022年财富跌幅低于美日 未来五年全球财富将增长38%
- 甬金股份上半年营收173亿 预期向好
- 大范围桑拿天覆盖超20省份,高温日历看这里
- 波长光电 今日新股缴款
- 抖音月付怎么关闭
- 小米净水器换滤芯s1800
- 专家提示规范处置很关键 暑期宠物咬伤抓伤患者增多
- 湾区三分钟丨 人头攒动! 澳门“旅游+”加了什么?
- 沪渝蓉高铁跨浩吉铁路特大桥成功转体
- 全力以赴重建美好家园
- 突发!时隔25天俄罗斯央行紧急加息,为何?
- 青釭剑的来历(青釭剑)
- 陪孩子们过暑假
- AAC与一加联合成立仿生触感实验室,一加Ace2 Pro标配RichTap全链路触觉反馈技术
- 广东珠海:五年累计减免环境保护税达1.67亿元
- 重庆市发布森林(草原)火险橙色预警
- 强化特色产业发展 赋能瑶乡全面振兴
- 科尔沁区:“板凳会”绘出乡村治理新画卷
- 强生(JNJ.US)新型前列腺癌治疗药物获FDA批准
- 金活医药集团(01110)拟进一步认购TAIKO PHARMACEUTICAL CO., LTD.的股份
- 第五届中华民族抗日战争史与抗战精神传承研讨会在渝举办
- 婚嫁金怎么领取?能领取多少?
- 龙血武姬出装上单(龙血武姬出装)
- 参考封面|沙特颠覆全球体育产业?
- 光大证券(06178):A股每股派发现金红利0.21元 8月22日除权除息
- 世界级大会明日召开 机器人产业将有大消息!业绩翻倍增长的概念股来了
- 日本首相岸田文雄战败日向靖国神社供奉祭祀费
- 私募机构人士:市场下探空间有限 寻找结构性机会
- 抵押贷款利率高涨打压潜在买家 美国8月建筑商信心指数下滑
- 母婴室难找、体验差,谁来管
- 庄浪:西兰花托起百姓“致富梦”
- 【星岛热评】倡母乳喂养,保障人类健康未来
- 中信银行南宁分行:为广西打造面向东盟金融开放门户“加油”
- 太仓城发集团7亿元私募债券项目更新为“已反馈”
- 加拿大西北地区野火肆虐 政府宣布进入紧急状态
- 成都再发高温橙色预警!最高温冲击36℃
- 跨国企业昕诺飞全球最大LED照明生产基地在华落成投产
- 最新世界排名:孙颖莎第1,陈梦第2,女乒包揽前6,早田希娜夺冠第7
- 国资委:督促指导中央企业以更大力度抓好抢修恢复、支持灾后重建工作
- 精灵的祝福!小罗发文祝内马尔一切顺利
- 元气骑士侍者饮料效果一览
- 文学之光励志祝福语句点燃心灵的希望与勇气