让机器学习提出问题可以让它变得更聪明
杜克大学的生物医学工程师展示了一种新方法,可以在仅使用一小部分可用数据的情况下显着提高机器学习模型搜索新分子疗法的有效性。通过使用主动识别数据集中差距的算法,研究人员在某些情况下可以将其准确性提高一倍以上。
这种新方法可以使科学家更容易地识别和分类具有可用于开发新候选药物和其他材料的特征的分子。
这项工作发表在英国皇家化学学会6月23日出版的《DigitalDiscovery》杂志上。
机器学习算法越来越多地用于识别和预测小分子(例如候选药物和其他化合物)的特性。尽管计算能力和机器学习算法都取得了显着进步,但它们的能力目前受到用于训练它们的现有数据集的限制,而这些数据集远非完美。
主要问题之一涉及数据偏差。当有大量数据点展示一种特性远远多于另一种特性时,就会发生这种情况,例如分子抑制特定蛋白质的潜在能力或其结构特征。
杜克大学生物医学工程助理教授DanielReker解释道:“这就好像你训练了一种算法来区分狗和猫的图片,但你给了它10亿张狗的照片来学习,而只有100张猫的照片。”。“该算法将非常擅长识别狗,以至于一切都开始看起来像狗,并且它会忘记世界上的其他一切。”
对于药物发现和开发来说,这是一个特别成问题的问题,科学家们经常处理的数据集显示,99%以上的测试化合物“无效”,并且只有一小部分分子被标记为可能有用。
为了解决这个问题,研究人员使用了一种称为数据子采样的过程,他们的算法从一个小的但(希望)具有代表性的数据子集中学习。虽然此过程可以通过为模型提供相同数量的示例来学习来消除偏差,但它也可能会删除关键数据点并对算法的整体准确性产生负面影响。为了弥补这一缺陷,研究人员开发了数百种二次采样技术来限制丢失的信息量。
但雷克和他的合作者想要探索一种称为主动机器学习的技术是否可以解决这个长期存在的问题。
“通过主动机器学习,算法本质上能够在感到困惑或感觉到数据中存在差距时提出问题或请求更多信息,而不是被动地筛选数据,”雷克说。“这使得主动学习模型在预测表现方面非常有效。”
通常,Reker和其他研究人员应用主动学习算法来生成新数据,例如识别新药物,但Reker和他的团队希望探索如果在现有数据集上释放该算法会发生什么。虽然主动机器学习的二次采样应用已经在其他研究中进行了探索,但Reker和他的团队是第一个在分子生物学和药物开发中测试该算法的人。
为了测试主动二次采样方法的效率,研究小组编制了具有不同特征的分子数据集,包括可以穿过血脑屏障的分子、可以抑制与阿尔茨海默病相关的蛋白质的分子,以及已被证明可以抑制阿尔茨海默病的化合物。HIV复制。然后,他们针对从完整数据集学习的模型和16种最先进的子采样策略测试了主动学习算法。
该团队表明,主动二次采样能够比每种标准二次采样策略更准确地识别和预测分子特征,最重要的是,在某些情况下,比在完整数据集上训练的算法效率高出139%。他们的模型还能够准确地调整数据中的错误,这表明它对于低质量的数据集特别有用。
但最令人惊讶的是,该团队发现理想的使用数据量远低于预期,在某些情况下仅需要可用数据的10%。
“主动二次采样模型会在某个时刻收集它需要的所有信息,如果添加更多数据,就会对性能产生不利影响,”Reker解释道。“这个问题对我们来说特别有趣,因为它暗示存在一个拐点,即使在子样本中,更多信息也不再有帮助。”
虽然雷克和他的团队希望在未来的工作中研究这个拐点,但他们还计划使用这种新方法来识别潜在治疗靶点的新分子。由于主动机器学习在许多不同的研究领域变得越来越流行,该团队乐观地认为他们的工作将帮助科学家更好地理解这种算法及其对数据错误的鲁棒性。
“这种方法不仅可以提高机器学习性能,而且还可以减少数据存储需求和成本,因为它使用的是更精细的数据集,”雷克说。“这使得机器学习对每个人来说都更具可重复性、可访问性和强大性。”
更多信息:YujingWen等人,通过自适应子采
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
星纪元ET作为一款备受期待的新能源车型,其试驾预约已经全面开放。为了让更多消费者能够亲身体验这款智能电动...浏览全文>>
-
想要体验mu-X牧游侠带来的驾驶乐趣,首先需要了解其独特的性能和设计亮点。这款SUV以其强大的越野能力和舒适的...浏览全文>>
-
您提到的“风光ix5 2022新款”是东风风光推出的一款SUV车型。根据2022年的市场情况,风光ix5的价格区间大致在...浏览全文>>
-
瑞虎8 L作为一款备受期待的中型SUV,凭借其宽敞的空间和出色的性价比吸引了众多消费者的关注。为了更好地了解...浏览全文>>
-
根据最新的市场信息,DS 9新能源车型的落地价以及豪华配置确实非常吸引人。以下是一些关键点供您参考:1 ...浏览全文>>
-
国吉商用车大象G40是一款备受关注的商用车型,其强大的性能和舒适的设计吸引了众多消费者的目光。为了更好地了...浏览全文>>
-
截至我所掌握的信息,关于长沙长安启源C798(假设为长安汽车旗下的一款车型)2025款的价格和相关费用明细,以...浏览全文>>
-
关于2025款武汉长安猎手K50的具体价格,目前市场上还没有明确的官方报价。通常情况下,新车的价格会在上市前几...浏览全文>>
-
在购买2025款坦克300新能源车型之前,了解清楚各项费用是非常重要的。以下是一些主要的费用明细:1 车辆价...浏览全文>>
-
长安UNI-K作为长安汽车旗下的高端序列UNI系列的一员,自推出以来就凭借其时尚的设计、丰富的配置以及较高的性...浏览全文>>
- 瑞虎8 L试驾,轻松开启试驾之旅
- 长沙长安启源C798最新价格2025款,购车前必看的费用明细
- 武汉长安猎手K50新款价格2025款多少钱?买车技巧与性价比大公开
- 坦克300新能源新车报价2025款,购车前必看的费用明细
- 雷驰信V70 2024新款价格大公开,买车不花冤枉钱
- 武汉大众ID.3最新价格2025款,各配置车型售价一目了然
- 凯威新车报价2022款,最低售价11.73万起,入手正当时
- 金杯T5新车报价2024款大揭秘,买车前必看
- 牧马人落地价,换代前的购车良机,不容错过
- 五菱扬光电卡多少钱?选车秘籍与性价比大公开
- 比亚迪e3多少钱?购车优惠大揭秘
- 东南DX8S落地价,换代前的购车良机,不容错过
- 皇冠陆放 2024新款价格大起底,买车超详细
- 五菱征程新能源多少钱 2023款落地价全解买车必看
- 家宝落地价,配置升级,值不值得买?
- MG Cyberster 2026新款价格,最低售价31.98万起,赶紧行动
- 缤纷落地价全解买车必看
- 湖北武汉ID.6 X 2023新款价格限时特惠,最低售价19.3888万起,错过不再有
- 上汽大通MAXUS T70新能源试驾预约,如何在4S店快速预约?
- 长安CS55PLUS新能源多少钱?买车攻略一网打尽