生活 >

        讓機(jī)器學(xué)習(xí)提出問(wèn)題可以讓它變得更聰明

        時(shí)間:2023-08-01 10:15:06       來(lái)源:萬(wàn)能網(wǎng)

        杜克大學(xué)的生物醫(yī)學(xué)工程師展示了一種新方法,可以在僅使用一小部分可用數(shù)據(jù)的情況下顯著提高機(jī)器學(xué)習(xí)模型搜索新分子療法的有效性。通過(guò)使用主動(dòng)識(shí)別數(shù)據(jù)集中差距的算法,研究人員在某些情況下可以將其準(zhǔn)確性提高一倍以上。


        (相關(guān)資料圖)

        這種新方法可以使科學(xué)家更容易地識(shí)別和分類具有可用于開(kāi)發(fā)新候選藥物和其他材料的特征的分子。

        這項(xiàng)工作發(fā)表在英國(guó)皇家化學(xué)學(xué)會(huì)6月23日出版的《DigitalDiscovery》雜志上。

        機(jī)器學(xué)習(xí)算法越來(lái)越多地用于識(shí)別和預(yù)測(cè)小分子(例如候選藥物和其他化合物)的特性。盡管計(jì)算能力和機(jī)器學(xué)習(xí)算法都取得了顯著進(jìn)步,但它們的能力目前受到用于訓(xùn)練它們的現(xiàn)有數(shù)據(jù)集的限制,而這些數(shù)據(jù)集遠(yuǎn)非完美。

        主要問(wèn)題之一涉及數(shù)據(jù)偏差。當(dāng)有大量數(shù)據(jù)點(diǎn)展示一種特性遠(yuǎn)遠(yuǎn)多于另一種特性時(shí),就會(huì)發(fā)生這種情況,例如分子抑制特定蛋白質(zhì)的潛在能力或其結(jié)構(gòu)特征。

        杜克大學(xué)生物醫(yī)學(xué)工程助理教授DanielReker解釋道:“這就好像你訓(xùn)練了一種算法來(lái)區(qū)分狗和貓的圖片,但你給了它10億張狗的照片來(lái)學(xué)習(xí),而只有100張貓的照片。”。“該算法將非常擅長(zhǎng)識(shí)別狗,以至于一切都開(kāi)始看起來(lái)像狗,并且它會(huì)忘記世界上的其他一切。”

        對(duì)于藥物發(fā)現(xiàn)和開(kāi)發(fā)來(lái)說(shuō),這是一個(gè)特別成問(wèn)題的問(wèn)題,科學(xué)家們經(jīng)常處理的數(shù)據(jù)集顯示,99%以上的測(cè)試化合物“無(wú)效”,并且只有一小部分分子被標(biāo)記為可能有用。

        為了解決這個(gè)問(wèn)題,研究人員使用了一種稱為數(shù)據(jù)子采樣的過(guò)程,他們的算法從一個(gè)小的但(希望)具有代表性的數(shù)據(jù)子集中學(xué)習(xí)。雖然此過(guò)程可以通過(guò)為模型提供相同數(shù)量的示例來(lái)學(xué)習(xí)來(lái)消除偏差,但它也可能會(huì)刪除關(guān)鍵數(shù)據(jù)點(diǎn)并對(duì)算法的整體準(zhǔn)確性產(chǎn)生負(fù)面影響。為了彌補(bǔ)這一缺陷,研究人員開(kāi)發(fā)了數(shù)百種二次采樣技術(shù)來(lái)限制丟失的信息量。

        但雷克和他的合作者想要探索一種稱為主動(dòng)機(jī)器學(xué)習(xí)的技術(shù)是否可以解決這個(gè)長(zhǎng)期存在的問(wèn)題。

        “通過(guò)主動(dòng)機(jī)器學(xué)習(xí),算法本質(zhì)上能夠在感到困惑或感覺(jué)到數(shù)據(jù)中存在差距時(shí)提出問(wèn)題或請(qǐng)求更多信息,而不是被動(dòng)地篩選數(shù)據(jù),”雷克說(shuō)。“這使得主動(dòng)學(xué)習(xí)模型在預(yù)測(cè)表現(xiàn)方面非常有效。”

        通常,Reker和其他研究人員應(yīng)用主動(dòng)學(xué)習(xí)算法來(lái)生成新數(shù)據(jù),例如識(shí)別新藥物,但Reker和他的團(tuán)隊(duì)希望探索如果在現(xiàn)有數(shù)據(jù)集上釋放該算法會(huì)發(fā)生什么。雖然主動(dòng)機(jī)器學(xué)習(xí)的二次采樣應(yīng)用已經(jīng)在其他研究中進(jìn)行了探索,但Reker和他的團(tuán)隊(duì)是第一個(gè)在分子生物學(xué)和藥物開(kāi)發(fā)中測(cè)試該算法的人。

        為了測(cè)試主動(dòng)二次采樣方法的效率,研究小組編制了具有不同特征的分子數(shù)據(jù)集,包括可以穿過(guò)血腦屏障的分子、可以抑制與阿爾茨海默病相關(guān)的蛋白質(zhì)的分子,以及已被證明可以抑制阿爾茨海默病的化合物。HIV復(fù)制。然后,他們針對(duì)從完整數(shù)據(jù)集學(xué)習(xí)的模型和16種最先進(jìn)的子采樣策略測(cè)試了主動(dòng)學(xué)習(xí)算法。

        該團(tuán)隊(duì)表明,主動(dòng)二次采樣能夠比每種標(biāo)準(zhǔn)二次采樣策略更準(zhǔn)確地識(shí)別和預(yù)測(cè)分子特征,最重要的是,在某些情況下,比在完整數(shù)據(jù)集上訓(xùn)練的算法效率高出139%。他們的模型還能夠準(zhǔn)確地調(diào)整數(shù)據(jù)中的錯(cuò)誤,這表明它對(duì)于低質(zhì)量的數(shù)據(jù)集特別有用。

        但最令人驚訝的是,該團(tuán)隊(duì)發(fā)現(xiàn)理想的使用數(shù)據(jù)量遠(yuǎn)低于預(yù)期,在某些情況下僅需要可用數(shù)據(jù)的10%。

        “主動(dòng)二次采樣模型會(huì)在某個(gè)時(shí)刻收集它需要的所有信息,如果添加更多數(shù)據(jù),就會(huì)對(duì)性能產(chǎn)生不利影響,”Reker解釋道。“這個(gè)問(wèn)題對(duì)我們來(lái)說(shuō)特別有趣,因?yàn)樗凳敬嬖谝粋€(gè)拐點(diǎn),即使在子樣本中,更多信息也不再有幫助。”

        雖然雷克和他的團(tuán)隊(duì)希望在未來(lái)的工作中研究這個(gè)拐點(diǎn),但他們還計(jì)劃使用這種新方法來(lái)識(shí)別潛在治療靶點(diǎn)的新分子。由于主動(dòng)機(jī)器學(xué)習(xí)在許多不同的研究領(lǐng)域變得越來(lái)越流行,該團(tuán)隊(duì)樂(lè)觀地認(rèn)為他們的工作將幫助科學(xué)家更好地理解這種算法及其對(duì)數(shù)據(jù)錯(cuò)誤的魯棒性。

        “這種方法不僅可以提高機(jī)器學(xué)習(xí)性能,而且還可以減少數(shù)據(jù)存儲(chǔ)需求和成本,因?yàn)樗褂玫氖歉?xì)的數(shù)據(jù)集,”雷克說(shuō)。“這使得機(jī)器學(xué)習(xí)對(duì)每個(gè)人來(lái)說(shuō)都更具可重復(fù)性、可訪問(wèn)性和強(qiáng)大性。”

        更多信息:YujingWen等人,通過(guò)自適應(yīng)子采

        關(guān)鍵詞:

        首頁(yè)
        頻道
        底部
        頂部
        亚洲成AV人片久久| 亚洲人成人无码网www电影首页| 亚洲精品无码你懂的网站| 国产成人精品日本亚洲直接 | 国产成人亚洲影院在线观看| 亚洲AV无码专区国产乱码不卡| 自拍偷区亚洲国内自拍| 久久av无码专区亚洲av桃花岛| 久久久久久亚洲精品| 亚洲视频中文字幕| 亚洲精品综合久久中文字幕 | 亚洲国产高清在线一区二区三区 | 亚洲av无码av在线播放| 亚洲AV无码一区二区三区网址| 亚洲欧美日韩中文字幕在线一区| 亚洲人xxx日本人18| 亚洲色大成网站www尤物| 亚洲免费视频播放| 亚洲永久在线观看| 亚洲国产高清国产拍精品| 日韩色日韩视频亚洲网站| 亚洲国产综合精品一区在线播放| 国产日韩成人亚洲丁香婷婷| 国产精品亚洲美女久久久| 亚洲处破女AV日韩精品| 亚洲一区二区中文| 亚洲成av人片在线看片| 涩涩色中文综合亚洲| 亚洲av日韩综合一区二区三区| 亚洲av无码成人精品区在线播放| jlzzjlzz亚洲乱熟在线播放| 亚洲精品少妇30p| 日本久久久久亚洲中字幕| 亚洲国产精品久久网午夜| 亚洲最大av资源站无码av网址| 亚洲欧美日韩综合俺去了| 亚洲精品视频免费| 亚洲国产精品成人精品无码区在线 | 亚洲精品中文字幕无乱码麻豆| 亚洲人片在线观看天堂无码| 国产产在线精品亚洲AAVV|