24小时热门版块排行榜    

查看: 73  |  回复: 3
【悬赏金币】回答本帖问题,作者仙咸闲将赠送您 5 个金币
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

仙咸闲

新虫 (初入文坛)

[求助] 机器学习 催化 化工 已有1人参与

本人化工研一学生,研究方向是机器学习筛选催化剂,课题组也没有人研究过这个方向。计算机零基础小白看了文献问了AI还是不知道该从何下手,现在电脑已经下载了anaconda,有没有UU能交流一下,现在很痛苦迷茫啊
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

仙咸闲

新虫 (初入文坛)

引用回帖:
2楼: Originally posted by cupbzhuwei at 2026-03-11 20:17:37
还得先做实验,建数据库吧

现在老师完全让我自学,先找好要筛的催化剂类型。可以完全用文献里的数据整理成数据集吗,自己做实验建库要很久,如果到时候机器学习还是搞不明白的话该咋办呢。如果用文献整理的数据集做学习和预测,自己只做实验测试预测的结果可行吗
3楼2026-03-15 08:36:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 4 个回答

cupbzhuwei

至尊木虫 (文坛精英)

还得先做实验,建数据库吧
发自小木虫手机客户端
2楼2026-03-11 20:17:37
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jiushizu2010

银虫 (小有名气)

【答案】应助回帖

第一步:先把环境跑通
你已经装了 Anaconda,这超级好!接下来做这几件事(每步 5–10 分钟):

打开 Anaconda Navigator(开始菜单搜这个图标)
点开后,左侧选 Environments
点 Create 新建一个环境,名字起个好记的,比如 ml_chem 或 catalyst_ml
Python 选 3.10 或 3.11(推荐 3.10,兼容性最好)

在新环境里装核心包(图形界面最简单)
选刚刚建的环境 → 搜索框输入下面这些包,一个个勾选安装(改搜索范围为 “All”):
rdkit(必须,处理分子 SMILES、指纹)
pandas(读表格)
numpy
scikit-learn(机器学习基础)
xgboost(最好用的梯度提升模型)
matplotlib(画图)
seaborn(更好看的图)
jupyterlab(推荐,比老 Jupyter 好用)

点 Apply 安装(可能要等 5–15 分钟)
装完后回到 Home 标签,选你的新环境,点 Launch JupyterLab

测试环境是否 OK(新建 notebook 跑下面代码)新建一个 notebook,粘贴运行:Pythonfrom rdkit import Chem
from rdkit.Chem import Draw

mol = Chem.MolFromSmiles('c1ccccc1')  # 苯环
Draw.MolToImage(mol)  # 如果弹出苯环结构图,就成功!

import pandas as pd
print(pd.__version__)  # 看到版本号就 OK

import xgboost
print(xgboost.__version__)
如果苯环图出来了 + 版本号正常 → 环境就通了!恭喜你已经跨过最大门槛。

小建议(避免踩坑)
以后装包优先用 conda install -c conda-forge xxx(比 pip 稳)
遇到权限问题(WinError 5),以管理员打开 Anaconda Prompt 再装
别在 base 环境里乱装东西,始终用你新建的 ml_chem 环境


第二步:明确一个小目标(别一下想筛所有催化剂)
你方向是筛催化剂,但范围太广容易迷失。先定一个小而具体的子问题,比如:

“我想预测 Suzuki 偶联里哪种膦配体产率高”
“我想筛哪种金属盐在 CO2 还原里活性好”
“我想看不同溶剂对某反应转化率的影响”

定好后,再去文献里找对应数据(后面我可以帮你推荐关键词或数据集)。
第三步:数据从哪里来(最现实的起步)

先别自己做实验(太慢)
从论文 Supporting Information 里扒表格(最常见办法)
推荐搜索:"high-throughput" OR "parallel synthesis" + 你关心的反应 + "supplementary excel" 或 "dataset"
目标:先搞到 100–300 条数据(催化剂/配体/底物 SMILES + 产率/TOF 等)

用 Excel 建一个主表,列名建议全英文 + 下划线(方便后续 pandas 读)。核心列必须有,可选列根据你方向加。每填一个 SMILES 就用 RDKit 测试一下能不能解析
建好 50–100 条后,就可以:

用 pandas 读入
RDKit 生成催化剂/底物指纹
XGBoost / RF 做回归(预测 yield)或分类(预测 Top 催化剂)
评估 R² / Top-k acc
4楼2026-03-15 09:22:15
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
不应助 确定回帖应助 (注意:应助才可能被奖励,但不允许灌水,必须填写15个字符以上)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 283求调剂 +6 小楼。 2026-03-12 9/450 2026-03-14 22:15 by cfxczx2015
[教师之家] 焦虑 +5 水冰月月野兔 2026-03-13 7/350 2026-03-14 15:14 by 农药害害
[考研] 331求调剂(0703有机化学 +5 ZY-05 2026-03-13 6/300 2026-03-14 10:51 by Jy?
[考研] 266求调剂 +4 学员97LZgn 2026-03-13 4/200 2026-03-14 08:37 by zhukairuo
[考研] 313分生物学求调剂 +6 Yyt杨1 2026-03-09 8/400 2026-03-14 03:00 by JourneyLucky
[考研] 一志愿天大化工(085600)调剂总分338 +6 蔡大美女 2026-03-09 6/300 2026-03-14 02:46 by JourneyLucky
[考研] 材料工程专硕,一志愿中国矿业大学,总分314,求调剂 +5 无懈可击的巨人 2026-03-10 5/250 2026-03-14 00:37 by JourneyLucky
[考研] 308求调剂 +3 是Lupa啊 2026-03-10 3/150 2026-03-14 00:30 by JourneyLucky
[考研] 332求调剂 +3 zjy101327 2026-03-11 6/300 2026-03-13 22:48 by JourneyLucky
[考研] 304求调剂 +6 Mochaaaa 2026-03-12 7/350 2026-03-13 22:18 by 星空星月
[考研] 085600调剂 +5 漾漾123sun 2026-03-12 5/250 2026-03-13 22:06 by 星空星月
[考研] 四川大学085601材料工程专硕 初试294求调剂 +4 祝我们好在冬天 2026-03-11 4/200 2026-03-13 21:39 by peike
[考研] 329求调剂 +3 miaodesi 2026-03-12 4/200 2026-03-13 20:53 by 18595523086
[考研] 材料工程调剂 +4 咪咪空空 2026-03-11 4/200 2026-03-13 19:57 by JourneyLucky
[考研] 290求调剂 +7 ADT 2026-03-12 7/350 2026-03-13 15:17 by JourneyLucky
[考研] 304求调剂(085602一志愿985) +12 化工人999 2026-03-09 12/600 2026-03-13 12:02 by JourneyLucky
[考博] 福州大学杨黄浩课题组招收2026年专业学位博士研究生,2026.03.20截止 +3 Xiangyu_ou 2026-03-12 3/150 2026-03-13 09:36 by duanwu655
[考研] 化工0817调剂 +8 灿若星晨 2026-03-10 8/400 2026-03-10 22:44 by 星空星月
[考研] 298求调剂 +3 Vv呀! 2026-03-10 3/150 2026-03-10 22:40 by 剑诗杜康
[考研] 0856材料与化工353分求调剂 +11 NIFFFfff 2026-03-09 11/550 2026-03-10 18:36 by suyuanhai
信息提示
请填处理意见