| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 医学数据挖掘学习项目:他克莫司 -> 正文阅读 |
|
[人工智能]医学数据挖掘学习项目:他克莫司 |
目录 lambda,匿名函数,快速定义单行函数,可以用在任何需要函数的地方。 pandas判断是否是空值NaN,isnull(),notnull() pandas DataFrame.sort_values()方法 1. 报告know what, know how。知道是干什么的,怎么干的 目的:他克莫司用药日剂量 XGBoost, GBDT, Boosting, boosting,误分类样本的权值之和影响误差率,误差率影响分类器在最终分类器中的权重。 基分类器,h1的权重,误差越大,权重越小 分类器: 样本权重更新: XGBoost输出变量重要性 -->xgb.importance返回由f分数测量的特征重要范围 stepwise regression逐步回归 propensity score倾向性评分 <--由于实验组和对照组两组病人的基线水平存在差异,倾向性评分匹配法消除数据集中的混杂因素。 ==>两独立样本t检验:方差齐性检验,p,0.05;t检验/修正t检验 比较特征的差异显著性:连续特征,Mann-Whitney U检验;离散特征,卡方检验。 2. 代码1:从数据库中提取数据(1) database:surgical_record .ipynb文件为Jupyter notebook,是一个python交互式笔记本,包含代码、运行结果展示、其他内部设置 data: surgical_record['surgery_NAME'].str.contains('肾’)
lambda,匿名函数,快速定义单行函数,可以用在任何需要函数的地方。
np.nan,创建空值 pandas判断是否是空值NaN,isnull(),notnull()
pandas.reset_index()把就索引列添加为列,并使用心得顺序索引。drop参数=True,避免将旧索引添加为列,默认为False
pandas.astype()因为多个表合并到一个表,输出列Excel表发生数据错误,e.g.数值型数据末尾变0,所以python强制类型转换。
pandas.Excel_Writer()输出到excel
(2) 用药医嘱表单 mysql
where子句,有条件的从表中选取数据 pandas DataFrame.head(),返回数据帧或序列的前n行(默认值为5) pandas merge()方法
pandas rename()方法修改DataFrame的个别列名或索引,e.g. df.rename({'表1':'纬度'}) pandas.concat()函数用来连接DataFrame对象,行列相同或行列不同,缺失部分为NaN pandas.DataFrame.columns返回列标签 (3) 检验表单 pandas.loc[行,列]?e.g. temp.loc[0:2,'Drug_Name'],loc表示location,.loc[['Drug_Name', 'Project_Name']] pandas.iloc[行号,列号]e.g. [0:3, [4:6]],第3行取不到,第6列能取到 pandas.drop()函数DataFrame删除一行或一列。默认axis=0,行;axis=1,列 pandas.drop_duplicates()方法.drop_duplicates(subset='列名',keep='first',inplace='True'),删除DataFrame某列中重复项的函数
pandas.isnull() 和 .notnull()判断缺失值一般采用isnull()和notnull()。 .isnull().sum(),每列缺失值的数量 (4) 检验结果表单 pandas.DataFrame.replace(to_place, value)将to_replace数值/字符串替换为value pandas数据透视表pivot_table(data,values,index,columns,aggfunc='mean')
pandas DataFrame.sort_values()方法.sort_values(by='##', axis=0, ascending=True, inplace=Flase),根据指定列数据排序
(5) 诊断表单 pandas.groupby()方法.groupby(by=['列名'], axis=0, as_index)
pandas statsmodels传统频率学派统计方法
pandas DataFrame.describe()用于查看一些基本的统计信息,e.g. 百分位数,均值,标准差 3. 代码2:初始方案数据清洗pydotpluspydotplus -->绘图,比Graphviz支持中文 pylabpylab是matplotlib的一个子包,适合交互式绘图 pylab.mpl -->rcParams解决matplotlib无法显示中文或负号的情况
matplotlib
Ipython.display.image显示图像,Ipython是一个python的交互式shell,比python shell好用。利用python进行科学计算和交互可视化的一个最佳平台
time.time()获取当前时间 datetime.datetime.strptime(x, %Y-%m-%d %H:%M:%S)将数据转换为日期的方法 datetime.timedelta(days=2)对象代表两个时间之间的时间差,两个date或datetime对象相减可以返回一个timedelta对象。 TDM治疗药物监测,测定药物浓度,therapeutic drug monitoring bug
python list(range(9))可以把range()返回的可迭代对象转化为一个列表 (2) 筛选初始方案中tdm符合终点事件的用药和tdm检测组合 (3) 筛选调整方案中tdm符合终点事件的用药和tdm检测组合 (4) 初始方案所有变量数据清洗
(5) 其他用药 start_time <= TDM end_time >= tcms_3 days前 4. 代码3:调整方案数据清洗Graphviz -->开源的强大绘图工具,编写dot脚本 %matplotlib inline -->用再Jupyter notebook中具体作用是当你调用matplotlib.pyplot的绘图函数plot()进行绘图时,或者生成一个figure画布的时候,可以直接在你的python console里面生成图像。 5. 代码4:初始&调整方案建模sklearn.model_selection.model_selection,主要是对数据的分割,以及与数据分割相关的功能 train_test_split方法,将原始数据集划分成train和test两部分 sklearn.metrics
sklearn.train_test_split用来随机划分样本数据为训练集和测试集
sklearn分类器classifier和回归其regressor的区别标签数据labeled data
sklearn选择合适的算法/sklearn中各种分类器regressor都适用于什么样的数据选择合适的ML Algorithms。不存在一个再各方面都最好的模型/算法,需要针对具体问题,找到最好的机器学习算法
python auto_ml用于生产和分析的自动化机器学习模块,包括:分析、特征工程、自动缩放、特征选择、模型选择、超参优化、大数据
误差(error),偏差(bias),方差(variance)有什么区别和联系?error=bias + variance,反映的是整个模型的准确度。
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/11 13:57:26- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |