Python多元统计分析的求资源?网上的数据分析资源大多都是骗人的。

理由
举报 取消

在网上找了许多资料,是关于python数据分析,下下来一看,几乎都是教你如何处理数据,教你如何画图,教你循环语句这些,我觉得这些都是最基本的python使用的资料,叫做数据分析有点文不对题,我找了半天也没有找到关于数理统计的资料,其实基础已经具备且比较娴熟,想学一些用python进行数理统计,即假设检验、回归分析、聚类分析、主成分分析、因子分析、相关分析这样的知识,我觉得这才叫做数据分析,跪求万能的知乎大神们不吝赐教啊,大写的感谢啊。。。

2018年2月21日 2 条回复 1557 次浏览

发起人:公子羽 初入职场

浮生而明己心,妄世而行己道

回复 ( 2 )

  1. yiyuezhuo
    理由
    举报 取消

    名字里带“python”和“数据分析”的只看过《用Python进行数据分析》,这书主要介绍的pandas包粗看起来没什么必要一定要用,所以就没看,结果用一套非常丑陋低效重复的方法实现了pandas里非常简洁就能做到的事情后才发现pandas的好处。另外虽然pandas主要处理“数据处理”这部分,但回归分析也可能用上它,比如统计模型包statsmodels里建立一个OLS回归的标准方法是:

    1.建立设计矩阵(Design matrix

    2.使用设计矩阵和因变量创建一个模型类(OLS,WLS等)实例

    3.拟合模型实例,返回结果对象。

    4.调用结果对象summary看结果或者调用其字段进行进一步自动化操作。

    这里面创建设计矩阵可能是一件很复杂的事,比如虚拟变量创建就可能十分麻烦,另外因为单纯的设计矩阵抹掉了回归方程变量名的信息,所以可能需要自己外部封装一层来保持变量名的映射,这都与交互式探索的体验相悖。而如果使用pandas的DataFrame,只需要写一个R风格的公式

    mod=smf.ols('gpa~degree+C(majar)',data=df)
    
  2. 陈兴达
    理由
    举报 取消

    statsmodels,这个包就是做回归的。我这学期用它做了多元回归和残差检验,还不错的。

我来回答

Captcha 点击图片更换验证码