本文最后更新于:2022年3月26日 凌晨
Pandas
pandas是一个非常强大的用于数据分析的python第三方库,通常会用import pandas as pd
来导入。
安装:pip install pandas
| file_path = './data.csv'
data = pd.read_csv(file_path)
data.describe()
data.head
|
例如data里面有"A"、“B”、"C"这些列,想要提取出其中的BC两列:
| feature_names = ["B", "C"] X = data[feature_names]
|
Matplotlib
Matplotlib是个比较常用的Python绘图工具,官网:https://matplotlib.org/
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
| import matplotlib.pyplot as plt import numpy as np import matplotlib
font = matplotlib.font_manager.FontProperties(fname="SourceHanSansSC-Light.otf")
x = np.arange(1, 11) y = 2 * x + 5
plt.title("Test", fontproperties=font) plt.xlabel("x 轴", fontproperties=font) plt.ylabel("y 轴", fontproperties=font)
plt.plot(x, y, linewidth=2.0)
plt.show()
plt.savefig("test.png", dpi=150)
|
Min-max feature scaling
最小-最大特征缩放,可以把数据的范围带入到[0,1],这也称为基于单位的归一化:
X′=Xmax−XminX−Xmin
或者把数据的范围带入到[a,b]:
X′=a+Xmax−Xmin(X−Xmin)(b−a)
这种缩放的缺点是,如果存在异常数据,会对缩放结果造成较大的影响。
sklearn.preprocessing.MinMaxScaler()
Standard score
z=σx−μ
其中,μ 为总体的平均值,σ 为总体的标准差。
在数据量较大的情况下,少量的异常数据对平均值的影响较小。
sklearn.preprocessing.StandardScaler()
Pearson correlation coefficient
皮尔逊相关系数,对于两组样本{x1,x2,…,xn}和{y1,y2,…,yn},可以计算它们的样本相关系数rxy:
rxy=n∑xi2−(∑xi)2n∑yi2−(∑yi)2n∑xiyi−∑xi∑yi
样本相关系数的范围在[−1,1]之间,0<rxy<1时表示正相关,反之表示负相关。
SciPy:
| from scipy.stats import pearsonr print(pearsonr([1, 2, 3], [4, 5, 6]))
|