LogisticRegession 回归分析与python代码实现

Thinkgamer · Thinkgamer · commit 5bd740cf508f · 2016-05-10T22:48:22.000+08:00
diff --git a/Logistic Regession/LogisticRegession.py b/Logistic Regession/LogisticRegession.py
@@ -0,0 +1,119 @@
+#coding:utf-8
+'''
+Created on 2016/4/24
+
+@author: Gamer Think
+'''
+
+from numpy import *
+
+#加载数据集
+def loadDataSet():
+    dataMat = []
+    labelMat = []
+    fp = open("ex1.txt")
+    for line in fp.readlines():
+        lineArr = line.strip().split() #分割
+        dataMat.append([1.0,float(lineArr[0]), float(lineArr[1])])
+        labelMat.append( int(lineArr[2]))
+        
+    return dataMat,labelMat
+
+#定义Sigmoid函数
+def sigmoid(inX):
+    return 1.0/(1+exp(-inX))
+
+#梯度上升算法求解最佳回归系数
+def gradAscent(dataMatIn,classLabels):
+    dataMatrix = mat(dataMatIn) #将数组转为矩阵
+    labelMat = mat(classLabels).transpose()
+    m,n = shape(dataMatrix)      #返回矩阵的行和列
+    alpha = 0.001      #初始化 alpha的值
+    maxCycles = 500    #最大迭代次数
+    weights = ones((n,1)) #初始化最佳回归系数
+    for i in range(0,maxCycles):
+        #引用原书的代码，求梯度
+        h = sigmoid(dataMatrix*weights)
+        error = labelMat - h
+        weights = weights + alpha * dataMatrix.transpose() * error
+        
+    return weights
+   
+#随机梯度上升算法求回归系数
+def stocGradAscent0(dataMatrix,labelMat): 
+    dataMatrix = array(dataMatrix)
+    m,n = shape(dataMatrix)
+    alpha = 0.01
+    weights = ones(n)
+    for i in range(0,m):
+        h = sigmoid(sum(dataMatrix[i]*weights))
+        error = labelMat[i] - h
+        weights = weights + alpha *  error * dataMatrix[i]
+    
+    return weights
+        
+    
+#改进版的随机梯度上升算法
+def stocGradAscent1(dataMatrix,labelMat,numIter=150):
+    m,n = shape(dataMatrix)
+    weights = ones(n)
+    for i in range(0,numIter):
+        dataIndex = range(m)
+        for j in range(0,m):
+            alpha = 4/(1.0+j+i)+0.01
+            randIndex = int(random.uniform(0,len(dataIndex)))
+            h = sigmoid(sum(dataMatrix[randIndex] * weights))
+            error = labelMat[randIndex] - h
+            weights = weights + alpha * error * dataMatrix[randIndex]
+            del(dataIndex[randIndex])
+        
+    return weights       
+
+#分析数据，画出决策边界
+def plotBestFit(wei,dataMatrix,labelMat):
+    import matplotlib.pyplot as plt
+    weights = wei     #将矩阵wei转化为list
+    dataArr = array(dataMatrix)  #将矩阵转化为数组
+    n = shape(dataMatrix)[0]
+    xcord1 = [];ycord1=[]
+    xcord2 = [];ycord2=[]
+    
+    for i in range(n):
+        if int(labelMat[i])==1:
+            xcord1.append(dataArr[i,1])
+            ycord1.append(dataArr[i,2])
+        else:
+            xcord2.append(dataArr[i,1])
+            ycord2.append(dataArr[i,2])
+            
+    fig = plt.figure()
+    ax = fig.add_subplot(111)
+    ax.scatter(xcord1,ycord1,s=30,c='red', marker='s')
+    ax.scatter(xcord2,ycord2,s=30,c="green")
+    x = arange(-3.0,3.0,0.1)
+    y = (-weights[0]-weights[1] * x)/weights[2]
+    ax.plot(x,y)
+    plt.xlabel("x1")     #X轴的标签
+    plt.ylabel("x2")     #Y轴的标签
+    plt.show()
+            
+            
+            
+if __name__=="__main__":
+    dataMatrix,labelMat = loadDataSet()
+    #梯度上升算法
+#     weight = gradAscent(dataMatrix, labelMat)
+#     print weight
+#     plotBestFit(weight.getA(),dataMatrix,labelMat)
+
+    #随机梯度上升算法
+#     weight = stocGradAscent0(dataMatrix, labelMat)
+#     print weight
+#     plotBestFit(weight,dataMatrix,labelMat)
+    
+    #改进版的随机梯度上升算法
+    weight = stocGradAscent1(array(dataMatrix), labelMat)
+    print weight
+    plotBestFit(weight,dataMatrix,labelMat)
+    
+    
diff --git a/Logistic Regession/LogisticRegessionExample.py b/Logistic Regession/LogisticRegessionExample.py
@@ -0,0 +1,54 @@
+#coding:utf-8
+'''
+Created on 2016/4/25
+
+@author: Gamer Think
+'''
+import LogisticRegession as lr
+from numpy import *
+
+#二分类问题进行分类
+def classifyVector(inX,weights):
+    prob = lr.sigmoid(sum(inX * weights))
+    if prob>0.5:
+        return 1.0
+    else:
+        return 0.0
+
+#训练和测试
+def colicTest():
+    frTrain = open('horseColicTraining.txt'); frTest = open('horseColicTest.txt')
+    trainingSet = []; trainingLabels = []
+    #训练回归模型
+    for line in frTrain.readlines():
+        currLine = line.strip().split('\t')
+        lineArr =[]
+        for i in range(21):
+            lineArr.append(float(currLine[i]))
+        trainingSet.append(lineArr)
+        trainingLabels.append(float(currLine[21]))
+    trainWeights = lr.stocGradAscent1(array(trainingSet), trainingLabels, 1000)
+    errorCount = 0; numTestVec = 0.0
+    #测试回归模型
+    for line in frTest.readlines():
+        numTestVec += 1.0
+        currLine = line.strip().split('\t')
+        lineArr =[]
+        for i in range(21):
+            lineArr.append(float(currLine[i]))
+        if int(classifyVector(array(lineArr), trainWeights))!= int(currLine[21]):
+            errorCount += 1
+    errorRate = (float(errorCount)/numTestVec)
+    print "the error rate of this test is: %f" % errorRate
+    return errorRate
+    
+def multiTest():
+    numTests = 10
+    errorSum = 0.0
+    for k in range(numTests):
+        errorSum += colicTest()
+    print "after %d iterations the average error rate is: %f" % (numTests,errorSum/float(numTests))
+
+
+if __name__=="__main__":
+    multiTest()  
diff --git a/Logistic Regession/ex1.txt b/Logistic Regession/ex1.txt
@@ -0,0 +1,100 @@
+-0.017612   14.053064   0  
+-1.395634   4.662541    1  
+-0.752157   6.538620	0  
+-1.322371   7.152853    0  
+0.423363	11.054677   0  
+0.406704    7.067335    1  
+0.667394    12.741452   0  
+-2.460150   6.866805    1  
+0.569411    9.548755    0  
+-0.026632   10.427743   0  
+0.850433    6.920334    1  
+1.347183    13.175500   0  
+1.176813    3.167020    1  
+-1.781871   9.097953    0  
+-0.566606   5.749003    1  
+0.931635    1.589505    1  
+-0.024205   6.151823    1  
+-0.036453   2.690988    1  
+-0.196949   0.444165    1  
+1.014459    5.754399    1  
+1.985298    3.230619    1  
+-1.693453   -0.557540   1  
+-0.576525   11.778922   0  
+-0.346811   -1.678730   1  
+-2.124484   2.672471    1  
+1.217916    9.597015    0  
+-0.733928   9.098687    0  
+-3.642001   -1.618087   1  
+0.315985    3.523953    1  
+1.416614    9.619232    0  
+-0.386323   3.989286    1  
+0.556921    8.294984    1  
+1.224863    11.587360   0  
+-1.347803   -2.406051   1  
+1.196604    4.951851    1  
+0.275221    9.543647    0  
+0.470575    9.332488    0  
+-1.889567   9.542662    0  
+-1.527893   12.150579   0  
+-1.185247   11.309318   0  
+-0.445678   3.297303    1  
+1.042222    6.105155    1  
+-0.618787   10.320986   0  
+1.152083    0.548467    1  
+0.828534    2.676045    1  
+-1.237728   10.549033   0  
+-0.683565   -2.166125   1  
+0.229456    5.921938    1  
+-0.959885   11.555336   0  
+0.492911    10.993324   0  
+0.184992    8.721488    0  
+-0.355715   10.325976   0  
+-0.397822   8.058397    0  
+0.824839    13.730343   0  
+1.507278    5.027866    1  
+0.099671    6.835839    1  
+-0.344008   10.717485   0  
+1.785928    7.718645    1  
+-0.918801   11.560217   0  
+-0.364009   4.747300    1  
+-0.841722   4.119083    1  
+0.490426    1.960539    1  
+-0.007194   9.075792    0  
+0.356107    12.447863   0  
+0.342578    12.281162   0  
+-0.810823   -1.466018   1  
+2.530777    6.476801    1  
+1.296683    11.607559   0  
+0.475487    12.040035   0  
+-0.783277   11.009725   0  
+0.074798    11.023650   0  
+-1.337472   0.468339    1  
+-0.102781   13.763651   0  
+-0.147324   2.874846    1  
+0.518389    9.887035    0  
+1.015399    7.571882    0  
+-1.658086   -0.027255   1  
+1.319944    2.171228    1  
+2.056216    5.019981    1  
+-0.851633   4.375691    1  
+-1.510047   6.061992    0  
+-1.076637   -3.181888   1  
+1.821096    10.283990   0  
+3.010150    8.401766    1  
+-1.099458   1.688274    1  
+-0.834872   -1.733869   1  
+-0.846637   3.849075    1  
+1.400102    12.628781   0  
+1.752842    5.468166    1  
+0.078557    0.059736    1  
+0.089392    -0.715300   1  
+1.825662    12.693808   0  
+0.197445    9.744638    0  
+0.126117    0.922311    1  
+-0.679797   1.220530    1  
+0.677983    2.556666    1  
+0.761349    10.693862   0  
+-2.168791   0.143632    1  
+1.388610    9.341997    0  
+0.317029    14.739025   0  
diff --git a/Logistic Regession/horseColicTest.txt b/Logistic Regession/horseColicTest.txt
@@ -0,0 +1,67 @@
+2	1	38.50	54	20	0	1	2	2	3	4	1	2	2	5.90	0	2	42.00	6.30	0	0	1
+2	1	37.60	48	36	0	0	1	1	0	3	0	0	0	0	0	0	44.00	6.30	1	5.00	1
+1	1	37.7	44	28	0	4	3	2	5	4	4	1	1	0	3	5	45	70	3	2	1
+1	1	37	56	24	3	1	4	2	4	4	3	1	1	0	0	0	35	61	3	2	0
+2	1	38.00	42	12	3	0	3	1	1	0	1	0	0	0	0	2	37.00	5.80	0	0	1
+1	1	0	60	40	3	0	1	1	0	4	0	3	2	0	0	5	42	72	0	0	1
+2	1	38.40	80	60	3	2	2	1	3	2	1	2	2	0	1	1	54.00	6.90	0	0	1
+2	1	37.80	48	12	2	1	2	1	3	0	1	2	0	0	2	0	48.00	7.30	1	0	1
+2	1	37.90	45	36	3	3	3	2	2	3	1	2	1	0	3	0	33.00	5.70	3	0	1
+2	1	39.00	84	12	3	1	5	1	2	4	2	1	2	7.00	0	4	62.00	5.90	2	2.20	0
+2	1	38.20	60	24	3	1	3	2	3	3	2	3	3	0	4	4	53.00	7.50	2	1.40	1
+1	1	0	140	0	0	0	4	2	5	4	4	1	1	0	0	5	30	69	0	0	0
+1	1	37.90	120	60	3	3	3	1	5	4	4	2	2	7.50	4	5	52.00	6.60	3	1.80	0
+2	1	38.00	72	36	1	1	3	1	3	0	2	2	1	0	3	5	38.00	6.80	2	2.00	1
+2	9	38.00	92	28	1	1	2	1	1	3	2	3	0	7.20	0	0	37.00	6.10	1	1.10	1
+1	1	38.30	66	30	2	3	1	1	2	4	3	3	2	8.50	4	5	37.00	6.00	0	0	1
+2	1	37.50	48	24	3	1	1	1	2	1	0	1	1	0	3	2	43.00	6.00	1	2.80	1
+1	1	37.50	88	20	2	3	3	1	4	3	3	0	0	0	0	0	35.00	6.40	1	0	0
+2	9	0	150	60	4	4	4	2	5	4	4	0	0	0	0	0	0	0	0	0	0
+1	1	39.7	100	30	0	0	6	2	4	4	3	1	0	0	4	5	65	75	0	0	0
+1	1	38.30	80	0	3	3	4	2	5	4	3	2	1	0	4	4	45.00	7.50	2	4.60	1
+2	1	37.50	40	32	3	1	3	1	3	2	3	2	1	0	0	5	32.00	6.40	1	1.10	1
+1	1	38.40	84	30	3	1	5	2	4	3	3	2	3	6.50	4	4	47.00	7.50	3	0	0
+1	1	38.10	84	44	4	0	4	2	5	3	1	1	3	5.00	0	4	60.00	6.80	0	5.70	0
+2	1	38.70	52	0	1	1	1	1	1	3	1	0	0	0	1	3	4.00	74.00	0	0	1
+2	1	38.10	44	40	2	1	3	1	3	3	1	0	0	0	1	3	35.00	6.80	0	0	1
+2	1	38.4	52	20	2	1	3	1	1	3	2	2	1	0	3	5	41	63	1	1	1
+1	1	38.20	60	0	1	0	3	1	2	1	1	1	1	0	4	4	43.00	6.20	2	3.90	1
+2	1	37.70	40	18	1	1	1	0	3	2	1	1	1	0	3	3	36.00	3.50	0	0	1
+1	1	39.1	60	10	0	1	1	0	2	3	0	0	0	0	4	4	0	0	0	0	1
+2	1	37.80	48	16	1	1	1	1	0	1	1	2	1	0	4	3	43.00	7.50	0	0	1
+1	1	39.00	120	0	4	3	5	2	2	4	3	2	3	8.00	0	0	65.00	8.20	3	4.60	1
+1	1	38.20	76	0	2	3	2	1	5	3	3	1	2	6.00	1	5	35.00	6.50	2	0.90	1
+2	1	38.30	88	0	0	0	6	0	0	0	0	0	0	0	0	0	0	0	0	0	0
+1	1	38.00	80	30	3	3	3	1	0	0	0	0	0	6.00	0	0	48.00	8.30	0	4.30	1
+1	1	0	0	0	3	1	1	1	2	3	3	1	3	6.00	4	4	0	0	2	0	0
+1	1	37.60	40	0	1	1	1	1	1	1	1	0	0	0	1	1	0	0	2	2.10	1
+2	1	37.50	44	0	1	1	1	1	3	3	2	0	0	0	0	0	45.00	5.80	2	1.40	1
+2	1	38.2	42	16	1	1	3	1	1	3	1	0	0	0	1	0	35	60	1	1	1
+2	1	38	56	44	3	3	3	0	0	1	1	2	1	0	4	0	47	70	2	1	1
+2	1	38.30	45	20	3	3	2	2	2	4	1	2	0	0	4	0	0	0	0	0	1
+1	1	0	48	96	1	1	3	1	0	4	1	2	1	0	1	4	42.00	8.00	1	0	1
+1	1	37.70	55	28	2	1	2	1	2	3	3	0	3	5.00	4	5	0	0	0	0	1
+2	1	36.00	100	20	4	3	6	2	2	4	3	1	1	0	4	5	74.00	5.70	2	2.50	0
+1	1	37.10	60	20	2	0	4	1	3	0	3	0	2	5.00	3	4	64.00	8.50	2	0	1
+2	1	37.10	114	40	3	0	3	2	2	2	1	0	0	0	0	3	32.00	0	3	6.50	1
+1	1	38.1	72	30	3	3	3	1	4	4	3	2	1	0	3	5	37	56	3	1	1
+1	1	37.00	44	12	3	1	1	2	1	1	1	0	0	0	4	2	40.00	6.70	3	8.00	1
+1	1	38.6	48	20	3	1	1	1	4	3	1	0	0	0	3	0	37	75	0	0	1
+1	1	0	82	72	3	1	4	1	2	3	3	0	3	0	4	4	53	65	3	2	0
+1	9	38.20	78	60	4	4	6	0	3	3	3	0	0	0	1	0	59.00	5.80	3	3.10	0
+2	1	37.8	60	16	1	1	3	1	2	3	2	1	2	0	3	0	41	73	0	0	0
+1	1	38.7	34	30	2	0	3	1	2	3	0	0	0	0	0	0	33	69	0	2	0
+1	1	0	36	12	1	1	1	1	1	2	1	1	1	0	1	5	44.00	0	0	0	1
+2	1	38.30	44	60	0	0	1	1	0	0	0	0	0	0	0	0	6.40	36.00	0	0	1
+2	1	37.40	54	18	3	0	1	1	3	4	3	2	2	0	4	5	30.00	7.10	2	0	1
+1	1	0	0	0	4	3	0	2	2	4	1	0	0	0	0	0	54	76	3	2	1
+1	1	36.6	48	16	3	1	3	1	4	1	1	1	1	0	0	0	27	56	0	0	0
+1	1	38.5	90	0	1	1	3	1	3	3	3	2	3	2	4	5	47	79	0	0	1
+1	1	0	75	12	1	1	4	1	5	3	3	0	3	5.80	0	0	58.00	8.50	1	0	1
+2	1	38.20	42	0	3	1	1	1	1	1	2	2	1	0	3	2	35.00	5.90	2	0	1
+1	9	38.20	78	60	4	4	6	0	3	3	3	0	0	0	1	0	59.00	5.80	3	3.10	0
+2	1	38.60	60	30	1	1	3	1	4	2	2	1	1	0	0	0	40.00	6.00	1	0	1
+2	1	37.80	42	40	1	1	1	1	1	3	1	0	0	0	3	3	36.00	6.20	0	0	1
+1	1	38	60	12	1	1	2	1	2	1	1	1	1	0	1	4	44	65	3	2	0
+2	1	38.00	42	12	3	0	3	1	1	1	1	0	0	0	0	1	37.00	5.80	0	0	1
+2	1	37.60	88	36	3	1	1	1	3	3	2	1	3	1.50	0	0	44.00	6.00	0	0	0
diff --git a/Logistic Regession/horseColicTraining.txt b/Logistic Regession/horseColicTraining.txt