sklearn问题:进行回归时发现样本数量不一致的数组
machine-learning
numpy
python
scikit-learn
5
0

这个问题似乎以前曾被问过,但我似乎无法发表评论以进一步澄清已接受的答案,而且我无法弄清楚所提供的解决方案。

我正在尝试学习如何将sklearn与我自己的数据一起使用。基本上,我得到了过去100年中两个不同国家的GDP年度变化百分比。我现在只是想学习使用单个变量。我本质上想做的是使用sklearn来预测给定B国GDP的百分比变化后,A国GDP的百分比变化。

问题是我收到一条错误消息:

ValueError:找到样本数量不一致的数组:[1 107]

这是我的代码:

import sklearn.linear_model as lm
import numpy as np
import scipy.stats as st
import matplotlib.pyplot as plt
import matplotlib.dates as mdates


def bytespdate2num(fmt, encoding='utf-8'):#function to convert bytes to string for the dates.
    strconverter = mdates.strpdate2num(fmt)
    def bytesconverter(b):
        s = b.decode(encoding)
        return strconverter(s)
    return bytesconverter

dataCSV = open('combined_data.csv')

comb_data = []

for line in dataCSV:
    comb_data.append(line)

date, chngdpchange, ausgdpchange = np.loadtxt(comb_data, delimiter=',', unpack=True, converters={0: bytespdate2num('%d/%m/%Y')})


chntrain = chngdpchange[:-1]
chntest = chngdpchange[-1:]

austrain = ausgdpchange[:-1]
austest = ausgdpchange[-1:]

regr = lm.LinearRegression()
regr.fit(chntrain, austrain)

print('Coefficients: \n', regr.coef_)

print("Residual sum of squares: %.2f"
      % np.mean((regr.predict(chntest) - austest) ** 2))

print('Variance score: %.2f' % regr.score(chntest, austest))

plt.scatter(chntest, austest,  color='black')
plt.plot(chntest, regr.predict(chntest), color='blue')

plt.xticks(())
plt.yticks(())

plt.show()

我究竟做错了什么?我本质上试图将sklearn教程(他们使用了一些糖尿病数据集)应用于我自己的简单数据。我的数据仅包含日期,A国在特定年份的GDP百分比变化以及B国在同一年的GDP百分比变化。

我在这里这里尝试了解决方案(基本上是在第一个链接中尝试找到有关该解决方案的更多信息) ,但只是收到了完全相同的错误。

这是完整的回溯,以备您查看:

Traceback (most recent call last):
  File "D:\My Stuff\Dropbox\Python\Python projects\test regression\tester.py", line 34, in <module>
    regr.fit(chntrain, austrain)
  File "D:\Programs\Installed\Python34\lib\site-packages\sklearn\linear_model\base.py", line 376, in fit
    y_numeric=True, multi_output=True)
  File "D:\Programs\Installed\Python34\lib\site-packages\sklearn\utils\validation.py", line 454, in check_X_y
    check_consistent_length(X, y)
  File "D:\Programs\Installed\Python34\lib\site-packages\sklearn\utils\validation.py", line 174, in check_consistent_length
    "%s" % str(uniques))
ValueError: Found arrays with inconsistent numbers of samples: [  1 107]
参考资料:
Stack Overflow
收藏
评论
共 1 个回答
高赞 时间 活跃

在fit(X,y)中,输入参数X应该是二维数组。但是,如果数据中的X仅是一维,则可以将其重塑为二维数组,如下所示: regr.fit(chntrain_X.reshape(len(chntrain_X), 1), chntrain_Y)

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号