0
如果使用以下方法,似乎可以摆脱GridSearchCV中的交叉验证:
cv=[(slice(None), slice(None))]
我已经对自己的编码的网格搜索(没有交叉验证)进行了测试,并且两种方法都得到了相同的结果。
在这种情况下通过scikit-learn的estimator的方式可见如下示例:
from sklearn.metrics import silhouette_score as sc
def cv_silhouette_scorer(estimator, X):
estimator.fit(X)
cluster_labels = estimator.labels_
num_labels = len(set(cluster_labels))
num_samples = len(X.index)
if num_labels == 1 or num_labels == num_samples:
return -1
else:
return sc(X, cluster_labels)
cv = [(slice(None), slice(None))]
gs = GridSearchCV(estimator=sklearn.cluster.MeanShift(), param_grid=param_dict,
scoring=cv_silhouette_scorer, cv=cv, n_jobs=-1)
gs.fit(df[cols_of_interest])
收藏