ENH Dense pipeline support for RandomTreesEmbedding via sparse_output param

mjbommar · jnothman · commit 92c4308dd9ff · 2014-05-29T09:46:10.000+10:00
diff --git a/sklearn/ensemble/forest.py b/sklearn/ensemble/forest.py
@@ -1271,6 +1271,10 @@ class RandomTreesEmbedding(BaseForest):
         If not None then ``max_depth`` will be ignored.
         Note: this parameter is tree-specific.
 
+    sparse_output: bool, optional (default=True)
+        Whether or not to return a sparse CSR matrix, as default behavior,
+        or to return a dense array compatible with dense pipeline operators.
+
     n_jobs : integer, optional (default=1)
         The number of jobs to run in parallel for both `fit` and `predict`.
         If -1, then the number of jobs is set to the number of cores.
@@ -1305,6 +1309,7 @@ def __init__(self,
                  min_samples_split=2,
                  min_samples_leaf=1,
                  max_leaf_nodes=None,
+                 sparse_output=True,
                  n_jobs=1,
                  random_state=None,
                  verbose=0,
@@ -1327,6 +1332,7 @@ def __init__(self,
         self.min_samples_leaf = min_samples_leaf
         self.max_features = 1
         self.max_leaf_nodes = max_leaf_nodes
+        self.sparse_output = sparse_output
 
         if min_density is not None:
             warn("The min_density parameter is deprecated as of version 0.14 "
@@ -1363,7 +1369,7 @@ def fit_transform(self, X, y=None):
         rnd = check_random_state(self.random_state)
         y = rnd.uniform(size=X.shape[0])
         super(RandomTreesEmbedding, self).fit(X, y)
-        self.one_hot_encoder_ = OneHotEncoder()
+        self.one_hot_encoder_ = OneHotEncoder(sparse=self.sparse_output)
         return self.one_hot_encoder_.fit_transform(self.apply(X))
 
     def transform(self, X):
diff --git a/sklearn/ensemble/tests/test_forest.py b/sklearn/ensemble/tests/test_forest.py
@@ -377,6 +377,41 @@ def test_classes_shape():
         yield check_classes_shape, name
 
 
+def test_random_trees_dense_type():
+    '''
+    Test that the `sparse_output` parameter of RandomTreesEmbedding
+    works by returning a dense array.
+    '''
+
+    # Create the RTE with sparse=False
+    hasher = RandomTreesEmbedding(n_estimators=10, sparse_output=False)
+    X, y = datasets.make_circles(factor=0.5)
+    X_transformed = hasher.fit_transform(X)
+
+    # Assert that type is ndarray, not scipy.sparse.csr.csr_matrix
+    assert_equal(type(X_transformed), np.ndarray)
+
+
+def test_random_trees_dense_equal():
+    '''
+    Test that the `sparse_output` parameter of RandomTreesEmbedding
+    works by returning the same array for both argument
+    values.
+    '''
+
+    # Create the RTEs
+    hasher_dense = RandomTreesEmbedding(n_estimators=10, sparse_output=False,
+                                        random_state=0)
+    hasher_sparse = RandomTreesEmbedding(n_estimators=10, sparse_output=True,
+                                         random_state=0)
+    X, y = datasets.make_circles(factor=0.5)
+    X_transformed_dense = hasher_dense.fit_transform(X)
+    X_transformed_sparse = hasher_sparse.fit_transform(X)
+
+    # Assert that dense and sparse hashers have same array.
+    assert_array_equal(X_transformed_sparse.toarray(), X_transformed_dense)
+
+
 def test_random_hasher():
     # test random forest hashing on circles dataset
     # make sure that it is linearly separable.