DataCutter

Instance Constructors

new DataCutter(uid: String = UID[DataCutter])

Value Members

final def !=(arg0: Any): Boolean

Definition Classes

AnyRef → Any
final def ##(): Int

Definition Classes

AnyRef → Any
final def $[T](param: Param[T]): T

Attributes

protected

Definition Classes

Params
final def ==(arg0: Any): Boolean

Definition Classes

AnyRef → Any
final def asInstanceOf[T0]: T0

Definition Classes

Any
def checkPreconditions(): Unit

Attributes

protected

Definition Classes

Splitter
final def clear(param: Param[_]): DataCutter.this.type

Definition Classes

Params
def clone(): AnyRef

Attributes

protected[java.lang]

Definition Classes

AnyRef

Annotations

@throws( ... )
def copy(extra: ParamMap): DataCutter

Definition Classes

DataCutter → Params
def copyValues[T <: Params](to: T, extra: ParamMap): T

Attributes

protected

Definition Classes

Params
final def defaultCopy[T <: Params](extra: ParamMap): T

Attributes

protected

Definition Classes

Params
final def eq(arg0: AnyRef): Boolean

Definition Classes

AnyRef
def equals(arg0: Any): Boolean

Definition Classes

AnyRef → Any
def explainParam(param: Param[_]): String

Definition Classes

Params
def explainParams(): String

Definition Classes

Params
final def extractParamMap(): ParamMap

Definition Classes

Params
final def extractParamMap(extra: ParamMap): ParamMap

Definition Classes

Params
def finalize(): Unit

Attributes

protected[java.lang]

Definition Classes

AnyRef

Annotations

@throws( classOf[java.lang.Throwable] )
final def get[T](param: Param[T]): Option[T]

Definition Classes

Params
final def getClass(): Class[_]

Definition Classes

AnyRef → Any
final def getDefault[T](param: Param[T]): Option[T]

Definition Classes

Params
def getLabelsFromMetadata(data: DataFrame): Array[String]
def getMaxLabelCategories: Int

Definition Classes

DataCutterParams
def getMaxTrainingSample: Int

Definition Classes

SplitterParams
def getMinLabelFraction: Double

Definition Classes

DataCutterParams
final def getOrDefault[T](param: Param[T]): T

Definition Classes

Params
def getParam(paramName: String): Param[Any]

Definition Classes

Params
def getReserveTestFraction: Double

Definition Classes

SplitterParams
def getSeed: Long

Definition Classes

SplitterParams
final def hasDefault[T](param: Param[T]): Boolean

Definition Classes

Params
def hasParam(paramName: String): Boolean

Definition Classes

Params
def hashCode(): Int

Definition Classes

AnyRef → Any
final def isDefined(param: Param[_]): Boolean

Definition Classes

Params
final def isInstanceOf[T0]: Boolean

Definition Classes

Any
final def isSet(param: Param[_]): Boolean

Definition Classes

Params
final val labelColumnName: Param[String]

Definition Classes

SplitterParams
final val maxLabelCategories: IntParam

Definition Classes

DataCutterParams
final val maxNamesForDroppedLabels: IntParam

Definition Classes

DataCutterParams
final val maxTrainingSample: IntParam

Maximum size of dataset want to train on.

Maximum size of dataset want to train on. Value should be > 0. Default is 1000000.

Definition Classes

SplitterParams
final val minLabelFraction: DoubleParam

Definition Classes

DataCutterParams
final def ne(arg0: AnyRef): Boolean

Definition Classes

AnyRef
final def notify(): Unit

Definition Classes

AnyRef
final def notifyAll(): Unit

Definition Classes

AnyRef
lazy val params: Array[Param[_]]

Definition Classes

Params
def preValidationPrepare(data: DataFrame): PrevalidationVal

Function to set parameters before passing into the validation step eg - do data balancing or dropping based on the labels

Function to set parameters before passing into the validation step eg - do data balancing or dropping based on the labels

returns

Parameters set in examining data

Definition Classes

DataCutter → Splitter
final val reserveTestFraction: DoubleParam

Fraction of data to reserve for test Default is 0.1

Fraction of data to reserve for test Default is 0.1

Definition Classes

SplitterParams
final val seed: LongParam

Seed for data splitting

Seed for data splitting

Definition Classes

SplitterParams
final def set(paramPair: ParamPair[_]): DataCutter.this.type

Attributes

protected

Definition Classes

Params
final def set(param: String, value: Any): DataCutter.this.type

Attributes

protected

Definition Classes

Params
final def set[T](param: Param[T], value: T): DataCutter.this.type

Definition Classes

Params
final def setDefault(paramPairs: ParamPair[_]*): DataCutter.this.type

Attributes

protected

Definition Classes

Params
final def setDefault[T](param: Param[T], value: T): DataCutter.this.type

Attributes

protected

Definition Classes

Params
def setMaxLabelCategories(value: Int): DataCutter.this.type

Definition Classes

DataCutterParams
def setMaxTrainingSample(value: Int): DataCutter.this.type

Definition Classes

SplitterParams
def setMinLabelFraction(value: Double): DataCutter.this.type

Definition Classes

DataCutterParams
def setReserveTestFraction(value: Double): DataCutter.this.type

Definition Classes

SplitterParams
def setSeed(value: Long): DataCutter.this.type

Definition Classes

SplitterParams
def split[T](data: Dataset[T]): (Dataset[T], Dataset[T])

Function to use to create the training set and test set.

Function to use to create the training set and test set.

returns

(dataTrain, dataTest)

Definition Classes

Splitter
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes

AnyRef
def toString(): String

Definition Classes

Identifiable → AnyRef → Any
val uid: String

Definition Classes

Splitter → Identifiable
def validationPrepare(data: Dataset[Row]): Dataset[Row]

Rebalance the training data within the validation step

Rebalance the training data within the validation step

data

to prepare for model training. first column must be the label as a double

returns

balanced training set and a test set

Definition Classes

DataCutter → Splitter
final def wait(): Unit

Definition Classes

AnyRef

Annotations

@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes

AnyRef

Annotations

@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes

AnyRef

Annotations

@throws( ... )
def withLabelColumnName(label: String): Splitter

Add a splitter parameter to name the label column

Add a splitter parameter to name the label column

Definition Classes

Splitter

Related Docs: object DataCutter | package tuning

class DataCutter extends Splitter with DataCutterParams

Instance Constructors

new DataCutter(uid: String = UID[DataCutter])

Value Members

final def !=(arg0: Any): Boolean

final def ##(): Int

final def $[T](param: Param[T]): T

final def ==(arg0: Any): Boolean

final def asInstanceOf[T0]: T0

def checkPreconditions(): Unit

final def clear(param: Param[_]): DataCutter.this.type

def clone(): AnyRef

def copy(extra: ParamMap): DataCutter

def copyValues[T <: Params](to: T, extra: ParamMap): T

final def defaultCopy[T <: Params](extra: ParamMap): T

final def eq(arg0: AnyRef): Boolean

def equals(arg0: Any): Boolean

def explainParam(param: Param[_]): String

def explainParams(): String

final def extractParamMap(): ParamMap

final def extractParamMap(extra: ParamMap): ParamMap

def finalize(): Unit

final def get[T](param: Param[T]): Option[T]

final def getClass(): Class[_]

final def getDefault[T](param: Param[T]): Option[T]

def getLabelsFromMetadata(data: DataFrame): Array[String]

def getMaxLabelCategories: Int

def getMaxTrainingSample: Int

def getMinLabelFraction: Double

final def getOrDefault[T](param: Param[T]): T

def getParam(paramName: String): Param[Any]

def getReserveTestFraction: Double

def getSeed: Long

final def hasDefault[T](param: Param[T]): Boolean

def hasParam(paramName: String): Boolean

def hashCode(): Int

final def isDefined(param: Param[_]): Boolean

final def isInstanceOf[T0]: Boolean

final def isSet(param: Param[_]): Boolean

final val labelColumnName: Param[String]

final val maxLabelCategories: IntParam

final val maxNamesForDroppedLabels: IntParam

final val maxTrainingSample: IntParam

final val minLabelFraction: DoubleParam

final def ne(arg0: AnyRef): Boolean

final def notify(): Unit

final def notifyAll(): Unit

lazy val params: Array[Param[_]]

def preValidationPrepare(data: DataFrame): PrevalidationVal

final val reserveTestFraction: DoubleParam

final val seed: LongParam

final def set(paramPair: ParamPair[_]): DataCutter.this.type

final def set(param: String, value: Any): DataCutter.this.type

final def set[T](param: Param[T], value: T): DataCutter.this.type

final def setDefault(paramPairs: ParamPair[_]*): DataCutter.this.type

final def setDefault[T](param: Param[T], value: T): DataCutter.this.type

def setMaxLabelCategories(value: Int): DataCutter.this.type

def setMaxTrainingSample(value: Int): DataCutter.this.type

def setMinLabelFraction(value: Double): DataCutter.this.type

def setReserveTestFraction(value: Double): DataCutter.this.type

def setSeed(value: Long): DataCutter.this.type

def split[T](data: Dataset[T]): (Dataset[T], Dataset[T])

final def synchronized[T0](arg0: ⇒ T0): T0

def toString(): String

val uid: String

def validationPrepare(data: Dataset[Row]): Dataset[Row]

final def wait(): Unit

final def wait(arg0: Long, arg1: Int): Unit

final def wait(arg0: Long): Unit

def withLabelColumnName(label: String): Splitter

Inherited from DataCutterParams

Inherited from Splitter

Inherited from SplitterParams

Inherited from Params

Inherited from Serializable

Inherited from Serializable

Inherited from Identifiable

Inherited from AnyRef