Al presentar el paquete hcmodelsets, le mostramos cómo agregar dinero a Bitcoin

Me complace presentar el paquete HCmodelSets, que ahora está disponible en CRAN. Esta paquete implementa los métodos propuestos por Cox, D.R. y Battey, H.S. (2017). En particular, lleva a cabo las fases de reducción, exploración y selección del modelo dadas en la referencia antes mencionada. El software admite la regresión lineal, la adaptación basada en la probabilidad de modelos de regresión lineal generalizada y el modelo de riesgos proporcionales ajustado por probabilidad parcial.

El método estándar descrito en la literatura para tratar la regresión dispersa es el LASSO propuesto por Tibshirani (1996), que asume la escasez de los efectos. Esto da como resultado un solo modelo único, dejando abierta la posibilidad de que otras opciones dispersas de características explicativas se ajusten igualmente. Para explorar estas otras pocas posibilidades, Cox, D.R. y Battey, H.S. (2017) proporcionan métodos que especifican modelos alternativos que son esencialmente tan descriptivos como los modelos equipados con LASSO. La idea clave de Cox, D.R. y Battey, H.S. (2017) es organizar los índices variables en un hipercubo y luego ejecutar regresiones sobre filas y columnas (y de manera equivalente en dimensiones más altas). Además, las variables significativas en el hipercubo se retienen y luego se organizan en una dimensión inferior. Este proceso se repite hasta que un usuario especifique un hipercubo de baja dimensión y devuelve el número de veces que cada variable se considera significativa en cada dimensión en todos los modelos instalados. Tal estrategia conduce a numerosas combinaciones de modelos dispersos que permite el análisis por separado de subconjuntos de variables explicativas. Construyendo conjuntos de modelos que se ajustan bien HCmodelSets paquete

Ahora hagamos uso del paquete R HCmodelSets, sus funciones se usarán y detallarán para estimar conjuntos de modelos cuando se trate de un gran número de variables exploratorias. Tenga en cuenta que las diferentes variables de respuesta, es decir, binarias y continuas, tienen propiedades estadísticas distintas que, bajo algunas condiciones suaves, se discutieron recientemente en Cox, D.R. y Battey, H.S. (2018)

El tamaño de muestra de DGP es 100 y de 1000 variables, solo 5 son relevantes. Para acceder a cuáles son relevantes, simplemente use el valor TRUE.idx. A continuación, realizamos el fase de reducción utilizando las primeras 70 observaciones, que sucesivamente descartan las variables de acuerdo con las reglas de decisión apropiadas. Al final, proporciona el número y los índices de las variables seleccionadas en cada etapa. outcome.Reduction.Phase = Reduction.Phase (X = dgp $ X [1:70,], Y = dgp $ Y [1:70],

Además, se puede usar el argumento vector.signif para crear un vector de valores p que proponga su propia regla de decisión para cada reducción del hipercubo. Si no se proporciona, como hicimos en el ejemplo anterior, la opción predeterminada selecciona las dos variables más significativas en cada transversal del hipercubo para la dimensión más alta y luego adopta valores p de 0,01 para las dimensiones inferiores subsecuentes. Además, dado que, se debe especificar family = “gaussian”. En el ejemplo anterior, no proporcionamos el valor de la dimensión del hipercubo que se utilizará en la reducción de la primera etapa, sin embargo, esto podría hacerse fácilmente utilizando el argumento dmHC.

El siguiente paso es realizar el fase exploratoria sobre las variables retenidas a través del fase de reducción en las mismas 70 observaciones, que devolverán cualquier cuadrado significativo y / o términos de interacción. Optamos por utilizar las variables en el hipercubo de la dimensión 2 que se seleccionaron al menos una vez, ya que retiene 25 variables. idxs = resultado.Reducción.Fase $ Lista.Selección $ `Hipercubo con dim 2` $ numSelected1

Tenga en cuenta que dado que no especificamos el argumento modelSize, el procedimiento adoptará el valor mínimo entre la suma de 25 (el número de variables en el fase de reducción) y 1 (el número de variables en fase exploratoria) con 5 (es decir, min (26,5)). Como especificamos en la función DPG s = 5, es decir, el número verdadero de variables que genera el proceso verdadero, analizaremos los resultados de los modelos de tamaño 5. TRUE.idx = dgp $ TRUE.idx

banner