Los piratas informáticos deben tener en cuenta que el muestreo de arranque puede ser perjudicial yanir seroussi ethereum crecimiento proyectado

Las técnicas de muestreo de Bootstrap son muy atractivas, ya que no requieren saber mucho acerca de las estadísticas y las nuevas fórmulas opacas de la película etíope 2016 de esta semana. En su lugar, todo lo que hay que hacer es volver a muestrear los datos dados muchas veces y calcular las estadísticas deseadas. Por lo tanto, el bootstrapping se ha promovido como una forma fácil de modelar la incertidumbre para los hackers que no tienen mucho conocimiento estadístico. Por ejemplo, la tesis principal de las excelentes estadísticas para hackers hablados por jake vanderplas es: “si puedes escribir un bucle for, puedes hacer estadísticas”. Erik bernhardsson cubrió un terreno similar en la guía para piratas informáticos de estimaciones de incertidumbre, que proporciona más casos de uso para el arranque (con ejemplos de código). Sin embargo, he aprendido en las últimas semanas que hay algunos escollos en el arranque. Gran parte de lo que he aprendido se resume en un documento titulado Lo que los maestros deberían saber sobre el programa de arranque: remuestreo en el currículo de estadística de pregrado por Tim Hesterberg. Dudo que muchos hackers estén motivados para leer un artículo con ese título, por lo que mi objetivo con esta publicación es hacer que algunos de mis descubrimientos sean más accesibles para un público más amplio. Para obtener más información sobre el centro comunitario etíope sobre las cuestiones planteadas en este post, vale la pena leer el artículo de Hesterberg y otros recursos relacionados.

Los intervalos de confianza son una forma común de cuantificar la incertidumbre en una estimación de un parámetro de población. El método de percentil es uno de los enfoques de arranque más simples para generar intervalos de confianza. Por ejemplo, digamos que tenemos una muestra de datos de tamaño n y queremos estimar un intervalo de confianza del 95% para la media de la población. Tomamos r muestras de bootstrap de la muestra de datos original, donde cada remuestreo es una muestra con reemplazo en vivo de tamaño n. Calculamos la media de cada nueva muestra y almacenamos las medias en una matriz ordenada. Luego devolvemos el intervalo de confianza del 95% como los valores que caen en los índices 0.025r y 0.975r de la matriz ordenada (i.E., los percentiles 2.5% y 97.5%). La siguiente tabla muestra cómo pueden verse las dos primeras muestras para una muestra de datos de tamaño n = 5.

Los tamaños de muestra necesarios para diferentes intervalos para satisfacer el criterio de “razonablemente preciso” (desactivado por no más del 10% en cada lado) son: n ≥ 101 para el bootstrap t, 220 para el estadístico t ajustado al sesgo, 2,235 para percentil expandido , 2,383 para percentil, 4,815 para t ordinaria (que he redondeado hasta 5,000 arriba), 5,063 para t con errores estándar bootstrap y algo más de 8,000 para el método de percentil del adaptador Ethernet inverso.

En resumen, asegúrese de estar usando un método preciso para estimar los intervalos de confianza cuando se trata de tamaños de muestra de menos de unos pocos miles de valores. El uso de un paquete es una gran idea, pero desafortunadamente no conozco ningún paquete bootstrapping de Python que tenga la característica completa: ARCH y scikits-bootstrap admiten métodos avanzados de intervalo de confianza pero no admiten el análisis de dos muestras de tamaños desiguales bootstrapped funciona con muestras de tamaños desiguales, pero solo es compatible con el método del percentil y del método del percentil inverso (que según Hesterberg es aún menos preciso). Si conoces algún paquete de python mejor, ¡por favor avísame! (No uso R, pero sospecho que la situación es mejor allí). Actualización: ARCH pronto admitirá el análisis de muestras de tamaños desiguales después de un problema que informé. Parece ser el mejor paquete de arranque de Python, así que recomiendo usarlo. Pitfall # 2: no hay suficientes remuestras

Los intervalos de confianza se usan comúnmente para decidir si la diferencia entre dos muestras es estadísticamente significativa entre el cable de parche y Ethernet. Bootstrapping proporciona una forma sencilla de estimar los intervalos de confianza sin hacer suposiciones sobre la forma en que se generaron los datos. Por ejemplo, dadas dos muestras, podemos obtener intervalos de confianza para la media de cada muestra y terminar con una gráfica como esta:

Al observar esta trama, algunas personas pueden concluir que la diferencia entre los grupos no es una billetera de éter en línea estadísticamente significativa porque los intervalos de confianza se superponen. Sin embargo, los intervalos de confianza que se superponen no implican una falta de significación estadística, ya que es posible que el intervalo de confianza de la diferencia entre las medias muestrales no contenga cero. Prasanna parasurama explicó por qué esto sucede en este post. Si bien este problema no es exclusivo de arranque, vale la pena recordar que cuando se comparan dos grupos, debemos obtener el intervalo de confianza para la diferencia en el parámetro que estamos comparando, no comparar los intervalos de confianza de una sola muestra del análisis macbeth act 3 scene 4 .

Para un ejemplo concreto, considere un caso en el que estamos viendo resultados binarios (sí / no o 1/0), que ocurren en tiradas de monedas o pruebas A / B en línea. La muestra A consta de 2,150 ceros y 350 unidades, mientras que la muestra B consta de 2,250 ceros y 440 unidades. Como estas son muestras bastante grandes, podemos usar el método del percentil de arranque para obtener intervalos de confianza del 95% para la media de cada muestra. Como muestra la siguiente figura, estos intervalos se superponen. Si usamos el mismo método para obtener también un intervalo de confianza del 95% para la diferencia en las medias entre B y A, vemos que no incluye cero. Por lo tanto, podemos decir que la diferencia entre B y A es estadísticamente significativa, a pesar de la superposición entre los intervalos de confianza de una sola muestra.

Vale la pena señalar que al analizar resultados binarios, podemos hacer suposiciones más sólidas acerca de los datos en lugar de utilizar un programa de arranque para obtener intervalos de confianza. Erik bernhardsson sugiere usar la distribución beta para obtener intervalos de confianza de una sola muestra, pero como hemos visto, no nos dicen lo suficiente acerca de las diferencias en el tutorial de la cadena de bloques entre muestras. Sugerí usar un enfoque bayesiano en el pasado, que hace suposiciones de modelado explícitas que nos permiten codificar nuestros conocimientos previos sobre el entorno específico donde se generaron los datos. Por ejemplo, cuando se ejecutan pruebas A / B en línea, a menudo tenemos una cifra aproximada para resultados razonables, que se puede usar en la calculadora de pruebas A / B bayesiana que construí. Pitfall # 4: muestras no representativas y dependientes

Si bien el bootstrap básico no hace ninguna suposición sobre la distribución subyacente de los datos, no está libre de suposiciones. Por ejemplo, cuando se trata de puntos de datos correlacionados de una serie de tiempo, el uso del enfoque de arranque básico es incorrecto porque asume que los puntos de datos son independientes. En su lugar, se debe usar un bootstrap de Windows 10 para el controlador del controlador Ethernet de Realtek. Consulte el paquete ARCH para ver algunos ejemplos de implementación. Además, bootstrapping no resuelve problemas con el enfoque de muestreo subyacente. Por ejemplo, la muestra de datos puede no ser representativa de la población debido a su pequeño tamaño, o puede haber sesgos de selección y errores de medición. Ninguna cantidad de bootstrapping va a ayudar con tales problemas. En general, siempre es útil estar al tanto del proceso de generación de datos, por ejemplo, se aplican diferentes consideraciones cuando se trata de datos de experimentos en línea frente a estudios observacionales. Conclusión y próximos pasos.

Si bien el bootstrapping es un método poderoso, su impresión inicial de simplicidad es engañosa. Para extraer conclusiones válidas del controlador del controlador Ethernet, es una buena idea usar un paquete y tener en cuenta las consideraciones que son específicas para la muestra de datos analizada. Sin embargo, si ya está aumentando su conocimiento de los datos y su proceso de generación, puede tener sentido explícitamente valorar ethereum hoje codificar sus suposiciones en el modelo. Aquí es donde otro recurso de hackers sería útil: programación probabilística & Métodos bayesianos para hackers por cam davidson-pilon. Es cierto que es un poco más largo que la publicación promedio del blog o la conferencia, pero vale la pena leerlo.

Descubrir el hoyo de los conejos me ha recordado una lección importante: las publicaciones y charlas en el blog, especialmente aquellas con la palabra hacker en el título, pueden ser un buen punto de partida, pero no se debe confiar en ellas para un trabajo serio. En su lugar, es mejor consultar recursos revisados ​​por pares y libros de texto. En mis futuras exploraciones de bootstrapping y otros métodos, prestaré atención al consejo atemporal de abraham lincoln para no confiar en todo lo que leo en Internet.

banner