Curso Inferencia Estadistica: 2010

jueves, 21 de octubre de 2010

Día Mundal de la Estadística

El Día Mundial de la Estadística, ha sido fijado por la Comisión Estadística de las Naciones Unidas el 20 de octubre de 2010. La celebración de este día permitirá reconocer el servicio prestado por los organismos internacionales, regionales y subregionales para promover y facilitar el avance de los sistemas estadísticos nacionales.El Comité Ejecutivo de la Conferencia Estadística de las Américas de la CEPAL en su novena reunión, celebrada en Santiago, del 20 al 22 de abril de 2010, como parte de sus acuerdos, exhorta a los Estados miembros de la Conferencia y a los fondos, programas y organismos especializados de las Naciones Unidas y organizaciones internacionales a que organicen actividades destinadas a celebrar este día, y dirigidas a una amplia audiencia que abarque desde los encargados de la adopción de decisiones y de suministrar datos hasta la comunidad de usuarios de datos, con el propósito de concienciar sobre las muchas aportaciones de las estadísticas oficiales basadas en los valores básicos de servicio, integridad y profesionalidad. A la vez que se le solicita a la Presidencia del Comité Ejecutivo que, con el apoyo de la Secretaría, aliente a los Estados miembros, fondos, programas y organismos especializados de las Naciones Unidas y organizaciones internacionales a establecer un amplio calendario de eventos para 2010 destinados a la celebración el Día Mundial de la Estadística. La información relativa a la celebración de este día, tanto de los países como de organismos e instituciones, se encuentra disponible en los siguientes links:
http://unstats.un.org/unsd/wsd/Default.aspx
http://www.eclac.cl/deype/noticias/noticias/1/39441/SecGen_LetterOnWSD_oct_S.pdf

http://www.eclac.cl/deype/noticias/noticias/1/39441/PaulCheungOnWSD_spanish.pdf

http://www.eclac.cl/deype/noticias/noticias/1/39441/DMS_ComEjeCarta.pdf

domingo, 3 de octubre de 2010

APLICACIÓN DEL TESTS CHI CUADRADO A UNA MUESTRA DE RESULTADOS.

La Distribución Chi−Cuadrado, al igual que ocurre con cualquier otra distribución de la probabilidad, simplemente suministra un «modelo ideal» sobre la manera como probablemente debería ocurrir la variable X según un determinado Grado de Libertad o de independencia que se le puede atribuir a esa variable aleatoria frente a otras variables similares dentro de un mismo conjunto. El denominado «Test Chi Cuadrado» toma como referente y fundamento los valores de probabilidad que establece la Distribución Chi Cuadrado, y a partir de esos valores ideales permite establecer qué tan marcadas o qué tan relevantes son las diferencias existentes entre los resultados teóricos que proporciona ese modelo de probabilidad y los resultados empíricos observados en la realización de un determinado experimento, teniendo en cuenta el Grado de Libertad atribuible a las variables que conforman ambos conjuntos de datos.

Para poder aplicar el Test Chi−Cuadrado es necesario en primer lugar tener de antemano seleccionado un modelo ideal sobre los «resultados teóricos» esperados que debería arrojar un determinado experimento aleatorio, modelo que sirve como referente para establecer cuál debería ser el comportamiento perfecto esperado en la aparición de los resultados de ese experimento aleatorio cuando no se encuentra sometido a interferencias desconocidas o incontrolables. En segundo lugar, es necesario tener una muestra estadística conformada por una serie de «resultados observados» que hayan ocurrido en el mundo real y que hayan sido producidos por un experimento aleatorio analizado. Usando estos dos grupos de datos el Test Chi Cuadrado permite realizar un «Contraste de Significación» mediante el cual con cierto grado de certeza matemática el científico puede concluir que los resultados aleatorios observados sí responden o no responden a las expectativas teóricas esperadas.

A continuación se describen los pasos básicos que se deben seguir para llegar a un Contraste de Significación utilizando el Test Chi−Cuadrado.

En el siguiente Link:

http://casanchi.galeon.com/mat/parte2.htm

En los siguientes videos:

lunes, 20 de septiembre de 2010

Definiciones Importantes

Inferencia Estadística.- Se refiere a establecer las características de una población o proceso con base en la información contenida en una muestra.

Estadístico.- Medidas o funciones de los datos muestrales que ayudan a caracterizar la distribución de tales datos

Distribución de una variable aleatoria X.- Relaciona el conjunto de los valores posibles X con la probabilidad asociada a éstos.

Estimador puntual.- Estadístico que estima el valor de un parámetro.

Error Estándar.- Desviación estándar de un estadístico que ayuda a determinar que tan precisas(exactas) son las estimaciones que realizan con tal estadístico.

Intervalo de Confianza.- Forma de estimar un parámetro en la cual se calcula un intervalo que indica con cierta seguridad un rango donde puede estar el parámetro.

Hipótesis nula Ho.- Afirmación acerca del valor de un parámetro poblacional que se considera válida para desarrollar el procedimiento de prueba

Hipótesis Alternativa Ha.- Afirmación que se aceptará si los datos muestrales proporcionan evidencia de que la hipótesis nula es falsa

Estadístico de prueba.- Fórmula que permite calcular un número a partir de los datos y de Ho. La magnitud de este número permite discernir si Ho se rechaza o no.

Región de Rechazo.- Conjunto de posibles valores del estadístico de prueba que llevan a rechazar Ho

Región de Aceptación.- Conjunto de posibles valores del estadístico de prueba donde no se rechaza Ho.

Hipotesis Bilateral.- Es cuando la hipótesis alternativa es del tipo “no es igual” e incluye a los casos “mayor que” y “menor que” el valor que respalda Ho

Error Tipo I.- es cuando se rechaza una Ho que es verdadera

Error Tipo II.- es cuando se acepta una Ho que es falsa

Potencia de Prueba.- es la probabilidad de rechazar Ho cuando es falsa

Significancia predefinida.- Es el riesgo máximo que se está dispuesto a correr con respecto al error tipo I

Significancia calculada (valor p).- Es el área bajo la distribución de referencia más allá del valor del estadístico de prueba.

Muestras pareadas.- Son aquellas en los que los datos de ambas poblaciones se pueden ver como pares porque tienen algo en común y no son independientes.

viernes, 10 de septiembre de 2010

Tipos de Muestreo

Nuevo método para números aleatorios

Uno de los problemas más significativos en la computación, es la generación de números al azar, que efectivamente sean azarosos, pues. Los métodos tradicionales en el cómputo actual generan números pseudoaleatorios, a través de un polinomio de grado N. dicho de otra manera, una vez dada una semilla inicial, los números generados siempre siguen la misma secuencia.
El problema es importante porque muchas simulaciones requieren de procesos que ocurren al azar, por ejemplo, o bien, cuando se trata de trabajar con procesos estocásticos y estadística en general. Finalmente, en las aplicaciones de criptografia y seguridad electrónica, las secuencias de números al azar son un punto de suma importancia.De acuerdo a Bernhard Fechner, de la Universidad de Hagen y a Andre Osterloh, de BTC AG, en Alemania, la “calidad” de los números al azar es una medida de qué tan azarosa es la secuencia. La calidad afecta significativamente las simulaciones en las que se usan. Si los datos generados no son tan al azar, cualquiera podría predecir la clave de seguridad y crackear las cuentas de algún banco, sitios de comercio electrónico o involucrarse con temas sobre la seguridad de algunos sitios web de los gobiernos. De manera similar, el uso de números no tan azarosos, por decirles de alguna manera, implicaría errores sistemáticos en simulaciones climáticas, por ejemplo, haciendo a las predicciones de esos modelos, poco confiables.
Fechner y Osterloh explican que un buen número al azar en una computadora binaria, usualmente comprime una distribución discreta de ceros y unos. En tales secuencias, no es posible predecir qué dígito aparecerá más adelante en tal evento. En la realidad, no es posible generar secuencias absolutamente impredecibles por medios computacionales. Así entonces, se utilizan esquemas físicos para generar números al azar totalmente azarosos.
El equipo alemán ha desarrollado un generador de números aleatorios al azar que usas una capa extra de “azar” (valga la expresión), para que los elementos de la memoria de la computadora, el flip flop busque entre los estados uno y cero. Antes de usar el flip flop, éste se encuentra en un “metaestado“, es decir que no podemos predecir su estado inicial. Al final del proceso, al switchear el flip flop, encontramos el contenido de la memoria como totalmente al azar.
Los investigadores experimentaron con arreglos de flip flops logrando generar casi veinte veces más números al azar que con los métodos convencionales. El grado de la “azarosidad“, depende del tamaño del arreglo. Se sabe sin embargo que mientras mayor el arreglo, más azaroso es. Con este tipo de esquemas se pueden mejorar las simulaciones y predicciones, así como la seguridad en cómputo.
El equipo añadió que los esfuerzos de crackers para romper este esquema solamente podrían basarse en un análisis estadístico por lo cual se asume que este generador de números al azar puede ser usado para protegerse de curiosos y agentes externos.
Fuente: Science Daily

miércoles, 1 de septiembre de 2010

Los Intervalos de Confianza

El ingeniero en su desarrollo profesional tiene que afrontar la cuantificación del riesgo en la toma de decisiones para lo cual usa de soporte la teoria de probabilidades, de tal manera que a partir de la estimación de un evento simple, pueda obtener información sobre el riesgo de ocurrencia de eventos compuestos y complejos.

En esta situación la estadística puede apoyar la formación del ingeniero proporcionándole las herramientas adecuadas para la construcción de heurísticas, a través de la llamada estimación de cantidades, por medio de intervalos de confianza.

Billy Koen (1985) en su intento por caracterizar el trabajo del ingeniero, expresa cómo el ingeniero inicia su trabajo saliendo de un punto de partida que corresponde a una situación de incertidumbre o pobremente estudiada y que su punto de llegada es incierto. En el camino, deberá ir resolviendo las dificultades y obstáculos y tomando decisiones cuando existan varios caminos alternativos.

Estimados alumnos sus comentarios sobre estas reflexiones...

viernes, 20 de agosto de 2010

DISTRIBUCIÓN DE ALUMNOS POR LABORATORIOS

Estimados alumnos la relación de los alumnos:
PRIMER GRUPO de 11:00 a 12:30

ACOSTA CELIS JOHN OMAR
APAZA OVALLE FREDDY FERNANDO
BALTAZAR LAREDO ANGEL GREGORIO
CARRILLO ROMERO RONY
DE LOS SANTOS LEON ROLANDO MIGUEL
DURAND DE LA CRUZ JOHANA GLICETH
HUANCAS GARCIA JONNATAN ENRIQUE
HUANCOLQUE CALDERON JOSE MANUEL
JARA MORA CESAR RENATO
MARIN GAMARRA LUIS ANTONIO
MARIÑOS PALMA JANIS JOAN
NAVARRO MOLINA CARLOS AUGUSTO
NUÑEZ LOBATON JOSETH JOSUE
ORE SALAS HANCY
RAMOS OBREGON RANDY HARIF
ROQUE GUILLEN CARLOS ORLANDO
SALDAÑA ROBLES LORENA YAZMIN
TORRE ANGULO MIGUEL ANGEL
TORRES JOAQUIN DANNY JOSE
VALLEJOS VARGAS HERNAN LUIS
VASQUEZ VALLE MARTHA DEL ROSARIO

SEGUNDO GRUPO DE 12:30 A 14:00

AGUILAR OBANDO LUIS MIGUEL
ANGELES GUTIERREZ LAURA CAROLINA
AURIS MORA MANUEL EFRAIN
BEVAVENTE FARFAN NATALY LIZETH
CAMPOS PALOMINO NORMA RUTH
CASTILLO CAMACHO FRANCIS DANIEL ALEXANDER
CRUZADO VALLE EDISON AMILCAR
HUAMAN MELO CESAR ALBERTO
HUAMANI MITTMA CESAR AUGUSTO
LINCHE GOICOCHEA PEDRO PABLO
MENDOZA ZARATE MICHELL ANDRE
MONTERO VALENCIA FLOR DE MARIA
NIETOLEAL VASQUEZ VICTOR MARTIN
NUÑEZ CACERES FIORELLA VIVIANA
RIVERA SALINAS FLOR DE MARIA
SANCHEZ VIDALON LUIS ALBERTO
SANTANA ESPINOZA YSELA ESTEFANIA
TORRES SAAVEDRA JHAN MANUEL
TUPAC YUPANQUI BUSTAMENTE MIGUEL ANGEL
VEGA VALENCIA TATIANA MILUSKA
VERA CHAVARRIA MARIA

domingo, 8 de agosto de 2010

Importancia de Inferencia Estadistica

El principal objetivo de la Estadística es inferir o estimar características de una población que no es completamente observable (o no interesa observarla en su totalidad) a través del análisis de una parte de ella a la que llamamos muestra. Las razones por las que generalmentese trabaja con muestras son principalmente:

- Económicas.

-Tiempo: si la población es muy grande llevaría tanto tiempo analizarla que incluso la característica de interés podría variar en ese período.

- Destrucción: la medición de cierta característica podría llevar a la destrucción del individuo. Por ejemplo, al estudiar la supervivencia de ciertos animales a un tratamiento.

Lo que se hace entonces es analizar la muestra y extrapolar conclusiones desde la muestra la población. Ahora bien, para considerar válidas en la población las conclusiones obtenidas en la muestra, ésta ha de representar bien a la población (representativa). Por lo tanto, la elección de la muestra es de suma importancia, y para ello hay diversos métodos (métodos de muestreo). Cuando se intuye que la característica en estudio puede presentar valores homogéneos en la población, una forma de obtener una muestra representativa es eligiéndola al azar. A este método de selección de la muestra se le llama muestreo aleatorio simple y es el más sencillo. La Inferencia Estadística se puede clasificar en inferencia paramétrica e inferencia no paramétrica. La inferencia paramétrica tiene lugar cuando se conoce la distribución de la variable de estudio en la población, y el interés recae sobre los parámetros desconocidos de la misma. La inferencia no paramétrica tiene lugar si no se conoce la distribución y sólo se suponen propiedades generales de la misma. Nosotros nos centramos en la inferencia paramétrica, y nuestro objetivo será inferir o estimar parámetros poblacionales a partir de la información que nos proporciona una muestra.

Espero sus comentarios.........

Bienvenida

Estimados Alumnos del curso de Inferencia Estadística, es muy grato para mi poder compartir mis experiencias y conocimientos en este importante campo del conocimiento esperando estar a la altura de las expectativas y esperando que este curso sea de mucho provecho para su formación profesional

Saludos Cordiales
Ing. Enrique Montenegro

domingo, 25 de abril de 2010

Definiciones Importantes

Inferencia Estadística.- Se refiere a establecer las características de una población o proceso con base en la información contenida en una muestra.

Estadístico.- Medidas o funciones de los datos muestrales que ayudan a caracterizar la distribución de tales datos

Distribución de una variable aleatoria X.- Relaciona el conjunto de los valores posibles X con la probabilidad asociada a éstos.

Estimador puntual.- Estadístico que estima el valor de un parámetro.

Error Estándar.- Desviación estándar de un estadístico que ayuda a determinar que tan precisas(exactas) son las estimaciones que realizan con tal estadístico.

Intervalo de Confianza.- Forma de estimar un parámetro en la cual se calcula un intervalo que indica con cierta seguridad un rango donde puede estar el parámetro.

Hipótesis nula Ho.- Afirmación acerca del valor de un parámetro poblacional que se considera válida para desarrollar el procedimiento de prueba

Hipótesis Alternativa Ha.- Afirmación que se aceptará si los datos muestrales proporcionan evidencia de que la hipótesis nula es falsa

Estadístico de prueba.- Fórmula que permite calcular un número a partir de los datos y de Ho. La magnitud de este número permite discernir si Ho se rechaza o no.

Región de Rechazo.- Conjunto de posibles valores del estadístico de prueba que llevan a rechazar Ho

Región de Aceptación.- Conjunto de posibles valores del estadístico de prueba donde no se rechaza Ho.

Hipotesis Bilateral.- Es cuando la hipótesis alternativa es del tipo “no es igual” e incluye a los casos “mayor que” y “menor que” el valor que respalda Ho

Error Tipo I.- es cuando se rechaza una Ho que es verdadera

Error Tipo II.- es cuando se acepta una Ho que es falsa

Potencia de Prueba.- es la probabilidad de rechazar Ho cuando es falsa

Significancia predefinida.- Es el riesgo máximo que se está dispuesto a correr con respecto al error tipo I

Significancia calculada (valor-p).- Es el área bajo la distribución de referencia más allá del valor del estadístico de prueba.

Muestras pareadas.- Son aquellas en los que los datos de ambas poblaciones se pueden ver como pares porque tienen algo en común y no son independientes.

viernes, 26 de marzo de 2010

Términos Inferencia Estadística

Parámetro.- Característica numérica de una población, por ejemplo, la media poblacional µ, la desviación estándar poblacional σ, la proporción poblacional p, etcétera.

Muestreo aleatorio Simple.-Poblaciones finitas: muestra seleccionada de manera que cada una de las muestras de tamaño n tenga la misma probabilidad de ser seleccionada. Poblaciones infinitas: muestra seleccionada de manera que todos los elementos provengan de la misma población y los elementos se seleccionen de manera independiente.

Muestreo sin reemplazo.-una vez que un elemento ha sido incluido en la muestra, se retira de la población y ya no se selecciona una vez más.

Muestreo con reemplazo.- Una vez que un elemnto se ha incluido en la muestra, se regresa a la población. un elemento ya seleccionado para la muestra puede ser seleccionado nuevamente y puede aparecer más de una vez en la muestra

Estadístico muestral.- Característica muestral, por ejemplo, la media muestral ӯ , la desviación estándar muestral s, la proporción muestral p, etc. El valor estadístico muestral se usa para estimar el valor del correspondiente parámetro poblacional correspondiente.

Distribución muestral.- Distribución de probabilidad que consta de todos los posibles valores de un estadístico muestral.

Error estándar.- La desviación estándar de un estimador puntual.

Error de muestreo.- error o variación entre estadísticas de muestra debido al azar; es decir, diferencias entre cada muestra y la población, y entre varias muestras que se deben únicamente a los elementos que elegimos para la muestra.

Inferencia estadística.- Proceso de hacer inferencias sobre poblaciones, a partir de la información contenida en muestras

Demostración de estimador de la media poblacional por la media muestral

La demostración es la siguiente: