Principal Otro Tasa de descubrimiento falso

Tasa de descubrimiento falso

Descripción general

Software

Descripción

Sitios web

Lecturas

Cursos

Descripción general

Esta página describe brevemente la tasa de descubrimiento falso (FDR) y proporciona una lista de recursos anotada.

Descripción

Al analizar los resultados de estudios de todo el genoma, a menudo se realizan miles de pruebas de hipótesis simultáneamente. El uso del método tradicional de Bonferroni para corregir comparaciones múltiples es demasiado conservador, ya que protegerse contra la ocurrencia de falsos positivos conducirá a muchos hallazgos perdidos. Para poder identificar tantas comparaciones significativas como sea posible mientras se mantiene una tasa baja de falsos positivos, se utilizan la Tasa de Descubrimiento Falso (FDR) y su análogo el valor q.

Definiendo el problema
Al realizar pruebas de hipótesis, por ejemplo para ver si dos medias son significativamente diferentes, calculamos un valor p, que es la probabilidad de obtener un estadístico de prueba que sea tan o más extremo que el observado, asumiendo que la hipótesis nula es verdadera. Si tuviéramos un valor p de 0.03, por ejemplo, eso significaría que si nuestra hipótesis nula es cierta, habría un 3% de probabilidad de obtener nuestra estadística de prueba observada o una más extrema. Dado que esta es una probabilidad pequeña, rechazamos la hipótesis nula y decimos que las medias son significativamente diferentes. Por lo general, nos gusta mantener esta probabilidad por debajo del 5%. Cuando establecemos nuestro alfa en 0.05, estamos diciendo que queremos que la probabilidad de que un resultado nulo se llame significativo sea menor al 5%. En otras palabras, queremos que la probabilidad de un error de tipo I, o un falso positivo, sea inferior al 5%.

Cuando estamos realizando múltiples comparaciones (llamaré a cada prueba una característica), tenemos una mayor probabilidad de falsos positivos. Cuantas más funciones tenga, mayores serán las posibilidades de que una función nula se considere significativa. La tasa de falsos positivos (FPR), o tasa de error por comparación (PCER), es el número esperado de falsos positivos de todas las pruebas de hipótesis realizadas. Entonces, si controlamos el FPR en un alfa de 0.05, garantizamos que el porcentaje de falsos positivos (características nulas llamadas significativas) de todas las pruebas de hipótesis es del 5% o menos. Este método plantea un problema cuando estamos realizando una gran cantidad de pruebas de hipótesis. Por ejemplo, si estuviéramos haciendo un estudio de todo el genoma para observar la expresión genética diferencial entre el tejido tumoral y el tejido sano, y probamos 1000 genes y controlamos el FPR, en promedio 50 genes verdaderamente nulos se considerarán significativos. Este método es demasiado liberal, ya que no queremos tener tantos falsos positivos.

Por lo general, los procedimientos de comparación múltiple controlan la tasa de error familiar (FWER), que es la probabilidad de tener uno o más falsos positivos de todas las pruebas de hipótesis realizadas. La corrección de Bonferroni de uso común controla el FWER. Si probamos cada hipótesis a un nivel de significancia de (alfa / # de pruebas de hipótesis), garantizamos que la probabilidad de tener uno o más falsos positivos es menor que alfa. Entonces, si alfa fuera 0.05 y estuviéramos probando nuestros 1000 genes, probaríamos cada valor p a un nivel de significancia de 0.00005 para garantizar que la probabilidad de tener uno o más falsos positivos es del 5% o menos. Sin embargo, protegerse contra un solo falso positivo puede ser demasiado estricto para los estudios de todo el genoma y puede llevar a que se pierdan muchos hallazgos, especialmente si esperamos que haya muchos positivos verdaderos.

instalar dban en usb

Controlar la tasa de falsos descubrimientos (FDR) es una forma de identificar tantas características importantes como sea posible mientras se incurre en una proporción relativamente baja de falsos positivos.

Pasos para controlar la tasa de falsos descubrimientos:

  • Control de FDR en el nivel α * (es decir, se controla el nivel esperado de falsos descubrimientos dividido por el número total de descubrimientos)

E [V⁄R]

  • Calcule los valores p para cada prueba de hipótesis y orden (de menor a mayor, P (min) …… .P (max))

  • Para el i-ésimo valor p ordenado, verifique si se cumple lo siguiente:

P (i) ≤ α × i / m

Si es cierto, entonces significativo

* Limitación: si la tasa de error (α) es muy grande, puede aumentar el número de falsos positivos entre los resultados significativos.

La tasa de descubrimiento falso (FDR)

El FDR es la tasa en la que las características llamadas significativas son realmente nulas.
FDR = esperado (# predicciones falsas / # predicciones totales)

El FDR es la tasa en la que las características llamadas significativas son realmente nulas. Un FDR del 5% significa que, entre todas las características llamadas significativas, el 5% de estas son realmente nulas. Así como establecemos alfa como umbral para el valor p para controlar el FPR, también podemos establecer un umbral para el valor q, que es el análogo FDR del valor p. Un umbral de valor p (alfa) de 0.05 produce un FPR del 5% entre todas las características verdaderamente nulas. Un umbral de valor q de 0.05 produce un FDR del 5% entre todas las características llamadas significativas. El valor q es la proporción esperada de falsos positivos entre todas las características como o más extrema que la observada.

En nuestro estudio de 1000 genes, digamos que el gen Y tenía un valor p de 0,00005 y un valor q de 0,03. La probabilidad de que una estadística de prueba de un gen no expresado diferencialmente sea tan o más extrema como la estadística de prueba para el gen Y es 0,00005. Sin embargo, la estadística de prueba del gen Y puede ser muy extrema, y ​​tal vez esta estadística de prueba sea poco probable para un gen expresado diferencialmente. Es muy posible que realmente haya genes expresados ​​diferencialmente con estadísticas de prueba menos extremas que el gen Y.Utilizar el valor q de 0.03 nos permite decir que el 3% de los genes como o más extremos (es decir, los genes que tienen p- valores) como gen Y son falsos positivos. El uso de valores q nos permite decidir cuántos falsos positivos estamos dispuestos a aceptar entre todas las características que llamamos significativas. Esto es particularmente útil cuando deseamos hacer una gran cantidad de descubrimientos para una confirmación adicional más adelante (es decir, un estudio piloto o análisis exploratorios, por ejemplo, si hicimos un microarreglo de expresión génica para seleccionar genes expresados ​​diferencialmente para su confirmación con PCR en tiempo real). Esto también es útil en estudios de genoma completo donde esperamos que una parte considerable de características sean verdaderamente alternativas y no queremos restringir nuestra capacidad de descubrimiento.

El FDR tiene algunas propiedades útiles. Si todas las hipótesis nulas son verdaderas (no hay resultados verdaderamente alternativos) el FDR = FWER. Cuando hay cierto número de hipótesis verdaderamente alternativas, el control del FWER también controla automáticamente el FDR.
El poder del método FDR (recuerde que el poder es la probabilidad de rechazar la hipótesis nula cuando la alternativa es verdadera) es uniformemente mayor que los métodos de Bonferroni. La ventaja de poder del FDR sobre los métodos de Bonferroni aumenta con un número creciente de pruebas de hipótesis.

Estimación del FDR
(De Storey y Tibshirani, 2003)

Definiciones: t: umbral V: número de falsos positivos S: número de características llamadas significativas m0: número de características verdaderamente nulas m: número total de pruebas de hipótesis (características)
¿Cómo estimamos E [S (t)]?
¿Cómo estimamos E [V (t)]?
¿Cómo estimamos m0?
Suponemos que los valores p de las características nulas se distribuirán uniformemente (tendrán una distribución plana) entre [0,1]. La altura de la distribución plana da una estimación conservadora de la proporción total de valores p nulos, π0. Por ejemplo, la siguiente imagen tomada de Storey y Tibshirani (2003) es un histograma de densidad de 3000 p-valores para 3000 genes de un estudio de expresión génica. La línea de puntos representa la altura de la parte plana del histograma. Esperamos que las características verdaderamente nulas formen esta distribución plana a partir de [0,1] y que las características verdaderamente alternativas estén más cerca de 0.

π0 se cuantifica como, donde lambda es el parámetro de ajuste (por ejemplo, en la imagen de arriba podríamos seleccionar lambda = 0.5, ya que después de un valor p de 0.5 la distribución es bastante plana. La proporción de características verdaderamente nulas es igual al número de p -valores mayores que lambda divididos por m (1-lambda). A medida que lambda se acerca a 0 (cuando la mayor parte de la distribución es plana), el denominador será aproximadamente m, al igual que el numerador, ya que la mayoría de los valores p serán mayores que lambda, y π0 será aproximadamente 1 (todas las características son nulas).
La elección de lambda suele estar automatizada por programas estadísticos.

Ahora que hemos estimado π0, podemos estimar FDR (t) como
Entonces, el valor q para una característica es el FDR mínimo que se puede alcanzar cuando se llama significativa a esa característica.

(Nota: las definiciones anteriores suponen que m es muy grande, por lo que S> 0. Cuando S = 0, el FDR no está definido, por lo que en la literatura estadística la cantidad E [V /? S? | S> 0]? * Pr (S> 0) se usa como FDR. Alternativamente, se usa el FDR positivo (pFDR), que es E [V / S? | S> 0]. Ver Benjamini y Hochberg (1995) y Storey y Tibshirani (2003) para más información.)

Lecturas

Libros de texto y capítulos

AVANCES RECIENTES EN BIOSESTADÍSTICA (Volumen 4):
Editado por Manish Bhattacharjee (Instituto de Tecnología de Nueva Jersey, EE. UU.), Sunil K Dhar (Instituto de Tecnología de Nueva Jersey, EE. UU.), Y Sundarraman Subramanian (Instituto de Tecnología de Nueva Jersey, EE. UU.).
http://www.worldscibooks.com/lifesci/8010.html
El primer capítulo de este libro proporciona una revisión de los procedimientos de control de FDR que han sido propuestos por destacados estadísticos en el campo, y propone un nuevo método adaptativo que controla el FDR cuando los valores p son independientes o positivamente dependientes.

Bioestadística intuitiva: una guía no matemática para el pensamiento estadístico
http://www.amazon.com/Intuitive-Biostatistics-Nonmathematical-Statistical-Thinking/dp/product-description/0199730067
Este es un libro de estadísticas escrito para científicos que carecen de una base estadística compleja. La Parte E, Desafíos en estadística, explica en términos sencillos el problema de las comparaciones múltiples y las diferentes formas de abordarlo, incluidas descripciones básicas de la tasa de error familiar y el FDR.

Inferencia a gran escala: métodos empíricos de Bayes para estimación, prueba y predicción
http://www.amazon.com/gp/product/0521192498/ref=as_li_ss_tl?ie=UTF8&tag=chrprobboo-20&linkCode=as2&camp=1789&creative=390957&creativeASIN=0521192498
Este es un libro que revisa el concepto de FDR y explora su valor no solo como un procedimiento de estimación sino también como un objeto de prueba de significancia. El autor también proporciona una evaluación empírica de la precisión de las estimaciones de FDR.

Artículos metodológicos

Benjamini, Y. e Y. Hochberg (1995). Control de la tasa de falsos descubrimientos: un enfoque práctico y eficaz para realizar pruebas múltiples. Revista de la Royal Statistical Society. Serie B (Metodológica) 57 (1): 289-300.
Este artículo de 1995 fue la primera descripción formal de FDR. Los autores explican matemáticamente cómo se relaciona el FDR con la tasa de error familiar (FWER), proporcionan un ejemplo simple de cómo utilizar el FDR y realizan un estudio de simulación que demuestra el poder del procedimiento FDR en comparación con los procedimientos de tipo Bonferroni.

Storey, J. D. y R. Tibshirani (2003). Significación estadística para estudios de genoma completo Procedimientos de la Academia Nacional de Ciencias 100 (16): 9440-9445.
Este artículo explica qué es el FDR y por qué es importante para los estudios de todo el genoma, y ​​explica cómo se puede estimar el FDR. Ofrece ejemplos de situaciones en las que el FDR sería útil y proporciona un ejemplo práctico de cómo los autores utilizaron el FDR para analizar datos de expresión génica diferencial de microarrays.

Storey JD. (2010) Tasas de falsos descubrimientos. En Enciclopedia internacional de ciencia estadística, Lovric M (editor).
Un artículo muy bueno que analiza el control FDR, el FDR positivo (pFDR) y la dependencia. Recomendado para obtener una descripción general simplificada del FDR y los métodos relacionados para realizar comparaciones múltiples.

Reiner A, Yekutieli D, Benjamini Y: Identificación de genes expresados ​​diferencialmente mediante procedimientos de control de la tasa de descubrimiento falso. Bioinformática 2003, 19 (3): 368-375.
Este artículo utiliza datos de microarrays simulados para comparar tres procedimientos de control FDR basados ​​en remuestreo con el procedimiento Benjamini-Hochberg. El nuevo muestreo de las estadísticas de prueba se realiza para no asumir la distribución de la estadística de prueba de la expresión diferencial de cada gen.

Verhoeven KJF, Simonsen KL, McIntyre LM: Implementación del control de la tasa de descubrimiento falso: aumentando su poder. Oikos 2005, 108 (3): 643-647.
Este artículo explica el procedimiento Benjamini-Hochberg, proporciona un ejemplo de simulación y analiza los desarrollos recientes en el campo FDR que pueden proporcionar más potencia que el método FDR original.

Stan Pounds y Cheng Cheng (2004) Mejora de la estimación de la tasa de falsos descubrimientos Bioinformatics Vol. 20 no. 11 2004, páginas 1737–1745.
Este artículo presenta un método llamado histograma LOESS de espaciamiento (SPLOSH). Este método se propone para estimar el FDR condicional (cFDR), la proporción esperada de falsos positivos condicionados a tener k hallazgos 'significativos'.

Daniel Yekutieli, Yoav Benjamini (1998) Tasa de descubrimiento falso basada en remuestreo que controla múltiples procedimientos de prueba para estadísticas de prueba correlacionadas Journal of Statistical Planning and Inference 82 (1999) 171-196.
Este documento presenta un nuevo procedimiento de control de FDR para tratar las estadísticas de prueba que están correlacionadas entre sí. El método implica calcular un valor p basado en el remuestreo. Las propiedades de este método se evalúan mediante un estudio de simulación.

Yoav Benjamini y Daniel Yekutieli (2001) El control de la tasa de falsos descubrimientos en pruebas múltiples bajo dependencia The Annals of Statistics 2001, vol. 29, núm. 4, 1165-1188.
El método FDR que se propuso originalmente se usaba en pruebas de hipótesis múltiples de estadísticas de prueba independientes. Este artículo muestra que el método FDR original también controla el FDR cuando las estadísticas de prueba tienen una dependencia de regresión positiva en cada una de las estadísticas de prueba correspondientes a la verdadera hipótesis nula. Un ejemplo de estadísticas de prueba dependientes sería la prueba de múltiples criterios de valoración entre los grupos de tratamiento y de control en un ensayo clínico.

John D. Storey (2003) La tasa de falsos descubrimientos positivos: una interpretación bayesiana y un valor q The Annals of Statistics 2003, vol. 31, núm. 6, 2013-2035.
Este artículo define la tasa de falso descubrimiento positivo (pFDR), que es el número esperado de falsos positivos de todas las pruebas llamadas significativas dado que hay al menos un hallazgo positivo. El documento también proporciona una interpretación bayesiana del pFDR.

Yudi Pawitan, Stefan Michiels, Serge Koscielny, Arief Gusnanto y Alexander Ploner (2005) Tasa de descubrimiento falso, sensibilidad y tamaño de muestra para estudios de microarrays Bioinformatics Vol. 21 no. 13 2005, páginas 3017–3024.
Este artículo describe un método para calcular el tamaño de la muestra para un estudio comparativo de dos muestras basado en el control y la sensibilidad de FDR.

Grant GR, Liu J, Stoeckert CJ Jr. (2005) Un enfoque práctico de tasa de descubrimiento falso para identificar patrones de expresión diferencial en datos de microarrays. Bioinformática. 2005, 21 (11): 2684-90.
Los autores describen los métodos de estimación por permutación y discuten cuestiones relacionadas con la elección del investigador de métodos estadísticos y de transformación de datos. También se explora la optimización de energía relacionada con el uso de datos de microarrays.

Jianqing Fan, Frederick L. Moore, Xu Han, Weijie Gu, Estimación de la proporción de falso descubrimiento bajo dependencia de covarianza arbitraria. J Am Stat Assoc. 2012; 107 (499): 1019–1035.
Este artículo propone y describe un método para el control de FDR basado en una aproximación de factor principal de la matriz de covarianza de las estadísticas de prueba.

Artículos de aplicación

Han S, Lee K-M, Park SK, Lee JE, Ahn HS, Shin HY, Kang HJ, Koo HH, Seo JJ, Choi JE et al: Estudio de asociación del genoma de la leucemia linfoblástica aguda infantil en Corea. Investigación sobre leucemia 2010, 34 (10): 1271-1274.
Este fue un estudio de asociación de todo el genoma (GWAS) que evaluó un millón de polimorfismos de un solo nucleótido (SNP) para determinar su asociación con la leucemia linfoblástica activa infantil (LLA). Controlaron el FDR en 0,2 y encontraron 6 SNP en 4 genes diferentes fuertemente asociados con el riesgo de LLA.

Pedersen, K. S., Bamlet, W. R., Oberg, A. L., de Andrade, M., Matsumoto, M. E., Tang, H., Thibodeau, S. N., Petersen, G. M. y Wang, L. (2011). La firma de metilación del ADN de los leucocitos diferencia a los pacientes con cáncer de páncreas de los controles sanos. PLoS ONE 6, e18223.
Este estudio controlado por un FDR<0.05 when looking for differentially methylated genes between pancreatic adenoma patients and healthy controls to find epigenetic biomarkers of disease.

Daniel W. Lin, Liesel M. FitzGerald, Rong Fu, Erika M. Kwon, Siqun Lilly Zheng, Suzanne y otros, variantes genéticas en los genes LEPR, CRY1, RNASEL, IL4 y ARVCF son marcadores pronósticos de cáncer de próstata específico Mortalidad (2011), Cancer Epidemiol Biomarkers Prev.2011; 20: 1928-1936. Este estudio examinó la variación en genes candidatos seleccionados relacionados con la aparición del cáncer de próstata con el fin de probar su valor pronóstico entre individuos de alto riesgo. Se usó FDR para clasificar los polimorfismos de un solo nucleótido (SNP) e identificar los snps de mayor rango de interés.

Radom-Aizik S, Zaldivar F, Leu S-Y, Adams GR, Oliver S, Cooper DM: Efectos del ejercicio sobre la expresión de microARN en células mononucleares de sangre periférica de varones jóvenes. Ciencia clínica y traslacional 2012, 5 (1): 32-38.
Este estudio examinó el cambio en la expresión de microARN antes y después del ejercicio utilizando un microarray. Utilizaron el procedimiento de Benjamini-Hochberg para controlar el FDR a 0.05 y encontraron que 34 de 236 microARN se expresaban diferencialmente. Luego, los investigadores seleccionaron microARN de estos 34 para ser confirmados con PCR en tiempo real.

Sitios web

Paquete estadístico R
http://genomine.org/qvalue/results.html
Código R anotado utilizado para analizar datos en el artículo de Storey y Tibshirani (2003), incluido el enlace al archivo de datos. Este código se puede adaptar para trabajar con cualquier dato de matriz.

http://www.bioconductor.org/packages/release/bioc/html/qvalue.html
paquete qvalue para R.

maestría en administración de la salud

http://journal.r-project.org/archive/2009-1/RJournal_2009-1.pdf

Journal R Project es una publicación de acceso abierto revisada por pares de la Fundación R para Computación Estadística. Este volumen proporciona un artículo titulado 'Estimación del tamaño de la muestra mientras se controlan las tasas de descubrimiento falso para experimentos de microarrays' por Megan Orr y Peng Liu. Se proporcionan funciones específicas y ejemplos detallados.

http://strimmerlab.org/notes/fdr.html
Este sitio web proporciona una lista de software R para el análisis FDR, con enlaces a sus páginas de inicio para obtener una descripción de las características del paquete.

SAS
http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_multtest_sect001.htm
Descripción de PROC MULTTEST en SAS, que brinda opciones para controlar el FDR mediante diferentes métodos.

EXPRESAR
http://www.stata-journal.com/article.html?article=st0209
Proporciona comandos STATA para el cálculo de valores q para procedimientos de prueba múltiple (calcular valores q ajustados por FDR).

FDR_recursos web generales
http://www.math.tau.ac.il/~ybenja/fdr/index.htm
Sitio web administrado por los estadísticos de la Universidad de Tel Aviv que introdujeron formalmente el FDR.

http://www.math.tau.ac.il/~ybenja/
Este sitio web de FDR tiene muchas referencias disponibles. La conferencia sobre FDR está disponible para revisión.

http://www.cbil.upenn.edu/PaGE/fdr.html
Bonita y concisa explicación de FDR. Se proporciona un resumen útil de un vistazo con un ejemplo.

http://www.rowett.ac.uk/~gwh/False-positives-and-the-qvalue.pdf
Una breve descripción de los falsos positivos y los valores q.

Cursos

Un tutorial sobre el control de los descubrimientos falsos por Christopher R. Genovese Departamento de Estadística de la Universidad Carnegie Mellon.
Este powerpoint es un tutorial muy completo para alguien interesado en aprender los fundamentos matemáticos del FDR y las variaciones del FDR.

Pruebas múltiples por Joshua Akey, Departamento de Ciencias del Genoma, Universidad de Washington.
Este powerpoint proporciona una comprensión muy intuitiva de múltiples comparaciones y el FDR. Esta conferencia es buena para aquellos que buscan una comprensión simple del FDR sin mucha matemática.

Estimación de la tasa de falso descubrimiento local en la detección de expresión diferencial entre dos clases.
www.youtube.com/watch?v=J4wn9_LGPcY
Esta videoconferencia fue útil para aprender sobre el FDR local, que es la probabilidad de que una hipótesis específica sea cierta, dada su estadística de prueba específica o valor p.

Procedimientos de control de la tasa de falsos descubrimientos para pruebas discretas
http://www.youtube.com/watch?v=IGjElkd4eS8
Esta videoconferencia fue útil para aprender sobre la aplicación del control FDR en datos discretos. Se discuten varios procedimientos ascendentes y descendentes para el control FDR cuando se trata de datos discretos. Se revisan las alternativas que en última instancia ayudan a aumentar la potencia.

Artículos De Interés

La Elección Del Editor

¿Detecta una garrapata? Toma una foto
¿Detecta una garrapata? Toma una foto
Los científicos ciudadanos pueden ayudar a combatir la enfermedad de Lyme con The Tick App, una aplicación gratuita para teléfonos inteligentes desarrollada por Maria Diuk-Wasser y sus colegas.
James Meredith '68: un pionero de la justicia racial
James Meredith '68: un pionero de la justicia racial
Después de arriesgar su vida para eliminar la segregación de Ole Miss en 1962, Meredith continuó su activismo en la Facultad de Derecho de Columbia.
Versión actual de Chrome
Versión actual de Chrome
Aquí puede verificar o encontrar fácilmente la versión actual de Chrome y la última versión de Google Chrome para su sistema. Vea cómo actualizar el navegador Google Chrome
Debido a la pandemia de COVID-19, esta y las siguientes sesiones de Crítica 13/13 fueron suspendidas. Lea la introducción a Critique 11/13 aquí.
Debido a la pandemia de COVID-19, esta y las siguientes sesiones de Crítica 13/13 fueron suspendidas. Lea la introducción a Critique 11/13 aquí.
El consumo problemático de cannabis aumenta en los estados donde las drogas son legales
El consumo problemático de cannabis aumenta en los estados donde las drogas son legales
El trastorno por consumo de cannabis, también conocido como consumo problemático, entre los adultos aumentó después de la legalización del consumo recreativo de marihuana, según un nuevo estudio de la Facultad de salud pública Mailman de la Universidad de Columbia y la Facultad de medicina de la Universidad de Nueva York. Entre los adultos de 26 años o más, el consumo de marihuana en el último mes después de la legalización fue un 26 por ciento más alto que en los estados no recreativos. Similar,
Programas
Programas
Ayudando a los pastores en África a adaptarse al cambio climático
Ayudando a los pastores en África a adaptarse al cambio climático
Un pastor de ganado migratorio en Bur