Sunday, June 12, 2016

Arg - max 80






+

naive Bayes Introducción Mahout actualmente tiene dos implementaciones de Bayes ingenuo. La primera es la norma multinomial bayesiano. La segunda es una aplicación de la Transformada-Peso normalizado Complemento Naive Bayes introducido por Rennie et al. [1]. Nos referimos a la primera como de Bayes y el segundo como CBayes. En caso de Bayes ha sido durante mucho tiempo un estándar de clasificación de texto, CBayes es una extensión de Bayes que desempeña particularmente bien en conjuntos de datos con clases sesgadas y se ha demostrado para ser competitivos con los algoritmos de mayor complejidad, tales como máquinas de vectores soporte. implementaciones Tanto Bayes y CBayes actualmente están capacitados a través de MapReduce Empleo. Las pruebas y la clasificación se puede hacer a través de un trabajo MapReduce o secuencialmente. Mahout proporciona a los conductores de la CLI para pre-procesamiento, capacitación y pruebas. Una aplicación Spark es actualmente en las obras (MAHOUT-1493). Preprocesamiento y Algoritmo Como se describe en [1] Mahout Naive Bayes se divide en los siguientes pasos (asignaciones son sobre todos los posibles valores de índice): Como podemos ver, la principal diferencia entre Bayes y CBayes es la etapa de cálculo de peso. En caso de Bayes pesa términos más pesadamente basan en la probabilidad de que pertenecen a la clase \ (c \). CBayes busca maximizar los pesos plazo sobre la probabilidad de que ellos no pertenecen a ninguna otra clase. Se ejecuta desde la línea de comandos Mahout proporciona a los conductores de la CLI para todos los pasos anteriores. Aquí vamos a dar una visión sencilla de los comandos de la CLI Mahout utilizados para preprocesar los datos, entrenar el modelo y asignar etiquetas para el conjunto de entrenamiento. Un script de ejemplo se da para el proceso completo desde la adquisición de datos a través de la clasificación de la clásica corpus 20 grupos de noticias. Preprocesamiento: Para un conjunto de documentos con formato de archivos de secuencia de comandos en PATH_TO_SEQUENCE_FILES el mahout seq2sparse realiza las transformaciones TF-IDF (en peso TFIDF opción) y longitud L2 de normalización (2 - n opción) de la siguiente manera: Formación: El modelo es entonces entrenado usando trainnb mahout. El valor por defecto es la formación de un modelo de Bayes. La opción - c se da a entrenar un modelo CBayes: Asignación de etiquetas / Pruebas: Clasificación y pruebas en un conjunto retención se pueden realizar a través de testnb mahout. De nuevo, la opción - c indica que el modelo es CBayes. La opción - seq dice testnb mahout para funcionar de forma secuencial: opciones de línea de comandos Sólo se muestran los parámetros pertinentes utilizados para Bayes / CBayes indicados anteriormente. Varias otras transformaciones pueden ser realizadas por seq2sparse mahout y se utilizan como entrada para Bayes / CBayes. Para obtener una lista completa de opciones mahout seq2Sparse ver los vectores Creación de página de texto.




No comments:

Post a Comment