{"id":5256,"date":"2013-07-29T13:51:13","date_gmt":"2013-07-29T11:51:13","guid":{"rendered":"http:\/\/www.palentino.es\/blog\/?p=5256"},"modified":"2013-07-29T19:32:23","modified_gmt":"2013-07-29T17:32:23","slug":"big-data-herramientas-para-el-analisis-de-datos-y-aplicaciones-distribuidas","status":"publish","type":"post","link":"https:\/\/www.palentino.es\/blog\/big-data-herramientas-para-el-analisis-de-datos-y-aplicaciones-distribuidas\/","title":{"rendered":"Big Data, Herramientas para el an\u00e1lisis de datos y aplicaciones distribuidas"},"content":{"rendered":"<p style=\"text-align: justify;\">El <strong>Big Data<\/strong> no es algo nuevo, como concepto o t\u00e9rmino es usado ya desde hace una d\u00e9cada. Cada vez somos m\u00e1s conscientes de la cantidad de datos que generamos, es por ello, que cada vez lo empleamos y mencionamos m\u00e1s.<\/p>\n<p style=\"text-align: justify;\"><strong>\u201cData is the new oil\u201d<\/strong><br \/>\nde Clive Humby -2006<\/p>\n<p style=\"text-align: justify;\">El se\u00f1or Clive, expuso esa \u00a0famosa frase hace tiempo.<br \/>\n<strong>Los datos son el Nuevo petr\u00f3leo, los datos son dinero.<\/strong> \u00a0Los datos son eternos.<\/p>\n<p style=\"text-align: justify;\">Pero realmente si nos paramos a analizar este aforismo del Big Data, no es precisamente del todo cierto.<\/p>\n<p style=\"text-align: justify;\"><strong>\u00bfY por qu\u00e9 no?<\/strong><\/p>\n<p style=\"text-align: justify;\"><!--more--><\/p>\n<p style=\"text-align: justify;\"><span style=\"text-align: justify;\">Primero porque el petr\u00f3leo no es una fuente renovable, por el contrario, los datos no se acaban nunca, se crean constantemente, son eternos mientra existan sistemas. \u00a0No son una fuente de recursos agotable. El crecimiento de informaci\u00f3n es exponencial,dia a dia. Hoy trabajamos con miles de <strong>exabytes<\/strong> de informaci\u00f3n. Por ejemplo, 5 exabytes es una cantidad tan grande, que podr\u00edan almacenarse todos los dialectos e idiomas empleados a lo largo de la historia de la humanidad.<\/span><\/p>\n<p style=\"text-align: justify;\">Aunque la analog\u00eda principal de los datos con el petr\u00f3leo, se refer\u00eda al hecho de <strong>rentabilizar o ganar dinero f\u00e1cilmente con la informaci\u00f3n<\/strong>, eso tampoco es realmente cierto, los datos para poder aprovecharlos, es <strong>necesario estructurarles antes de obtenerles<\/strong>, c\u00f3mo y quien los va a analizar, donde los vamos a almacenar.<\/p>\n<p style=\"text-align: justify;\">Una forma \u00a0mejor de crear analog\u00eda al Big Data es tal y como define<strong> Jer Thorp en Harward Business Review<\/strong>:<\/p>\n<p style=\"text-align: justify;\"><strong>\u201c Encontrar valor en los datos es mucho m\u00e1s un proceso de cultivar, que uno de extraer o refinar\u201d.<\/strong><\/p>\n<p style=\"text-align: justify;\">Lo que hay que hacer es saber c\u00f3mo estructurar los datos a largo plazo, en un entorno controlado, <strong>solamente estructurando bien los datos, obtendremos resultados.<\/strong><\/p>\n<p style=\"text-align: justify;\">Se tiende asociar Big Data a grandes datos, pero<b> no solamente son grandes cantidades de datos<\/b>.<br \/>\nNo solamente son exabytes. Para que algo sea considerado big data, necesita cumplir una regla:<br \/>\n<strong>La regla de las cuatro V, o cuatro dimensiones del Big data<\/strong>, tal y como determin\u00f3 \u00a0en 2012 IBM.<\/p>\n<p style=\"text-align: justify;\"><strong>Volumen\u00a0<\/strong> (Volume).<br \/>\nGeneramos datos cada segundo. Grandes cantidades<\/p>\n<p style=\"text-align: justify;\"><strong>Velocidad<\/strong> (Velocity).<br \/>\nGeneramos informaci\u00f3n r\u00e1pidamente.<\/p>\n<p style=\"text-align: justify;\"><strong>Variedad<\/strong> (Variety).<br \/>\nLos datos son diferentes en contextos distintos.<\/p>\n<p style=\"text-align: justify;\"><strong>Veracidad<\/strong> (Veracity) \u2013 Ampliaci\u00f3n de la ley original por parte de IBM.<br \/>\nAdem\u00e1s es preciso que los datos sean correctos, ciertos. \u00a0Es necesario desconfiar de lo que nos ofrece la informaci\u00f3n.<\/p>\n<p style=\"text-align: justify;\"><a href=\"http:\/\/www.palentino.es\/blog\/wp-content\/uploads\/2013\/07\/4-frentes-de-expasion-del-bigdata.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-5391\" alt=\"4-frentes-de-expasion-del-bigdata\" src=\"http:\/\/www.palentino.es\/blog\/wp-content\/uploads\/2013\/07\/4-frentes-de-expasion-del-bigdata.jpg\" width=\"573\" height=\"426\" srcset=\"https:\/\/www.palentino.es\/blog\/wp-content\/uploads\/2013\/07\/4-frentes-de-expasion-del-bigdata.jpg 573w, https:\/\/www.palentino.es\/blog\/wp-content\/uploads\/2013\/07\/4-frentes-de-expasion-del-bigdata-300x223.jpg 300w\" sizes=\"auto, (max-width: 573px) 100vw, 573px\" \/><\/a><\/p>\n<p style=\"text-align: justify;\">Para aquellos que no conozcan <a href=\"http:\/\/es.wikipedia.org\/wiki\/Hadoop\" target=\"_blank\"><strong>Hadoop<\/strong><\/a>, forma parte de una plataforma de c\u00f3digo abierto para procesar big data. Pero un mito que realmente no es cierto es que Big Data significa Hadoop. Aunque Hadoop pueda hacer muchas cosas interesantes, existen otros productos.<\/p>\n<p style=\"text-align: justify;\"><a href=\"http:\/\/es.wikipedia.org\/wiki\/Hadoop\">http:\/\/es.wikipedia.org\/wiki\/Hadoop<\/a><\/p>\n<div id=\"attachment_5386\" style=\"width: 310px\" class=\"wp-caption aligncenter\"><a href=\"http:\/\/hadoop.apache.org\/\" target=\"_blank\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-5386\" class=\"size-medium wp-image-5386\" alt=\"hadoop\" src=\"http:\/\/www.palentino.es\/blog\/wp-content\/uploads\/2013\/07\/hadoop-300x70.png\" width=\"300\" height=\"70\" srcset=\"https:\/\/www.palentino.es\/blog\/wp-content\/uploads\/2013\/07\/hadoop-300x70.png 300w, https:\/\/www.palentino.es\/blog\/wp-content\/uploads\/2013\/07\/hadoop-1024x242.png 1024w, https:\/\/www.palentino.es\/blog\/wp-content\/uploads\/2013\/07\/hadoop.png 2000w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-5386\" class=\"wp-caption-text\">Enlace oficial<\/p><\/div>\n<p style=\"text-align: justify;\">Al igual que ocurre en muchas tecnolog\u00edas, <strong>no podemos ser esclavos de un solo producto tecnol\u00f3gico<\/strong>. \u00a0Puesto que el Big data es algo m\u00e1s que un producto conocido.<br \/>\nMuchos ingenieros en su d\u00eda a d\u00eda o transcurso profesional, comenten un error, <strong>casarse con una determinada tecnolog\u00eda<\/strong>. Se casan con frameworks, lenguajes, CMS, al igual que con Big Data.<\/p>\n<p style=\"text-align: justify;\"><strong>\u201cCasarse con un software es un pecado capital, gran error en un mundo en constante evoluci\u00f3n y cambio.\u201d<\/strong><\/p>\n<p style=\"text-align: justify;\">Software desarrollado por las compa\u00f1\u00edas m\u00e1s grandes del mundo poseen sistemas que procesan el big data.<\/p>\n<p style=\"text-align: justify;\"><strong>Pentaho<\/strong> est\u00e1 construyendo el futuro de an\u00e1lisis de negocios. Herramienta BI de software libre.<br \/>\n<a href=\"http:\/\/www.pentaho.com\/\">http:\/\/www.pentaho.com\/<\/a><\/p>\n<p style=\"text-align: justify;\"><strong>Netezza de IBM<\/strong><br \/>\n<a href=\"http:\/\/en.wikipedia.org\/wiki\/Netezza\">http:\/\/en.wikipedia.org\/wiki\/Netezza<\/a><\/p>\n<p style=\"text-align: justify;\"><strong>Vertica de HP<\/strong><br \/>\n<a href=\"http:\/\/www.vertica.com\/\">http:\/\/www.vertica.com\/<\/a><\/p>\n<p style=\"text-align: justify;\"><strong>Greenplum de EMC<\/strong><b><br \/>\n<\/b><a href=\"http:\/\/en.wikipedia.org\/wiki\/Greenplum\">http:\/\/en.wikipedia.org\/wiki\/Greenplum<\/a><\/p>\n<p style=\"text-align: justify;\"><strong>DataFlux de SAS<\/strong><br \/>\n<a href=\"http:\/\/www.dataflux.com\/home.aspx?lang=es-es\">http:\/\/www.dataflux.com\/home.aspx?lang=es-es<\/a><b><\/b><\/p>\n<p style=\"text-align: justify;\">Todas las grandes empresas quieren crear sistemas que procesen esta informaci\u00f3n.<\/p>\n<p style=\"text-align: justify;\"><strong>\u201cLa clave esta en encontrar un software que se ajuste bien a las tecnolog\u00edas\u201d<\/strong><\/p>\n<p style=\"text-align: justify;\">Sepamos algo m\u00e1s &#8230;<\/p>\n<p style=\"text-align: justify;\"><b>Big Data<\/b>\u00a0(o\u00a0grandes datos) en TI corresponde a una referencia a <strong>sistemas<\/strong> que manipulan grandes\u00a0conjuntos de datos\u00a0(o\u00a0<i>data sets<\/i>). Las dificultades m\u00e1s generales en estos casos se centran en la<strong> captura, el almacenado, la b\u00fasqueda, compartici\u00f3n, el an\u00e1lisis,\u00a0y visualizaci\u00f3n<\/strong>.<\/p>\n<p style=\"text-align: justify;\">El l\u00edmite superior de procesamiento se ha ido desplazando a lo largo de los a\u00f1os, de esta forma los l\u00edmites que estaban fijados en 2008 rondaban los \u00f3rdenes de\u00a0<a title=\"Petabytes\" href=\"http:\/\/es.wikipedia.org\/wiki\/Petabytes\">petabytes<\/a>\u00a0a\u00a0<a title=\"Zettabytes\" href=\"http:\/\/es.wikipedia.org\/wiki\/Zettabytes\">zettabytes<\/a>\u00a0de informaci\u00f3n.<\/p>\n<p style=\"text-align: justify;\">Los cient\u00edficos con cierta regularidad encuentran <strong>limitaciones<\/strong> debido a la gran cantidad de datos en ciertas \u00e1reas, tales como la\u00a0meteorolog\u00eda, la\u00a0gen\u00f3mica,\u00a0la\u00a0conect\u00f3mica, las complejas simulaciones de procesos f\u00edsicos,\u00a0y las investigaciones relacionadas con los procesos biol\u00f3gicos y ambientales.<\/p>\n<p style=\"text-align: justify;\">Las limitaciones tambi\u00e9n afectan a los\u00a0motores de b\u00fasqueda en Internet, a los sistemas\u00a0finanzas\u00a0y a la inform\u00e1tica de negocios.<\/p>\n<p style=\"text-align: justify;\">Los\u00a0data sets\u00a0crecen en volumen debido en parte a la introducci\u00f3n de informaci\u00f3n ubicua procedente de los\u00a0sensores inal\u00e1mbricos\u00a0y los<strong> dispositivos m\u00f3viles del constante crecimiento<\/strong> de los hist\u00f3ricos de aplicaciones (logs), c\u00e1maras (sistemas de\u00a0teledetecci\u00f3n), micr\u00f3fonos, lectores de\u00a0radio-frequency identification.<\/p>\n<p style=\"text-align: justify;\">La capacidad para almacenar datos de la humanidad se ha doblado a un ritmo de cuarenta meses desde los\u00a0a\u00f1os ochenta.En 2012 , cada d\u00eda fueron creados cerca de 2,5 trillones\u00a0 de bytes de datos.<\/p>\n<p style=\"text-align: justify;\">&#8220;Big data&#8221;\u00a0 ha incrementado la <strong>demanda de especialistas<\/strong> en gesti\u00f3n de la informaci\u00f3n y empresas como<strong> Software AG, Oracle Corporation, IBM, Microsoft, SAP, EMC y HP<\/strong> se han gastado m\u00e1s de <strong>15 millones de d\u00f3lares<\/strong> en proyectos de software que s\u00f3lo se especializan en la gesti\u00f3n de datos y an\u00e1lisis. En 2010, este sector por s\u00ed solo val\u00eda m\u00e1s de\u00a0 100 mil millones de d\u00f3lares y est\u00e1 creciendo a casi el 10 por ciento al a\u00f1o: Aproximadamente el doble de r\u00e1pido que el negocio del software en su conjunto<\/p>\n<p style=\"text-align: justify;\">Las econom\u00edas desarrolladas hacen uso cada vez mayor de las tecnolog\u00edas de uso intensivo de datos. Hay 4,6 millones de suscripciones de tel\u00e9fonos m\u00f3viles en todo el mundo y hay entre mil millones y 2 billones de personas con acceso a Internet.<\/p>\n<p style=\"text-align: justify;\">La Capacidad efectiva del mundo para el intercambio de informaci\u00f3n a trav\u00e9s de redes de telecomunicaciones era 281 petabytes en 1986, 471 petabytes en 1993, 2,2 exabytes en 2000, 65 exabytes en 2007, y se prev\u00e9 que la cantidad de tr\u00e1fico que fluye a trav\u00e9s de Internet alcanzar\u00e1 los 667 exabytes anuales para el a\u00f1o 2013.<\/p>\n<p style=\"text-align: justify;\">En 2004, Google public\u00f3 un documento sobre un proceso llamado <strong>MapReduce<\/strong> que utiliza dicha arquitectura. El <strong>Framework MapReduce<\/strong> ofrece un modelo de programaci\u00f3n paralela y la aplicaci\u00f3n asociada para procesar gran cantidad de datos. Con MapReduce, las consultas se dividen y se distribuyen a trav\u00e9s de los <strong>nodos paralelos y procesamiento<\/strong> en paralelo (El <strong>Map Step<\/strong>). Este framework tuvo un \u00e9xito incre\u00edble, y motivo a que otros quisieran copiar el algoritmo. Esto condujo a que, una implementaci\u00f3n del<strong> framewok MapReduce fuese adoptado por un proyecto de c\u00f3digo abierto<\/strong> de <strong>Apache<\/strong> llamado <strong>Hadoop<\/strong>, pero como desarrollar\u00e9 m\u00e1s adelante no es el \u00fanico.<\/p>\n<p><b>Respecto a la tecnolog\u00eda<\/b><\/p>\n<p style=\"text-align: justify;\"><span style=\"text-align: justify;\">Big Data requiere <strong>tecnolog\u00edas excepcionales<\/strong> para procesar eficientemente grandes cantidades de datos dentro de unos <strong>tiempos transcurridos que sean tolerables<\/strong>. Un informe de <strong>McKinsey<\/strong> (una de las mayores consultoras del mundo) en 2011 sugiere que las tecnolog\u00edas adecuadas incluyen las <strong>pruebas A \/ B, de reglas de asociaci\u00f3n de aprendizaje, clasificaci\u00f3n, an\u00e1lisis de conglomerados, crowdsourcing, fusi\u00f3n de datos y la integraci\u00f3n, el aprendizaje conjunto, los algoritmos gen\u00e9ticos, aprendizaje autom\u00e1tico, procesamiento del lenguaje natural, redes neuronales, reconocimiento de patrones , detecci\u00f3n de anomal\u00edas, modelos de predicci\u00f3n, regresi\u00f3n, an\u00e1lisis de los sentimientos, procesamiento de se\u00f1ales, supervisados \u200b\u200by no supervisados \u200b\u200baprendizaje, simulaci\u00f3n, an\u00e1lisis de series temporales y la visualizaci\u00f3n<\/strong>.<\/span><\/p>\n<p style=\"text-align: justify;\"><strong>Grandes vol\u00famenes de datos multidimensionales<\/strong> tambi\u00e9n pueden ser representados como <strong>tensores<\/strong>, los cuales se pueden manejar de manera m\u00e1s eficiente mediante c\u00e1lculo tensor, tales como el<strong> aprendizaje subespacio multilineal<\/strong>.<\/p>\n<p style=\"text-align: justify;\">Las tecnolog\u00edas adicionales que se aplican a grandes vol\u00famenes de datos incluyen bases de datos masivos de procesamiento paralelo (<strong>MPP<\/strong> \/Massively Parallel-Processing) , basado en <strong>b\u00fasquedas aplicaciones de miner\u00eda de datos<\/strong>, redes de sistemas de archivos distribuidos, <strong>bases de datos distribuidas<\/strong>, la infraestructura basada en la nube (aplicaciones, almacenamiento y recursos inform\u00e1ticos) e Internet.<\/p>\n<p style=\"text-align: justify;\">Algunas, pero no todas las bases de datos relacionales MPP tienen la capacidad de almacenar y gestionar petabytes de datos. Esto impl\u00edcita la capacidad de cargar, controlar, copias de seguridad y optimizar el uso de las grandes tablas de datos en el RDBMS.<\/p>\n<p style=\"text-align: justify;\">Los profesionales que emplean grandes procesos de an\u00e1lisis de datos son generalmente hostiles<strong> al almacenamiento compartido<\/strong>, m\u00e1s lento, <strong>prefiriendo<\/strong> el a<strong>lmacenamiento de conexi\u00f3n directa<\/strong> (DAS) en sus diversas formas de disco de estado s\u00f3lido (<strong>SSD<\/strong>) a alta capacidad <strong>SATA\u00a0<\/strong> dentro de los nodos de procesamiento en paralelo.<\/p>\n<p style=\"text-align: justify;\">La percepci\u00f3n es que el <strong>almacenamiento compartido en \u00a0arquitecturas SAN y NAS son relativamente lentas<\/strong>, complejas y costosas. Entrega de informaci\u00f3n real o casi en tiempo real es una de las caracter\u00edsticas definitorias de an\u00e1lisis de Big Data. Por lo tanto, se evita la latencia cuando y donde sea posible. \u00a0El costo de una SAN en la escala necesaria para las aplicaciones de an\u00e1lisis es mucho m\u00e1s alto que otras t\u00e9cnicas de almacenamiento.<\/p>\n<p style=\"text-align: justify;\">Hay ventajas y desventajas para el almacenamiento compartido en el an\u00e1lisis de datos grandes, pero lo<strong>s profesionales del an\u00e1lisis a partir de 2011 no lo est\u00e1n muy a favor<\/strong>.<\/p>\n<p><span style=\"color: #800000;\"><strong>CRITICAS<\/strong><\/span><\/p>\n<p style=\"text-align: justify;\">Las cr\u00edticas al paradigma de Big Data son de dos tipos, los que cuestionan las implicaciones del<strong> enfoque de s\u00ed mismo<\/strong>, y los que cuestionan la <strong>forma<\/strong> en que se hace actualmente.<\/p>\n<p style=\"text-align: justify;\">&#8220;Un problema fundamental es que no sabemos mucho acerca de los micro-procesos emp\u00edricos subyacentes que conducen a la aparici\u00f3n de las redes Big Data&#8221;.\u00a0 En su cr\u00edtica, Snijders, Matzat y\u00a0 Reips \u00a0matizan que las suposiciones se hacen acerca de <strong>las propiedades matem\u00e1ticas que no pueden en absoluto reflejar lo que realmente est\u00e1 sucediendo a nivel de micro-procesos<\/strong>.<\/p>\n<p style=\"text-align: justify;\">Mark Graham se ha centrado en particular en la idea de que siempre se van a necesitar grandes vol\u00famenes de datos para ser analizados en sus contextos sociales, econ\u00f3micos y pol\u00edticos. A pesar de que las empresas invieren grandes sumas para obtener una visi\u00f3n de la informaci\u00f3n que entra por los proveedores y clientes, <strong>menos del 40% de los empleados tienen procesos y habilidades lo suficientemente maduros para hacerlo interpretarlos<\/strong>. Para superar este d\u00e9ficit de conocimiento, El big data debe ser complementada con &#8220;gran juicio&#8221;, seg\u00fan un art\u00edculo publicado en la Harvard Business Review.<\/p>\n<p style=\"text-align: justify;\">En la misma l\u00ednea, se ha se\u00f1alado que las decisiones basadas en el an\u00e1lisis de grandes vol\u00famenes de datos est\u00e1n inevitablemente <strong>basados en informaci\u00f3n del pasado, o, como mucho, la actual<\/strong>. Pero alimentados por un gran n\u00famero de datos sobre experiencias pasadas, los algoritmos pueden predecir el desarrollo futuro si el futuro es similar al pasado.<\/p>\n<p style=\"text-align: justify;\">En la Salud y la biolog\u00eda, los m\u00e9todos cient\u00edficos convencionales se basan en la experimentaci\u00f3n. Para estos enfoques, el factor limitante son los datos relevantes que puedan confirmar o refutar la hip\u00f3tesis inicial.\u00a0 Un nuevo postulado se acepta ahora en biociencias: La informaci\u00f3n proporcionada por los datos en grandes vol\u00famenes sin hip\u00f3tesis previa es complementaria y a veces necesario para los enfoques convencionales basados \u200b\u200ben la experimentaci\u00f3n.<\/p>\n<p style=\"text-align: justify;\">Defensores de la <strong>privacidad<\/strong> del consumidor est\u00e1n preocupados por la<strong> amenaza a la vida privada<\/strong> representada por el aumento de almacenamiento e integraci\u00f3n de la informaci\u00f3n de identificaci\u00f3n personal.<\/p>\n<p style=\"text-align: justify;\">Danah Boyd ha expresado su preocupaci\u00f3n por el uso de grandes vol\u00famenes de datos en contentos privados descuidando la ciencia como la el objeto del estudio y muestra. Grupos de expertos han publicado varias recomendaciones a los pol\u00edticos para proteger la vida privada y el derecho a la intimidad.<\/p>\n<p><strong>Respecto al Concepto de Miner\u00eda de Datos<\/strong><\/p>\n<p style=\"text-align: justify;\"><b>La miner\u00eda de datos<\/b>\u00a0es\u00a0un subcampo interdisciplinario de\u00a0ciencias de la computaci\u00f3n\u00a0 y se define comos el proceso de c\u00e1lculo de descubrir patrones en grandes conjuntos de datos\u00a0que involucra m\u00e9todos en la intersecci\u00f3n de\u00a0la inteligencia artificial\u00a0,\u00a0aprendizaje autom\u00e1tico\u00a0,\u00a0las estad\u00edsticas\u00a0y\u00a0los sistemas de bases de datos.<\/p>\n<p style=\"text-align: justify;\">El objetivo general del proceso de miner\u00eda de datos es extraer informaci\u00f3n de un conjunto de datos y transformarla en una <strong>estructura comprensible para su uso posterior.<\/strong><\/p>\n<p style=\"text-align: justify;\">El t\u00e9rmino es una\u00a0palabra de moda\u00a0,\u00a0y con frecuencia es <strong>mal utilizado para referirse a cualquier tipo de datos a gran escala<\/strong> o de procesamiento de la informaci\u00f3n (\u00a0recogida\u00a0,\u00a0extracci\u00f3n\u00a0,\u00a0almacenamiento\u00a0,\u00a0an\u00e1lisis\u00a0y estad\u00edsticas), pero tambi\u00e9n se generaliza a cualquier tipo de\u00a0sistema de apoyo inform\u00e1tico, incluyendo\u00a0inteligencia artificial,aprendizaje autom\u00e1tico\u00a0y\u00a0la inteligencia empresarial.\u00a0En el uso de la palabra, la palabra clave es\u00a0<i>el descubrimiento<\/i>, com\u00fanmente definido como &#8220;detectar algo nuevo&#8221;.<\/p>\n<p style=\"text-align: justify;\"><strong>La tarea real de la miner\u00eda de datos es el an\u00e1lisis autom\u00e1tico o semi-autom\u00e1tico de grandes cantidades de datos para extraer interesantes patrones previamente desconocidos<\/strong>, tales como grupos de registros de datos (\u00a0an\u00e1lisis de conglomerados\u00a0), los registros de inusuales (detecci\u00f3n de anomal\u00edas\u00a0) y dependencias (\u00a0miner\u00eda de reglas de asociaci\u00f3n\u00a0).\u00a0E<strong>sto generalmente implica el uso de t\u00e9cnicas de bases de datos tales como\u00a0\u00edndices espaciales\u00a0<\/strong>.<\/p>\n<p style=\"text-align: justify;\">Por ejemplo, el paso de la miner\u00eda de datos puede identificar varios grupos en los datos, que luego se puede utilizar para obtener resultados de la predicci\u00f3n m\u00e1s precisa, en un <strong>sistema de soporte de decisiones<\/strong>.<\/p>\n<p style=\"text-align: justify;\">La miner\u00eda de datos utiliza<strong> la informaci\u00f3n de los datos del pasado<\/strong> para analizar el resultado de un problema o situaci\u00f3n particular que pueda surgir.\u00a0La miner\u00eda de datos analiza los datos almacenados en gestores.\u00a0Esos datos particulares pueden venir de todas partes del negocio, desde <strong>la producci\u00f3n hasta la gesti\u00f3n<\/strong>.\u00a0Los gerentes tambi\u00e9n utilizan la miner\u00eda de datos para decidir sobre l<strong>as estrategias de comercializaci\u00f3n de su producto<\/strong>.\u00a0Se pueden utilizar los <strong>datos para comparar y contrastar entre los competidores<\/strong>.\u00a0La miner\u00eda de datos interpreta los datos en el <strong>an\u00e1lisis en tiempo real que puede ser utilizada para aumentar las ventas, la promoci\u00f3n de nuevos productos, o eliminar producto que no est\u00e1 de valor a\u00f1adido a la empresa<\/strong>.<\/p>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<p><strong>Anexo Herramientas para el an\u00e1lisis de datos BIG DATA<\/strong><\/p>\n<p><a href=\"http:\/\/es.wikipedia.org\/wiki\/Hadoop\">http:\/\/es.wikipedia.org\/wiki\/Hadoop<\/a><\/p>\n<p><a href=\"http:\/\/pig.apache.org\/\">http:\/\/pig.apache.org\/<\/a><\/p>\n<p><a href=\"http:\/\/hive.apache.org\/\">http:\/\/hive.apache.org\/<\/a><\/p>\n<p><a href=\"http:\/\/www.cloudera.com\/content\/cloudera\/en\/why-cloudera\/hadoop-and-big-data.html\">http:\/\/www.cloudera.com\/content\/cloudera\/en\/why-cloudera\/hadoop-and-big-data.html<\/a><\/p>\n<p><a href=\"http:\/\/www.cloudera.com\/content\/cloudera\/en\/products\/cdh\/impala.html\">http:\/\/www.cloudera.com\/content\/cloudera\/en\/products\/cdh\/impala.html<\/a><\/p>\n<p><a href=\"http:\/\/en.wikipedia.org\/wiki\/MapReduce\">http:\/\/en.wikipedia.org\/wiki\/MapReduce<\/a><\/p>\n<p>&nbsp;<\/p>\n<p>Os dejo unos enlaces de herramientas empleadas para el <strong>an\u00e1lisis estad\u00edstico.<\/strong><\/p>\n<p><strong style=\"color: #800000;\">Herramientas de an\u00e1lisis estad\u00edstico.<\/strong><\/p>\n<p><strong>Statistical Analysis tools:<\/strong><\/p>\n<ul>\n<li>R language (<a href=\"http:\/\/www.r-project.org\/\">http:\/\/www.r-project.org\/<\/a>)<\/li>\n<li>Matlab,\u00a0<a href=\"http:\/\/es.wikipedia.org\/wiki\/MATLAB\">http:\/\/es.wikipedia.org\/wiki\/MATLAB<\/a><\/li>\n<li>Octave,\u00a0<a href=\"http:\/\/www.gnu.org\/software\/octave\/\">http:\/\/www.gnu.org\/software\/octave\/<\/a>,\u00a0<a href=\"http:\/\/es.wikipedia.org\/wiki\/GNU_Octave\">http:\/\/es.wikipedia.org\/wiki\/GNU_Octave<\/a><\/li>\n<li>SAS,\u00a0<a href=\"http:\/\/www.sas.com\/offices\/latinamerica\/mexico\/technologies\/analytics\/statistics\/index.html\">http:\/\/www.sas.com\/offices\/latinamerica\/mexico\/technologies\/analytics\/statistics\/index.html<\/a><\/li>\n<li>SPSS,\u00a0<a href=\"http:\/\/es.wikipedia.org\/wiki\/SPSS\" target=\"_blank\">http:\/\/es.wikipedia.org\/wiki\/SPSS<\/a><\/li>\n<\/ul>\n<p><strong style=\"color: #800000;\">Herramientas de creaci\u00f3n de informes o Reporting\u00a0tools:<\/strong><\/p>\n<ul>\n<li><a href=\"http:\/\/www.tableausoftware.com\/es-es\/trial\/tableau-software?cid=70160000000YEzj&amp;ls=Paid%20Search&amp;lsd=Google%20AdWords%20-%20Tableau%20-%20EMEA%20-%20ES%20-%20Free%20Trial&amp;adgroup=Tableau%20-%20Exact&amp;kw=tableau&amp;adused=23743784902&amp;distribution=search&amp;gclid=COmVjdGg1LgCFa7JtAodNAMARA\" target=\"_blank\">Tableau<\/a><\/li>\n<li><a href=\"http:\/\/www.jaspersoft.com\/es\" target=\"_blank\">JasperSoft<\/a><\/li>\n<li><a href=\"http:\/\/www.pentaho.com\/\" target=\"_blank\">Pentaho<\/a><\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<p>Eso es todo, seguir\u00e9 investigando un poco \u00a0&#8230;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>El Big Data no es algo nuevo, como concepto o t\u00e9rmino es usado ya desde hace una d\u00e9cada. Cada vez somos m\u00e1s conscientes de la cantidad de datos que generamos, es por ello, que cada vez lo empleamos y mencionamos m\u00e1s. \u201cData is the new oil\u201d de Clive Humby -2006 El se\u00f1or Clive, expuso esa \u00a0famosa frase hace tiempo. Los datos son el Nuevo petr\u00f3leo, los datos son dinero. \u00a0Los datos son eternos. Pero realmente si nos paramos a analizar este aforismo del Big Data, no es precisamente del todo cierto. \u00bfY por qu\u00e9 no?<\/p>\n","protected":false},"author":1,"featured_media":5368,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[40,10,441,7,14,24],"tags":[451,452],"class_list":["post-5256","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-bases-de-datos","category-ciencia","category-cloud-2","category-software","category-varios","category-web","tag-big-data","tag-data-minning"],"_links":{"self":[{"href":"https:\/\/www.palentino.es\/blog\/wp-json\/wp\/v2\/posts\/5256","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.palentino.es\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.palentino.es\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.palentino.es\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.palentino.es\/blog\/wp-json\/wp\/v2\/comments?post=5256"}],"version-history":[{"count":29,"href":"https:\/\/www.palentino.es\/blog\/wp-json\/wp\/v2\/posts\/5256\/revisions"}],"predecessor-version":[{"id":5395,"href":"https:\/\/www.palentino.es\/blog\/wp-json\/wp\/v2\/posts\/5256\/revisions\/5395"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.palentino.es\/blog\/wp-json\/wp\/v2\/media\/5368"}],"wp:attachment":[{"href":"https:\/\/www.palentino.es\/blog\/wp-json\/wp\/v2\/media?parent=5256"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.palentino.es\/blog\/wp-json\/wp\/v2\/categories?post=5256"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.palentino.es\/blog\/wp-json\/wp\/v2\/tags?post=5256"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}