Page 89 - Forum / No. 41 / Octubre 2018
P. 89

BREVES



           Antecedentes. ¿De dónde surge?                       2.  Velocidad. Se generan y usan a grandes velocidades, a ve-
                                                                   ces incluso en tiempo real.
           El término Big Data saltó a la fama en 2008 con un artículo   3.  Variedad.  Tienen  distintos  orígenes  y  pueden  ser  de
           que publicó la revista electrónica Wired, donde se proponía que   distinto  tipo.  En  una  base  de  datos  pueden  coexistir
           cantidades masivas de información vuelven obsoleto el método   elementos almacenados en  forma  de  texto,  imágenes,
           cientí  co o el uso de modelos o teorías para explicar un fenó-  video y audio.
           meno.  Es decir, que bastaba una gran cantidad de datos para   Adicionalmente,  entre  muchas  otras,    se  pueden  incluir
                8
           poder hacer predicciones sin tener que contar con un mayor   propiedades como los cambios en el tiempo (variabilidad), la
           conocimiento  del  tema.  Sin  embargo,  existen  ejemplos  que   con  abilidad de las fuentes (veracidad) y qué tan útiles son
           muestran los grandes riesgos de usar estas predicciones sin te-  (valor). Estas propiedades pueden mezclarse dentro del mis-
           ner un modelo o una explicación de fondo (Recuadro 1).  mo conjunto, pero antes de analizarlos es necesario depurar-
             La necesidad de manejar e  cientemente los macrodatos   los, estandarizarlos y conectarlos o catalogarlos de manera
           surge del crecimiento acelerado de la información que se ge-  adecuada. A este proceso se le denomina gestión de datos. 14
           nera y procesa en la actualidad, la cual se duplica casi cada   Para esto se hace uso de los metadatos, información com-
           dos años, es muy variada  y se almacena en diversos formatos   plementaria que puede indicar su origen, calidad o su con  a-
                               9
           (audio, fotos, videos, texto, coordenadas). Por ejemplo las de   bilidad. Por ejemplo, si se tiene una colección de fotografías,
            |  INCYTU  No. 001   |   CIUDAD DE MÉXICO   |   AGOSTO  2016
           origen médico que se usan para encontrar factores de riesgo   éstas serían los datos y los metadatos pueden ser la fecha de
           de enfermedades, o la producida por los mismos dispositivos   creación, si ha sido editada o no, el autor, la cámara utilizada,
           conectados a internet, que se comunican entre sí y generan   etc. La información útil o sensible puede estar tanto en los
           aún más información. (Nota INCyTU No.13 Biobancos y Regis-  datos como en los metadatos.
           tros Médicos Electrónicos)                             Para extraer sus cualidades se utilizan métodos avanzados
                                                                de procesamiento que manejan el vasto volumen y su comple-
           Recuadro 1. Google Flu Trends.                       jidad. A todo este conjunto de técnicas se le conoce como Big
                                                                Data Analytics o simplemente Analytics. Algunos ejemplos
             En 2009, la prestigiosa revista cientí  ca Nature publicó un artículo  que   de estas técnicas son: 14
                                                       10
             llamó mucho la atención: un grupo de ingenieros de la empresa Google,     • Minería de datos (Data Mining): Se usa para encontrar pa-
             mediante  el  análisis  de  simples  patrones  de  búsqueda  de  usuarios  en   trones que no puedan localizarse con métodos tradiciona-
             internet,  pudieron  predecir  con  gran  precisión  el  progreso  del  número   les, ya sea por la complejidad o por el volumen del conjun-
             de casos de in uenza en EUA. Esta herramienta se denominó Google Flu   to de datos.  Este concepto es frecuentemente mal usado
                                                                            15
             Trends.  Las  predicciones  fueron  validadas  en  97%  al  ser  cotejadas  con   ya que su nombre pareciera indicar que consiste en extraer
             la información o  cial provista por el Centro para el Control y la Prevención   los datos, pero realmente consiste en obtener conocimien-
             de las Enfermedades. Una gran ventaja de la predicción de Google era que   to de ellos, como identi  car patrones de relación.
             podía  obtenerse  hasta  con  10  días  de  anticipación  respecto a   las  cifras     • Aprendizaje computacional o automático (Machine lear-
             o  ciales, además tenía un bajo costo operativo. Debido al éxito obtenido, el
             proyecto se amplió para también predecir el número de casos de dengue. Las   ning): Es una aplicación de la inteligencia arti  cial donde
             predicciones se hicieron para varios países, incluido México.  una  máquina  o  computadora “aprende”  a  partir  de  un
                                                                                  16
             Este  caso  se  volvió  un  ejemplo  paradigmático  de  Big  Data,  ya  que  fue   gran número casos.  Por ejemplo, a partir de analizar mu-
     2       diseñado a partir de una gran base de datos (de las búsquedas de los usuarios   chas partidas de ajedrez puede inferir las reglas del juego
             en Google) y, sin tener conocimiento del origen del problema (lo llevaron a   y cómo jugarlo. (Nota INCyTU No. 12 Inteligencia Arti  cial)
             cabo ingenieros en lugar de médicos), se lograron predicciones precisas.     • Análisis de redes: Son estudios donde primero se estable-
             Después las cosas cambiaron, en especial a partir de la epidemia de in uenza   ce un criterio para generar relaciones y representarlas en
             del 2011 del virus A (H1N1), cuando las predicciones de Google Flu Trends   una red, luego se procede a analizar su estructura y prin-
                                            11
             fallaron notablemente, con errores de hasta 100%.  A partir de entonces el   cipales componentes.
             proyecto ha dejado de publicar sus resultados y se ha asociado con entidades   La complejidad y variedad de técnicas para el análisis ha pro-
             académicas para investigar mejor el problema. 12   vocado el surgimiento de una disciplina enfocada a ello, llama-
             Por estas razones, el caso también se volvió un ejemplo paradigmático de
             lo que puede salir mal al usar Big Data sin tener un conocimiento adecuado.   da Ciencia de Datos. (Nota INCyTU No. 12 Inteligencia Arti  cial)
             Debido a esto algunos actores enfatizan la necesidad de tener personal con
             experiencia en programación así como en otras ramas del conocimiento y   ¿Dónde se aplica el Big Data?
             cuya formación esté certi  cada por instituciones de prestigio. 13
                                                                Los avances que permitieron el surgimiento del Big Data tie-
                                                                nen su origen en desarrollos de la ciencia básica; desde el na-
                                                                cimiento de las redes de cómputo a   nales de la década de
           ¿Cómo se trabaja con Big Data?                       los sesenta; posteriormente el descubrimiento que permitió
           Estructura y procesamiento                           el desarrollo de los discos duros modernos (Nobel de Física
                                                                2007),  hasta la creación de la World Wide Web (WWW), que es
                                                                     17
           Las tres propiedades principales de los datos, denominados las   la estructura que permitió el uso masivo de las redes de cóm-
           3 v’s, son:                                          puto y el internet. La WWW se creó entre 1989 y 1990 por físi-
           1.  Volumen. Se re  ere a su gran volumen, que sobrepasa la   cos de la Organización Europea para la Investigación Nuclear
              capacidad de almacenamiento o procesamiento de un   (CERN por sus siglas en francés), donde se desarrollan técnicas
              equipo de cómputo personal.                       para el procesamiento de grandes cantidades de información
                                 Forum. Noticias del Foro Consultivo | Núm. 41 Octubre 2018
                                                             89
                                                             89
   84   85   86   87   88   89   90   91   92   93   94