Un improvisado viaje con varias paradas: curación de contenidos, transparencia, estudios de opinión, política... Y cada vez que encuentre una excusa, de música.

Web superficial y Web profunda

sábado, 20 de junio de 2015

Los buscadores tradicionales sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la Web superficial o visible. Lo que resta, la Web profunda o invisible, es un amplio banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito) y otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.

En cuanto a la presencia relativa de ambas en el conjunto de la Web, se estima que la superficial representa aproximadamente el 5% de todo el contenido publicado, por el 95% que supone el peso relativo de la Deep Web. Análisis como el efectuado por Michael Bergman estiman que el tamaño de la web invisible es aproximadamente 500 veces superior a la visible, si bien acepta explícitamente las dificultades y límites consustanciales a un cálculo de esta naturaleza. Por otra parte, su análisis estima que los contenidos de calidad en la Deep Web multiplican de 1000 a 2000 veces a los situados en la Surface Web.


La Web Superficial o visible

La Web superficial comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda.

Las características principales de los sitios de la Web visible son:
  • su información no está contenida en bases de datos
  • es de libre acceso
  • no se requiere la realización de un proceso de registro para acceder a la información.
  • mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.

La Web Profunda o invisible

Web invisible es el término utilizado para describir toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos. Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales), desapareciendo una vez cerrada la consulta.

Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).

1- La Web opaca está compuesta por archivos que, si bien podrían estar incluidos en los índices de los buscadores, no lo están por alguno de los siguientes motivos:
  • Extensión de la indexación: a veces, por economía, no todas las páginas de un sitio son indexadas en los buscadores.
  • Frecuencia de la indexación: los buscadores no poseen la capacidad de indexar todas las páginas existentes; a diario se agregan y modifican muchas y la indexación no se realiza al ritmo que permita incluirlas a todas.
  • Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados, generalmente limitan el número de documentos que se muestran (entre 200 y 1000).
  • URL desconectadas: las generaciones más recientes de buscadores, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados en otros. Si un documento no tiene un link a él, desde otro documento, será imposible que la página sea encontrada, pues no se encuentra indexada.
2- La Web privada consiste en las páginas Web que podrían estar indexadas en los buscadores pero son excluidas deliberadamente por alguno de estos motivos:
  • Las páginas están protegidas por contraseñas.
  • Contienen un archivo “robots.txt” para evitar ser indexadas.
  • Contienen un campo “noindex” para evitar que el buscador pueda indexar la parte correspondiente al cuerpo de la página.
Este segmento de la Web contiene, en general, documentos excluidos deliberadamente por su falta de utilidad, ya que son los dueños de la información que contienen quienes deciden que no se encuentre disponible, por lo que difícilmente se podrán encontrar mecanismos legítimos para franquear esa barrera.

3- La Web propietaria incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o de pago.

4- La Web realmente invisible se compone de páginas que no pueden ser indexadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.


En el siguiente video tenemos una explicación sobre qué es la deep web, qué hay, qué se puede encontrar y hacia dónde se dirige, de una forma muy accesible por parte de Luis Iván Cuende, Mejor hacker 2011 y CEO de Stampery.

Luis Iván Cuende. Fuente: http://one.elpais.com

Algunos recursos de búsqueda en la Web Profunda

 
 Sir Tim Berners-Lee. Fuente: http://es.wikipedia.org/wiki/
  • Infoplease es una Web de consulta con más de 57.000 artículos de la prestigiosa enciclopedia Columbia. Facilita la consulta de información con opciones de búsqueda por términos o por áreas de conocimiento. Es posible acceder a un buen número de enciclopedias, atlas, y biografías. Y también tiene algunas ramificaciones interesantes como Factmonster.com para los niños y Biosearch, un motor de búsqueda sólo para biografías, o información de todo lo acontecido históricamente en un determinado día.
Menú principal de Fact Monster
  • DeepWebTech ofrece cinco motores de búsqueda para temas específicos. Los motores de búsqueda abarcan ciencia, medicina y negocios.
  • TechXtra centra su información en las áreas de ingeniería, matemáticas e informática. Es posible navegar a través de una extensa lista de revistas gratuitas especializadas de ingeniería, documentos técnicos, descargas y podcasts.

  • CompletePlanet pertenece a la compañía BrightPlanet. Algunos autores lo consideran el más grande y completo directorio de la red, y mantiene un crecimiento muy rápido. Fue creado como un servicio público y como banco de pruebas para el Deep Query Manager (DQM), que es un servicio para abonados y una poderosa herramienta para descubrir y gestionar el contenido de internet (Web Profunda y Web Superficial) de una forma sin precedentes, flexible y potente.

    CompletePlanet
    Captura de pantalla de la página del buscador de CompletePlanet

En lo que se refiere a la denominación de este espectro de lugares, hay autores que opinan que la definición de estos sitios web como web invisible no es la más adecuada. Como sugiere Lluís Codina, profesor de la Universidad Pompeu Pabra (UPF) y experto en documentación, comunicación y web 2.0:

Internet invisible es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público. Debería denominarse, en realidad, la web "no indizable", lo cual es un término mucho más adecuado.” - Lluís Codina

De hecho, y según el estudio de Bergman mencionado, se estima que el 95% de los contenidos de la Deep Web son públicos y de libre acceso, sin suscripciones ni tarifas.



¿Te animas a sumergirte?

Para finalizar, compartimos este artículo con video incluido sobre la Deep web y las acciones que llevará a cabo la NASA para descubrir más esta Web profunda. 


 





Nota: post elaborado a partir de la edición y ampliación de los materiales del curso "Encontrando tesoros en la red" (MOOC Universidad Tecnológica Nacional).

Búsqueda por palabras clave

Habitualmente, la búsqueda de información en la Red se realiza mediante palabras clave.
Las herramientas de búsqueda permiten relacionar dos o más palabras claves y frases mediante operadores para ampliar la búsqueda, reducirla o reorientarla según los resultados parciales obtenidos.

Cada herramienta de búsqueda utiliza su propio conjunto de operadores y una sintaxis específica. Estos operadores, nexos que indican qué relación debe existir entre los términos ingresados, se denominan lógicos o booleanos, en referencia al matemático y filósofo inglés George Boole, el "padre" de las operaciones lógicas, quien desarrolló un sistema de reglas que le permitían expresar, manipular y simplificar problemas lógicos y filosóficos cuyos argumentos admiten dos estados (verdadero o falso) por procedimientos matemáticos, conocido como el álgebra de Boole.

George Boole, matemático, 1815-1864

Tipos y descripción de los operadores

  • Conectores

Y (AND) + : Indistintamente, el operador AND (Y) o el signo + delante de las palabras claves, nos indican que las páginas deberán incluir todos los términos que aparecen indicados, independientemente del orden.
países AND americanos = países Y americanos = países +americanos

O (OR) : El operador OR (O) permite obtener registros con alguno de los términos indicados. Se trata de un “o” excluyente, esto significa que de ambas expresiones solo una es posible.
Sin embargo, el espacio en blanco funciona como un “o” incluyente, es decir, ambas expresiones pueden ser posibles al mismo tiempo.
"blogs de cine" OR "blogs de música"

NO (NOT) - : El operador NOT (NO) o el signo – (guión medio) excluye de la búsqueda las palabras claves que tenga delante.
diario -"El País" -> devuelve búsquedas de diarios excluyendo a El País. 

Estos operadores pueden combinarse para facilitar la búsqueda.

  • Símbolos
* : El símbolo * (asterisco) sustituye una cadena de caracteres.
libr* = libro, librero, librería…

? : El signo ? (de interrogación) sustituye a un solo carácter en una ubicación específica.
maestr? = maestro, maestra, maestre.

“ “ : Si buscamos una frase exacta o una expresión formada por varias palabras, debe encerrarse entre comillas.
“Ahora sé que el exceso de información es peor que su escasez”

.. : El símbolo “dos puntos sin espacios” ofrece resultados que contengan valores incluidos en un determinado intervalo de elementos como fechas, medidas y precios.
boxeador 60kg..65kg
 
@ : El símbolo @ permite buscar etiquetas sociales. @BarackObama
 
# : El símbolo # busca temas de tendencias. #copaamerica2015

  • Operadores de búsqueda 
Son expresiones que podemos añadir a las búsquedas para restringir los resultados. Al hacer búsquedas con operadores no se deben añadir espacios entre el operador y los términos de búsqueda.

define: nos permite obtener la definición de una palabra.
define:infoxicación

site: nos permite obtener resultados dentro de uno o de varios sitios o dominios.
Obama site:elpais.com = todas las menciones a Obama en el diario El País.

link: nos permite obtener páginas que apunten a un determinado sitio.
link:www.ugr.es = todas las páginas que se dirijan a la Universidad de Granada.

related: nos permite encontrar sitios similares a una URL que conocemos.
related:elpais.com = páginas relacionadas con el diario El País.


Enlace a la tarea P2P del Módulo 3 (versión no editable) del Curso "Encontrando tesoros en la red". La versión compartida editable se encuentra en los canales habilitados en los foros del curso.



Nota: post elaborado a partir de la edición de los materiales del curso "Encontrando tesoros en la red" (MOOC Universidad Tecnológica Nacional).



Infoxicación: apuntes fugaces

martes, 9 de junio de 2015

Internet ha abierto, sin duda, los canales de información hasta límites desconocidos y ha aportado multitud de fuentes, en muchos casos cambiantes, que traen consigo una ingente cascada de datos, muy difíciles de asimilar y más aún de gestionar. Esta "sobrecarga informativa” (information overload), expresión acuñada ya en 1970 por Alvin Toffler en su libro "Future Shock", hace referencia al estado de contar con demasiada información para tomar una decisión o permanecer informado sobre un determinado tema.

El término se ha reformulado posteriormente, en una definición similar, por Alfons Cornella (1996) como "infoxicación", en un juego de palabras que mezcla Información e Intoxicación. La sobrecarga de información que recibe un usuario, especialmente a través de Internet, puede generar ciertos estados de insatisfacción o ansiedad del sujeto sobreinformado.

Recientemente, gracias a una entrevista para el diario español El País, contamos con la opinión del sociólogo y filósofo polaco que acuñó el término de la modernidad líquida, Zygmunt Bauman, en la que reflexiona, entre otros asuntos de gran interés, sobre la facilidad de acceso a la información promovida por la Red y las consecuencias, no siempre positivas, que tal cambio cultural y tecnológico conlleva. De la parte de dicha entrevista relacionada con la infoxicación quiero destacar esta cita, que puede sintetizar como pocas el sentir de muchos usuarios ante situaciones que viven habitualmente:

"Ahora sé que el exceso de información es peor que su escasez" - Zygmunt Bauman.

Como apunta Bauman, en un entorno en que los asuntos a tratar cambian con una fugacidad tan marcada como ahora (o como la de este post), no queda lugar para una reflexión serena sobre los mismos, convirtiéndose todos ellos en pasado con la misma fugacidad que con la que aparecen. Y el exceso al que se refiere genera un problema más común: cómo discernir la información relevante de la que no lo es, cómo separar la información que hoy consideramos válida y que, puede que un solo año después, deje de serlo por un cambio de paradigma, de concepción sobre el asunto a tratar, construido inevitablemente sobre cimientos frágiles, fruto de la urgencia por publicar y por obtener y distribuir información. 


El pensador polaco Zygmunt Bauman, en la playa de Voramar. 
 / ÁNGEL SÁNCHEZ vía elpais.com
En este contexto, que puede resultar abrumador, el receptor de la información debe tener muy claro cuál es su información crítica, es decir, aquella de la cual no puede prescindir, y adoptar los canales más adecuados para lograrlo, como herramienta para de alcanzar una mejora en su productividad personal. Esta sensación de abrumamiento queda perfectamente explicado en la introducción (de tres minutos) de esta sesión sobre la infoxicación a cargo de Javier Velilla, en la que defiende que tal bruma se produce, además de por la tecnología, por determinados aspectos culturales que la mantienen: "Primera pregunta: ¿quién se manda mails a sí mismo para guardar información?".



La información, el derecho a la misma, a su veracidad y a la existencia de distintas fuentes para poder contrastarla no sólo es un gran adelanto de nuestra sociedad, sino también un derecho que debemos aprender a gestionar, creando y adaptando los filtros adecuados que nos permitan conseguir la información que nos resultará realmente útil. Tal vez, como señaló el profesor de la Universidad de Nueva York experto en Redes Sociales, Clay Shirky, en la Web 2.0 Expo 2010 NY, "el problema real no es la sobrecarga de información, es que el filtro no funciona." 


 


Presentación en el Curso "Encontrando tesoros en la red"

lunes, 8 de junio de 2015

Hola a tod@s.

Mi nombre es Rafael Camacho y resido en Granada (España). Soy politólogo y he desarrollado la mayor parte de mi trayectoria profesional en el ámbito de la investigación universitaria, principalmente en dos áreas: estudios de opinión (cuantitativos y cualitativos) y élites políticas españolas. Además de éstas, tengo mucho interés en otros campos de la investigación social y política, como la investigación sociosanitaria, la formulación y evaluación de políticas públicas, la transparencia, el Tercer Sector, la educación y los medios de comunicación.

En cuanto a las expectativas sobre el curso, espero poder aprender técnicas que optimicen la búsqueda y sistematización de la información que se obtiene por medio de internet, tarea que realizo con frecuencia en algunas de las investigaciones en que participo. Y también encontrar, como está ocurriendo ahora, un motivo inmediato que me lance definitivamente a crear mi primer blog, por lo que desde los primeros contactos con este curso estoy alcanzando uno de mis objetivos primordiales.

Un cordial saludo y bienvenid@s.


 

Perfil profesional

Transparencia en España

Lo que cuentan sobre Transparencia en España

AddThis