SharePoint \ SQL Server: SharePoint 2013 incluye FAST for SharePoint como producto integrado!

Con SharePoint 2013 tendremos integradas las características que antes teníamos con el producto separado “FAST for SharePoint 2010”.

Cuales son las novedades principales en este campo. Es más, para hacer uso de las buenas prácticas didácticas, iremos racionalizando el aprendizaje, este será el índice que seguiremos:
*****************************************************************************
1 . Nueva Arquitectura y Topología
2. Novedades de Configuración en Rastreador de Contenido (Crawler Configuration)
      2.1 Conectores (Connectors)
      2.2 Fuentes de contenido y rastreo (Crawling and Content Sources)
      2.3 Fuentes de Resultados (Result Sources)
      2.4 Mejoras en el Parseado de Documentos (Document Parsing)
      2.5 Extracción de Entidades (Entity Extraction)
      2.6 Gestión de Esquemas (Schema Management)
3. Novedades de Configuración en el Motor de Consultas (Query Configuration)
      3.1 Ranking
      3.2 Corrección ortográfica en la consulta (Query Spell Correction)
      3.3 Reglas de consulta (Query Rules)
*****************************************************************************

En este post veremos la nueva Arquitectura y Topología del motor de Búsqueda Empresarial de SharePoint 2013.

Nueva Arquitectura y Topología de SharePoint 2013 Search

Con la integración de características de FAST dentro del motor de búsqueda de SharePoint se cambia totalmente la arquitectura de SharePoint 2013 Search, veamos entonces cada uno de los módulos representados en la siguiente imagen:

1. Componente Rastreador (Crawler)

- Este componente es responsable de rastrear el contenido que proviene desde distintas fuentes de información. Invoca a los conectores y manejadores de protocolos adecuados para cada fuente de datos.
- Importante: Podemos desarrollar nuestros propios conectores personalizados Más información (en ingles): http://msdn.microsoft.com/en-us/library/ee556429(v=office.15)
- La base de datos de Crawl (A) se utiliza para almacenar información sobre los elementos rastreados y el historial del rastreo (tiempo del último rastreo, Id del último rastreo, …)

2. Componente de Procesamiento de Contenido (Content Processing)

- Procesa los elementos rastreados y los pasa al componente de Indexación. Aquí es donde se usan los iFilters para hacer el parsing de los documentos. En SharePoint 2013 sigue pudiéndose extender los Format Handlers y crear un propio iFilter.
- Realiza una serie de procesos como: tokenización, detección de lenguaje, extracción de entidades, stopwords, stemming o lematización, etc.
- Escribe información en la base de datos de Links (B) para formar un Web Graph y poder usarlo en el modelo de ranking. Es decir, utiliza el mismo concepto que los motores de búsqueda de Internet para mejorar los ranking de resultados.
- Además también Genera variaciones fonéticas para la búsqueda de personas.

3. Componente de Procesamiento de Analíticas (Analytics Procesing)

- Analiza los elementos rastreados y cómo los usuarios interaccionan con los resultados de búsqueda (Analytics Reporting Database - C). Por ejemplo, cuando un usuario ve una página ese evento se recoge en el (Event Store) y este componente puede usar esto para analizar comportamientos y mejorar el ranking consecuentemente.
- Podemos crear nuestros propios eventos personalizados
- También utiliza la base de datos de Link (B) para combinar esta información con la información de uso y obtener así mejoras para el algoritmo de ranking.
- Concretamente se realizan los siguiente análisis:
    - Search Analysis
         - Link and Anchor Text Analysis
         - Click Distance
         - Search Clicks
         - Deep Links
         - Social Tags
         - Social Distance
         - Search Reports
   - Usage Analysis
         - Recommendations
         - Usage Counts
         - Activity Ranking

4. Componente de Indexación (Index Component)

- Se encarga de obtener los elementos rastreados y procesados y escribirlos de forma adecuada en los ficheros de índice.
- También recibe las consultas de usuario en un formato compatible y comparable con el formato en que se almacenaron lo elementos. De esta forma es capaz de comparar la consulta del usuario con todos los documentos que tiene almacenados en el índice y devolver el conjunto de documentos (resultados) más adecuado.

5. Componente de Procesamiento de Consulta (Query Processing Component)

- Realiza el procesamiento lingüístico en tiempo de consulta (word breaking, stemming, query spellcheking, expansión de la consulta [thesaurus]).
- Utiliza el modelo de similitud para convertir y adaptar la consulta en un formato adecuado y comparable con los documentos que existen en el índice.
- Optimiza la precisión y relevancia del motor de búsquedas
- Decide cuales de las “Reglas de Consulta” (nuevo término) son aplicables.
- Devuelve a la aplicación cliente los resultados de búsqueda

6. Administración de Búsqueda (Search Administration)

- Responsable del aprovisionamiento y cambios en la topología de servidores de búsqueda
- Responsable de la coordinación de los distintos componentes mencionados anteriormente.
- La Base de datos de Admin Search (D) almacena información acerca de:
    - Topología
    - Crawl Rules
    - Query Rules
    - Managed Properties Mappings
    - Content Sources
    - Crawl Schedules
    - Configuraciones de Analytics
- A nivel informativo, los procesos de búsqueda son:
    - Host Controller: Servicio de Windows que supervisa los procesos NodeRunner.
    - NodeRunner.exe: Proceso que contiene los componentes de búsqueda (uno por cada componente: Crawl, Content Processing, Query, Index, Analytic). Puede haber más de uno por servidor.
    - MSSearch.exe: Windows Service que contiene el componente de Crawl

SharePoint \ SQL Server

domingo, 10 de marzo de 2013

SharePoint 2013 incluye FAST for SharePoint como producto integrado!