Der Crawler ist dazu da, die Inhalte verschiedenster Datenquellen (Content Sources) für die Suche zu indexieren. Dabei können diverse Einstellungen die Arbeitsweise des Crawlers näher bestimmen.
Die Konfiguration des Crawlers erfolgt auf Ebene ‚Shared Service’. Dies bedeutet, dass mehrere Web Applikation mit der gleichen Search Konfiguration arbeiten können. Ausgehend von der Central Administration gelangen sie zur Konfigurationsseite des SharedService. Über den Punkt ’Search Settings’ öffnen sie nun die untenstehende Seite.

1) Content Sources
Mit Hilfe der Content Sources legen wir fest, welche Inhalte indexiert werden sollen. In der folgenden Abbildung haben wir die dabei möglichen Typen zusammengestellt.

1) Sharepoint Sites
2) Strukturierte Daten aus SharePoint (z.B. Benutzerprofile)
3) ResultSets eines Business Data Catalogs. Über die Business Data Catalogs (BDC) können verschiedene Daten aus externen Anwendungen für den Crawler verfügbar gemacht werden. Die Erstellung von BDC Applikationen sprengt leider den Scope dieses Artikels. In einem Satz: In einer xml Datei wird Connection und Datenbezug für eine Datenbank oder ein Webservice definiert. So gelesene Daten können in SharePoint angezeigt, gecrawlt und durchsucht werden.
4) File Shares: Das crawlen diverser Dateiypen wird out of the Box unterstützt. Crawling zusätzlicher Dateitypen kann durch die Implementierung zusätzliche IFilters erreicht werden (siehe auch Punkt 3: FileType Inclusions).
5) Web Sites: Es können beliebige WebSits ausgehend von einer angegebenen Einstiegsadresse gecrawlt werden. Allerdings sollte die eigentliche Internetsuche den Internet Suchdiensten überlassen bleiben.
2) Crawl Rules
Dieser Menupunkt öffnet die Listenansicht aller crawl rules. Eine Crawl rule ist eine Regel, die zusätzliche Einschränkungen (exclude rule) oder Zulassungen (include rules) für den Crawler definieren. Dabei kann für jede include rule ein alternativer crawling account definiert werden. Dieser übersteuert dann den standardmässig gesetzten crawling Account für den angegebenen Pfad. Im untenstehenden Beispiel wurde eine rule definiert, die für das crawling aller Dokumente unter …Docs einen alternativen crawling Account setzt.

3) File Types
Durch diesen Menupunkt wird eine Liste aller gecrawlter Dateitypen angezeigt.

Neben den bereits vorhandenen Dateitypen können auch neue Typen für das crawling registriert werden. Um einen Dateityp erfolgreich crawlen zu können muss für diesen Typ ein entsprechender IFilter vorhanden sein.
4) Crawl Logs
Über die Auswahl des Host Names gelangt man zum untenstehenden Screen. Das crawl log ist ein wichtiges Hilfsmittel, um Probleme beim crawlen zu erkennen und beheben zu können. Schauen sie zunächst ins crawl log, wenn Suchresultate nicht den Erwartungen entsprechen oder der crawler sich endlos im Internet versteigt. Das crawl log wird auch während des crawlings aktuell gehalten und kann daher gut zur Überwachung des Fortschritts wärend des crawlens benutzt werden.

Im nächsten Artikel (3. Woche November) werden wir die verbleibenden Konfigurationspunkte 5 bis 11 in der ersten Abbildung besprechen. Insbesondere geht es dabei um die Einrichtung von Search Scopes.

