namics SharePoint Weblog
Mit Windows SharePoint Services (WSS v3) und Microsoft Office SharePoint Server 2007 (MOSS 2007) zur professionellen eCollaboration Plattform
namics @ www.flickr.com

LINKS

  • namics Weblog
  • about:namics
  • namics Website

AKTUELLE ARTIKEL

  • namics an der Konferenz: SharePoint, Web 2.0 & Social Software
  • CMIS Schnittstellenspezifikation fürs Content-Management
  • Semantische Suche mit Sharepoint
  • Microsoft validiert ESX-Server
  • MOSS 2007 und SQL 2008 - Follow Up
  • Next Event Swiss SharePoint Club in Basel
  • MOSS 2007 auf SQL 2008 installieren
  • Sharepoint an der worldwide Partner Conference von Microsoft, 7. – 10. Juli 2008
  • Team Mika certified - MCTS Welcome Package
  • Aus gegebenem Anlass...

KATEGORIEN

  • Business Intelligence
  • Document Management
  • Events
  • Kollaboration
  • MOSS 2007
    • Berechtigungen
  • Microsoft Community
  • Office 2007
  • SQL
  • Silverlight
  • Tools und Applikationen
  • Virtualization
  • Visual Studio
  • Web Content Management
  • Windows Live
  • Windows Server 2008
  • Windows SharePoint Services v3
  • Workflow

ARCHIVE

  • September 2008
  • August 2008
  • Juli 2008
  • Juni 2008
  • Mai 2008
  • April 2008
  • Februar 2008
  • November 2007
  • Oktober 2007
  • September 2007
  • Juni 2007
  • Mai 2007
  • April 2007
  • März 2007
  • Februar 2007
  • Januar 2007
  • Dezember 2006
  • November 2006
  • Oktober 2006
  • September 2006
  • August 2006

XML UND MUMBO JUMBO

  • Subscribe with Bloglines
  • Add to My Yahoo!
  • Add to Google
  • Atom Feed
  • RSS 2.0 Feed
  • Creative Commons License
    Dieses Weblog untersteht der Creative Commons Lizenz.
  • Powered by Movable Type 3.35
« Konfiguration der Search auf Farm Ebene | Übersicht | Ein paar RSS Feeds »
10
Nov
Konfiguration Des MOSS2007 Crawlers
gepostet von Urs Wanner am 10.11.2006 um 15:42

Der Crawler ist dazu da, die Inhalte verschiedenster Datenquellen (Content Sources) für die Suche zu indexieren. Dabei können diverse Einstellungen die Arbeitsweise des Crawlers näher bestimmen.

Die Konfiguration des Crawlers erfolgt auf Ebene ‚Shared Service’. Dies bedeutet, dass mehrere Web Applikation mit der gleichen Search Konfiguration arbeiten können. Ausgehend von der Central Administration gelangen sie zur Konfigurationsseite des SharedService. Über den Punkt ’Search Settings’ öffnen sie nun die untenstehende Seite.

ConfigureSearchSettings.png

1) Content Sources
Mit Hilfe der Content Sources legen wir fest, welche Inhalte indexiert werden sollen. In der folgenden Abbildung haben wir die dabei möglichen Typen zusammengestellt.

ContentSources.png

1) Sharepoint Sites
2) Strukturierte Daten aus SharePoint (z.B. Benutzerprofile)
3) ResultSets eines Business Data Catalogs. Über die Business Data Catalogs (BDC) können verschiedene Daten aus externen Anwendungen für den Crawler verfügbar gemacht werden. Die Erstellung von BDC Applikationen sprengt leider den Scope dieses Artikels. In einem Satz: In einer xml Datei wird Connection und Datenbezug für eine Datenbank oder ein Webservice definiert. So gelesene Daten können in SharePoint angezeigt, gecrawlt und durchsucht werden.
4) File Shares: Das crawlen diverser Dateiypen wird out of the Box unterstützt. Crawling zusätzlicher Dateitypen kann durch die Implementierung zusätzliche IFilters erreicht werden (siehe auch Punkt 3: FileType Inclusions).
5) Web Sites: Es können beliebige WebSits ausgehend von einer angegebenen Einstiegsadresse gecrawlt werden. Allerdings sollte die eigentliche Internetsuche den Internet Suchdiensten überlassen bleiben.

2) Crawl Rules
Dieser Menupunkt öffnet die Listenansicht aller crawl rules. Eine Crawl rule ist eine Regel, die zusätzliche Einschränkungen (exclude rule) oder Zulassungen (include rules) für den Crawler definieren. Dabei kann für jede include rule ein alternativer crawling account definiert werden. Dieser übersteuert dann den standardmässig gesetzten crawling Account für den angegebenen Pfad. Im untenstehenden Beispiel wurde eine rule definiert, die für das crawling aller Dokumente unter …Docs einen alternativen crawling Account setzt.

AddCrawlRule.png

3) File Types
Durch diesen Menupunkt wird eine Liste aller gecrawlter Dateitypen angezeigt.

ManageFileTypes.png

Neben den bereits vorhandenen Dateitypen können auch neue Typen für das crawling registriert werden. Um einen Dateityp erfolgreich crawlen zu können muss für diesen Typ ein entsprechender IFilter vorhanden sein.

4) Crawl Logs
Über die Auswahl des Host Names gelangt man zum untenstehenden Screen. Das crawl log ist ein wichtiges Hilfsmittel, um Probleme beim crawlen zu erkennen und beheben zu können. Schauen sie zunächst ins crawl log, wenn Suchresultate nicht den Erwartungen entsprechen oder der crawler sich endlos im Internet versteigt. Das crawl log wird auch während des crawlings aktuell gehalten und kann daher gut zur Überwachung des Fortschritts wärend des crawlens benutzt werden.

CrawlLog.png

Im nächsten Artikel (3. Woche November) werden wir die verbleibenden Konfigurationspunkte 5 bis 11 in der ersten Abbildung besprechen. Insbesondere geht es dabei um die Einrichtung von Search Scopes.


TRACKBACK

TrackBack URL for this entry:
http://blog.namics.com/mt/mt-tb.cgi/677

KOMMENTAR SCHREIBEN

Name:

E-Mail Adresse:

URL:

Bitte das Ergebnis von 1 + 2 als Ziffer (Spamschutz):