Einführung in die Installation eigener Suchmaschinen-Software mit ...

The index is distributed redundantly to save the index when some peers are not available. The redundancy also helps to increase search performance.
2MB Größe 29 Downloads 57 Ansichten
SuMa-eV Praxis Workshop: YaCy

Einführung in die Installation eigener Suchmaschinen-Software mit YaCy Features

hier zum Nachlesen

+

Demo

im Anschluss zum mitmachen

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Zielgruppe und Anwendungen

• Anwendungsbereiche

Suchmaschinen-Dezentralisierung: Peer-to-Peer Websuche

Software für Suchportal im Internet

alle Zielgruppen

Software für Suchmaschine im Intranet

• Mögliche Datenquellen: unterstütze Protokolle Web-Standards Filesystem Datenbanken Harvesting

HTTP, HTTPS, FTP Filesystem, SMB-Shares, Indexdateien (Dublin Core / XML) Import aus Wikimedia-Dumps, Retrieval aus Datenbanken RSS-Feed Client, OAI-PMH Import

• Integrationsmöglichkeiten des Suchinterfaces APIs Tools

Opensearch (Suchergebnisse per RSS), JSON, AJAX-Tools Such-Widget, fertige Code-Snippets für eingebettete Suche

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

jede Datenquelle anzapfen

für Entwickler interessant

Michael Christen http://yacy.net

Beispiel: Suchportale mit YaCy linuxtag.org

linux-club.de

geoclub.de fsfe.org

metager + metager2

YaCy ist schnell!

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Beispiel: Open Access Repository Harvesting 2000 Open Access Repositories

OAI-PMH Import Dublin Core Metadaten (web) Suchindex

Datenquellen zu OAI Servern: http://roar.eprints.org http://www.openarchives.org/Register/ListFriends

OA-Suche; ca. 8.800.000 eBooks in demo-Suche auf http://oai.yacy.net Anleitung um diesen Dienst selber zu erstellen: http://yacy.net/oai.html

Anwendungen: • dezentrale OAI Repository Suche • Suche für Virtuelle Fachbibliotheken

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Beispiel: Suchseite SRU

API für Suchergebnis als RSS bzw. Opensearch, auch JSON

Navigatoren: Domänen, Autoren

,besser‘

G**gle-ähnliche Darstellung der Suchergebnisse SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Suchappliance: Funktionsreichtum, einfach zu bedienen

• Verschiedenste Datenquellen einfach nutzen Crawler Harvester komfortabel

Datenbanken

• Integrierte Parser für Dateiformate Web-Standards Office Archive andere

HTML, XHTML, RSS, RDF, XHTML+RDFa, FOAF, vCard, Flash PDF, PS, Word, Excel,Visio, Powerpoint, OpenOffice, RTF, csv gzip, zip, tar, rar, bzip2, 7zip reichhaltig torrent, images(EXIF)

• Automatische Steuerung und Index-Administration Scheduler Monitoring

automatische Indexerneuerung, jeder Vorgang kann zeitgesteuert werden Index-Erzeugung und Linkstrukturen visualisieren und editieren

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

produktionsMichaelreif Christen

http://yacy.net

Funktionsweise: Crawler und Indexierer YaCy Application: retrieval, indexing, storage and search components overview

Crawler

Text Analysis

Start-URL

Indexing

Depth = 0

@

Depth = 1

Depth = 2

links

words

Double Link Check

Stopwords Check

URL Crawl Stack URL References

YaCy has an integrated NoSQL Database. The database stores a Reverse Word Index, Metadata and the source documents.

Database

Search Interface

Word

Reverse Word Index

YaCy Peer-to-Peer Network SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Funktionsweise: Peer-to-Peer Netzwerk The YaCy Network: a distributed hash table Peer Peer

This peer (as an example) fetches some Web pages and distributes index fragments to other peers.

Peer

Peer

Peer

Peer

DHT-Store

A peer which searches information can access directly peers holding the corresponding index

Peer Peer

DHT-Read

YaCy peers store index fragments according to a ,folded‘ ordering on word-hashes and urlhashes in a distributed hash table (DHT). The index is distributed redundantly to save the index when some peers are not available. The redundancy also helps to increase search performance. SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Für Entwickler: Suchergebnisse per RSS oder JSON > curl http://localhost:8080/yacysearch.rss?query=foaf&maximumRecords=10 einfach integrierbar

YaCy kann Dublin Core Medata XML Dateien als Eingabe für den Indexierer verarbeiten

http://de.wikipedia.org/wiki/Alan_Smithee de einfach 2009-04-14T00:00:00Z integrierbar Damit YaCy eine Dublin Core XML Datei verarbeitet, muss diese lediglich in einem Übergabeverzeichnis (DATA/SURROGATES/in/) abgespeichert werden. Info über Dublin Core Standard: http://dublincore.org/documents/dc-xml-guidelines/ SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Installation

• Download von http://yacy.net YaCy für Windows

YaCy für Mac

YaCy für Debian

YaCy für Linux / generisch (tar.gz)

• Auspacken, starten

Packages: Je nach Betriebssystem den Anweisungen des Installers folgen, oder tarball: tar.gz auspacken und Startscript starten

Lizenz: GPL freie Software

• Administration über Webinterface

YaCy ist eine Webapplikation. Die gesamte Administration erfolgt über den Browser. Einfach http://localhost:8080 im Browser öffnen. Dann den Use Case (P2P Websuche, Portal, Intranet) wählen und Index erstellen.

• Support

Bei Fragen und/oder Problemen einfach im Forum posten: http://forum.yacy.de Eine gewisse Hilfe bietet auch das YaCy Wiki: http://wiki.yacy.de Anfragen für professionellen Support und kommerzielle Erweiterungen an Michael Christen, [email protected]

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Demo: Überblick zur Auswahl stehen:

• Portalsuch im Internet

wie bei http://yacy.net und bei http://geoclub.de

• Alert-Service für Nachrichten per RSS

einen News-Feed aus Suchergebnissen in News-Feeds erstellen

• Intranetindexierung

lokale Webserver und Fileshares

• Virtuelle Fachbibliothek aus OAI-PMH Import die eigene Buchsuche

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Demo: Portalsuche im Internet Vorbereitung: • Datenquellen zusammenstellen (einzelne URLs) oder • Linkliste als html-Datei erstellen und im Internet hochladen Beispiel für Liste von URLs für Portalsuche von YaCy:

• http://yacy.net wird als sitemap erfasst: http://yacy.net/sitemap.xml

• http://forum.yacy.de/ wird über eine sitemap erfasst: http://forum.yacy-websuche.de/sitemap.php

• Updates von http://forum.yacy.de/ werden als rss-feed erfasst http://forum.yacy-websuche.de/feed.php

• Das Wiki http://www.yacy-websuche.de/wiki/ wird über den Wiki-Crawler erfasst: http://www.yacy-websuche.de/wiki/

Beispiel für Crawlen einer Linkliste bei der Geocaching-Suche auf geoclub.de:

• Einen Site-Crawl für eine Link-Liste starten: http://news.geocaching-portal.com/yacy-urls.php SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Demo: Alert-Service für Nachrichten per RSS Ziel: • bestimmte Datenquellen regelmäßig in den Index ziehen • mit einer speziellen Suchabfrage einen RSS-Feed zu einem Topic als Ergebnis einer Suche erhalten Schritte: • RSS feeds mit dem RSS feed reader in YaCy importieren • jedes Feed kann individuell im Scheduler mit einer anderen Updatefrequenz versehen werden • Suchanfrage in Suchmaske eingeben und mit dem Schlüsselwort ,RECENT‘ ergänzen • Die URL Suchergebnisseite bearbeiten: filetype ,html‘ einfach durch ,rss‘ ersetzen • Diese URL kann dann in einem feed-reader als feed importiert werden und präsentiert dann immer die aktuellen Nachrichten zu einem Topic Beispiel-Feeds: • Tagesthemen http://www.tagesschau.de/xml/rss2

• Heise http://www.heise.de/newsticker/heise-atom.xml

• Gulli http://ticker.gulli.com/rss SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Demo: Intranetindexierung Vorbereitung: • repository1 über Apache frei geben • repository2 als smb-share frei geben über Web-Server freigeben

als smb-share freigeben

Schritte: • YaCy in Intranet-Modus schalten • Einen Site-Crawl starten mit http://localhost und smb://localhost/repository2/ SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Demo: Virtuelle Fachbibliothek aus OAI-PMH Import Vorbereitung: • OAI-PMH Server-Adressen der Einzelnen Bibliotheksquellen zu einem Fachgebiet sammeln, oder • OAI-PMH Server-Adressen aus der in YaCy vorrätigen Liste auswählen (>2000 Quellen verfügbar) Schritte: • OAI-PMH Importer wählen • alle Server-Adressen entweder einzeln angeben oder • alle Server-Adressen aus der Liste gleichzeitig anwählen und den Import starten Ergebnis: • Die YaCy Portalsuche präsentiert eine Themensuche zu den ausgewählten Quellen • Autoren-Navigatoren sind verfügbar • Updates aus den Imports sind wie bei der Demo zu Alerts verfügbar • Die Suche kann sehr einfach über das Widget in andere Webseiten eingebunden werden

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net