SuMa-eV Praxis Workshop: YaCy
Einführung in die Installation eigener Suchmaschinen-Software mit YaCy Features
hier zum Nachlesen
+
Demo
im Anschluss zum mitmachen
SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Michael Christen http://yacy.net
Zielgruppe und Anwendungen
• Anwendungsbereiche
Suchmaschinen-Dezentralisierung: Peer-to-Peer Websuche
Software für Suchportal im Internet
alle Zielgruppen
Software für Suchmaschine im Intranet
• Mögliche Datenquellen: unterstütze Protokolle Web-Standards Filesystem Datenbanken Harvesting
HTTP, HTTPS, FTP Filesystem, SMB-Shares, Indexdateien (Dublin Core / XML) Import aus Wikimedia-Dumps, Retrieval aus Datenbanken RSS-Feed Client, OAI-PMH Import
• Integrationsmöglichkeiten des Suchinterfaces APIs Tools
Opensearch (Suchergebnisse per RSS), JSON, AJAX-Tools Such-Widget, fertige Code-Snippets für eingebettete Suche
SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
jede Datenquelle anzapfen
für Entwickler interessant
Michael Christen http://yacy.net
Beispiel: Suchportale mit YaCy linuxtag.org
linux-club.de
geoclub.de fsfe.org
metager + metager2
YaCy ist schnell!
SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Michael Christen http://yacy.net
Beispiel: Open Access Repository Harvesting 2000 Open Access Repositories
OAI-PMH Import Dublin Core Metadaten (web) Suchindex
Datenquellen zu OAI Servern: http://roar.eprints.org http://www.openarchives.org/Register/ListFriends
OA-Suche; ca. 8.800.000 eBooks in demo-Suche auf http://oai.yacy.net Anleitung um diesen Dienst selber zu erstellen: http://yacy.net/oai.html
Anwendungen: • dezentrale OAI Repository Suche • Suche für Virtuelle Fachbibliotheken
SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Michael Christen http://yacy.net
Beispiel: Suchseite SRU
API für Suchergebnis als RSS bzw. Opensearch, auch JSON
Navigatoren: Domänen, Autoren
,besser‘
G**gle-ähnliche Darstellung der Suchergebnisse SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Michael Christen http://yacy.net
Suchappliance: Funktionsreichtum, einfach zu bedienen
• Verschiedenste Datenquellen einfach nutzen Crawler Harvester komfortabel
Datenbanken
• Integrierte Parser für Dateiformate Web-Standards Office Archive andere
HTML, XHTML, RSS, RDF, XHTML+RDFa, FOAF, vCard, Flash PDF, PS, Word, Excel,Visio, Powerpoint, OpenOffice, RTF, csv gzip, zip, tar, rar, bzip2, 7zip reichhaltig torrent, images(EXIF)
• Automatische Steuerung und Index-Administration Scheduler Monitoring
automatische Indexerneuerung, jeder Vorgang kann zeitgesteuert werden Index-Erzeugung und Linkstrukturen visualisieren und editieren
SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
produktionsMichaelreif Christen
http://yacy.net
Funktionsweise: Crawler und Indexierer YaCy Application: retrieval, indexing, storage and search components overview
Crawler
Text Analysis
Start-URL
Indexing
Depth = 0
@
Depth = 1
Depth = 2
links
words
Double Link Check
Stopwords Check
URL Crawl Stack URL References
YaCy has an integrated NoSQL Database. The database stores a Reverse Word Index, Metadata and the source documents.
Database
Search Interface
Word
Reverse Word Index
YaCy Peer-to-Peer Network SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Michael Christen http://yacy.net
Funktionsweise: Peer-to-Peer Netzwerk The YaCy Network: a distributed hash table Peer Peer
This peer (as an example) fetches some Web pages and distributes index fragments to other peers.
Peer
Peer
Peer
Peer
DHT-Store
A peer which searches information can access directly peers holding the corresponding index
Peer Peer
DHT-Read
YaCy peers store index fragments according to a ,folded‘ ordering on word-hashes and urlhashes in a distributed hash table (DHT). The index is distributed redundantly to save the index when some peers are not available. The redundancy also helps to increase search performance. SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Michael Christen http://yacy.net
Für Entwickler: Suchergebnisse per RSS oder JSON > curl http://localhost:8080/yacysearch.rss?query=foaf&maximumRecords=10 einfach integrierbar
YaCy kann Dublin Core Medata XML Dateien als Eingabe für den Indexierer verarbeiten
http://de.wikipedia.org/wiki/Alan_Smithee de einfach 2009-04-14T00:00:00Z integrierbar Damit YaCy eine Dublin Core XML Datei verarbeitet, muss diese lediglich in einem Übergabeverzeichnis (DATA/SURROGATES/in/) abgespeichert werden. Info über Dublin Core Standard: http://dublincore.org/documents/dc-xml-guidelines/ SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Michael Christen http://yacy.net
Installation
• Download von http://yacy.net YaCy für Windows
YaCy für Mac
YaCy für Debian
YaCy für Linux / generisch (tar.gz)
• Auspacken, starten
Packages: Je nach Betriebssystem den Anweisungen des Installers folgen, oder tarball: tar.gz auspacken und Startscript starten
Lizenz: GPL freie Software
• Administration über Webinterface
YaCy ist eine Webapplikation. Die gesamte Administration erfolgt über den Browser. Einfach http://localhost:8080 im Browser öffnen. Dann den Use Case (P2P Websuche, Portal, Intranet) wählen und Index erstellen.
• Support
Bei Fragen und/oder Problemen einfach im Forum posten: http://forum.yacy.de Eine gewisse Hilfe bietet auch das YaCy Wiki: http://wiki.yacy.de Anfragen für professionellen Support und kommerzielle Erweiterungen an Michael Christen,
[email protected]
SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Michael Christen http://yacy.net
Demo: Überblick zur Auswahl stehen:
• Portalsuch im Internet
wie bei http://yacy.net und bei http://geoclub.de
• Alert-Service für Nachrichten per RSS
einen News-Feed aus Suchergebnissen in News-Feeds erstellen
• Intranetindexierung
lokale Webserver und Fileshares
• Virtuelle Fachbibliothek aus OAI-PMH Import die eigene Buchsuche
SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Michael Christen http://yacy.net
Demo: Portalsuche im Internet Vorbereitung: • Datenquellen zusammenstellen (einzelne URLs) oder • Linkliste als html-Datei erstellen und im Internet hochladen Beispiel für Liste von URLs für Portalsuche von YaCy:
• http://yacy.net wird als sitemap erfasst: http://yacy.net/sitemap.xml
• http://forum.yacy.de/ wird über eine sitemap erfasst: http://forum.yacy-websuche.de/sitemap.php
• Updates von http://forum.yacy.de/ werden als rss-feed erfasst http://forum.yacy-websuche.de/feed.php
• Das Wiki http://www.yacy-websuche.de/wiki/ wird über den Wiki-Crawler erfasst: http://www.yacy-websuche.de/wiki/
Beispiel für Crawlen einer Linkliste bei der Geocaching-Suche auf geoclub.de:
• Einen Site-Crawl für eine Link-Liste starten: http://news.geocaching-portal.com/yacy-urls.php SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Michael Christen http://yacy.net
Demo: Alert-Service für Nachrichten per RSS Ziel: • bestimmte Datenquellen regelmäßig in den Index ziehen • mit einer speziellen Suchabfrage einen RSS-Feed zu einem Topic als Ergebnis einer Suche erhalten Schritte: • RSS feeds mit dem RSS feed reader in YaCy importieren • jedes Feed kann individuell im Scheduler mit einer anderen Updatefrequenz versehen werden • Suchanfrage in Suchmaske eingeben und mit dem Schlüsselwort ,RECENT‘ ergänzen • Die URL Suchergebnisseite bearbeiten: filetype ,html‘ einfach durch ,rss‘ ersetzen • Diese URL kann dann in einem feed-reader als feed importiert werden und präsentiert dann immer die aktuellen Nachrichten zu einem Topic Beispiel-Feeds: • Tagesthemen http://www.tagesschau.de/xml/rss2
• Heise http://www.heise.de/newsticker/heise-atom.xml
• Gulli http://ticker.gulli.com/rss SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Michael Christen http://yacy.net
Demo: Intranetindexierung Vorbereitung: • repository1 über Apache frei geben • repository2 als smb-share frei geben über Web-Server freigeben
als smb-share freigeben
Schritte: • YaCy in Intranet-Modus schalten • Einen Site-Crawl starten mit http://localhost und smb://localhost/repository2/ SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Michael Christen http://yacy.net
Demo: Virtuelle Fachbibliothek aus OAI-PMH Import Vorbereitung: • OAI-PMH Server-Adressen der Einzelnen Bibliotheksquellen zu einem Fachgebiet sammeln, oder • OAI-PMH Server-Adressen aus der in YaCy vorrätigen Liste auswählen (>2000 Quellen verfügbar) Schritte: • OAI-PMH Importer wählen • alle Server-Adressen entweder einzeln angeben oder • alle Server-Adressen aus der Liste gleichzeitig anwählen und den Import starten Ergebnis: • Die YaCy Portalsuche präsentiert eine Themensuche zu den ausgewählten Quellen • Autoren-Navigatoren sind verfügbar • Updates aus den Imports sind wie bei der Demo zu Alerts verfügbar • Die Suche kann sehr einfach über das Widget in andere Webseiten eingebunden werden
SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Michael Christen http://yacy.net