Einführung in die Installation eigener Suchmaschinen ... - SuMa-Lab.de

•Suche für Virtuelle Fachbibliotheken. OA-Suche; ca. 8.800.000 ... Office gzip, zip, tar, rar, bzip2, 7zip. Archive torrent, images(EXIF) andere automatische ...
2MB Größe 20 Downloads 50 Ansichten
SuMa-eV Praxis Workshop: YaCy

Einführung in die Installation eigener Suchmaschinen-Software mit YaCy Features

hier zum Nachlesen

+

Demo

im Anschluss zum mitmachen

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Zielgruppe und Anwendungen

• Anwendungsbereiche

Suchmaschinen-Dezentralisierung: Peer-to-Peer Websuche

Software für Suchportal im Internet

alle Zielgruppen

Software für Suchmaschine im Intranet

• Mögliche Datenquellen: unterstütze Protokolle Web-Standards Filesystem Datenbanken Harvesting

HTTP, HTTPS, FTP Filesystem, SMB-Shares, Indexdateien (Dublin Core / XML) Import aus Wikimedia-Dumps, Retrieval aus Datenbanken RSS-Feed Client, OAI-PMH Import

• Integrationsmöglichkeiten des Suchinterfaces APIs Tools

Opensearch (Suchergebnisse per RSS), JSON, AJAX-Tools Such-Widget, fertige Code-Snippets für eingebettete Suche

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

jede Datenquelle anzapfen

für Entwickler interessant

Michael Christen http://yacy.net

Beispiel: Suchportale mit YaCy linuxtag.org

linux-club.de

geoclub.de fsfe.org

metager + metager2

YaCy ist schnell!

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Beispiel: Open Access Repository Harvesting 2000 Open Access Repositories

OAI-PMH Import Dublin Core Metadaten (web) Suchindex

Datenquellen zu OAI Servern: http://roar.eprints.org http://www.openarchives.org/Register/ListFriends

OA-Suche; ca. 8.800.000 eBooks in demo-Suche auf http://oai.yacy.net Anleitung um diesen Dienst selber zu erstellen: http://yacy.net/oai.html

Anwendungen: • dezentrale OAI Repository Suche • Suche für Virtuelle Fachbibliotheken

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Beispiel: Suchseite SRU

API für Suchergebnis als RSS bzw. Opensearch, auch JSON

Navigatoren: Domänen, Autoren

,besser‘

G**gle-ähnliche Darstellung der Suchergebnisse SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Suchappliance: Funktionsreichtum, einfach zu bedienen

• Verschiedenste Datenquellen einfach nutzen Crawler Harvester komfortabel

Datenbanken

• Integrierte Parser für Dateiformate Web-Standards Office Archive andere

HTML, XHTML, RSS, RDF, XHTML+RDFa, FOAF, vCard, Flash PDF, PS, Word, Excel,Visio, Powerpoint, OpenOffice, RTF, csv gzip, zip, tar, rar, bzip2, 7zip reichhaltig torrent, images(EXIF)

• Automatische Steuerung und Index-Administration Scheduler Monitoring

automatische Indexerneuerung, jeder Vorgang kann zeitgesteuert werden Index-Erzeugung und Linkstrukturen visualisieren und editieren

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

produktionsMichaelreif Christen

http://yacy.net

Funktionsweise: Crawler und Indexierer YaCy Application: retrieval, indexing, storage and search components overview

Crawler

Text Analysis

Start-URL

Indexing

Depth = 0

@

Depth = 1

Depth = 2

links

words

Double Link Check

Stopwords Check

URL Crawl Stack URL References

YaCy has an integrated NoSQL Database. The database stores a Reverse Word Index, Metadata and the source documents.

Database

Search Interface

Word

Reverse Word Index

YaCy Peer-to-Peer Network SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Funktionsweise: Peer-to-Peer Netzwerk The YaCy Network: a distributed hash table Peer Peer

This peer (as an example) fetches some Web pages and distributes index fragments to other peers.

Peer

Peer

Peer

Peer

DHT-Store

A peer which searches information can access directly peers holding the corresponding index

Peer Peer

DHT-Read

YaCy peers store index fragments according to a ,folded‘ ordering on word-hashes and urlhashes in a distributed hash table (DHT). The index is distributed redundantly to save the index when some peers are not available. The redundancy also helps to increase search performance. SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Für Entwickler: Suchergebnisse per RSS oder JSON > curl http://localhost:8080/yacysearch.rss?query=foaf&maximumRecords=10 einfach integrierbar

YaCy kann Dublin Core Medata XML Dateien als Eingabe für den Indexierer verarbeiten

http://de.wikipedia.org/wiki/Alan_Smithee de einfach 2009-04-14T00:00:00Z integrierbar Damit YaCy eine Dublin Core XML Datei verarbeitet, muss diese lediglich in einem Übergabeverzeichnis (DATA/SURROGATES/in/) abgespeichert werden. Info über Dublin Core Standard: http://dublincore.org/documents/dc-xml-guidelines/ SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Installation

• Download von http://yacy.net YaCy für Windows

YaCy für Mac

YaCy für Debian

YaCy für Linux / generisch (tar.gz)

• Auspacken, starten

Packages: Je nach Betriebssystem den Anweisungen des Installers folgen, oder tarball: tar.gz auspacken und Startscript starten

Lizenz: GPL freie Software

• Administration über Webinterface

YaCy ist eine Webapplikation. Die gesamte Administration erfolgt über den Browser. Einfach http://localhost:8080 im Browser öffnen. Dann den Use Case (P2P Websuche, Portal, Intranet) wählen und Index erstellen.

• Support

Bei Fragen und/oder Problemen einfach im Forum posten: http://forum.yacy.de Eine gewisse Hilfe bietet auch das YaCy Wiki: http://wiki.yacy.de Anfragen für professionellen Support und kommerzielle Erweiterungen an Michael Christen, [email protected]

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Demo: Überblick zur Auswahl stehen:

• Portalsuch im Internet

wie bei http://yacy.net und bei http://geoclub.de

• Alert-Service für Nachrichten per RSS

einen News-Feed aus Suchergebnissen in News-Feeds erstellen

• Intranetindexierung

lokale Webserver und Fileshares

• Virtuelle Fachbibliothek aus OAI-PMH Import die eigene Buchsuche

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Demo: Portalsuche im Internet Vorbereitung: • Datenquellen zusammenstellen (einzelne URLs) oder • Linkliste als html-Datei erstellen und im Internet hochladen Beispiel für Liste von URLs für Portalsuche von YaCy:

• http://yacy.net wird als sitemap erfasst: http://yacy.net/sitemap.xml

• http://forum.yacy.de/ wird über eine sitemap erfasst: http://forum.yacy-websuche.de/sitemap.php

• Updates von http://forum.yacy.de/ werden als rss-feed erfasst http://forum.yacy-websuche.de/feed.php

• Das Wiki http://www.yacy-websuche.de/wiki/ wird über den Wiki-Crawler erfasst: http://www.yacy-websuche.de/wiki/

Beispiel für Crawlen einer Linkliste bei der Geocaching-Suche auf geoclub.de:

• Einen Site-Crawl für eine Link-Liste starten: http://news.geocaching-portal.com/yacy-urls.php SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Demo: Alert-Service für Nachrichten per RSS Ziel: • bestimmte Datenquellen regelmäßig in den Index ziehen • mit einer speziellen Suchabfrage einen RSS-Feed zu einem Topic als Ergebnis einer Suche erhalten Schritte: • RSS feeds mit dem RSS feed reader in YaCy importieren • jedes Feed kann individuell im Scheduler mit einer anderen Updatefrequenz versehen werden • Suchanfrage in Suchmaske eingeben und mit dem Schlüsselwort ,RECENT‘ ergänzen • Die URL Suchergebnisseite bearbeiten: filetype ,html‘ einfach durch ,rss‘ ersetzen • Diese URL kann dann in einem feed-reader als feed importiert werden und präsentiert dann immer die aktuellen Nachrichten zu einem Topic Beispiel-Feeds: • Tagesthemen http://www.tagesschau.de/xml/rss2

• Heise http://www.heise.de/newsticker/heise-atom.xml

• Gulli http://ticker.gulli.com/rss SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Demo: Intranetindexierung Vorbereitung: • repository1 über Apache frei geben • repository2 als smb-share frei geben über Web-Server freigeben

als smb-share freigeben

Schritte: • YaCy in Intranet-Modus schalten • Einen Site-Crawl starten mit http://localhost und smb://localhost/repository2/ SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net

Demo: Virtuelle Fachbibliothek aus OAI-PMH Import Vorbereitung: • OAI-PMH Server-Adressen der Einzelnen Bibliotheksquellen zu einem Fachgebiet sammeln, oder • OAI-PMH Server-Adressen aus der in YaCy vorrätigen Liste auswählen (>2000 Quellen verfügbar) Schritte: • OAI-PMH Importer wählen • alle Server-Adressen entweder einzeln angeben oder • alle Server-Adressen aus der Liste gleichzeitig anwählen und den Import starten Ergebnis: • Die YaCy Portalsuche präsentiert eine Themensuche zu den ausgewählten Quellen • Autoren-Navigatoren sind verfügbar • Updates aus den Imports sind wie bei der Demo zu Alerts verfügbar • Die Suche kann sehr einfach über das Widget in andere Webseiten eingebunden werden

SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Michael Christen http://yacy.net