]> git.evergreen-ils.org Git - working/Evergreen.git/blob - docs/RELEASE_NOTES_NEXT/OPAC/sitemap_builder.txt
527a5ed364254b04eaede8fb9476453425e71d98
[working/Evergreen.git] / docs / RELEASE_NOTES_NEXT / OPAC / sitemap_builder.txt
1 Sitemap generator
2 ^^^^^^^^^^^^^^^^^
3 A http://www.sitemaps.org[sitemap] directs search engines to the pages of
4 interest in a web site so that the search engines can intelligently crawl
5 your site. In the case of Evergreen, the primary pages of interest are the
6 bibliographic record detail pages.
7
8 The sitemap generator script creates sitemaps that adhere to the
9 http://sitemaps.org specification, including:
10
11 * limiting the number of URLs per sitemap file to no more than 50,000 URLs;
12 * providing the date that the bibliographic record was last edited, so
13   that once a search engine has crawled all of your sites' record detail pages,
14   it only has to reindex those pages that are new or have changed since the last
15   crawl;
16 * generating a sitemap index file that points to each of the sitemap files.
17
18 Running the sitemap generator
19 +++++++++++++++++++++++++++++
20 The `sitemap_generator` script must be invoked with the following argument:
21
22 * `--lib-hostname`: specifies the hostname for the catalog (for example,
23   `--lib-hostname https://catalog.example.com`); all URLs will be generated
24   appended to this hostname
25
26 Therefore, the following arguments are useful for generating multiple sitemaps
27 per Evergreen instance:
28
29 * `--lib-shortname`: limit the list of record URLs to those which have copies
30   owned by the designated library or any of its children;
31 * `--prefix`: provides a prefix for the sitemap index file names
32
33 Other options enable you to override the OpenSRF configuration file and the
34 database connection credentials, but the default settings are generally fine.
35
36 Note that on very large Evergreen instances, sitemaps can consume hundreds of
37 megabytes of disk space, so ensure that your Evergreen instance has enough room
38 before running the script.
39
40 Scheduling
41 ++++++++++
42 To enable search engines to maintain a fresh index of your bibliographic
43 records, you may want to include the script in your cron jobs on a nightly or
44 weekly basis.
45
46 Sitemap files are generated in the same directory from which the script is
47 invoked, so a cron entry will look something like:
48
49 ------------------------------------------------------------------------
50 12 2 * * * cd /openils/var/web && /openils/bin/sitemap_generator
51 ------------------------------------------------------------------------