LP#1744385: Additions and edits to release note entry
[working/Evergreen.git] / docs / RELEASE_NOTES_NEXT / Architecture / search-display-infrastructure-improvements.adoc
1 Virtual Index Definitions
2 ^^^^^^^^^^^^^^^^^^^^^^^^^
3 The practical purpose of Virtual Index Definitions is to supply an Evergreen
4 administrator with the ability to control the weighting and field inclusion of
5 values in the general keyword index, commonly referred to as "the blob,"
6 without requiring tricky configuration that has subtle semantics, an
7 over-abundance of index definitions which can slow search generally, or the
8 need to reingest all records on a regular basis as experiments are performed
9 and the configuration refined. Significant results of recasting keyword indexes
10 as a set of one or more Virtual Index Definitions will be simpler search
11 configuration management, faster search speed overall, and more practical
12 reconfiguration and adjustment as needed.
13
14 Previous to this commit, in order to provide field-specific weighting to
15 keyword matches against titles or authors, an administrator must duplicate many
16 other index definitions and supply overriding weights to those duplicates. This
17 not only complicates configuration, but slows down record ingest as well as
18 search. It is also fairly ineffective at achieving the goal of weighted keyword
19 fields. Virtual Index Definitions will substantially alleviate the need for
20 these workarounds and their consequences.
21
22   * A Virtual Index Definition does not require any configuration for
23 extracting bibliographic data from records, but instead can become a sink for
24 data collected by other index definitions, which is then colocated together to
25 supply a search target made up of the separately extracted data. Virtual Index
26 Definitions are effectively treated as aggregate definitions, matching across
27 all values extracted from constituent non-virtual index definitions.  They can
28 further make use of the Combined class functionality to colocate all values in a
29 class together for matching even across virtual fields.
30
31   * Configuration allows for weighting of constituent index definitions that
32 participate in a Virtual Index Definition. This weighting is separate from the
33 weighting supplied when the index definition itself is a search target.
34
35   * The Evergreen QueryParser driver returns the list of fields actually
36 searched using every user-supplied term set, including constituent expansion
37 when a Virtual Index Definition is searched. In particular, this will facilitate
38 Search Term Highlighting described below.
39
40   * Stock configuration changes make use of pre-existing, non-virtual index
41 definitions mapped to new a Virtual Index Definition that implements the
42 functionality provided by the keyword|keyword index definition. The
43 keyword|keyword definition is left in place for the time being, until more data
44 can be gathered about the real-world effect of removing it entirely and 
45 replacing it with Virtual Index Definition mappings.
46
47   * New system administration functions will be created to facilitate
48 modification of Virtual Index Definition mapping, avoiding the need for a full
49 reingest when existing index definitions are added or removed from a virtual
50 field.
51
52 Increased use of Metabib Display Fields
53 +++++++++++++++++++++++++++++++++++++++
54 We use Metabib Display Fields (newly available in 3.0) to render catalog search
55 results, intermediate metarecord results, and record detail pages.This requires
56 the addition of several new Metabib Display Field definitions, as well as Perl
57 services to gather and render the data.
58
59 We also use more Metabib Display Fields in the client. As a result, 
60 bibliographic fields will display in proper case in more client interfaces and
61 in Evergreen reports.
62
63 Search Term Highlighting
64 ++++++++++++++++++++++++
65 This commit enables Search Term Highlighting in the OPAC on the main search
66 results page, the record detail page, and intermediate pages such as metarecord
67 grouped results page. Highlighting search terms will help the user determine why
68 a particular record (or set of records) was retrieved.
69
70 Highlighting of matched terms uses the same stemming used to accomplish the
71 search, as configured per field and class.
72
73 This feature will help the user more quickly determine the relevance of a
74 particular record by calling their attention to search terms in context. Lastly,
75 it will help familiarize the user with how records are searched, including which
76 fields are searched as well as exposing concepts like stemming.
77
78 Interfaces
79 ++++++++++
80 A new AngularJS "MARC Search/Facet Fields" interface has been created to replace
81 the Dojo version, and both have been extended to support Virtual Index
82 Definition data supplier mapping and weighting.
83
84 Settings & Permissions
85 ++++++++++++++++++++++
86 The new Virtual Index Definition data supplier mapping table, 
87 config.metabib_field_virtual_map, requires the same permissions as the
88 MARC Search/Facet Fields interface: CREATE_METABIB_FIELD, UPDATE_METABIB_FIELD,
89 DELETE_METABIB_FIELD, or ADMIN_METABIB_FIELD for all actions
90
91 There is a new template-level global configuration variable in config.tt2 called
92 search.no_highlight which disables highlighting for users of that config.tt2
93 instance.
94
95 Public Catalog
96 ++++++++++++++
97 The public and staff catalog will make use of new APIs to identify and display
98 highlight-augmented values for those Display Fields used to render the search
99 result pages, intermediate metarecord constituent pages, and record detail
100 pages.  Highlighting of terms will be performed using the application of
101 Template::Toolkit-driven CSS. A generic CSS class identifying a highlighted
102 term, along with CSS classes identifying the search class and each search field
103 will be available for use for customization of the highlighting. A stock CSS
104 template is provided as a baseline upon which sites may expand.
105
106 When highlighting is generally enabled, it may be turned on or off on a per-page
107 basis through the use of a UI component which will request the page again
108 without highlighting.
109
110 Backend
111 +++++++
112 There now exist several new database tables and functions primarily in support
113 of search highlighting. Additionally, the QueryParser driver for Evergreen has
114 been augmented to be able to return a data structure describing how the search
115 was performed, in a way that allows a separate support API to gather a
116 highlighted version of the Display Field data for a given record.
117
118 Default Weights
119 +++++++++++++++
120 By default, the following fields will be weighted more heavily in keyword 
121 searches. Administrators can change these defaults by changing the values in the
122  "All searchable fields" virtual index in the "MARC Search/Facet Fields"
123 interface.
124
125   * Title proper
126   * Main title (a new index limited to the words in the 245a)
127   * Personal author
128   * All subjects
129
130 In addition, note indexes and the physical description index will receive
131 less weight in default keyword searches.
132
133
134 Re-ingest or Indexing Dependencies
135 ++++++++++++++++++++++++++++++++++
136 With the addition and modification of many Index Definitions, a full reingest is
137 recommended.  However, search will continue to work as it did before the changes
138 in this commit for those records that have not yet been reingested during that
139 process.  Therefore a slow, rolling reingest is recommended.
140
141 Performance Implications or Concerns
142 ++++++++++++++++++++++++++++++++++++
143 Because the Metabib Display Fields infrastructure will eventually replace
144 functionality that is significantly more CPU-intensive in the various forms of
145 XML parsing, XSLT transformation, XPath calculation, and
146 Metabib Virtual Record construction, it is expected that the overall CPU load
147 will be reduced by this development, and ideally the overall time required to
148 perform and render a search will likewise drop. It is unlikely that the speed 
149 increase will be visible to users on a per-search basis, but that search in
150 aggregate will become a smaller consumer of resources.
151
152
153
154