moving seed data out of the schema files
[Evergreen.git] / Open-ILS / src / sql / Pg / 300.schema.staged_search.sql
1
2 DROP SCHEMA search CASCADE;
3
4 BEGIN;
5
6 CREATE SCHEMA search;
7
8 CREATE TABLE search.relevance_adjustment (
9     id          SERIAL  PRIMARY KEY,
10     active      BOOL    NOT NULL DEFAULT TRUE,
11     field       INT     NOT NULL REFERENCES config.metabib_field (id),
12     bump_type   TEXT    NOT NULL CHECK (bump_type IN ('word_order','first_word','full_match')),
13     multiplier  NUMERIC NOT NULL DEFAULT 1.0
14 );
15 CREATE UNIQUE INDEX bump_once_per_field_idx ON search.relevance_adjustment ( field, bump_type );
16
17 CREATE OR REPLACE FUNCTION search.pick_table (TEXT) RETURNS TEXT AS $$
18     SELECT  CASE
19                 WHEN $1 = 'author'  THEN 'metabib.author_field_entry'
20                 WHEN $1 = 'title'   THEN 'metabib.title_field_entry'
21                 WHEN $1 = 'subject' THEN 'metabib.subject_field_entry'
22                 WHEN $1 = 'keyword' THEN 'metabib.keyword_field_entry'
23                 WHEN $1 = 'series'  THEN 'metabib.series_field_entry'
24             END;
25 $$ LANGUAGE SQL;
26
27 CREATE TYPE search.search_result AS ( id BIGINT, rel NUMERIC, record INT, total INT, checked INT, visible INT, deleted INT, excluded INT );
28 CREATE TYPE search.search_args AS ( id INT, field_class TEXT, field_name TEXT, table_alias TEXT, term TEXT, term_type TEXT );
29
30 CREATE OR REPLACE FUNCTION search.staged_fts (
31
32     param_search_ou INT,
33     param_depth     INT,
34     param_searches  TEXT, -- JSON hash, to be turned into a resultset via search.parse_search_args
35     param_statuses  INT[],
36     param_audience  TEXT[],
37     param_language  TEXT[],
38     param_lit_form  TEXT[],
39     param_types     TEXT[],
40     param_forms     TEXT[],
41     param_vformats  TEXT[],
42     param_bib_level TEXT[],
43     param_pref_lang TEXT,
44     param_pref_lang_multiplier REAL,
45     param_sort      TEXT,
46     param_sort_desc BOOL,
47     metarecord      BOOL,
48     staff           BOOL,
49     param_rel_limit INT,
50     param_chk_limit INT,
51     param_skip_chk  INT
52  
53 ) RETURNS SETOF search.search_result AS $func$
54 DECLARE
55
56     current_res         search.search_result%ROWTYPE;
57     query_part          search.search_args%ROWTYPE;
58     phrase_query_part   search.search_args%ROWTYPE;
59     rank_adjust_id      INT;
60     core_rel_limit      INT;
61     core_chk_limit      INT;
62     core_skip_chk       INT;
63     rank_adjust         search.relevance_adjustment%ROWTYPE;
64     query_table         TEXT;
65     tmp_text            TEXT;
66     tmp_int             INT;
67     current_rank        TEXT;
68     ranks               TEXT[] := '{}';
69     query_table_alias   TEXT;
70     from_alias_array    TEXT[] := '{}';
71     used_ranks          TEXT[] := '{}';
72     mb_field            INT;
73     mb_field_list       INT[];
74     search_org_list     INT[];
75     select_clause       TEXT := 'SELECT';
76     from_clause         TEXT := ' FROM  metabib.metarecord_source_map m JOIN metabib.rec_descriptor mrd ON (m.source = mrd.record) ';
77     where_clause        TEXT := ' WHERE 1=1 ';
78     mrd_used            BOOL := FALSE;
79     sort_desc           BOOL := FALSE;
80
81     core_result         RECORD;
82     core_cursor         REFCURSOR;
83     core_rel_query      TEXT;
84     vis_limit_query     TEXT;
85     inner_where_clause  TEXT;
86
87     total_count         INT := 0;
88     check_count         INT := 0;
89     deleted_count       INT := 0;
90     visible_count       INT := 0;
91     excluded_count      INT := 0;
92
93 BEGIN
94
95     core_rel_limit := COALESCE( param_rel_limit, 25000 );
96     core_chk_limit := COALESCE( param_chk_limit, 1000 );
97     core_skip_chk := COALESCE( param_skip_chk, 1 );
98
99     IF metarecord THEN
100         select_clause := select_clause || ' m.metarecord as id, array_accum(distinct m.source) as records,';
101     ELSE
102         select_clause := select_clause || ' m.source as id, array_accum(distinct m.source) as records,';
103     END IF;
104
105     -- first we need to construct the base query
106     FOR query_part IN SELECT * FROM search.parse_search_args(param_searches) WHERE term_type = 'fts_query' LOOP
107
108         inner_where_clause := 'index_vector @@ ' || query_part.term;
109
110         IF query_part.field_name IS NOT NULL THEN
111
112            SELECT  id INTO mb_field
113              FROM  config.metabib_field
114              WHERE field_class = query_part.field_class
115                    AND name = query_part.field_name;
116
117             IF FOUND THEN
118                 inner_where_clause := inner_where_clause ||
119                     ' AND ' || 'field = ' || mb_field;
120             END IF;
121
122         END IF;
123
124         -- moving on to the rank ...
125         SELECT  * INTO query_part
126           FROM  search.parse_search_args(param_searches)
127           WHERE term_type = 'fts_rank'
128                 AND table_alias = query_part.table_alias;
129
130         current_rank := query_part.term || ' * ' || query_part.table_alias || '_weight.weight';
131
132         IF query_part.field_name IS NOT NULL THEN
133
134            SELECT  array_accum(distinct id) INTO mb_field_list
135              FROM  config.metabib_field
136              WHERE field_class = query_part.field_class
137                    AND name = query_part.field_name;
138
139         ELSE
140
141            SELECT  array_accum(distinct id) INTO mb_field_list
142              FROM  config.metabib_field
143              WHERE field_class = query_part.field_class;
144
145         END IF;
146
147         FOR rank_adjust IN SELECT * FROM search.relevance_adjustment WHERE active AND field IN ( SELECT * FROM search.explode_array( mb_field_list ) ) LOOP
148
149             IF NOT rank_adjust.bump_type = ANY (used_ranks) THEN
150
151                 IF rank_adjust.bump_type = 'first_word' THEN
152                     SELECT  term INTO tmp_text
153                       FROM  search.parse_search_args(param_searches)
154                       WHERE table_alias = query_part.table_alias AND term_type = 'word'
155                       ORDER BY id
156                       LIMIT 1;
157
158                     tmp_text := query_part.table_alias || '.value ILIKE ' || quote_literal( tmp_text || '%' );
159
160                 ELSIF rank_adjust.bump_type = 'word_order' THEN
161                     SELECT  array_to_string( array_accum( term ), '%' ) INTO tmp_text
162                       FROM  search.parse_search_args(param_searches)
163                       WHERE table_alias = query_part.table_alias AND term_type = 'word';
164
165                     tmp_text := query_part.table_alias || '.value ILIKE ' || quote_literal( '%' || tmp_text || '%' );
166
167                 ELSIF rank_adjust.bump_type = 'full_match' THEN
168                     SELECT  array_to_string( array_accum( term ), E'\\s+' ) INTO tmp_text
169                       FROM  search.parse_search_args(param_searches)
170                       WHERE table_alias = query_part.table_alias AND term_type = 'word';
171
172                     tmp_text := query_part.table_alias || '.value  ~ ' || quote_literal( '^' || tmp_text || E'\\W*$' );
173
174                 END IF;
175
176
177                 current_rank := current_rank || ' * ( CASE WHEN ' || tmp_text ||
178                     ' THEN ' || rank_adjust.multiplier || '::REAL ELSE 1.0 END )';
179
180                 used_ranks := array_append( used_ranks, rank_adjust.bump_type );
181
182             END IF;
183
184         END LOOP;
185
186         ranks := array_append( ranks, current_rank );
187         used_ranks := '{}';
188
189         FOR phrase_query_part IN
190             SELECT  * 
191               FROM  search.parse_search_args(param_searches)
192               WHERE term_type = 'phrase'
193                     AND table_alias = query_part.table_alias LOOP
194
195             tmp_text := replace( phrase_query_part.term, '*', E'\\*' );
196             tmp_text := replace( tmp_text, '?', E'\\?' );
197             tmp_text := replace( tmp_text, '+', E'\\+' );
198             tmp_text := replace( tmp_text, '|', E'\\|' );
199             tmp_text := replace( tmp_text, '(', E'\\(' );
200             tmp_text := replace( tmp_text, ')', E'\\)' );
201             tmp_text := replace( tmp_text, '[', E'\\[' );
202             tmp_text := replace( tmp_text, ']', E'\\]' );
203
204             inner_where_clause := inner_where_clause || ' AND ' || 'value  ~* ' || quote_literal( E'(^|\\W+)' || regexp_replace(tmp_text, E'\\s+',E'\\\\s+','g') || E'(\\W+|\$)' );
205
206         END LOOP;
207
208         query_table := search.pick_table(query_part.field_class);
209
210         from_clause := from_clause ||
211             ' JOIN ( SELECT * FROM ' || query_table || ' WHERE ' || inner_where_clause ||
212                     CASE WHEN core_rel_limit > 0 THEN ' LIMIT ' || core_rel_limit::TEXT ELSE '' END || ' ) AS ' || query_part.table_alias ||
213                 ' ON ( m.source = ' || query_part.table_alias || '.source )' ||
214             ' JOIN config.metabib_field AS ' || query_part.table_alias || '_weight' ||
215                 ' ON ( ' || query_part.table_alias || '.field = ' || query_part.table_alias || '_weight.id  AND  ' || query_part.table_alias || '_weight.search_field)';
216
217         from_alias_array := array_append(from_alias_array, query_part.table_alias);
218
219     END LOOP;
220
221     IF param_pref_lang IS NOT NULL AND param_pref_lang_multiplier IS NOT NULL THEN
222         current_rank := ' CASE WHEN mrd.item_lang = ' || quote_literal( param_pref_lang ) ||
223             ' THEN ' || param_pref_lang_multiplier || '::REAL ELSE 1.0 END ';
224
225         --ranks := array_append( ranks, current_rank );
226     END IF;
227
228     current_rank := ' AVG( ( (' || array_to_string( ranks, ') + (' ) || ') ) * ' || current_rank || ' ) ';
229     select_clause := select_clause || current_rank || ' AS rel,';
230
231     sort_desc = param_sort_desc;
232
233     IF param_sort = 'pubdate' THEN
234
235         tmp_text := '999999';
236         IF param_sort_desc THEN tmp_text := '0'; END IF;
237
238         current_rank := $$
239             ( COALESCE( FIRST ((
240                 SELECT  SUBSTRING(frp.value FROM E'\\d{4}')
241                   FROM  metabib.full_rec frp
242                   WHERE frp.record = m.source
243                     AND frp.tag = '260'
244                     AND frp.subfield = 'c'
245                   LIMIT 1
246             )), $$ || quote_literal(tmp_text) || $$ )::INT )
247         $$;
248
249     ELSIF param_sort = 'title' THEN
250
251         tmp_text := 'zzzzzz';
252         IF param_sort_desc THEN tmp_text := '    '; END IF;
253
254         current_rank := $$
255             ( COALESCE( FIRST ((
256                 SELECT  LTRIM(SUBSTR( frt.value, COALESCE(SUBSTRING(frt.ind2 FROM E'\\d+'),'0')::INT + 1 ))
257                   FROM  metabib.full_rec frt
258                   WHERE frt.record = m.source
259                     AND frt.tag = '245'
260                     AND frt.subfield = 'a'
261                   LIMIT 1
262             )),$$ || quote_literal(tmp_text) || $$))
263         $$;
264
265     ELSIF param_sort = 'author' THEN
266
267         tmp_text := 'zzzzzz';
268         IF param_sort_desc THEN tmp_text := '    '; END IF;
269
270         current_rank := $$
271             ( COALESCE( FIRST ((
272                 SELECT  LTRIM(fra.value)
273                   FROM  metabib.full_rec fra
274                   WHERE fra.record = m.source
275                     AND fra.tag LIKE '1%'
276                     AND fra.subfield = 'a'
277                   ORDER BY fra.tag::text::int
278                   LIMIT 1
279             )),$$ || quote_literal(tmp_text) || $$))
280         $$;
281
282     ELSIF param_sort = 'create_date' THEN
283             current_rank := $$( FIRST (( SELECT create_date FROM biblio.record_entry rbr WHERE rbr.id = m.source)) )$$;
284     ELSIF param_sort = 'edit_date' THEN
285             current_rank := $$( FIRST (( SELECT edit_date FROM biblio.record_entry rbr WHERE rbr.id = m.source)) )$$;
286     ELSE
287         sort_desc := NOT COALESCE(param_sort_desc, FALSE);
288     END IF;
289
290     select_clause := select_clause || current_rank || ' AS rank';
291
292     -- now add the other qualifiers
293     IF param_audience IS NOT NULL AND array_upper(param_audience, 1) > 0 THEN
294         where_clause = where_clause || $$ AND mrd.audience IN ('$$ || array_to_string(param_audience, $$','$$) || $$') $$;
295     END IF;
296
297     IF param_language IS NOT NULL AND array_upper(param_language, 1) > 0 THEN
298         where_clause = where_clause || $$ AND mrd.item_lang IN ('$$ || array_to_string(param_language, $$','$$) || $$') $$;
299     END IF;
300
301     IF param_lit_form IS NOT NULL AND array_upper(param_lit_form, 1) > 0 THEN
302         where_clause = where_clause || $$ AND mrd.lit_form IN ('$$ || array_to_string(param_lit_form, $$','$$) || $$') $$;
303     END IF;
304
305     IF param_types IS NOT NULL AND array_upper(param_types, 1) > 0 THEN
306         where_clause = where_clause || $$ AND mrd.item_type IN ('$$ || array_to_string(param_types, $$','$$) || $$') $$;
307     END IF;
308
309     IF param_forms IS NOT NULL AND array_upper(param_forms, 1) > 0 THEN
310         where_clause = where_clause || $$ AND mrd.item_form IN ('$$ || array_to_string(param_forms, $$','$$) || $$') $$;
311     END IF;
312
313     IF param_vformats IS NOT NULL AND array_upper(param_vformats, 1) > 0 THEN
314         where_clause = where_clause || $$ AND mrd.vr_format IN ('$$ || array_to_string(param_vformats, $$','$$) || $$') $$;
315     END IF;
316
317     IF param_bib_level IS NOT NULL AND array_upper(param_bib_level, 1) > 0 THEN
318         where_clause = where_clause || $$ AND mrd.bib_level IN ('$$ || array_to_string(param_bib_level, $$','$$) || $$') $$;
319     END IF;
320
321     core_rel_query := select_clause || from_clause || where_clause ||
322                         ' GROUP BY 1 ORDER BY 4' || CASE WHEN sort_desc THEN ' DESC' ELSE ' ASC' END || ';';
323     --RAISE NOTICE 'Base Query:  %', core_rel_query;
324
325     IF param_search_ou > 0 THEN
326         IF param_depth IS NOT NULL THEN
327             SELECT array_accum(distinct id) INTO search_org_list FROM actor.org_unit_descendants( param_search_ou, param_depth );
328         ELSE
329             SELECT array_accum(distinct id) INTO search_org_list FROM actor.org_unit_descendants( param_search_ou );
330         END IF;
331     ELSIF param_search_ou < 0 THEN
332         SELECT array_accum(distinct org_unit) INTO search_org_list FROM actor.org_lasso_map WHERE lasso = -param_search_ou;
333     ELSIF param_search_ou = 0 THEN
334         -- reserved for user lassos (ou_buckets/type='lasso') with ID passed in depth ... hack? sure.
335     END IF;
336
337     OPEN core_cursor FOR EXECUTE core_rel_query;
338
339     LOOP
340
341         FETCH core_cursor INTO core_result;
342         EXIT WHEN NOT FOUND;
343
344
345         IF total_count % 1000 = 0 THEN
346             -- RAISE NOTICE ' % total, % checked so far ... ', total_count, check_count;
347         END IF;
348
349         IF core_chk_limit > 0 AND total_count - core_skip_chk + 1 >= core_chk_limit THEN
350             total_count := total_count + 1;
351             CONTINUE;
352         END IF;
353
354         total_count := total_count + 1;
355
356         CONTINUE WHEN param_skip_chk IS NOT NULL and total_count < param_skip_chk;
357
358         check_count := check_count + 1;
359
360         PERFORM 1 FROM biblio.record_entry b WHERE NOT b.deleted AND b.id IN ( SELECT * FROM search.explode_array( core_result.records ) );
361         IF NOT FOUND THEN
362             -- RAISE NOTICE ' % were all deleted ... ', core_result.records;
363             deleted_count := deleted_count + 1;
364             CONTINUE;
365         END IF;
366
367         PERFORM 1
368           FROM  biblio.record_entry b
369                 JOIN config.bib_source s ON (b.source = s.id)
370           WHERE s.transcendant
371                 AND b.id IN ( SELECT * FROM search.explode_array( core_result.records ) );
372
373         IF FOUND THEN
374             -- RAISE NOTICE ' % were all transcendant ... ', core_result.records;
375             visible_count := visible_count + 1;
376
377             current_res.id = core_result.id;
378             current_res.rel = core_result.rel;
379
380             tmp_int := 1;
381             IF metarecord THEN
382                 SELECT COUNT(DISTINCT s.source) INTO tmp_int FROM metabib.metarecord_source_map s WHERE s.metarecord = core_result.id;
383             END IF;
384
385             IF tmp_int = 1 THEN
386                 current_res.record = core_result.records[1];
387             ELSE
388                 current_res.record = NULL;
389             END IF;
390
391             RETURN NEXT current_res;
392
393             CONTINUE;
394         END IF;
395
396         IF param_statuses IS NOT NULL AND array_upper(param_statuses, 1) > 0 THEN
397
398             PERFORM 1
399               FROM  asset.call_number cn
400                     JOIN asset.copy cp ON (cp.call_number = cn.id)
401               WHERE NOT cn.deleted
402                     AND NOT cp.deleted
403                     AND cp.status IN ( SELECT * FROM search.explode_array( param_statuses ) )
404                     AND cn.record IN ( SELECT * FROM search.explode_array( core_result.records ) )
405                     AND cp.circ_lib IN ( SELECT * FROM search.explode_array( search_org_list ) )
406               LIMIT 1;
407
408             IF NOT FOUND THEN
409                 -- RAISE NOTICE ' % were all status-excluded ... ', core_result.records;
410                 excluded_count := excluded_count + 1;
411                 CONTINUE;
412             END IF;
413
414         END IF;
415
416         IF staff IS NULL OR NOT staff THEN
417
418             PERFORM 1
419               FROM  asset.call_number cn
420                     JOIN asset.copy cp ON (cp.call_number = cn.id)
421                     JOIN actor.org_unit a ON (cp.circ_lib = a.id)
422                     JOIN asset.copy_location cl ON (cp.location = cl.id)
423                     JOIN config.copy_status cs ON (cp.status = cs.id)
424               WHERE NOT cn.deleted
425                     AND NOT cp.deleted
426                     AND cs.holdable
427                     AND cl.opac_visible
428                     AND cp.opac_visible
429                     AND a.opac_visible
430                     AND cp.circ_lib IN ( SELECT * FROM search.explode_array( search_org_list ) )
431                     AND cn.record IN ( SELECT * FROM search.explode_array( core_result.records ) )
432               LIMIT 1;
433
434             IF NOT FOUND THEN
435                 -- RAISE NOTICE ' % were all visibility-excluded ... ', core_result.records;
436                 excluded_count := excluded_count + 1;
437                 CONTINUE;
438             END IF;
439
440         ELSE
441
442             PERFORM 1
443               FROM  asset.call_number cn
444                     JOIN asset.copy cp ON (cp.call_number = cn.id)
445                     JOIN actor.org_unit a ON (cp.circ_lib = a.id)
446                     JOIN asset.copy_location cl ON (cp.location = cl.id)
447                     JOIN config.copy_status cs ON (cp.status = cs.id)
448               WHERE NOT cn.deleted
449                     AND NOT cp.deleted
450                     AND cp.circ_lib IN ( SELECT * FROM search.explode_array( search_org_list ) )
451                     AND cn.record IN ( SELECT * FROM search.explode_array( core_result.records ) )
452               LIMIT 1;
453
454             IF NOT FOUND THEN
455
456                 PERFORM 1
457                   FROM  asset.call_number cn
458                   WHERE cn.record IN ( SELECT * FROM search.explode_array( core_result.records ) )
459                   LIMIT 1;
460
461                 IF FOUND THEN
462                     -- RAISE NOTICE ' % were all visibility-excluded ... ', core_result.records;
463                     excluded_count := excluded_count + 1;
464                     CONTINUE;
465                 END IF;
466
467             END IF;
468
469         END IF;
470
471         visible_count := visible_count + 1;
472
473         current_res.id = core_result.id;
474         current_res.rel = core_result.rel;
475
476         tmp_int := 1;
477         IF metarecord THEN
478             SELECT COUNT(DISTINCT s.source) INTO tmp_int FROM metabib.metarecord_source_map s WHERE s.metarecord = core_result.id;
479         END IF;
480
481         IF tmp_int = 1 THEN
482             current_res.record = core_result.records[1];
483         ELSE
484             current_res.record = NULL;
485         END IF;
486
487         RETURN NEXT current_res;
488
489         IF visible_count % 1000 = 0 THEN
490             -- RAISE NOTICE ' % visible so far ... ', visible_count;
491         END IF;
492
493     END LOOP;
494
495     current_res.id = NULL;
496     current_res.rel = NULL;
497     current_res.record = NULL;
498     current_res.total = total_count;
499     current_res.checked = check_count;
500     current_res.deleted = deleted_count;
501     current_res.visible = visible_count;
502     current_res.excluded = excluded_count;
503
504     CLOSE core_cursor;
505
506     RETURN NEXT current_res;
507
508 END;
509 $func$ LANGUAGE PLPGSQL;
510
511 /*
512     param_statuses  INT[],
513     param_audience  TEXT[], x
514     param_language  TEXT[], x
515     param_lit_form  TEXT[], x
516     param_types     TEXT[], x
517     param_forms     TEXT[], x
518     param_vformats  TEXT[], x
519 */
520
521 CREATE OR REPLACE FUNCTION search.explode_array(anyarray) RETURNS SETOF anyelement AS $BODY$
522     SELECT ($1)[s] FROM generate_series(1, array_upper($1, 1)) AS s;
523 $BODY$
524 LANGUAGE 'sql' IMMUTABLE;
525
526 CREATE OR REPLACE FUNCTION search.parse_search_args (TEXT) RETURNS SETOF search.search_args AS $perlcode$
527     use JSON::XS;
528     my $json = shift;
529
530     my $args = decode_json( $json );
531
532     my $id = 1;
533
534     for my $k ( keys %$args ) {
535         (my $alias = $k) =~ s/\|/_/gso;
536         my ($class, $field) = split /\|/, $k;
537         my $part = $args->{$k};
538         for my $p ( keys %$part ) {
539             my $data = $part->{$p};
540             $data = [$data] if (!ref($data));
541             for my $datum ( @$data ) {
542                 return_next(
543                     {   field_class => $class,
544                         field_name  => $field,
545                         term        => $datum,
546                         table_alias => $alias,
547                         term_type   => $p,
548                         id          => $id,
549                     }
550                 );
551                 $id++;
552             }
553         }
554     }
555
556     return undef;
557
558 $perlcode$ LANGUAGE PLPERLU;
559
560
561 COMMIT;
562