]> git.evergreen-ils.org Git - working/Evergreen.git/blob - Open-ILS/src/sql/Pg/300.schema.staged_search.sql
adding copyright statement headers to the schema definition files; forward porting...
[working/Evergreen.git] / Open-ILS / src / sql / Pg / 300.schema.staged_search.sql
1 /*
2  * Copyright (C) 2007-2008  Equinox Software, Inc.
3  * Mike Rylander <miker@esilibrary.com> 
4  *
5  * This program is free software; you can redistribute it and/or
6  * modify it under the terms of the GNU General Public License
7  * as published by the Free Software Foundation; either version 2
8  * of the License, or (at your option) any later version.
9  *
10  * This program is distributed in the hope that it will be useful,
11  * but WITHOUT ANY WARRANTY; without even the implied warranty of
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
13  * GNU General Public License for more details.
14  *
15  */
16
17
18 DROP SCHEMA search CASCADE;
19
20 BEGIN;
21
22 CREATE SCHEMA search;
23
24 CREATE TABLE search.relevance_adjustment (
25     id          SERIAL  PRIMARY KEY,
26     active      BOOL    NOT NULL DEFAULT TRUE,
27     field       INT     NOT NULL REFERENCES config.metabib_field (id) DEFERRABLE INITIALLY DEFERRED,
28     bump_type   TEXT    NOT NULL CHECK (bump_type IN ('word_order','first_word','full_match')),
29     multiplier  NUMERIC NOT NULL DEFAULT 1.0
30 );
31 CREATE UNIQUE INDEX bump_once_per_field_idx ON search.relevance_adjustment ( field, bump_type );
32
33 CREATE OR REPLACE FUNCTION search.pick_table (TEXT) RETURNS TEXT AS $$
34     SELECT  CASE
35                 WHEN $1 = 'author'  THEN 'metabib.author_field_entry'
36                 WHEN $1 = 'title'   THEN 'metabib.title_field_entry'
37                 WHEN $1 = 'subject' THEN 'metabib.subject_field_entry'
38                 WHEN $1 = 'keyword' THEN 'metabib.keyword_field_entry'
39                 WHEN $1 = 'series'  THEN 'metabib.series_field_entry'
40             END;
41 $$ LANGUAGE SQL;
42
43 CREATE TYPE search.search_result AS ( id BIGINT, rel NUMERIC, record INT, total INT, checked INT, visible INT, deleted INT, excluded INT );
44 CREATE TYPE search.search_args AS ( id INT, field_class TEXT, field_name TEXT, table_alias TEXT, term TEXT, term_type TEXT );
45
46 CREATE OR REPLACE FUNCTION search.staged_fts (
47
48     param_search_ou INT,
49     param_depth     INT,
50     param_searches  TEXT, -- JSON hash, to be turned into a resultset via search.parse_search_args
51     param_statuses  INT[],
52     param_audience  TEXT[],
53     param_language  TEXT[],
54     param_lit_form  TEXT[],
55     param_types     TEXT[],
56     param_forms     TEXT[],
57     param_vformats  TEXT[],
58     param_bib_level TEXT[],
59     param_pref_lang TEXT,
60     param_pref_lang_multiplier REAL,
61     param_sort      TEXT,
62     param_sort_desc BOOL,
63     metarecord      BOOL,
64     staff           BOOL,
65     param_rel_limit INT,
66     param_chk_limit INT,
67     param_skip_chk  INT
68  
69 ) RETURNS SETOF search.search_result AS $func$
70 DECLARE
71
72     current_res         search.search_result%ROWTYPE;
73     query_part          search.search_args%ROWTYPE;
74     phrase_query_part   search.search_args%ROWTYPE;
75     rank_adjust_id      INT;
76     core_rel_limit      INT;
77     core_chk_limit      INT;
78     core_skip_chk       INT;
79     rank_adjust         search.relevance_adjustment%ROWTYPE;
80     query_table         TEXT;
81     tmp_text            TEXT;
82     tmp_int             INT;
83     current_rank        TEXT;
84     ranks               TEXT[] := '{}';
85     query_table_alias   TEXT;
86     from_alias_array    TEXT[] := '{}';
87     used_ranks          TEXT[] := '{}';
88     mb_field            INT;
89     mb_field_list       INT[];
90     search_org_list     INT[];
91     select_clause       TEXT := 'SELECT';
92     from_clause         TEXT := ' FROM  metabib.metarecord_source_map m JOIN metabib.rec_descriptor mrd ON (m.source = mrd.record) ';
93     where_clause        TEXT := ' WHERE 1=1 ';
94     mrd_used            BOOL := FALSE;
95     sort_desc           BOOL := FALSE;
96
97     core_result         RECORD;
98     core_cursor         REFCURSOR;
99     core_rel_query      TEXT;
100     vis_limit_query     TEXT;
101     inner_where_clause  TEXT;
102
103     total_count         INT := 0;
104     check_count         INT := 0;
105     deleted_count       INT := 0;
106     visible_count       INT := 0;
107     excluded_count      INT := 0;
108
109 BEGIN
110
111     core_rel_limit := COALESCE( param_rel_limit, 25000 );
112     core_chk_limit := COALESCE( param_chk_limit, 1000 );
113     core_skip_chk := COALESCE( param_skip_chk, 1 );
114
115     IF metarecord THEN
116         select_clause := select_clause || ' m.metarecord as id, array_accum(distinct m.source) as records,';
117     ELSE
118         select_clause := select_clause || ' m.source as id, array_accum(distinct m.source) as records,';
119     END IF;
120
121     -- first we need to construct the base query
122     FOR query_part IN SELECT * FROM search.parse_search_args(param_searches) WHERE term_type = 'fts_query' LOOP
123
124         inner_where_clause := 'index_vector @@ ' || query_part.term;
125
126         IF query_part.field_name IS NOT NULL THEN
127
128            SELECT  id INTO mb_field
129              FROM  config.metabib_field
130              WHERE field_class = query_part.field_class
131                    AND name = query_part.field_name;
132
133             IF FOUND THEN
134                 inner_where_clause := inner_where_clause ||
135                     ' AND ' || 'field = ' || mb_field;
136             END IF;
137
138         END IF;
139
140         -- moving on to the rank ...
141         SELECT  * INTO query_part
142           FROM  search.parse_search_args(param_searches)
143           WHERE term_type = 'fts_rank'
144                 AND table_alias = query_part.table_alias;
145
146         current_rank := query_part.term || ' * ' || query_part.table_alias || '_weight.weight';
147
148         IF query_part.field_name IS NOT NULL THEN
149
150            SELECT  array_accum(distinct id) INTO mb_field_list
151              FROM  config.metabib_field
152              WHERE field_class = query_part.field_class
153                    AND name = query_part.field_name;
154
155         ELSE
156
157            SELECT  array_accum(distinct id) INTO mb_field_list
158              FROM  config.metabib_field
159              WHERE field_class = query_part.field_class;
160
161         END IF;
162
163         FOR rank_adjust IN SELECT * FROM search.relevance_adjustment WHERE active AND field IN ( SELECT * FROM search.explode_array( mb_field_list ) ) LOOP
164
165             IF NOT rank_adjust.bump_type = ANY (used_ranks) THEN
166
167                 IF rank_adjust.bump_type = 'first_word' THEN
168                     SELECT  term INTO tmp_text
169                       FROM  search.parse_search_args(param_searches)
170                       WHERE table_alias = query_part.table_alias AND term_type = 'word'
171                       ORDER BY id
172                       LIMIT 1;
173
174                     tmp_text := query_part.table_alias || '.value ILIKE ' || quote_literal( tmp_text || '%' );
175
176                 ELSIF rank_adjust.bump_type = 'word_order' THEN
177                     SELECT  array_to_string( array_accum( term ), '%' ) INTO tmp_text
178                       FROM  search.parse_search_args(param_searches)
179                       WHERE table_alias = query_part.table_alias AND term_type = 'word';
180
181                     tmp_text := query_part.table_alias || '.value ILIKE ' || quote_literal( '%' || tmp_text || '%' );
182
183                 ELSIF rank_adjust.bump_type = 'full_match' THEN
184                     SELECT  array_to_string( array_accum( term ), E'\\s+' ) INTO tmp_text
185                       FROM  search.parse_search_args(param_searches)
186                       WHERE table_alias = query_part.table_alias AND term_type = 'word';
187
188                     tmp_text := query_part.table_alias || '.value  ~ ' || quote_literal( '^' || tmp_text || E'\\W*$' );
189
190                 END IF;
191
192
193                 current_rank := current_rank || ' * ( CASE WHEN ' || tmp_text ||
194                     ' THEN ' || rank_adjust.multiplier || '::REAL ELSE 1.0 END )';
195
196                 used_ranks := array_append( used_ranks, rank_adjust.bump_type );
197
198             END IF;
199
200         END LOOP;
201
202         ranks := array_append( ranks, current_rank );
203         used_ranks := '{}';
204
205         FOR phrase_query_part IN
206             SELECT  * 
207               FROM  search.parse_search_args(param_searches)
208               WHERE term_type = 'phrase'
209                     AND table_alias = query_part.table_alias LOOP
210
211             tmp_text := replace( phrase_query_part.term, '*', E'\\*' );
212             tmp_text := replace( tmp_text, '?', E'\\?' );
213             tmp_text := replace( tmp_text, '+', E'\\+' );
214             tmp_text := replace( tmp_text, '|', E'\\|' );
215             tmp_text := replace( tmp_text, '(', E'\\(' );
216             tmp_text := replace( tmp_text, ')', E'\\)' );
217             tmp_text := replace( tmp_text, '[', E'\\[' );
218             tmp_text := replace( tmp_text, ']', E'\\]' );
219
220             inner_where_clause := inner_where_clause || ' AND ' || 'value  ~* ' || quote_literal( E'(^|\\W+)' || regexp_replace(tmp_text, E'\\s+',E'\\\\s+','g') || E'(\\W+|\$)' );
221
222         END LOOP;
223
224         query_table := search.pick_table(query_part.field_class);
225
226         from_clause := from_clause ||
227             ' JOIN ( SELECT * FROM ' || query_table || ' WHERE ' || inner_where_clause ||
228                     CASE WHEN core_rel_limit > 0 THEN ' LIMIT ' || core_rel_limit::TEXT ELSE '' END || ' ) AS ' || query_part.table_alias ||
229                 ' ON ( m.source = ' || query_part.table_alias || '.source )' ||
230             ' JOIN config.metabib_field AS ' || query_part.table_alias || '_weight' ||
231                 ' ON ( ' || query_part.table_alias || '.field = ' || query_part.table_alias || '_weight.id  AND  ' || query_part.table_alias || '_weight.search_field)';
232
233         from_alias_array := array_append(from_alias_array, query_part.table_alias);
234
235     END LOOP;
236
237     IF param_pref_lang IS NOT NULL AND param_pref_lang_multiplier IS NOT NULL THEN
238         current_rank := ' CASE WHEN mrd.item_lang = ' || quote_literal( param_pref_lang ) ||
239             ' THEN ' || param_pref_lang_multiplier || '::REAL ELSE 1.0 END ';
240
241         --ranks := array_append( ranks, current_rank );
242     END IF;
243
244     current_rank := ' AVG( ( (' || array_to_string( ranks, ') + (' ) || ') ) * ' || current_rank || ' ) ';
245     select_clause := select_clause || current_rank || ' AS rel,';
246
247     sort_desc = param_sort_desc;
248
249     IF param_sort = 'pubdate' THEN
250
251         tmp_text := '999999';
252         IF param_sort_desc THEN tmp_text := '0'; END IF;
253
254         current_rank := $$
255             ( COALESCE( FIRST ((
256                 SELECT  SUBSTRING(frp.value FROM E'\\d{4}')
257                   FROM  metabib.full_rec frp
258                   WHERE frp.record = m.source
259                     AND frp.tag = '260'
260                     AND frp.subfield = 'c'
261                   LIMIT 1
262             )), $$ || quote_literal(tmp_text) || $$ )::INT )
263         $$;
264
265     ELSIF param_sort = 'title' THEN
266
267         tmp_text := 'zzzzzz';
268         IF param_sort_desc THEN tmp_text := '    '; END IF;
269
270         current_rank := $$
271             ( COALESCE( FIRST ((
272                 SELECT  LTRIM(SUBSTR( frt.value, COALESCE(SUBSTRING(frt.ind2 FROM E'\\d+'),'0')::INT + 1 ))
273                   FROM  metabib.full_rec frt
274                   WHERE frt.record = m.source
275                     AND frt.tag = '245'
276                     AND frt.subfield = 'a'
277                   LIMIT 1
278             )),$$ || quote_literal(tmp_text) || $$))
279         $$;
280
281     ELSIF param_sort = 'author' THEN
282
283         tmp_text := 'zzzzzz';
284         IF param_sort_desc THEN tmp_text := '    '; END IF;
285
286         current_rank := $$
287             ( COALESCE( FIRST ((
288                 SELECT  LTRIM(fra.value)
289                   FROM  metabib.full_rec fra
290                   WHERE fra.record = m.source
291                     AND fra.tag LIKE '1%'
292                     AND fra.subfield = 'a'
293                   ORDER BY fra.tag::text::int
294                   LIMIT 1
295             )),$$ || quote_literal(tmp_text) || $$))
296         $$;
297
298     ELSIF param_sort = 'create_date' THEN
299             current_rank := $$( FIRST (( SELECT create_date FROM biblio.record_entry rbr WHERE rbr.id = m.source)) )$$;
300     ELSIF param_sort = 'edit_date' THEN
301             current_rank := $$( FIRST (( SELECT edit_date FROM biblio.record_entry rbr WHERE rbr.id = m.source)) )$$;
302     ELSE
303         sort_desc := NOT COALESCE(param_sort_desc, FALSE);
304     END IF;
305
306     select_clause := select_clause || current_rank || ' AS rank';
307
308     -- now add the other qualifiers
309     IF param_audience IS NOT NULL AND array_upper(param_audience, 1) > 0 THEN
310         where_clause = where_clause || $$ AND mrd.audience IN ('$$ || array_to_string(param_audience, $$','$$) || $$') $$;
311     END IF;
312
313     IF param_language IS NOT NULL AND array_upper(param_language, 1) > 0 THEN
314         where_clause = where_clause || $$ AND mrd.item_lang IN ('$$ || array_to_string(param_language, $$','$$) || $$') $$;
315     END IF;
316
317     IF param_lit_form IS NOT NULL AND array_upper(param_lit_form, 1) > 0 THEN
318         where_clause = where_clause || $$ AND mrd.lit_form IN ('$$ || array_to_string(param_lit_form, $$','$$) || $$') $$;
319     END IF;
320
321     IF param_types IS NOT NULL AND array_upper(param_types, 1) > 0 THEN
322         where_clause = where_clause || $$ AND mrd.item_type IN ('$$ || array_to_string(param_types, $$','$$) || $$') $$;
323     END IF;
324
325     IF param_forms IS NOT NULL AND array_upper(param_forms, 1) > 0 THEN
326         where_clause = where_clause || $$ AND mrd.item_form IN ('$$ || array_to_string(param_forms, $$','$$) || $$') $$;
327     END IF;
328
329     IF param_vformats IS NOT NULL AND array_upper(param_vformats, 1) > 0 THEN
330         where_clause = where_clause || $$ AND mrd.vr_format IN ('$$ || array_to_string(param_vformats, $$','$$) || $$') $$;
331     END IF;
332
333     IF param_bib_level IS NOT NULL AND array_upper(param_bib_level, 1) > 0 THEN
334         where_clause = where_clause || $$ AND mrd.bib_level IN ('$$ || array_to_string(param_bib_level, $$','$$) || $$') $$;
335     END IF;
336
337     core_rel_query := select_clause || from_clause || where_clause ||
338                         ' GROUP BY 1 ORDER BY 4' || CASE WHEN sort_desc THEN ' DESC' ELSE ' ASC' END || ';';
339     --RAISE NOTICE 'Base Query:  %', core_rel_query;
340
341     IF param_search_ou > 0 THEN
342         IF param_depth IS NOT NULL THEN
343             SELECT array_accum(distinct id) INTO search_org_list FROM actor.org_unit_descendants( param_search_ou, param_depth );
344         ELSE
345             SELECT array_accum(distinct id) INTO search_org_list FROM actor.org_unit_descendants( param_search_ou );
346         END IF;
347     ELSIF param_search_ou < 0 THEN
348         SELECT array_accum(distinct org_unit) INTO search_org_list FROM actor.org_lasso_map WHERE lasso = -param_search_ou;
349     ELSIF param_search_ou = 0 THEN
350         -- reserved for user lassos (ou_buckets/type='lasso') with ID passed in depth ... hack? sure.
351     END IF;
352
353     OPEN core_cursor FOR EXECUTE core_rel_query;
354
355     LOOP
356
357         FETCH core_cursor INTO core_result;
358         EXIT WHEN NOT FOUND;
359
360
361         IF total_count % 1000 = 0 THEN
362             -- RAISE NOTICE ' % total, % checked so far ... ', total_count, check_count;
363         END IF;
364
365         IF core_chk_limit > 0 AND total_count - core_skip_chk + 1 >= core_chk_limit THEN
366             total_count := total_count + 1;
367             CONTINUE;
368         END IF;
369
370         total_count := total_count + 1;
371
372         CONTINUE WHEN param_skip_chk IS NOT NULL and total_count < param_skip_chk;
373
374         check_count := check_count + 1;
375
376         PERFORM 1 FROM biblio.record_entry b WHERE NOT b.deleted AND b.id IN ( SELECT * FROM search.explode_array( core_result.records ) );
377         IF NOT FOUND THEN
378             -- RAISE NOTICE ' % were all deleted ... ', core_result.records;
379             deleted_count := deleted_count + 1;
380             CONTINUE;
381         END IF;
382
383         PERFORM 1
384           FROM  biblio.record_entry b
385                 JOIN config.bib_source s ON (b.source = s.id)
386           WHERE s.transcendant
387                 AND b.id IN ( SELECT * FROM search.explode_array( core_result.records ) );
388
389         IF FOUND THEN
390             -- RAISE NOTICE ' % were all transcendant ... ', core_result.records;
391             visible_count := visible_count + 1;
392
393             current_res.id = core_result.id;
394             current_res.rel = core_result.rel;
395
396             tmp_int := 1;
397             IF metarecord THEN
398                 SELECT COUNT(DISTINCT s.source) INTO tmp_int FROM metabib.metarecord_source_map s WHERE s.metarecord = core_result.id;
399             END IF;
400
401             IF tmp_int = 1 THEN
402                 current_res.record = core_result.records[1];
403             ELSE
404                 current_res.record = NULL;
405             END IF;
406
407             RETURN NEXT current_res;
408
409             CONTINUE;
410         END IF;
411
412         IF param_statuses IS NOT NULL AND array_upper(param_statuses, 1) > 0 THEN
413
414             PERFORM 1
415               FROM  asset.call_number cn
416                     JOIN asset.copy cp ON (cp.call_number = cn.id)
417               WHERE NOT cn.deleted
418                     AND NOT cp.deleted
419                     AND cp.status IN ( SELECT * FROM search.explode_array( param_statuses ) )
420                     AND cn.record IN ( SELECT * FROM search.explode_array( core_result.records ) )
421                     AND cp.circ_lib IN ( SELECT * FROM search.explode_array( search_org_list ) )
422               LIMIT 1;
423
424             IF NOT FOUND THEN
425                 -- RAISE NOTICE ' % were all status-excluded ... ', core_result.records;
426                 excluded_count := excluded_count + 1;
427                 CONTINUE;
428             END IF;
429
430         END IF;
431
432         IF staff IS NULL OR NOT staff THEN
433
434             PERFORM 1
435               FROM  asset.call_number cn
436                     JOIN asset.copy cp ON (cp.call_number = cn.id)
437                     JOIN actor.org_unit a ON (cp.circ_lib = a.id)
438                     JOIN asset.copy_location cl ON (cp.location = cl.id)
439                     JOIN config.copy_status cs ON (cp.status = cs.id)
440               WHERE NOT cn.deleted
441                     AND NOT cp.deleted
442                     AND cs.holdable
443                     AND cl.opac_visible
444                     AND cp.opac_visible
445                     AND a.opac_visible
446                     AND cp.circ_lib IN ( SELECT * FROM search.explode_array( search_org_list ) )
447                     AND cn.record IN ( SELECT * FROM search.explode_array( core_result.records ) )
448               LIMIT 1;
449
450             IF NOT FOUND THEN
451                 -- RAISE NOTICE ' % were all visibility-excluded ... ', core_result.records;
452                 excluded_count := excluded_count + 1;
453                 CONTINUE;
454             END IF;
455
456         ELSE
457
458             PERFORM 1
459               FROM  asset.call_number cn
460                     JOIN asset.copy cp ON (cp.call_number = cn.id)
461                     JOIN actor.org_unit a ON (cp.circ_lib = a.id)
462                     JOIN asset.copy_location cl ON (cp.location = cl.id)
463                     JOIN config.copy_status cs ON (cp.status = cs.id)
464               WHERE NOT cn.deleted
465                     AND NOT cp.deleted
466                     AND cp.circ_lib IN ( SELECT * FROM search.explode_array( search_org_list ) )
467                     AND cn.record IN ( SELECT * FROM search.explode_array( core_result.records ) )
468               LIMIT 1;
469
470             IF NOT FOUND THEN
471
472                 PERFORM 1
473                   FROM  asset.call_number cn
474                   WHERE cn.record IN ( SELECT * FROM search.explode_array( core_result.records ) )
475                   LIMIT 1;
476
477                 IF FOUND THEN
478                     -- RAISE NOTICE ' % were all visibility-excluded ... ', core_result.records;
479                     excluded_count := excluded_count + 1;
480                     CONTINUE;
481                 END IF;
482
483             END IF;
484
485         END IF;
486
487         visible_count := visible_count + 1;
488
489         current_res.id = core_result.id;
490         current_res.rel = core_result.rel;
491
492         tmp_int := 1;
493         IF metarecord THEN
494             SELECT COUNT(DISTINCT s.source) INTO tmp_int FROM metabib.metarecord_source_map s WHERE s.metarecord = core_result.id;
495         END IF;
496
497         IF tmp_int = 1 THEN
498             current_res.record = core_result.records[1];
499         ELSE
500             current_res.record = NULL;
501         END IF;
502
503         RETURN NEXT current_res;
504
505         IF visible_count % 1000 = 0 THEN
506             -- RAISE NOTICE ' % visible so far ... ', visible_count;
507         END IF;
508
509     END LOOP;
510
511     current_res.id = NULL;
512     current_res.rel = NULL;
513     current_res.record = NULL;
514     current_res.total = total_count;
515     current_res.checked = check_count;
516     current_res.deleted = deleted_count;
517     current_res.visible = visible_count;
518     current_res.excluded = excluded_count;
519
520     CLOSE core_cursor;
521
522     RETURN NEXT current_res;
523
524 END;
525 $func$ LANGUAGE PLPGSQL;
526
527 /*
528     param_statuses  INT[],
529     param_audience  TEXT[], x
530     param_language  TEXT[], x
531     param_lit_form  TEXT[], x
532     param_types     TEXT[], x
533     param_forms     TEXT[], x
534     param_vformats  TEXT[], x
535 */
536
537 CREATE OR REPLACE FUNCTION search.explode_array(anyarray) RETURNS SETOF anyelement AS $BODY$
538     SELECT ($1)[s] FROM generate_series(1, array_upper($1, 1)) AS s;
539 $BODY$
540 LANGUAGE 'sql' IMMUTABLE;
541
542 CREATE OR REPLACE FUNCTION search.parse_search_args (TEXT) RETURNS SETOF search.search_args AS $perlcode$
543     use JSON::XS;
544     my $json = shift;
545
546     my $args = decode_json( $json );
547
548     my $id = 1;
549
550     for my $k ( keys %$args ) {
551         (my $alias = $k) =~ s/\|/_/gso;
552         my ($class, $field) = split /\|/, $k;
553         my $part = $args->{$k};
554         for my $p ( keys %$part ) {
555             my $data = $part->{$p};
556             $data = [$data] if (!ref($data));
557             for my $datum ( @$data ) {
558                 return_next(
559                     {   field_class => $class,
560                         field_name  => $field,
561                         term        => $datum,
562                         table_alias => $alias,
563                         term_type   => $p,
564                         id          => $id,
565                     }
566                 );
567                 $id++;
568             }
569         }
570     }
571
572     return undef;
573
574 $perlcode$ LANGUAGE PLPERLU;
575
576
577 COMMIT;
578