script to create SQL import file from MARC authority data
[Evergreen.git] / Evergreen / src / extras / import / import_authority.pl
1 #!/usr/bin/perl -w
2 use strict;
3 use XML::LibXML;
4 use Time::HiRes qw/time/;
5 use Getopt::Long;
6 use Data::Dumper;
7 use Error qw/:try/;
8 use open qw/:utf8/;
9
10 $|=1;
11
12 my ($userid,$sourceid,$rec_id,$entry_file,$id_tag) = (1,2,1,'authority_entry.sql','//*[@tag="035"][1]');
13
14 GetOptions (    
15         "sourceid"              => \$sourceid,
16         "sql_output=s"          => \$entry_file,
17         "userid=i"              => \$userid,
18         "first=i"               => \$rec_id,
19         "id_tag_xpath=s"        => \$id_tag,
20 );
21
22 my $tcn_map;
23
24 open RE, ">$entry_file" or die "Can't open $entry_file!  $!\n";
25
26 print RE <<SQL;
27 SET CLIENT_ENCODING TO 'UNICODE';
28 COPY authority.record_entry (id,editor,creator,arn_value,marc,last_xact_id) FROM STDIN;
29 SQL
30
31 my $xact_id = time;
32
33 my $parser = XML::LibXML->new;
34
35 my $xml = '';
36 while ( $xml .= <STDIN> ) {
37         chomp $xml;
38         next unless $xml;
39
40         my $tcn = '';
41         my $success = 0;
42         try {
43                 my $doc = $parser->parse_string($xml);
44                 my @nodes = $doc->documentElement->findnodes( $id_tag );
45                 for my $n (@nodes) {
46                         $tcn .= $n->textContent;
47                 }
48                 $tcn =~ s/^\s*(\.+)\s*/$1/o;
49                 $tcn =~ s/\s+/_/go;
50                 $success = 1;
51         } catch Error with {
52                 my $e = shift;
53                 warn $e;
54                 warn $xml;
55         };      
56         next unless $success;
57
58         $xml =~ s/\\/\\\\/go;
59         $xml =~ s/\t/\\t/go;
60
61         $tcn =~ s/^.*?(\w+)\s*$/$1/go;
62         
63         unless ($tcn) {
64                 warn "\nNo TCN found for rec # $rec_id\n";
65                 $xml = '';
66                 $rec_id++;
67                 next;
68         }
69
70         if (exists($$tcn_map{$tcn})) {
71                 warn "\n !! TCN $tcn already exists!\n";
72                 $xml = '';
73                 next;
74         }
75
76         print ".";
77         $$tcn_map{$tcn} = $rec_id;
78
79         print RE join("\t", ($rec_id,$userid,$userid,$tcn,$xml,$xact_id))."\n";
80
81         $rec_id++;
82         $xml = '';
83 }
84
85 print RE "\\.\n";
86 print RE "SELECT setval('authority.record_entry_id_seq'::TEXT, $rec_id);\n";
87
88
89