speed boost: command-line stage and commit biblios
[wip/koha-chris_n.git] / misc / stage_biblios_file.pl
1 #!/usr/bin/perl
2
3 use strict;
4 BEGIN {
5     # find Koha's Perl modules
6     # test carefully before changing this
7     use FindBin;
8     eval { require "$FindBin::Bin/kohalib.pl" };
9 }
10
11 use C4::Context;
12 use C4::ImportBatch;
13 use C4::Matcher;
14 use Getopt::Long;
15
16 $| = 1;
17
18 # command-line parameters
19 my $match_bibs = 0;
20 my $add_items = 0;
21 my $input_file = "";
22 my $batch_comment = "";
23 my $want_help = 0;
24
25 my $result = GetOptions(
26     'file:s'        => \$input_file,
27     'match-bibs'    => \$match_bibs,
28     'add-items'     => \$add_items,
29     'comment:s'     => \$batch_comment,
30     'h|help'        => \$want_help
31 );
32
33 if (not $result or $input_file eq "" or $want_help) {
34     print_usage();
35     exit 0;
36 }
37
38 unless (-r $input_file) {
39     die "$0: cannot open input file $input_file: $!\n";
40 }
41
42 my $dbh = C4::Context->dbh;
43 $dbh->{AutoCommit} = 0;
44 process_batch($input_file, $match_bibs, $add_items, $batch_comment);
45 $dbh->commit();
46
47 exit 0;
48
49 sub process_batch {
50     my ($input_file, $match_bibs, $add_items, $batch_comment) = @_;
51
52     open IN, "<$input_file" or die "$0: cannot open input file $input_file: $!\n";
53     my $marc_records = "";
54     $/ = "\035";
55     my $num_input_records = 0;
56     while (<IN>) {
57         $marc_records .= $_; # FIXME - this sort of string concatenation
58                              # is probably rather inefficient
59         $num_input_records++;
60     }
61     close IN;
62
63     my $marc_flavor = C4::Context->preference('marcflavour');
64
65     print "... staging MARC records -- please wait\n";
66     my ($batch_id, $num_valid, $num_items, @import_errors) = 
67         BatchStageMarcRecords($marc_flavor, $marc_records, $input_file, $batch_comment, '', $add_items, 0,
68                               100, \&print_progress_and_commit);
69     print "... finished staging MARC records\n";
70
71     my $num_with_matches = 0;
72     if ($match_bibs) {
73         my $matcher = C4::Matcher->new('biblio');
74         $matcher->add_simple_matchpoint('isbn', 1000, '020', 'a', -1, 0, '');
75         $matcher->add_simple_required_check('245', 'a', -1, 0, '', 
76                                             '245', 'a', -1, 0, '');
77         print "... looking for matches with records already in database\n";
78         $num_with_matches = BatchFindBibDuplicates($batch_id, $matcher, 10, 100, \&print_progress_and_commit);
79         print "... finished looking for matches\n";
80     }
81
82     my $num_invalid_bibs = scalar(@import_errors);
83     print <<_SUMMARY_;
84
85 MARC record staging report
86 ------------------------------------
87 Input file:              $input_file
88 Number of input bibs:    $num_input_records
89 Number of valid bibs:    $num_valid
90 Number of invalid bibs:  $num_invalid_bibs
91 _SUMMARY_
92     if ($match_bibs) {
93         print "Number of bibs matched:  $num_with_matches\n";
94     } else {
95         print "Incoming bibs not matched against existing bibs (--match-bibs option not supplied)\n";
96     }
97     if ($add_items) {
98         print "Number of items parsed:  $num_items\n";
99     } else {
100         print "No items parsed (--add-items option not supplied)\n";
101     }
102
103     print "\n";
104     print "Batch number assigned:  $batch_id\n";
105     print "\n";
106 }
107
108 sub print_progress_and_commit {
109     my $recs = shift;
110     $dbh->commit();
111     print "... processed $recs records\n";
112 }
113
114 sub print_usage {
115     print <<_USAGE_;
116 $0: stage MARC bib file into reservoir.
117
118 Use this batch job to load a file of MARC bibliographic records
119 (with optional item information) into the Koha reservoir.
120
121 After running this program to stage your file, you can use
122 either the batch job commit_biblios_file.pl or the Koha
123 Tools option "Manage Staged MARC Records" to load the
124 records into the main Koha database.
125
126 Parameters:
127     --file <file_name>      name of input MARC bib file
128     --match-bibs            use this option to match bibs
129                             in the file with bibs already in 
130                             the database for future overlay.
131     --add-items             use this option to specify that
132                             item data is embedded in the MARC
133                             bibs and should be parsed.
134     --comment <comment>     optional comment to describe
135                             the record batch; if the comment
136                             has spaces in it, surround the
137                             comment with quotation marks.
138     --help or -h            show this message.
139 _USAGE_
140 }