opennlp.tools.apps.object_dedup.SimilarityAccessorBase.java Source code

Introduction

Here is the source code for opennlp.tools.apps.object_dedup.SimilarityAccessorBase.java
Source

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License. You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

package opennlp.tools.apps.object_dedup;

import java.sql.ResultSet;
import java.sql.SQLException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.Map;
import java.util.regex.Pattern;

import opennlp.tools.similarity.apps.BingQueryRunner;
import opennlp.tools.similarity.apps.HitBase;
import opennlp.tools.similarity.apps.utils.LevensteinDistanceFinder;
import opennlp.tools.similarity.apps.utils.StringDistanceMeasurer;
import opennlp.tools.similarity.apps.utils.Utils;
import opennlp.tools.textsimilarity.TextProcessor;

import org.apache.commons.lang.StringUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

/* This is a template class for deduplicator */

public class SimilarityAccessorBase {
    private static final Logger LOG = LoggerFactory.getLogger(SimilarityAccessorBase.class);

    public static final int MAX_EV_TO_RECOMM = 6;

    private List<String> namesBothSides;

    protected static final String[] englishPrepositions = new String[] { "a", "aboard", "about", "above", "absent",
            "across", "after", "against", "along", "alongside", "among", "around", "as", "at", "before", "behind",
            "below", "beneath", "between", "beyond", "but", "by", "despite", "down", "during", "except",
            "excluding", "failing", "following", "for", "from", "in", "including", "inside", "into", "like", "near",
            "next", "of", "off", "on", "onto", "only", "opposite", "out", "outside", "over", "pace", "past", "per",
            "since", "than", "through", "and", "thru", "till", "to", "toward", "under", "up", "upon", "versus",
            "with", "within", "you", "must", "know", "when" };

    protected List<String> commonWordsInEventTitles = Arrays.asList(new String[] { "community", "party", "film",
            "music", "exhibition", "kareoke", "guitar", "quartet", "reggae", "r&b", "band", "dj ", "piano", "pray",
            "worship", "god", "training", "class", "development", "training", "class", "course", "our", "comedy",
            ",fun", "musical", "group", "alliance", "session", "feeding", "introduction", "school", "conversation",
            "learning", "nursery", "unity", "trivia", "chat", "conference", "tuition", "technology", "teen",
            "communication", "reception", "management", "beginner", "beginning", "collabora", "reuninon",
            "political", "course", "age", "ages", "through", "grade", "networking", "workshop", "demonstration",
            "tuning", "program", "summit", "convention", "day", "night", "one", "two", "outfest", "three", "online",
            "writing", "seminar", "coach", ",expo", "advanced", "beginner", "intermediate", "earn", "free", "ii",
            "iii", "skills", "skill", "artist", "summer", "winter", "autumn", "spring", "camp", "vacation",
            "miscrosoft", "kid", "child", "kids", "children", "every", "everyone", "dancer", "dancers", "senior",
            "seniors", "basic", "elementary", "outfest", "2008", "2009", "2010", "2011", "2012", "monday",
            "tuesday", "wednesday", "thirsday", "friday", "saturday", "sunday", "mondays", "tuesdays", "wednesdays",
            "thirsdays", "fridays", "saturdays", "sundays", "men" // ?
    });

    private BingQueryRunner webSearch = new BingQueryRunner();

    private StringDistanceMeasurer stringDistanceMeasurer = new StringDistanceMeasurer();

    public SimilarityAccessorBase() {
    }

    public void init() {
        namesBothSides = getWordsThatShouldBeOnBothSidesEvents();
    }

    protected List<String> removeDollarWordAndNonAlphaFromList(List<String> list) {
        List<String> result = new ArrayList<String>();
        Pattern p = Pattern.compile("^\\$(\\d{1,3}(\\,\\d{3})*|(\\d+))(\\.\\d{2})?$");
        for (String w : list) {
            if (!(p.matcher(w).find()) && StringUtils.isAlphanumeric(w)
                    && (w.length() >= 3 || !StringUtils.isAlpha(w)))
                result.add(w);
        }
        return result;
    }

    public List<String> getWordsThatShouldBeOnBothSidesEvents() {
        /*
              names.addAll(Arrays.asList(new String[] { "woman", "man", "women", "men", "womans", "mans", "womens", "mens",
                 "boy", "girl", "boys", "girls", "men's", "women's", "woman's", "ice", // for disney
                 "flight", "intermediate", "advanced", "beginner",
                 // "tour", TODO special consideration
                 "helicopter", "sexual", "junior", "jr" }));
                 */
        return null;

    }

    protected Boolean applySemanticNameSimilarityRule(Object es1, Object es2) {

        //TODO check attributes of objects
        /*
        if (!(es1.getVenueName().endsWith(es2.getVenueName()) || es2.getVenueName().endsWith(es1.getVenueName())))
           return false;
        if (Math.abs(es1.getStarttime().getTime() - es2.getStarttime().getTime()) > 100000)
           return false;
           */

        return true;

    }

    // this rule extract "OF" part and treats it as a whole expression
    protected void applySubPhraseExtractionRule(List<String> name1Tokens, List<String> name2Tokens) {
        if (name1Tokens.indexOf("of") > 0 && name2Tokens.indexOf("of") > 0) {
            name1Tokens = extractMainNounPhrase(name1Tokens);
            name2Tokens = extractMainNounPhrase(name2Tokens);
        }
    }

    private Boolean attemptShortTitlesSimilarityInWebSpace(String name1, String name2) {

        // first delimeter processing
        String name1v = name1.replace("'", "").replace("-", " ");
        String name2v = name2.replace("'", "").replace("-", " ");
        String name1vv = name1.replace("'", "");
        String name2vv = name2.replace("'", "");
        String name1vvv = name1.replace("-", " ");
        String name2vvv = name2.replace("-", " ");

        if (name1.startsWith(name2) || name1vv.startsWith(name2) || name1.startsWith(name2v)
                || name1.startsWith(name2vv) || name1.startsWith(name2vvv) || name1v.startsWith(name2v)
                || name1v.startsWith(name2vv) || name2.startsWith(name1) || name2vv.startsWith(name1)
                || name2.startsWith(name1v) || name2vvv.startsWith(name1vv) || name2.startsWith(name1vvv)
                || name2v.startsWith(name1v) || name2v.startsWith(name1vv) || name1.endsWith(name2)
                || name1vv.endsWith(name2) || name1.endsWith(name2v) || name1.endsWith(name2vv)
                || name1.endsWith(name2vvv) || name1v.endsWith(name2v) || name1v.endsWith(name2vv)
                || name2.endsWith(name1) || name2vv.endsWith(name1) || name2.endsWith(name1v)
                || name1vvv.endsWith(name2vv) || name2.endsWith(name1vvv) || name2v.endsWith(name1v)
                || name2v.endsWith(name1vv)) {
            LOG.info("Found fuzzy substring of name1 and name2");
            return true;
        }
        if (name1.length() > 12 && name2.length() > 12)
            return false;

        return areNamesSemanticallyCloseInWebSearchSpace(name1, name2, 0.8f, false).isDecision();

    }

    public Boolean applyBothSidesRuleEvent(String name1, String name2) {
        List<String> name1Tokens = TextProcessor.fastTokenize(name1.toLowerCase(), false);
        List<String> name2Tokens = TextProcessor.fastTokenize(name2.toLowerCase(), false);
        // get unique names
        List<String> name1TokensC = new ArrayList<String>(name1Tokens),
                name2TokensC = new ArrayList<String>(name2Tokens);
        ;
        name1TokensC.removeAll(name2Tokens);
        name2TokensC.removeAll(name1Tokens);
        // get all unique names
        name1TokensC.addAll(name2TokensC);

        name1TokensC.retainAll(namesBothSides);
        name1Tokens.retainAll(name2Tokens);

        if ((name1TokensC.size() > 0 && name1Tokens.size() < 3)
                || (name1TokensC.size() > 1 && name1Tokens.size() < 5)) { // 'mens == men; case !(name1TokensC.size()==2 && (name1TokensC.get(0).indexOf(name1TokensC.get(1))>-1 ||
                                                                                                                                  // name1TokensC.get(1).indexOf(name1TokensC.get(0))>-1 ))){
            LOG.info("Found required common word present on one side and not on the other: "
                    + name1TokensC.toString()
                    + " and less than 3 keywords overlap (or >1 common words and less than 5 overl");
            return false;
        } else
            return true;
    }

    protected List<String> tokenizeAndStem(String input) {

        List<String> results = new ArrayList<String>();
        List<String> toks = TextProcessor.fastTokenize(input.toLowerCase(), false);
        for (String word : toks) {
            try {
                if (word.equals("theatre"))
                    word = "theater";
                results.add(word);
            } catch (Exception e) {
                results.add(word);
            }
        }
        return results;
    }

    protected List<String> stemList(List<String> toks) {

        List<String> results = new ArrayList<String>();
        for (String word : toks) {
            try {
                if (word.equals("theatre"))
                    word = "theater";
                results.add(word);
            } catch (Exception e) {
                results.add(word);
            }
        }
        return results;
    }

    public List<String> removeVenuePart(ArrayList<String> toks) {
        List<String> results = new ArrayList<String>();
        boolean bVenuePart = false;
        for (String word : toks) {
            // beginning of venue part
            if (word.equals("at") || word.equals("@"))
                bVenuePart = true;
            // end of venue part
            if (!StringUtils.isAlphanumeric(word) || word.startsWith("<punc"))
                bVenuePart = false;

            if (!bVenuePart && !word.startsWith("<punc"))
                results.add(word);

        }
        return results;
    }

    protected boolean isCapitalized(String lookup) {
        String[] titleWords = lookup.split(" ");
        int count = 0;
        for (String word : titleWords) {
            if (word.length() < 2) // '-', '|', ':'
                break;

            if (word.equals(word.toLowerCase()) && (!Arrays.asList(englishPrepositions).contains(word))
                    && word.length() > 3 && StringUtils.isAlphanumeric(word))
                continue; // was return false;
            if (count > 3)
                break;
            count++;
        }
        return true;
    }

    protected List<String> extractMainNounPhrase(List<String> name1Tokens) {
        List<String> results = new ArrayList<String>();
        int ofPos = name1Tokens.indexOf("of");
        List<String> ofList = name1Tokens.subList(ofPos + 1, name1Tokens.size() - 1);
        // now iterate till next preposition towards the end of noun phrase
        for (String preposCand : ofList) {
            if (Arrays.asList(englishPrepositions).contains(preposCand))
                break;
            results.add(preposCand);
        }
        return results;

    }

    public boolean verifyEventAttributesPost(List<String> name1Tokens, List<String> name2Tokens) {
        String[] attributeNamesPost = { "age", "ages", "game", "games", "grade", "grades", "level", "levels", "vs",
                "vs.", "versus", "pottery", "competition", "contest", "skill", "skills", "day", "only", "basic",
                "class", "completed",
                // "tour", ?
                "advanced", "beginner", "intermediate", "flight", "workshop", "latin", "adobe", "ballet", "dinner",
                "breakfast", "lunch", "summer", // "canyon"
                "tfestival", "festival", "mfestival" };
        try {
            for (String attr : attributeNamesPost) {

                int agePos1 = name1Tokens.indexOf(attr);
                int agePos2 = name2Tokens.indexOf(attr);
                if (agePos1 > -1 && agePos2 > -1 && agePos1 < name1Tokens.size() - 1
                        && agePos2 < name2Tokens.size() - 1) {
                    double dist = LevensteinDistanceFinder.levensteinDistance(name1Tokens.get(agePos1 + 1),
                            name2Tokens.get(agePos2 + 1), 1, 10, 1, 10);
                    if (!name1Tokens.get(agePos1 + 1).equalsIgnoreCase(name2Tokens.get(agePos2 + 1))
                            && (dist > 2.99 || name1Tokens.get(agePos1 + 1).length() < 4)) {
                        LOG.info("Found disagreement in the attrib value for " + attr + " value = "
                                + name1Tokens.get(agePos1 + 1) + " <=> " + name2Tokens.get(agePos2 + 1));
                        return false;
                    }
                }
            }
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        return true;
    }

    public boolean verifyEventAttributesPre(List<String> name1Tokens, List<String> name2Tokens) {

        String[] attributeNamesPre = { "hour", "vs", "vs.", "versus", "pottery", "program", "day", "only",
                // dance styles followed by a param
                "swing", "rumba", "samba", "doble", "violence", //
                // "level",
                "class", "classes", "kid", "kids", "test", "west", "summer_camp", "session", "tfestival",
                "festival", "mfestival" };
        try {
            for (String attr : attributeNamesPre) {
                int agePos1 = name1Tokens.indexOf(attr);
                int agePos2 = name2Tokens.indexOf(attr);
                if (agePos1 > 0 && agePos2 > 0) { // not the first word is attr name
                    if (!name1Tokens.get(agePos1 - 1).equalsIgnoreCase(name2Tokens.get(agePos2 - 1))
                            && (agePos1 < 2
                                    || !name1Tokens.get(agePos1 - 2).equalsIgnoreCase(name2Tokens.get(agePos2 - 1)))
                            &&
                            // ((agePos1<2 && agePos2 <2) || !name1Tokens.get(agePos1 -
                            // 2).equalsIgnoreCase(name2Tokens.get(agePos2 - 2 ))) &&
                            (agePos2 < 2
                                    || !name1Tokens.get(agePos1 - 1).equalsIgnoreCase(name2Tokens.get(agePos2 - 2)))

                    ) {
                        LOG.info("Found disagreement in the attrib value for " + attr + " value = "
                                + name1Tokens.get(agePos1 - 1) + " and " + name2Tokens.get(agePos2 - 1));
                        return false;
                    }
                }
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return true;
    }

    protected boolean bDifferentGroupOneSubnameOfAnother(String name1, String name2) {
        // first check a special case that both name1 and name2 are DIFFERENT groups at last.fm
        Map<String, Integer> map1 = null; //LastFM_APIManager.extractTagsForArtist(name1);
        Map<String, Integer> map2 = null; //LastFM_APIManager.extractTagsForArtist(name2);
        if (map1 != null && map2 != null && map1.size() > 0 && map2.size() > 0)
            map1.entrySet().removeAll(map2.entrySet());
        if (map1.size() > 0) // same or subset of tags => different groups
            return true;

        return false;
    }

    public boolean applyBothSidesRule(String name1, String name2) {
        List<String> name1Tokens = TextProcessor.fastTokenize(name1.toLowerCase(), false);
        List<String> name2Tokens = TextProcessor.fastTokenize(name2.toLowerCase(), false);
        // get unique names
        List<String> name1TokensC = new ArrayList<String>(name1Tokens),
                name2TokensC = new ArrayList<String>(name2Tokens);
        ;
        name1TokensC.removeAll(name2Tokens);
        name2TokensC.removeAll(name1Tokens);
        // get all unique names
        name1TokensC.addAll(name2TokensC);

        name1TokensC.retainAll(namesBothSides);
        if (name1TokensC.size() > 0)
            return false;
        else
            return true;
    }

    private boolean succeededMenWomenSportsRule(String name1, String name2) {
        List<String> name1Tokens = TextProcessor.fastTokenize(name1.toLowerCase(), false);
        List<String> name2Tokens = TextProcessor.fastTokenize(name2.toLowerCase(), false);
        if (name1Tokens.contains("men") || name2Tokens.contains("men") || name1Tokens.contains("women")
                || name2Tokens.contains("women") || name1Tokens.contains("disney")
                || name2Tokens.contains("disney")) { // all words should be the
                                                                                                                                                                                                                        // same
            name1Tokens.removeAll(name2Tokens);
            name1Tokens.removeAll(Arrays.asList(englishPrepositions));
            name1Tokens.removeAll(Arrays.asList(commonWordsInEventTitles));
            if (name1Tokens.size() < 1)
                return true;

            return false;
        } else
            return true;

    }

    private boolean succeededSpecialGroupsSymphoniesRule(String name1, String name2) {
        List<String> name1Tokens = TextProcessor.fastTokenize(name1.toLowerCase(), false);
        List<String> name2Tokens = TextProcessor.fastTokenize(name2.toLowerCase(), false);
        if (name1Tokens.contains("orchestra") || name2Tokens.contains("symphony")
                || name2Tokens.contains("orchestra") || name1Tokens.contains("symphony")
                || name2Tokens.contains("band") || name1Tokens.contains("band") || name2Tokens.contains("trio")
                || name1Tokens.contains("trio") || name1Tokens.contains("soleil") || name2Tokens.contains("soleil")
                || name1Tokens.contains("disney") || name2Tokens.contains("disney") || name1Tokens.contains("lang")
                || name2Tokens.contains("lang")) // special group 'lang lang'
        { // all words should be the
          // same
            List<String> name1TokensClone = new ArrayList<String>(name1Tokens);
            name1Tokens.removeAll(name2Tokens);
            name2Tokens.removeAll(name1TokensClone);
            name1Tokens.addAll(name2Tokens);
            name1Tokens.removeAll(Arrays.asList(this.englishPrepositions));
            // name1Tokens.removeAll(Arrays.asList(this.commonWordsInEventTitles));
            if (name1Tokens.size() < 1)
                return true;

            return false;
        } else
            return true;

    }

    public int getAttemptedNameMerge(String name1, String name2) {
        name1 = name1.replaceAll("[a-z][A-Z]", "$0&$0").replaceAll(".&.", " ");
        ; // suspected word merge if higher case is in the middle of word
        name2 = name2.replaceAll("[a-z][A-Z]", "$0&$0").replaceAll(".&.", " ");

        name1 = name1.toLowerCase();
        name2 = name2.toLowerCase();
        if (name1.equals(name2) || name1.startsWith(name2) || name2.startsWith(name1) || name1.endsWith(name2)
                || name1.endsWith(name2) || name1.indexOf(name2) > -1 || name1.indexOf(name2) > -1) // ??
            return 2;
        String name2r = name2.replace(" ", "");
        if (name1.equals(name2r) || name1.startsWith(name2r) || name1.startsWith(name2r) || name1.endsWith(name2r)
                || name1.endsWith(name2r))
            return 1;
        String name1r = name1.replace(" ", "");
        if (name1r.equals(name2r) || name1r.startsWith(name2r) || name1r.startsWith(name2)
                || name1r.endsWith(name2r) || name1r.endsWith(name2r) || name2r.equals(name1r)
                || name2r.startsWith(name1r) || name2r.startsWith(name1) || name2r.endsWith(name1r)
                || name2r.endsWith(name2)

        )
            return 1;

        if (stringDistanceMeasurer.measureStringDistance(name1, name2) > 0.95)
            return 2;
        if (stringDistanceMeasurer.measureStringDistance(name1, name2) > 0.70)
            return 1;
        return 0;
    }

    private String normalizeGenderAndOtherAttributes(String name1) {
        name1 = Utils.convertToASCII(name1.replace("/", " ").replace("w/", "with ")).replace('!', ' ')
                .toLowerCase();

        name1 = name1.replace("woman", "women").replace("womans", "women").replace("womens", "women")
                .replace("women's", "women").replace("woman's", "women");
        name1 = name1.replace(" man ", " men ").replace(" mans ", " men ").replace(" men's ", " men ")
                .replace(" man's ", " men ").replace(" mens ", " men ").replace("summer camp", "summer_camp")
                .replace("gaea theatre festival", "tfestival"); // need regexp for this
        return name1;
    }

    /*
     * Main semantic similarity function which applies boundary cases rule and focus on web mining rule The main
     * criteria for a commonality between titles: to form an entity, searchable on the web
     */
    public DedupResult areNamesSemanticallyCloseWebMineCommonPart(String name1, String name2, String venue) {
        // normalize gender
        name1 = normalizeGenderAndOtherAttributes(name1);
        name2 = normalizeGenderAndOtherAttributes(name2);

        Boolean bShortTitlesSimilarInWebSpace = attemptShortTitlesSimilarityInWebSpace(name1, name2);
        if (bShortTitlesSimilarInWebSpace)
            return new DedupResult("Accepted as short title by web mining", 2, true);

        StringBuffer reason = new StringBuffer();
        List<String> venueToks = removeVenuePart(TextProcessor.fastTokenize(venue.toLowerCase(), false));

        LOG.info("\nComputing similarity between name = '" + name1 + "' and name = '" + name2 + "'");
        // convert titles into token lists
        List<String> name1Tokens = removeVenuePart(TextProcessor.fastTokenize(name1.toLowerCase(), true));
        List<String> name2Tokens = removeVenuePart(TextProcessor.fastTokenize(name2.toLowerCase(), true));
        // applySubPhraseExtractionRule()
        Boolean bSameAttrib = verifyEventAttributesPost(name1Tokens, name2Tokens)
                && verifyEventAttributesPre(name1Tokens, name2Tokens);
        if (!bSameAttrib) {
            LOG.info("similar events but different attributes");
            return new DedupResult("similar events but different attributes", 0, false);
        }

        boolean bothSodesSuccess = applyBothSidesRuleEvent(name1, name2);
        if (!bothSodesSuccess) {
            return new DedupResult("Failed common words test for sports", 0, false);
        }

        float dist = (float) LevensteinDistanceFinder.levensteinDistance(name1, name2, 1, 10, 1, 10);
        if (dist < 5.1) {
            LOG.info("Found low LevensteinDistance for name1 and name2");
            return new DedupResult("Found low LevensteinDistance", 2, true);
        }

        int nameMergeScore = getAttemptedNameMerge(name1, name2);
        if (nameMergeScore > 0) {
            LOG.info("Found low NameMerge Distance for name1 and name2");
            return new DedupResult("Found low  NameMerge Distance", 2, true);
        }

        // todo take into account order
        // form common sub-list of tokens
        name1Tokens.retainAll(name2Tokens);
        name1Tokens.removeAll(venueToks);

        name1Tokens.removeAll(commonWordsInEventTitles);
        name1Tokens.removeAll(Arrays.asList(englishPrepositions));
        name1Tokens = removeDollarWordAndNonAlphaFromList(name1Tokens);
        // todo : to use full string measure
        // boundary case: too many words => just do counts
        float commonPortion = (float) name1Tokens.size() / (float) name2Tokens.size();
        if (commonPortion > 0.8 || name1Tokens.size() >= 4) { // after typical
                                                              // title words
                                                              // are revomed 4
                                                              // looks OK
            LOG.info("Accepted since substantial common part");
            return new DedupResult("Accepted since substantial common part",
                    Math.max((int) (commonPortion * 5.0), 2), true);
        }
        // boundary case: no overlap
        if (name1Tokens.size() < 1) {
            LOG.info("Rejected since nothing in common");
            return new DedupResult("Rejected since nothing in common", 0, false);
        }
        // get from list of tokens back to words to get search expression
        String entityExpression = name1Tokens.toString().replace('[', ' ').replace(']', ' ').replace(',', ' ')
                .replace("  ", " ").trim();
        /*
         * // now try name merge reduced strings String entityExpression1 = name1TokensC.toString().replace('[',
         * ' ').replace(']', ' ').replace(',', ' ') .replace("  ", " ").trim(); String entityExpression2 =
         * name2Tokens.toString().replace('[', ' ').replace(']', ' ').replace(',', ' ') .replace("  ", " ").trim();
         * 
         * nameMergeScore = getAttemptedNameMerge(entityExpression1, entityExpression2); if (nameMergeScore>0){
         * LOG.info("Found low NameMerge Distance for REDUCED name1 and name2"); return new
         * DedupResult("Found low  NameMerge Distance REDUCED", 2, true);
         * 
         * }
         */

        // Before doing web mining, make sure overlap between titles is NOT a
        // set of common english words (use the vocabulary)
        // if all words are common, then NOT an entity
        if (name1Tokens.size() < 2) {
            boolean bCommonEnglishWord = false;
            for (String word : name1Tokens) {
                //         if (stopList.isCommonWord(word) /*&& mostFrequent1000Words.isMostFrequent1000Word(word)*/)
                //            bCommonEnglishWord = true;
            }

            if (bCommonEnglishWord) {
                LOG.info("Rejected common entity: common word = " + entityExpression);
                return new DedupResult("Rejected since common entity is common English word = " + entityExpression,
                        0, false);
            }
        }
        // accept common expression
        LOG.info("Formed common entity = " + entityExpression);
        reason.append("Formed common entity = " + entityExpression + "\n");
        // now go to the web / bing api with this common expression
        List<HitBase> searchResult = webSearch.runSearch(entityExpression);
        float entityScore = 0f;
        if (searchResult != null) {
            int count = 0;
            for (HitBase item : searchResult) {
                String lookup = item.getTitle();
                LOG.info("Bing hit title = '" + lookup + "'");
                reason.append("Bing hit title = '" + lookup + "'\n");
                if (count > 4)
                    break;
                count++;
                // if occurrence is not capitalized then rejected, do not take
                // into account in score
                if (!isCapitalized(lookup)) {
                    LOG.info("Rejected hit title since not capitalized");
                    reason.append("Rejected hit title since not capitalized\n");
                    continue;
                }

                /*
                 * if (lookup.indexOf('-')>0 ){ lookup = lookup.split("-")[0]; }
                 */
                // now compute overlap between what found on the web for hit's
                // title and the common expression between events
                List<String> lookupTokens = tokenizeAndStem(lookup);
                lookupTokens.retainAll(stemList(name1Tokens));
                if (lookupTokens.size() >= name1Tokens.size())
                    // increment score if found hit title is acceptable
                    entityScore += 1.0;
                else {
                    LOG.info(
                            "Found hit title " + lookupTokens + " does not cover comonality expr = " + name1Tokens);
                    entityScore += 0.25;

                }

            }
        }
        return new DedupResult(reason.toString(), (int) entityScore, entityScore > 1.0);
    }

    public DedupResult areNamesSemanticallyCloseInWebSearchSpace(String name1, String name2, Float thresh,
            boolean bStem) {

        if (thresh == null || thresh == 0f) {
            thresh = 0.8f;
        }

        // normalize gender
        name1 = normalizeGenderAndOtherAttributes(name1);
        name2 = normalizeGenderAndOtherAttributes(name2);

        StringBuffer reason = new StringBuffer();

        boolean bSportsOrOrchestra = !succeededMenWomenSportsRule(name1, name2);
        if (bSportsOrOrchestra)
            return new DedupResult("Sports rule: different teams or teams of different venues", 0, false);

        bSportsOrOrchestra = !succeededSpecialGroupsSymphoniesRule(name1, name2);
        if (bSportsOrOrchestra)
            return new DedupResult("SpecialGroupsSymphoniesRule: different circus/band", 0, false);

        LOG.info("\nComputing similarity between name = '" + name1 + "' and name = '" + name2 + "'");

        List<String> name1Tokens = TextProcessor.fastTokenize(name1.toLowerCase(), true);
        List<String> name2Tokens = TextProcessor.fastTokenize(name2.toLowerCase(), true);
        Boolean bSameAttrib = verifyEventAttributesPost(name1Tokens, name2Tokens)
                && verifyEventAttributesPre(name1Tokens, name2Tokens);
        if (!bSameAttrib) {
            LOG.info("similar events but different attributes");
            return new DedupResult("similar events but different attributes", 0, false);
        }

        List<HitBase> searchResult1 = webSearch.runSearch(name1);
        List<HitBase> searchResult2 = webSearch.runSearch(name2);
        int score = 0;
        if (searchResult1 != null && searchResult2 != null) {
            for (HitBase item1 : searchResult1) {
                if (item1.getUrl().indexOf("myspace") > -1 || item1.getUrl().indexOf("wiki") > -1)
                    continue;
                for (HitBase item2 : searchResult2) {
                    String lookup1 = item1.getTitle().replace("Facebook", "").replace("LinkedIn", "")
                            .replace("MySpace", "");
                    String lookup2 = item2.getTitle().replace("Facebook", "").replace("LinkedIn", "")
                            .replace("MySpace", "");
                    double d = 0;
                    if (bStem)
                        d = stringDistanceMeasurer.measureStringDistance(lookup1, lookup2);
                    else
                        d = stringDistanceMeasurer.measureStringDistanceNoStemming(lookup1, lookup2);
                    if (d > thresh) // 0.8)
                    {

                        reason.append("Found common search result title for group names '" + lookup1 + " < > "
                                + lookup2 + " sim = " + d + "\n");
                        LOG.info(("Found common search result title for group names '" + lookup1 + " < > " + lookup2
                                + " sim = " + d));
                        score++;
                    }

                }
            }
        }

        Boolean bothSidesSuccess = applyBothSidesRule(name1, name2);
        if (!bothSidesSuccess) {
            score = 1;
            reason.append("Failed common words test for sports");
        }
        if (score > 0) {
            Boolean bDifferentGroup = bDifferentGroupOneSubnameOfAnother(name1, name2);
            if (bDifferentGroup) {
                score = 1;
                reason.append("Failed common words test for sports");
            }
        }
        return new DedupResult(reason.toString(), score, score > 1);
    }
}