Refactor: pre-translate strings that are only used in lowercase context

html5lib · jayaddison · Dec 29, 2020 · Dec 29, 2020 · Dec 29, 2020 · Dec 30, 2020
commit bb7fabc2eae796de21760b04d2b059009225848e
diff --git a/html5lib/_tokenizer.py b/html5lib/_tokenizer.py
@@ -30,7 +30,7 @@ def __init__(self, data=None):
 
 class Doctype(Token):
     def __init__(self, name, public_id, system_id, correct):
-        self.name = name
+        self.name = name.translate(asciiUpper2Lower)
         self.public_id = public_id
         self.system_id = system_id
         self.correct = correct
@@ -44,7 +44,7 @@ class SpaceCharacters(Token):
 
 class Tag(Token):
     def __init__(self, name, attributes):
-        self.name = name
+        self.name = name.translate(asciiUpper2Lower)
         self.attributes = attributeMap(attributes or {})
         self.self_closing = False
         self.attribute_name = ""
@@ -278,7 +278,6 @@ def emitCurrentToken(self):
         token = self.currentToken
         # Add token to the queue to be yielded
         if isinstance(token, Tag):
-            token.name = token.name.translate(asciiUpper2Lower)
             if self.currentToken.attribute_name in self.currentToken.attributes:
                 self.tokenQueue.append(ParseError("duplicate-attribute"))
             token.clearAttribute()
@@ -456,7 +455,7 @@ def tagNameState(self):
             self.tokenQueue.append(ParseError("invalid-codepoint"))
             self.currentToken.name += "\uFFFD"
         else:
-            self.currentToken.name += data
+            self.currentToken.name += data.translate(asciiUpper2Lower)
             # (Don't use charsUntil here, because tag names are
             # very short and it's faster to not do anything fancy)
         return True
@@ -475,7 +474,7 @@ def rcdataLessThanSignState(self):
     def rcdataEndTagOpenState(self):
         data = self.stream.char()
         if data in asciiLetters:
-            self.temporaryBuffer += data
+            self.temporaryBuffer += data.translate(asciiUpper2Lower)
             self.state = self.rcdataEndTagNameState
         else:
             self.tokenQueue.append(Characters("</"))
@@ -484,7 +483,7 @@ def rcdataEndTagOpenState(self):
         return True
 
     def rcdataEndTagNameState(self):
-        appropriate = self.currentToken and self.currentToken.name.lower() == self.temporaryBuffer.lower()
+        appropriate = self.currentToken.name == self.temporaryBuffer
         data = self.stream.char()
         if data in spaceCharacters and appropriate:
             self.currentToken = EndTag(name=self.temporaryBuffer)
@@ -497,7 +496,7 @@ def rcdataEndTagNameState(self):
             self.emitCurrentToken()
             self.state = self.dataState
         elif data in asciiLetters:
-            self.temporaryBuffer += data
+            self.temporaryBuffer += data.translate(asciiUpper2Lower)
         else:
             self.tokenQueue.append(Characters("</" + self.temporaryBuffer))
             self.stream.unget(data)
@@ -518,7 +517,7 @@ def rawtextLessThanSignState(self):
     def rawtextEndTagOpenState(self):
         data = self.stream.char()
         if data in asciiLetters:
-            self.temporaryBuffer += data
+            self.temporaryBuffer += data.translate(asciiUpper2Lower)
             self.state = self.rawtextEndTagNameState
         else:
             self.tokenQueue.append(Characters("</"))
@@ -527,7 +526,7 @@ def rawtextEndTagOpenState(self):
         return True
 
     def rawtextEndTagNameState(self):
-        appropriate = self.currentToken and self.currentToken.name.lower() == self.temporaryBuffer.lower()
+        appropriate = self.currentToken.name == self.temporaryBuffer
         data = self.stream.char()
         if data in spaceCharacters and appropriate:
             self.currentToken = EndTag(name=self.temporaryBuffer)
@@ -540,7 +539,7 @@ def rawtextEndTagNameState(self):
             self.emitCurrentToken()
             self.state = self.dataState
         elif data in asciiLetters:
-            self.temporaryBuffer += data
+            self.temporaryBuffer += data.translate(asciiUpper2Lower)
         else:
             self.tokenQueue.append(Characters("</" + self.temporaryBuffer))
             self.stream.unget(data)
@@ -564,7 +563,7 @@ def scriptDataLessThanSignState(self):
     def scriptDataEndTagOpenState(self):
         data = self.stream.char()
         if data in asciiLetters:
-            self.temporaryBuffer += data
+            self.temporaryBuffer += data.translate(asciiUpper2Lower)
             self.state = self.scriptDataEndTagNameState
         else:
             self.tokenQueue.append(Characters("</"))
@@ -573,7 +572,7 @@ def scriptDataEndTagOpenState(self):
         return True
 
     def scriptDataEndTagNameState(self):
-        appropriate = self.currentToken and self.currentToken.name.lower() == self.temporaryBuffer.lower()
+        appropriate = self.currentToken.name == self.temporaryBuffer
         data = self.stream.char()
         if data in spaceCharacters and appropriate:
             self.currentToken = EndTag(name=self.temporaryBuffer)
@@ -586,7 +585,7 @@ def scriptDataEndTagNameState(self):
             self.emitCurrentToken()
             self.state = self.dataState
         elif data in asciiLetters:
-            self.temporaryBuffer += data
+            self.temporaryBuffer += data.translate(asciiUpper2Lower)
         else:
             self.tokenQueue.append(Characters("</" + self.temporaryBuffer))
             self.stream.unget(data)
@@ -675,7 +674,7 @@ def scriptDataEscapedLessThanSignState(self):
             self.state = self.scriptDataEscapedEndTagOpenState
         elif data in asciiLetters:
             self.tokenQueue.append(Characters("<" + data))
-            self.temporaryBuffer = data
+            self.temporaryBuffer = data.translate(asciiUpper2Lower)
             self.state = self.scriptDataDoubleEscapeStartState
         else:
             self.tokenQueue.append(Characters("<"))
@@ -686,7 +685,7 @@ def scriptDataEscapedLessThanSignState(self):
     def scriptDataEscapedEndTagOpenState(self):
         data = self.stream.char()
         if data in asciiLetters:
-            self.temporaryBuffer = data
+            self.temporaryBuffer = data.translate(asciiUpper2Lower)
             self.state = self.scriptDataEscapedEndTagNameState
         else:
             self.tokenQueue.append(Characters("</"))
@@ -695,7 +694,7 @@ def scriptDataEscapedEndTagOpenState(self):
         return True
 
     def scriptDataEscapedEndTagNameState(self):
-        appropriate = self.currentToken and self.currentToken.name.lower() == self.temporaryBuffer.lower()
+        appropriate = self.currentToken.name == self.temporaryBuffer
         data = self.stream.char()
         if data in spaceCharacters and appropriate:
             self.currentToken = EndTag(name=self.temporaryBuffer)
@@ -708,7 +707,7 @@ def scriptDataEscapedEndTagNameState(self):
             self.emitCurrentToken()
             self.state = self.dataState
         elif data in asciiLetters:
-            self.temporaryBuffer += data
+            self.temporaryBuffer += data.translate(asciiUpper2Lower)
         else:
             self.tokenQueue.append(Characters("</" + self.temporaryBuffer))
             self.stream.unget(data)
@@ -719,13 +718,13 @@ def scriptDataDoubleEscapeStartState(self):
         data = self.stream.char()
         if data in (spaceCharacters | frozenset(("/", ">"))):
             self.tokenQueue.append(Characters(data))
-            if self.temporaryBuffer.lower() == "script":
+            if self.temporaryBuffer == "script":
                 self.state = self.scriptDataDoubleEscapedState
             else:
                 self.state = self.scriptDataEscapedState
         elif data in asciiLetters:
             self.tokenQueue.append(Characters(data))
-            self.temporaryBuffer += data
+            self.temporaryBuffer += data.translate(asciiUpper2Lower)
         else:
             self.stream.unget(data)
             self.state = self.scriptDataEscapedState
@@ -806,13 +805,13 @@ def scriptDataDoubleEscapeEndState(self):
         data = self.stream.char()
         if data in (spaceCharacters | frozenset(("/", ">"))):
             self.tokenQueue.append(Characters(data))
-            if self.temporaryBuffer.lower() == "script":
+            if self.temporaryBuffer == "script":
                 self.state = self.scriptDataEscapedState
             else:
                 self.state = self.scriptDataDoubleEscapedState
         elif data in asciiLetters:
             self.tokenQueue.append(Characters(data))
-            self.temporaryBuffer += data
+            self.temporaryBuffer += data.translate(asciiUpper2Lower)
         else:
             self.stream.unget(data)
             self.state = self.scriptDataDoubleEscapedState
@@ -1240,10 +1239,8 @@ def beforeDoctypeNameState(self):
     def doctypeNameState(self):
         data = self.stream.char()
         if data in spaceCharacters:
-            self.currentToken.name = self.currentToken.name.translate(asciiUpper2Lower)
             self.state = self.afterDoctypeNameState
         elif data == ">":
-            self.currentToken.name = self.currentToken.name.translate(asciiUpper2Lower)
             self.tokenQueue.append(self.currentToken)
             self.state = self.dataState
         elif data == "\u0000":
@@ -1253,11 +1250,10 @@ def doctypeNameState(self):
         elif data is EOF:
             self.tokenQueue.append(ParseError("eof-in-doctype-name"))
             self.currentToken.correct = False
-            self.currentToken.name = self.currentToken.name.translate(asciiUpper2Lower)
             self.tokenQueue.append(self.currentToken)
             self.state = self.dataState
         else:
-            self.currentToken.name += data
+            self.currentToken.name += data.translate(asciiUpper2Lower)
         return True
 
     def afterDoctypeNameState(self):