marcindulak · marcindulak · Sep 11, 2025 · Sep 11, 2025
diff --git a/.github/workflows/test.yml b/.github/workflows/test.yml
@@ -55,6 +55,11 @@ jobs:
           set -eo pipefail
           bash scripts/test_tmux_integration.sh
 
+      - name: bash scripts/test_mypy.sh
+        run: |
+          set -eo pipefail
+          bash scripts/test_mypy.sh
+
       - name: debug
         if: failure()
         run: |

diff --git a/Dockerfile b/Dockerfile
@@ -43,9 +43,10 @@ RUN apt-get update && DEBIAN_FRONTEND=noninteractive apt-get install -y --no-ins
     python3-sympy \
     python3-typing-extensions
 
-# Install pytest dependencies
+# Install test dependencies
 RUN apt-get update && DEBIAN_FRONTEND=noninteractive apt-get install -y --no-install-recommends \
     python3-iniconfig \
+    python3-mypy \
     python3-pluggy \
     python3-pygments \
     python3-pytest

diff --git a/README.md b/README.md
@@ -147,6 +147,14 @@ End-to-end integration test verifies the functionality of injecting text into th
 bash scripts/test_tmux_integration.sh
 ```
 
+## Type checking
+
+Run mypy static type checking:
+
+```
+bash scripts/test_mypy.sh
+```
+
 # Implementation overview
 
 The system uses object composition with separated responsibilities across multiple classes:

diff --git a/scripts/test_mypy.sh b/scripts/test_mypy.sh
@@ -0,0 +1,10 @@
+#!/usr/bin/env bash
+
+set -Eeuo pipefail
+
+bash scripts/build_docker_image.sh
+
+docker run --rm --tty --name stt-mcp-server-linux-mypy \
+       --volume ./stt_mcp_server_linux.py:/app/stt_mcp_server_linux.py \
+       --volume ./tests:/app/tests \
+       stt-mcp-server-linux bash -ci "python -m mypy ."
diff --git a/stt_mcp_server_linux.py b/stt_mcp_server_linux.py
@@ -8,7 +8,7 @@
 import datetime
 import evdev
 import queue
-import sounddevice
+import sounddevice  # type: ignore[import-untyped]
 import inspect
 import unicodedata
 
@@ -242,7 +242,7 @@ def __init__(self, language: str = "en") -> None:
         self.language = language
         self.logger = create_logger(__name__)
         self.logger.info(f"Loading Whisper model with language: {language}")
-        import whisper
+        import whisper  # type: ignore[import-untyped]
         self.model = whisper.load_model("tiny")
         self.logger.info("Whisper model loaded successfully")
 
@@ -267,7 +267,7 @@ class VoskEngine(TranscriptionEngine):
     def __init__(self) -> None:
         self.logger = create_logger(__name__)
         self.logger.info("Loading Vosk model")
-        import vosk
+        import vosk  # type: ignore[import-untyped]
         self.model = vosk.Model("/vosk")
         self.recognizer = vosk.KaldiRecognizer(self.model, 16000)
         self.logger.info("Vosk model loaded successfully")
@@ -397,11 +397,11 @@ async def monitor_device(self, dev_path: str, on_key_press: Callable[[], None],
             async for event in dev.async_read_loop():
                 if event.type == evdev.ecodes.EV_KEY:
                     key_event = evdev.categorize(event)
-                    if key_event.keycode == 'KEY_RIGHTCTRL':
-                        if key_event.keystate == key_event.key_down:
+                    if key_event.keycode == 'KEY_RIGHTCTRL':  # type: ignore[attr-defined]
+                        if key_event.keystate == key_event.key_down:  # type: ignore[attr-defined]
                             self.logger.info("Right Ctrl key pressed")
                             on_key_press()
-                        elif key_event.keystate == key_event.key_up:
+                        elif key_event.keystate == key_event.key_up:  # type: ignore[attr-defined]
                             self.logger.info("Right Ctrl key released")
                             on_key_release()
         except Exception as e:
@@ -414,7 +414,7 @@ async def start_monitoring(self, on_key_press: Callable[[], None], on_key_releas
             raise RuntimeError("No keyboard input devices found.")
 
         await asyncio.gather(*(
-            self.monitor_device(dev.path, on_key_press, on_key_release)
+            self.monitor_device(str(dev.path), on_key_press, on_key_release)
             for dev in keyboards
         ))
 

diff --git a/tests/test_whisper.py b/tests/test_whisper.py
@@ -40,16 +40,18 @@ def load_real_audio(self) -> bytes:
             if channels != 1 or sample_width != 2 or framerate != 16000:
                 try:
                     import numpy as np
-                    # Convert bytes to numpy array
+                    from numpy.typing import NDArray
+
+                    audio_np: NDArray[np.float32]
                     if sample_width == 1:
-                        audio_np = np.frombuffer(audio_data, dtype=np.uint8)
-                        audio_np = (audio_np.astype(np.float32) - 128) / 128.0
+                        raw_audio = np.frombuffer(audio_data, dtype=np.uint8)
+                        audio_np = (raw_audio.astype(np.float32) - 128) / 128.0
                     elif sample_width == 2:
-                        audio_np = np.frombuffer(audio_data, dtype=np.int16)
-                        audio_np = audio_np.astype(np.float32) / 32768.0
+                        raw_audio = np.frombuffer(audio_data, dtype=np.int16)
+                        audio_np = raw_audio.astype(np.float32) / 32768.0
                     elif sample_width == 4:
-                        audio_np = np.frombuffer(audio_data, dtype=np.int32)
-                        audio_np = audio_np.astype(np.float32) / 2147483648.0
+                        raw_audio = np.frombuffer(audio_data, dtype=np.int32)
+                        audio_np = raw_audio.astype(np.float32) / 2147483648.0
                     else:
                         return audio_data  # Use as-is if unknown format