Tracked packageView full profile for paper-search-mcp

MCPSafe.io

Security pre-install checks for MCP servers.

Mostly safe — a couple of notes worth reading.

Compare to another server

github · paper-search-mcpHEAD

Item: paper-search-mcp
Rating: 4
Author: MCPSafe

Scanned 5/3/2026, 6:42:45 PM·Cached result·Fast Scan·45 rules·How we decide ↗

AIVSS Score

3.8/ 10

Low

Severity Breakdown

critical

high

medium

low

MCP Server Information

Packagepaper-search-mcp

VersionHEAD

SourceGITHUB

LicenseMIT

Publisheropenags

Package age1y 0m

Stars1.3K

Downloads/wk—

Dependencies0

Repositoryhttps://github.com/openags/paper-search-mcp

Findings

Showing 1–30 of 40 findings

high (7)

medium (12)

low (11)

«‹

40 findings

high (9)

AIVSS 3.8CVSS 5.5

XML parser configured without entity expansion disabled. XXE (XML external entity) attacks can read local files, exfiltrate data, and cause SSRF when the parser resolves external entities.

Evidence

response.raise_for_status()

                # Parse XML response
                root = ET.fromstring(response.content)

                # Check for OAI-PMH errors
                error_elem = root.find(f'.//{{{OAI_NS}}}error')

Remediation

Use defusedxml in Python (drop-in replacement for stdlib XML modules). In Java, set XMLConstants.FEATURE_SECURE_PROCESSING=true and disable external-DTD features on the factory before parsing.

116	response.raise_for_status()
117
118	# Parse XML response
119	root = ET.fromstring(response.content)
120
121	# Check for OAI-PMH errors
122	error_elem = root.find(f'.//{{{OAI_NS}}}error')

105	continue
106
107	response.raise_for_status()
108	root = ET.fromstring(response.content)
109	papers: List[Paper] = []
110	result_nodes = self._find_top_level_results(root)

77	summary_response = self.session.get(self.EUTILS_SUMMARY_URL, params=summary_params, timeout=30)
78	summary_response.raise_for_status()
79	summary_root = ET.fromstring(summary_response.content)
80
81	# Step 3: Parse each summary record
82	for docsum in summary_root.findall('.//DocSum'):

33	'retmode': 'xml'
34	}
35	fetch_response = requests.get(self.FETCH_URL, params=fetch_params)
36	fetch_root = ET.fromstring(fetch_response.content)
37
38	papers = []
39	for article in fetch_root.findall('.//PubmedArticle'):

58	search_response = self.session.get(self.EUTILS_SEARCH_URL, params=search_params, timeout=30)
59	search_response.raise_for_status()
60	search_root = ET.fromstring(search_response.content)
61
62	# Get PMC IDs
63	pmcids = [id_elem.text for id_elem in search_root.findall('.//Id') if id_elem.text]

88	raise requests.RequestException("dblp API unavailable")
89
90	# Parse XML response
91	root = ET.fromstring(response.content)
92
93	# dblp XML structure: result > hits > hit > info
94	hits = root.findall('.//hit')

22	'sort': sort,
23	}
24	search_response = requests.get(self.SEARCH_URL, params=search_params)
25	search_root = ET.fromstring(search_response.content)
26	ids = [id.text for id in search_root.findall('.//Id') if id.text]
27	if not ids:
28	return []

83	# Search on Sci-Hub
84	search_url = f"{self.base_url}/{identifier}"
85	response = self.session.get(search_url, verify=False, timeout=20)
86
87	if response.status_code != 200:
88	return None
89
90	soup = BeautifulSoup(response.content, 'html.parser')
91
92	# Check for article not found
93	if "article not found" in response.text.lower():

51	return None
52
53	# Download the PDF
54	response = self.session.get(pdf_url, verify=False, timeout=30)
55
56	if response.status_code != 200:
57	logging.error(f"Failed to download PDF, status {response.status_code}")
58	return None
59
60	if response.headers.get('Content-Type') != 'application/pdf':

704	else:
705	query = "climate change"
706
707	print(f"Searching OpenAIRE for: {query}")
708	papers = searcher.search(query, max_results=5)
709
710	print(f"Found {len(papers)} papers:")

241	]
242
243	for query in test_queries[:1]: # Test first query only
244	print(f"\nSearching BASE for: '{query}'")
245	papers = searcher.search(query, max_results=3)
246	print(f"Found {len(papers)} papers")
247	for i, paper in enumerate(papers):

463	]
464
465	for query in test_queries[:1]: # Test first query only
466	print(f"\nSearching DOAJ for: '{query}'")
467	papers = searcher.search(query, max_results=3)
468	print(f"Found {len(papers)} papers")
469	for i, paper in enumerate(papers):

171	]
172
173	for query in test_queries[:1]: # Test first query only
174	print(f"\nSearching ChemRxiv for: '{query}'")
175	papers = searcher.search(query, max_results=3)
176	print(f"Found {len(papers)} preprints")
177	for i, paper in enumerate(papers):

478	try:
479	return pubmed_searcher.download_pdf(paper_id, save_path)
480	except NotImplementedError as e:
481	return str(e)
482
483
484	@mcp.tool()

393	else:
394	query = "machine learning"
395
396	print(f"Searching CiteSeerX for: {query}")
397	papers = searcher.search(query, max_results=5)
398
399	print(f"Found {len(papers)} papers:")

374	else:
375	query = "machine learning"
376
377	print(f"Searching dblp for: {query}")
378	papers = searcher.search(query, max_results=5)
379
380	print(f"Found {len(papers)} papers:")

727	try:
728	return crossref_searcher.download_pdf(paper_id, save_path)
729	except NotImplementedError as e:
730	return str(e)
731
732
733	@mcp.tool()

255	}
256	except Exception as e:
257	logger.error(f"Error requesting API: {e}")
258	return {"error": "general_error", "message": str(e)}
259
260	return {
261	"error": "max_retries_exceeded",

80	def download_pdf(self, paper_id: str, save_path: str) -> str:
81	pdf_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
82	response = requests.get(pdf_url)
83	os.makedirs(save_path, exist_ok=True)
84	output_file = f"{save_path}/{paper_id}.pdf"
85	with open(output_file, 'wb') as f:

32	'id': ','.join(ids),
33	'retmode': 'xml'
34	}
35	fetch_response = requests.get(self.FETCH_URL, params=fetch_params)
36	fetch_root = ET.fromstring(fetch_response.content)
37
38	papers = []

21	'retmode': 'xml',
22	'sort': sort,
23	}
24	search_response = requests.get(self.SEARCH_URL, params=search_params)
25	search_root = ET.fromstring(search_response.content)
26	ids = [id.text for id in search_root.findall('.//Id') if id.text]
27	if not ids:

1	# Multi-stage build for smaller image
2	FROM python:3.12-slim AS builder
3
4	WORKDIR /app
5	COPY pyproject.toml README.md LICENSE ./
6	COPY paper_search_mcp/ paper_search_mcp/
7
8	RUN pip install --no-cache-dir build \
9	&& python -m build --wheel \
10	&& pip install --no-cache-dir dist/*.whl
11
12	FROM python:3.12-slim
13
14	WORKDIR /app
15	COPY --from=builder /usr/local/lib/python3.12/site-packages /usr/local/lib/python3.12/site-packages
16	COPY --from=builder /usr/local/bin/paper-search-mcp /usr/local/bin/paper-searc

16	uses: actions/checkout@v4
17
18	- name: Set up Python ${{ matrix.python-version }}
19	uses: actions/setup-python@v5
20	with:
21	python-version: ${{ matrix.python-version }}

21	python-version: ${{ matrix.python-version }}
22
23	- name: Install uv
24	uses: astral-sh/setup-uv@v4
25
26	- name: Install dependencies
27	run: uv pip install --system -e ".[dev]" 2>/dev/null \|\| uv pip install --system -e .

github · paper-search-mcpHEAD

high (7)

medium (12)

low (11)

high (9)

medium (20)

low (11)

LLM summary— paper-search-mcp:HEAD

Signal scores

LLM judge panel

CVE check

Community trust

Scan details

MCP Server Information

Run this exact engine on your private repo — before users see it on /scan.

high (7)

medium (12)

low (11)

high (9)

medium (20)

low (11)

Severity breakdown

37	id-token: write
38	steps:
39	- name: Checkout code
40	uses: actions/checkout@v4
41
42	- name: Set up Python
43	uses: actions/setup-python@v5

13	python-version: ['3.10', '3.12', '3.13']
14	steps:
15	- name: Checkout code
16	uses: actions/checkout@v4
17
18	- name: Set up Python ${{ matrix.python-version }}
19	uses: actions/setup-python@v5

51	run: uv build
52
53	- name: Publish to PyPI
54	uses: pypa/gh-action-pypi-publish@release/v1

45	python-version: '3.10'
46
47	- name: Install uv
48	uses: astral-sh/setup-uv@v4
49
50	- name: Build package
51	run: uv build

152	pub_date = datetime.strptime(date_str, '%Y-%m-%d')
153	except ValueError:
154	try:
155	pub_date = datetime.strptime(pub_year, '%Y')
156	except ValueError:
157	pass
158
159	# Extract URLs
160	url = item.get('fullTextUrlList', {}).get('fullTextUrl', [])

353	if year_match:
354	try:
355	year = int(year_match.group())
356	return datetime(year, 1, 1)
357	except ValueError:
358	pass
359
360	return None

193	published_date = None
194	if year and year.isdigit():
195	try:
196	published_date = datetime(int(year), 1, 1)
197	except ValueError:
198	pass
199
200	# Extract venue
201	venue = info.get('venue', '')

555	published_date = datetime.fromisoformat(date_str.replace('Z', '+00:00'))
556	except ValueError:
557	try:
558	published_date = datetime.strptime(date_str[:10], '%Y-%m-%d')
559	except ValueError:
560	pass
561
562	# Extract URLs
563	url = ''

204	return head.url if head.url else candidate
205	# Even if content-type is not pdf, if redirect lands at a PDF URL, use it
206	if head.status_code == 200:
207	return candidate
208	except Exception:
209	pass
210	return ""
211
212	def _parse_doc(self, doc: Dict[str, Any]) -> Optional[Paper]:

275	published_date = None
276	if year_str and year_str.isdigit():
277	try:
278	published_date = datetime(int(year_str), 1, 1)
279	except ValueError:
280	pass
281
282	# Construct paper ID (use dblp key if available, otherwise generate)
283	paper_id = ""