pytest_park.core.analysis

[docs] module pytest_park.core.analysis
from __future__ importannotationsfrom collections importdefaultdictfrom statistics importmedianfrom pytest_park.models importBenchmarkCase,BenchmarkDelta,BenchmarkRun,GroupSummary,TrendPointDEFAULT_GROUPING_PRECEDENCE=("custom","benchmark_group","marks","params")_IGNORED_COMPARISON_PARAMS={"implementation","impl","variant"}def attach_profiler_data([docs]
runs:list[BenchmarkRun],profiler_by_run:dict[str,dict[str,dict[str,object]]],)->list[BenchmarkRun]:    """Attach profiler records to matching benchmark runs."""forruninruns:run.profiler=profiler_by_run.get(run.run_id,{})returnruns[docs]
def select_reference_run(runs:list[BenchmarkRun],reference_id_or_tag:str)->BenchmarkRun:    """Select a run by explicit run_id or tag."""forruninruns:ifrun.run_id==reference_id_or_tagorrun.tag==reference_id_or_tag:returnrunraiseValueError(f"No run found for reference identifier: {reference_id_or_tag}")[docs]
def select_latest_and_previous_runs(runs:list[BenchmarkRun])->tuple[BenchmarkRun,BenchmarkRun]:    """Select previous and latest run as reference/candidate pair."""iflen(runs)<2:raiseValueError("At least two runs are required for comparison")returnruns[-2],runs[-1]def select_candidate_run([docs]
runs:list[BenchmarkRun],candidate_id_or_tag:str|None,reference_run:BenchmarkRun,)->BenchmarkRun:    """Select candidate run or default to latest non-reference run."""ifcandidate_id_or_tag:forruninruns:ifrun.run_id==candidate_id_or_tagorrun.tag==candidate_id_or_tag:returnrunraiseValueError(f"No run found for candidate identifier: {candidate_id_or_tag}")non_reference=[runforruninrunsifrun.run_id!=reference_run.run_id]ifnotnon_reference:raiseValueError("No candidate run available besides the selected reference run")returnnon_reference[-1]def list_methods(runs:list[BenchmarkRun])->list[str]:[docs]
    """List unique benchmark methods seen across runs."""methods={case.normalized_nameforruninrunsforcaseinrun.cases}returnsorted(methods)def compare_runs([docs]
reference_run:BenchmarkRun,candidate_run:BenchmarkRun,group_by:list[str]|None=None,distinct_params:list[str]|None=None,)->list[BenchmarkDelta]:    """Compare two runs and calculate per-case deltas."""reference_index={_comparison_key(case,distinct_params):caseforcaseinreference_run.cases}deltas:list[BenchmarkDelta]=[]forcandidate_caseincandidate_run.cases:reference_case=reference_index.get(_comparison_key(candidate_case,distinct_params))ifreference_caseisNoneorreference_case.stats.mean<=0:continuegroup_label=build_group_label(candidate_case,group_by)delta_pct=((candidate_case.stats.mean-reference_case.stats.mean)/reference_case.stats.mean)*100.0speedup=reference_case.stats.mean/candidate_case.stats.meanifcandidate_case.stats.mean>0else0.0deltas.append(BenchmarkDelta(group_label=group_label,case_key=candidate_case.case_key,benchmark_name=candidate_case.normalized_name,params=dict(candidate_case.params),reference_run_id=reference_run.run_id,candidate_run_id=candidate_run.run_id,reference_mean=reference_case.stats.mean,candidate_mean=candidate_case.stats.mean,delta_pct=delta_pct,speedup=speedup,))deltas.sort(key=lambdaitem:(item.group_label,item.benchmark_name,tuple(sorted(item.params.items()))))returndeltas[docs]
def summarize_groups(deltas:list[BenchmarkDelta])->list[GroupSummary]:    """Build group-level summary from case-level deltas."""grouped:dict[str,list[BenchmarkDelta]]=defaultdict(list)fordeltaindeltas:grouped[delta.group_label].append(delta)summaries:list[GroupSummary]=[]forlabel,itemsingrouped.items():delta_values=[item.delta_pctforiteminitems]improvements=sum(1forvalueindelta_valuesifvalue<-1e-9)regressions=sum(1forvalueindelta_valuesifvalue>1e-9)unchanged=len(items)-improvements-regressionssummaries.append(GroupSummary(label=label,count=len(items),average_delta_pct=sum(delta_values)/len(delta_values),median_delta_pct=median(delta_values),improvements=improvements,regressions=regressions,unchanged=unchanged,))summaries.sort(key=lambdaitem:item.label)returnsummaries[docs]
def build_overview_statistics(deltas:list[BenchmarkDelta])->dict[str,float|int]:    """Compute accumulated comparison statistics."""ifnotdeltas:return{"count":0,"avg_delta_pct":0.0,"median_delta_pct":0.0,"avg_speedup":0.0,"improved":0,"regressed":0,"unchanged":0,}delta_values=[item.delta_pctforitemindeltas]speedups=[item.speedupforitemindeltas]improved=sum(1forvalueindelta_valuesifvalue<-1e-9)regressed=sum(1forvalueindelta_valuesifvalue>1e-9)unchanged=len(deltas)-improved-regressedreturn{"count":len(deltas),"avg_delta_pct":sum(delta_values)/len(delta_values),"median_delta_pct":median(delta_values),"avg_speedup":sum(speedups)/len(speedups),"improved":improved,"regressed":regressed,"unchanged":unchanged,}[docs]
def build_method_statistics(deltas:list[BenchmarkDelta],method:str)->dict[str,float|int]|None:    """Compute statistics for one benchmark method."""method_deltas=[itemforitemindeltasifitem.benchmark_name==method]ifnotmethod_deltas:returnNonereturnbuild_overview_statistics(method_deltas)[docs]
def build_trends(runs:list[BenchmarkRun])->dict[str,list[TrendPoint]]:    """Build time-series means per case across run history."""series:dict[str,list[TrendPoint]]=defaultdict(list)forruninruns:forcaseinrun.cases:series[case.case_key].append(TrendPoint(run_id=run.run_id,timestamp=run.created_at,mean=case.stats.mean,))forpointsinseries.values():points.sort(key=lambdaitem:(item.timestampisNone,item.timestamp,item.run_id))returndict(series)def build_method_history([docs]
runs:list[BenchmarkRun],method:str,distinct_params:list[str]|None=None,)->list[dict[str,float|str|None]]:    """Build method mean history across runs."""history:list[dict[str,float|str|None]]=[]forruninruns:method_cases=[caseforcaseinrun.casesifcase.normalized_name==method]ifnotmethod_cases:continuegroups:dict[str,list[BenchmarkCase]]=defaultdict(list)forcaseinmethod_cases:groups[_distinct_label(case,distinct_params)].append(case)fordistinct_label,casesingroups.items():means=[case.stats.meanforcaseincases]history.append({"run_id":run.run_id,"timestamp":run.created_at.isoformat()ifrun.created_atelseNone,"method":method,"distinct":distinct_label,"mean":sum(means)/len(means),})history.sort(key=lambdaitem:(item["timestamp"]isNone,item["timestamp"],str(item["run_id"]),str(item["distinct"])))returnhistorydef compare_method_history_to_reference([docs]
runs:list[BenchmarkRun],reference_run:BenchmarkRun,method:str,distinct_params:list[str]|None=None,)->list[dict[str,float|str|None]]:    """Compare method mean over runs against reference run mean."""reference_history=build_method_history([reference_run],method,distinct_params)reference_by_distinct={str(item["distinct"]):float(item["mean"])foriteminreference_history}compared:list[dict[str,float|str|None]]=[]forpointinbuild_method_history(runs,method,distinct_params):distinct=str(point["distinct"])baseline=reference_by_distinct.get(distinct)ifbaselineisNoneorbaseline<=0:continuecurrent=float(point["mean"])delta_pct=((current-baseline)/baseline)*100.0compared.append({**point,"reference_mean":baseline,"delta_pct":delta_pct,"speedup":baseline/currentifcurrent>0else0.0,})returncompareddef compare_method_to_all_prior_runs([docs]
runs:list[BenchmarkRun],candidate_run:BenchmarkRun,method:str,distinct_params:list[str]|None=None,)->list[dict[str,float|str|None]]:    """Compare candidate method means against all prior runs."""candidate_index=_method_mean_index(candidate_run,method,distinct_params)ifnotcandidate_index:return[]candidate_position=_run_index(runs,candidate_run)prior_runs=runs[:candidate_position]compared:list[dict[str,float|str|None]]=[]forreference_runinprior_runs:reference_index=_method_mean_index(reference_run,method,distinct_params)ifnotreference_index:continuefordistinct,candidate_meanincandidate_index.items():reference_mean=reference_index.get(distinct)ifreference_meanisNoneorreference_mean<=0:continuedelta_pct=((candidate_mean-reference_mean)/reference_mean)*100.0compared.append({"method":method,"candidate_run_id":candidate_run.run_id,"reference_run_id":reference_run.run_id,"distinct":distinct,"mean":candidate_mean,"reference_mean":reference_mean,"delta_pct":delta_pct,"speedup":reference_mean/candidate_meanifcandidate_mean>0else0.0,"reference_timestamp":reference_run.created_at.isoformat()ifreference_run.created_atelseNone,})compared.sort(key=lambdaitem:(item["reference_timestamp"]isNone,item["reference_timestamp"],str(item["reference_run_id"]),str(item["distinct"]),))returncompared[docs]
def build_method_group_split_bars(run:BenchmarkRun)->dict[str,list[dict[str,float|str]]]:    """Build split-bar chart rows per method base name for original/new roles."""grouped:dict[str,dict[str,dict[str,list[float]]]]=defaultdict(lambda:defaultdict(lambda:defaultdict(list)))forcaseinrun.cases:implementation_role=_implementation_role(case)ifimplementation_rolenotin{"original","new"}:continueargument_label=_argument_label(case)grouped[case.base_name][argument_label][implementation_role].append(case.stats.mean)output:dict[str,list[dict[str,float|str]]]={}formethod_name,by_argumentingrouped.items():rows:list[dict[str,float|str]]=[]forargument,valuesinsorted(by_argument.items()):original_values=values.get("original")new_values=values.get("new")ifnotoriginal_valuesornotnew_values:continueoriginal_mean=sum(original_values)/len(original_values)new_mean=sum(new_values)/len(new_values)rows.append({"argument":argument,"original":original_mean,"new":new_mean,"delta_pct":((new_mean-original_mean)/original_mean)*100.0iforiginal_mean>0else0.0,"speedup":original_mean/new_meanifnew_mean>0else0.0,})ifrows:output[method_name]=rowsreturnoutput[docs]
def build_group_label(case:BenchmarkCase,group_by:list[str]|None=None)->str:    """Create a logical group label for a benchmark case."""ifgroup_by:custom_parts:list[str]=[]fortokeningroup_by:maybe_part=_resolve_group_token(case,token)ifmaybe_part:custom_parts.append(maybe_part)ifcustom_parts:return" | ".join(custom_parts)fortokeninDEFAULT_GROUPING_PRECEDENCE:maybe_part=_resolve_group_token(case,token)ifmaybe_part:returnmaybe_partreturn"ungrouped"def _resolve_group_token(case:BenchmarkCase,token:str)->str|None:normalized=token.strip().lower()ifnormalizedin{"custom","custom_group"}:ifnotcase.custom_groups:returnNonebits=[f"{key}={value}"forkey,valueinsorted(case.custom_groups.items())]return"custom:"+",".join(bits)ifnormalized.startswith("custom:"):key=token.split(":",1)[1].strip()value=case.custom_groups.get(key)returnf"custom:{key}={value}"ifvalueelseNoneifnormalizedin{"group","benchmark_group"}:returncase.benchmark_groupifnormalizedin{"mark","marks"}:returnf"marks:{','.join(case.marks)}"ifcase.markselseNoneifnormalized=="params":ifnotcase.params:returnNonebits=[f"{key}={value}"forkey,valueinsorted(case.params.items())]return"params:"+",".join(bits)ifnormalized.startswith("param:"):key=token.split(":",1)[1].strip()value=case.params.get(key)returnf"param:{key}={value}"ifvalueelseNoneifnormalizedin{"name","benchmark_name","method"}:returncase.normalized_nameifnormalizedin{"fullname","nodeid"}:returncase.normalized_fullnamereturnNonedef _comparison_key(case:BenchmarkCase,distinct_params:list[str]|None)->str:ifdistinct_params:normalized=[token.strip()fortokenindistinct_paramsiftoken.strip()]comparable_params={key:valueforkey,valueincase.params.items()ifkeyinnormalized}else:comparable_params={key:valueforkey,valueincase.params.items()ifkey.lower()notin_IGNORED_COMPARISON_PARAMS}param_bits=",".join(f"{key}={value}"forkey,valueinsorted(comparable_params.items()))implementation_role=_implementation_role(case)returnf"{case.normalized_fullname}|{param_bits}|role={implementation_role}"def _distinct_label(case:BenchmarkCase,distinct_params:list[str]|None)->str:ifnotdistinct_params:return"all"bits=[f"{key}={case.params.get(key, 'n/a')}"forkeyindistinct_params]return",".join(bits)def _run_index(runs:list[BenchmarkRun],selected_run:BenchmarkRun)->int:forindex,runinenumerate(runs):ifrun.run_id==selected_run.run_id:returnindexraiseValueError(f"Run not found in run history: {selected_run.run_id}")def _method_mean_index(run:BenchmarkRun,method:str,distinct_params:list[str]|None,)->dict[str,float]:groups:dict[str,list[float]]=defaultdict(list)forcaseinrun.cases:ifcase.normalized_name!=method:continuegroups[_distinct_label(case,distinct_params)].append(case.stats.mean)return{label:sum(values)/len(values)forlabel,valuesingroups.items()ifvalues}def _implementation_role(case:BenchmarkCase)->str:ifnotcase.method_postfix:return"unknown"normalized=case.method_postfix.strip().lower().replace("-","_")normalized=normalized.lstrip("_")ifany(tokeninnormalizedfortokenin("orig","old","baseline","reference","ref")):return"original"ifany(tokeninnormalizedfortokenin("new","candidate","cand")):return"new"return"unknown"def _argument_label(case:BenchmarkCase)->str:comparable_params={key:valueforkey,valueincase.params.items()ifkey.lower()notin_IGNORED_COMPARISON_PARAMS}ifnotcomparable_params:return"all"return",".join(f"{key}={value}"forkey,valueinsorted(comparable_params.items()))