pytest_park.core.comparison

[docs] module pytest_park.core.comparison
from __future__ importannotationsfrom collections importdefaultdictfrom statistics importmedianfrom pytest_park.core._grouping importIGNORED_COMPARISON_PARAMS,_implementation_role,build_group_labelfrom pytest_park.models import(BenchmarkCase,BenchmarkDelta,BenchmarkRun,GroupSummary,OverviewStatistics,SplitBarRow,)class RunComparator:[docs]
    """Compares two benchmark runs and produces deltas, group summaries, and statistics."""def __init__(self,reference_run:BenchmarkRun,candidate_run:BenchmarkRun)->None:self.reference_run=reference_runself.candidate_run=candidate_rundef compare([docs]
self,group_by:list[str]|None=None,distinct_params:list[str]|None=None,)->list[BenchmarkDelta]:        """Calculate per-case deltas between reference and candidate runs."""reference_index={_comparison_key(c,distinct_params):cforcinself.reference_run.cases}deltas:list[BenchmarkDelta]=[]forcandidate_caseinself.candidate_run.cases:reference_case=reference_index.get(_comparison_key(candidate_case,distinct_params))ifreference_caseisNoneorreference_case.stats.mean<=0:continuegroup_label=build_group_label(candidate_case,group_by)delta_pct=((candidate_case.stats.mean-reference_case.stats.mean)/reference_case.stats.mean)*100.0speedup=reference_case.stats.mean/candidate_case.stats.meanifcandidate_case.stats.mean>0else0.0deltas.append(BenchmarkDelta(group_label=group_label,case_key=candidate_case.case_key,benchmark_name=candidate_case.normalized_name,params=dict(candidate_case.params),reference_run_id=self.reference_run.run_id,candidate_run_id=self.candidate_run.run_id,reference_mean=reference_case.stats.mean,candidate_mean=candidate_case.stats.mean,delta_pct=delta_pct,speedup=speedup,))deltas.sort(key=lambdaitem:(item.group_label,item.benchmark_name,tuple(sorted(item.params.items()))))returndeltas@staticmethod[docs]
def build_split_bars(run:BenchmarkRun)->dict[str,list[SplitBarRow]]:        """Build split-bar chart rows per method base name for original/new roles."""grouped:dict[str,dict[str,dict[str,list[float]]]]=defaultdict(lambda:defaultdict(lambda:defaultdict(list)))forcaseinrun.cases:role=_implementation_role(case)ifrolenotin{"original","new"}:continuegrouped[case.base_name][_argument_label(case)][role].append(case.stats.mean)output:dict[str,list[SplitBarRow]]={}formethod_name,by_argumentingrouped.items():rows:list[SplitBarRow]=[]forargument,valuesinsorted(by_argument.items()):original_values=values.get("original")new_values=values.get("new")ifnotoriginal_valuesornotnew_values:continueoriginal_mean=sum(original_values)/len(original_values)new_mean=sum(new_values)/len(new_values)rows.append(SplitBarRow(argument=argument,original=original_mean,new=new_mean,delta_pct=((new_mean-original_mean)/original_mean)*100.0iforiginal_mean>0else0.0,speedup=original_mean/new_meanifnew_mean>0else0.0,))ifrows:output[method_name]=rowsreturnoutput@staticmethod[docs]
def summarize_groups(deltas:list[BenchmarkDelta])->list[GroupSummary]:        """Build group-level summary from case-level deltas."""grouped:dict[str,list[BenchmarkDelta]]=defaultdict(list)fordeltaindeltas:grouped[delta.group_label].append(delta)summaries:list[GroupSummary]=[]forlabel,itemsingrouped.items():delta_values=[item.delta_pctforiteminitems]improvements=sum(1forvindelta_valuesifv<-1e-9)regressions=sum(1forvindelta_valuesifv>1e-9)summaries.append(GroupSummary(label=label,count=len(items),average_delta_pct=sum(delta_values)/len(delta_values),median_delta_pct=median(delta_values),improvements=improvements,regressions=regressions,unchanged=len(items)-improvements-regressions,))summaries.sort(key=lambdaitem:item.label)returnsummaries@staticmethod[docs]
def build_overview_statistics(deltas:list[BenchmarkDelta])->OverviewStatistics:        """Compute accumulated comparison statistics."""ifnotdeltas:returnOverviewStatistics(count=0,avg_delta_pct=0.0,median_delta_pct=0.0,avg_speedup=0.0,improved=0,regressed=0,unchanged=0,)delta_values=[item.delta_pctforitemindeltas]speedups=[item.speedupforitemindeltas]improved=sum(1forvindelta_valuesifv<-1e-9)regressed=sum(1forvindelta_valuesifv>1e-9)returnOverviewStatistics(count=len(deltas),avg_delta_pct=sum(delta_values)/len(delta_values),median_delta_pct=median(delta_values),avg_speedup=sum(speedups)/len(speedups),improved=improved,regressed=regressed,unchanged=len(deltas)-improved-regressed,)@staticmethod[docs]
def build_method_statistics(deltas:list[BenchmarkDelta],method:str)->OverviewStatistics|None:        """Compute statistics for one benchmark method."""method_deltas=[itemforitemindeltasifitem.benchmark_name==method]ifnotmethod_deltas:returnNonereturnRunComparator.build_overview_statistics(method_deltas)# ---------------------------------------------------------------------------# Module-level convenience functions# ---------------------------------------------------------------------------def compare_runs([docs]
reference_run:BenchmarkRun,candidate_run:BenchmarkRun,group_by:list[str]|None=None,distinct_params:list[str]|None=None,)->list[BenchmarkDelta]:    """Compare two runs and calculate per-case deltas."""returnRunComparator(reference_run,candidate_run).compare(group_by,distinct_params)[docs]
def summarize_groups(deltas:list[BenchmarkDelta])->list[GroupSummary]:    """Build group-level summary from case-level deltas."""returnRunComparator.summarize_groups(deltas)[docs]
def build_overview_statistics(deltas:list[BenchmarkDelta])->OverviewStatistics:    """Compute accumulated comparison statistics."""returnRunComparator.build_overview_statistics(deltas)[docs]
def build_method_statistics(deltas:list[BenchmarkDelta],method:str)->OverviewStatistics|None:    """Compute statistics for one benchmark method."""returnRunComparator.build_method_statistics(deltas,method)[docs]
def build_method_group_split_bars(run:BenchmarkRun)->dict[str,list[SplitBarRow]]:    """Build split-bar chart rows per method base name for original/new roles."""returnRunComparator.build_split_bars(run)# ---------------------------------------------------------------------------# Private helpers# ---------------------------------------------------------------------------def _comparison_key(case:BenchmarkCase,distinct_params:list[str]|None)->str:ifdistinct_params:normalized=[token.strip()fortokenindistinct_paramsiftoken.strip()]comparable_params={key:valueforkey,valueincase.params.items()ifkeyinnormalized}else:comparable_params={key:valueforkey,valueincase.params.items()ifkey.lower()notinIGNORED_COMPARISON_PARAMS}param_bits=",".join(f"{key}={value}"forkey,valueinsorted(comparable_params.items()))returnf"{case.normalized_fullname}|{param_bits}"def _argument_label(case:BenchmarkCase)->str:comparable_params={key:valueforkey,valueincase.params.items()ifkey.lower()notinIGNORED_COMPARISON_PARAMS}ifnotcomparable_params:return"all"return",".join(f"{key}={value}"forkey,valueinsorted(comparable_params.items()))